# **🔍 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)**

- **정의**
    - 데이터의 구조, 패턴, 이상치 등을 이해하기 위해 시각화 및 통계적 요약을 수행

## **1. 데이터의 통계적 특징 확인하기**

### **1-1 모듈 불러오기**

In [None]:
# pandas: 데이터 분석과 조작을 위한 데이터 프레임 및 시리즈 구조를 제공하는 라이브러리
# numpy: 다차원 배열 연산과 수학적 계산을 위한 핵심 라이브러리
# matplotlib: 2D 그래프와 플롯을 생성하기 위한 데이터 시각화 라이브러리
# seaborn: 통계적 데이터 시각화를 간단하고 아름답게 그릴 수 있는 라이브러리
# scipy: 과학적 계산을 위한 고급 수학 함수와 알고리즘을 제공하는 라이브러리

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 주피터 노트북 상 그래프를 표현하기 위한 명령어
%matplotlib inline
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")


### **1-2 데이터 불러오기**

**🦠 COVID-19 Dataset**
- 원본 데이터 출처: [COVID-19 Data Repository by the Center for Systems Science and Engineering at Johns Hopkins University](https://github.com/CSSEGISandData/COVID-19/tree/master)
- 사용 데이터 출처: [coronavirus](https://github.com/RamiKrispin/coronavirus)
- 전세계의 코로나 19 확산을 추적하고 분석하기 위해 제공되는 자료
- 데이터프레임 주요 변수 정보
    - date: 날짜
    - province: 지역 명
    - country: 국가 명
    - lat: 위도
    - long: 경도
    - type: 확진 및 회복 여부(confirmed, death, recovered)
    - cases: 특정 날짜에 보고된 사례의 수


-> 아래 내용을 직접 코드를 통해 확인해볼 수 있도록 예제 코드를 작성하자!
**❓EDA를 통해 확인할 내용**
- 어떤 국가가 가장 많은 확진 사례를 보유하고 있는가
- 확진 사례에 있어 위도와 경도 정보가 영향을 미치는가
- 사망 사례와 회복 사례의 수가 가장 많은 국가는 어디인가
- 매 달 어떤 날짜에 가장 높은 확진 사례를 보이는가
- 서로 다른 요소들이 영향을 미치는가

In [None]:
# 데이터 불러오기
data = pd.read_csv('../data/coronavirus.csv')

### **1-3 데이터 확인하기**

In [None]:
data

In [None]:
# 앞에서 5행에 해당하는 데이터 확인
data.head()

In [None]:
# 뒤에서 5행에 해당하는 데이터 확인
data.tail()

In [None]:
# 데이터프레임의 컬럼 정보만을 확인
data.columns

In [None]:
# 데이터프레임의 row, column 사이즈를 확인
data.shape

**info()**
- 데이터프레임의 구조와 기본적인 정보를 요약해서 보여주는 메소드
- 인덱스 정보와 컬럼 정보, 데이터프레임이 사용하는 메모리 양을 보여줌 

In [None]:
data.info()

**describe()**
- 데이터프레임 내의 기초 통계 정보를 요약하여 제공하는 메소드
- 수치형 데이터에 대한 통계 정보를 제공

In [None]:
'''
count: 유효한 값의 개수
mean: 평균값
std: 표준편차
min: 최솟값
25%: 1사분위수
50%: 중앙값
75%: 3사분위수
max: 최댓값
'''
data.describe()

**data의 결측치 합계에 대해 확인**
- isnull(): 각 요소가 결측치인지 확인하여 결측치일 경우에는 True, 그렇지 않은 경우에는 False로 표시한 동일한 형태의 데이터프레임으로 반환
- sum(): 데이터프레임의 각 열 또는 행의 합계를 계산, 기본적으로는 열 방향으로 합계를 계산, axis 매개변수를 통해 행 방향으로 연산 가능
- isnull().sum(): 데이터프레임의 각 열에 대해서 결측치의 개수를 계산, 결측치가 True값을 갖는 열에 대해서 그 개수를 합산

In [None]:
data.isnull().sum()

In [None]:
# 결측치에 대해서는 'Unknown'으로 대체
# 해당 내용은 2차시에서 더 자세하게 다루겠습니다.

data= data.fillna('Unknown')

#결과 확인
data.isnull().sum()

### **1-4 속성 간 관계 분석**

**corr()**
- 속성 간 상관관계를 분석하기 위한 함수
- 기본적으로 피어슨 상관계수(Pearson correlation coefficient)를 사용하여 선형 상관 관계를 조사
    - +1에 가까울수록 양의 선형 관계
    - -1에 가까울수록 음의 선형 관계
    - 0에 가까울수록 상관관계가 없음

In [None]:
# 문자 컬럼을 제외하기 위해 numeric_only 옵션을 True로 설정
data.corr(numeric_only=True)

In [None]:
# 상관관계를 시각화

# heatmap을 그릴 영역을 5*5로 지정
plt.figure(figsize=(5, 5))

# heatmap에 대한 세부 사항 지정
# data= 데이터프레임(문자열을 제외한 데이터만 사용)
# annot= True: 박스 안 값 표시
# fmt='.2f': 박스 안에 표시될 값의 표시 형식, 소숫점 두자리수까지만 표시
# linewidths= 0.5: 박스와 박스 사이의 간격 설정
# cmap= 'Blues': 색상 선택
sns.heatmap(data=data.corr(numeric_only=True), annot=True, fmt='.3f', linewidths=0.5, cmap='Blues')

### **1-5 데이터 시각화**

- 전 세계의 확진, 사망, 회복 비율을 나타내는 원형 그래프

In [None]:
# data.groupby('type'): data의 데이터프레임을 type열을 기준으로 그룹화: confirmed, death, recovered 등의 값을 갖게 됨
# ['cases'].sum(): 각 type 그룹에 대해서 총 사례의 수를 산출
# plot(kind='pie', autopct='%1.1f%%', figsize=(20,4)): 그래프의 종류를 파이 차트(pie)로 지정, 파이 조각에 퍼센트 값을 소숫점 첫째자리 까지 표시, 그래프의 크기는 20*4로 지정
data.groupby('type')['cases'].sum().plot(kind='pie', autopct='%1.1f%%', figsize=(20,4))

- [📝실습] 지역 별 확진 사례의 수를 나타내는 막대 그래프를 그리세요.
    - 그래프의 종류에서 막대 그래프는 'bar'로 지정합니다.
    - 그래프의 크기는 50*4으로 지정합니다

In [None]:
# 지역 별 확진 사례의 수를 나타내는 막대 그래프를 그리세요.
data.groupby('country')['cases'].sum().plot(kind='bar', figsize=(50, 4))

- 확진 사례 수를 기준으로 상위 10개의 국가에 대한 수치를 그래프로 확인
    - nlargest(num): 상위 num 개 만큼의 데이터를 선택

In [None]:
top10_countries = data.groupby('country')['cases'].sum().nlargest(10)

In [None]:
top10_countries.plot(kind="bar", figsize=(20,4))
plt.show()

- [📝실습] 날짜 별 확진 사례의 수를 나타내는 막대 그래프를 그리세요.
    - 그래프의 종류에서 막대 그래프는 'bar'로 지정합니다.
    - 그래프의 크기는 100*10 으로 지정합니다

In [None]:
# 날짜 별 확진 사례의 수를 나타내는 막대 그래프를 그리세요.
data.groupby('date')['cases'].sum().plot(kind='bar', figsize=(100, 10))

- [📝실습] 날짜 별 확진 사례 중 상위 5개의 데이터를 나타내는 막대 그래프를 그리세요.
    - 그래프의 종류에서 막대 그래프는 'bar'로 지정합니다.
    - 그래프의 크기는 50*20 으로 지정합니다

In [None]:
# 날짜 별 확진 사례 중 상위 15개의 데이터를 나타내는 막대 그래프를 그리세요.
top15_dates = data.groupby('date')['cases'].sum().nlargest(15)

top15_dates.plot(kind='bar', figsize=(50, 20))
plt.show()