In [None]:
'''
탐색적 데이터 분석
  존 튜키가 제안한 분석 방법론으로
  data 자체를 탐색하는데 중점을 둠
   ㄴ 기존의 통계학은 가설을 세우고 이를 검증하는 방법론에 치우쳐 있어서
      data 본래의 정보를 파악하는데 있어서 어려운 점이 있는데 이를 보완하고자 함
Exploratory Data Analysis
  data 분석을 위해서 raw data 를 여러 각도에서 관찰하여 이해함
  
  1) data 출처와 주제 이해하기
  2) data 크기 확인하기
  3) data 구성요소(feature)의 특징 확인하기
      ㄴ feature : data 의 구성요소 <-- column (field, 속성, 변수 라고도 함)
         학생 성적 dataset 인 경우, 
         학생이름, 학년, 과목, 과목별 성적 등이 feature 가 됨

'''

'''
COVID-19 dataset 다운로드
https://github.com/CSSEGISandData/COVID-19


04-01-2020.csv
'''

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
covid_df = pd.read_csv('04-01-2020.csv')

In [None]:
print(covid_df.shape)
print(covid_df.shape[0])
print(covid_df.shape[1])

In [None]:
covid_df.head(10)
covid_df[:10]
covid_df.iloc[10]
print(type(covid_df[:10]))
print(type(covid_df.iloc[10]))

In [None]:
covid_df[:10]

In [None]:
covid_df.tail(10)
covid_df[-10:]

In [None]:
covid_df.info()

In [None]:
'''
Country_Region  국가
Lat/Long_  위도/경도
Confirmed  확진
Deaths  사망
Recovered  회복
Active  확진자(사망자,회복자 제외)
'''
covid_df.columns

In [None]:
covid_df.index

In [None]:
covid_df.index.values

In [None]:
'''
mean 평균, std 표준편차, 

4 분위수 (quartile)
min 25% 50% 75% max
     Q1  Q2  Q3  Q4  
       median  
'''
covid_df.describe()

In [None]:
covid_df.describe(include=['object'])

In [None]:
covid_df.describe(exclude=['number'])

In [None]:
'''
Feature(속성:변수) 간의 상관관계
                   correlation
상관계수 (correlation coefficient)   <-- DataFrame 의 corr() 메소드  
                                                       ㄴ 피어슨상관계수가 기본값
  ㄴ 두 Feature 간의 통계적 관계를 표현하기 위해서
     상관 관계의 정도를 수치로 나타낸 계수
     
     -1       ~       0       ~       1
     음의 상관관계  상관관계없음   양의 상관관계
'''

In [None]:
covid_df.corr()

In [None]:
'''
시각화 라이브러리들

matplotlib :  예전부터 사용함
seaborn    :  matplolib 를 기반으로 해서 여러가지 차트와 색상테마가 추가됨
  
plotly : 나중에 나온 라이브러리  
'''
'''
seaborn 의 heatmap 으로 시각화하기

sns.heatmap(data=covid_df.corr(), annot=True, fmt='.2f', linewidths=0.5, cmap='Blues')

  data        dataset
  annot       box 안에 값 표시
  fmt         box 안에 값 표시되는 형식 - .2f (소숫점 이하 둘 째자리까지 표시)
  linewidths  box 와 box 사이 간격 설정
  cmap        색상 선택
   ㄴ https://matplotlib.org/stable/tutorials/colors/colormaps.html
    
'''

# 그래프 사이즈 설정하기
plt.figure(figsize=(8, 8))
sns.heatmap(data=covid_df.corr(), annot=True, fmt='.2f', 
            linewidths=0.5, cmap='Blues', vmax=1, vmin=-1)

In [None]:
'''
vmax=1, vmin=-1 : 색으로 표현하는 값의 최댓값과 최솟값 지정
'''

mask = np.triu(np.ones_like(covid_df.corr()))

plt.figure(figsize=(10, 6))
sns.heatmap(data=covid_df.corr(), annot=True, fmt='.2f', 
            linewidths=0.5, cmap='coolwarm', mask=mask,
            vmax=1, vmin=-1)

In [None]:
countries = covid_df['Country_Region']

In [None]:
'''
Series 클래스의 주요 속성과 메소드들
size - 크기 반환
count() - 결측치 제외한 크기 반환
unique() - unique 값 반환
value_counts() - 결측치를 제외한 값의 개수 반환
'''
print(countries.size, countries.count())

In [None]:
print(len(countries.unique()))

In [None]:
print(countries.unique())

In [None]:
countries.value_counts()

In [None]:
covid_df

'''
필요한 Feature 만 추출하기
'''

# 'Confirmed', 'Deaths', 'Recovered' 컬럼들만 조회하기
covid_status = covid_df[['Confirmed', 'Deaths', 'Recovered']]
display(covid_status.head())

In [None]:
# US data 만 조회하기
covid_us = covid_df[covid_df['Country_Region']=='US']
covid_us.head()
covid_us[['Country_Region', 'Confirmed', 'Deaths', 'Recovered']].head()

In [None]:
'''
결측치 처리하기
'''
# 각 컬럼들의 결측치 개수 조회하기
print(covid_df.isnull().sum())

In [None]:
# DataFrame 전체의 결측치 개수 조회하기
print(covid_df.isnull().sum().sum())

In [None]:
print(covid_df.shape)
# 결측치가 있는 row 삭제하기
covid_dropna = covid_df.dropna()
print(covid_dropna.shape)

In [None]:
'''
dropna() <-- 결측치가 있는 row 를 삭제함
dropna() 메소드의 parameter
subset=['특정컬럼'] 을 지정하지 않으면 모든 column 에 대해서 dropna 실행 (결측치가 있는 row 를 삭제)
subset=['특정컬럼'] 을 지정하면 특정 column 에 대해서만 dropna 실행 (결측치가 있는 row 를 삭제)
'''
covid_dropna_confirmed = covid_df.dropna(subset=['Confirmed'])
print(covid_dropna_confirmed.shape)
covid_dropna_confirmed.head()

In [None]:
'''
결측치를 특정 값으로 변경하기 - fillna(특정값)
'''
pd.set_option('display.max_rows', 3000)
covid_df.isna()[:1000]

# 537 571 664
covid_fillna0 = covid_df.fillna(0)
covid_fillna0[:1000]

In [None]:
covid_df.info()

In [None]:
# Province_State 컬럼의 결측치를 covid_area 로 변경하기
covid_df['Province_State'][-50:].isna()
covid_area = covid_df['Province_State'].fillna('Covid_Area')
covid_area[-50:]

In [None]:
'''
컬럼별로 결측치 대체값 다르게 설정하기
Province_State - Covid_Area
FIPS           - round(covid_df['FIPS'].mean(),2)
'''
covid_df.info()
print()
print('FIPS 평균 :',round(covid_df['FIPS'].mean(),2))
covid_FP = covid_df.fillna({'Province_State':'Covid_Area', 'FIPS':round(covid_df['FIPS'].mean(),2)})
display(covid_FP[-50:])

In [None]:
'''
특정 column 을 기준으로 data grouping 하기

groupby() : 특정 column 을 기준으로 grouping 함
sum()     : grouping 된 data 의 합계
'''
covid_df.head()

In [None]:
'''
groupby('Country_Region') 로 grouping 하면
Country_Region 컬럼이 index 인 DataFrame 이 생성됨
'''
country_sum = covid_df.groupby('Country_Region').sum()

# index 오름차순
country_sum[:100]

# index 내림차순
country_sum.sort_index(ascending=False)[:100]

# Country_Region 으로 grouping 해서 Confirmed 컬럼 내림차순으로 정렬
#                                     ㄴ 확진자 많은 나라순으로 정렬
country_sum.sort_values('Confirmed', ascending=False)[:100]

# reset_index() - 확진자 많은 나라순으로 정렬
country_sum.sort_values('Confirmed', ascending=False).reset_index()[:100]

In [None]:
country_mean = covid_df.groupby('Country_Region').mean()

# 국가별 평균 확진자 내림차순
country_mean.sort_values('Confirmed', ascending=False).reset_index()[:100]

In [None]:
# country_sum 의 column 들
country_sum.columns

In [None]:
# country_sum 의 국가들
country_sum.index

In [None]:
# 국가 목록을 ndarray 로 보여줌
print(type(country_sum.index.values))
country_sum.index.values

In [None]:
# US(미국) 의 확진자 합계 : boolean indexing - 216926 명
# Country_Region 으로 groupby 했기에 index 가 Conutry_Region 임
country_sum[country_sum.index=='US']

In [None]:
# 우리나라 의 확진자 합계 : boolean indexing - 9887 명
country_sum[country_sum.index=='Korea, South']

In [None]:
covid_country_confirmed = covid_df[['Country_Region', 'Confirmed']]
covid_country_confirmed[:100]
covid_country_confirmed.info()

In [None]:
'''
DataFrame 에서의 주요 dtype
  object : 문자열 type
  int32 / int64  : int type
  float32 / float64  : float type
  bool  : bool type
  
dtype 변환 : astype() 메소드  
              <--  해당 컬럼에 결측치가 있으면 오류가 발생할 수 있음
DataFrame 의 astype() 메소드  
Series    의 astype() 메소드
'''
covid_country_confirmed = covid_df[['Country_Region', 'Confirmed']]

# Confirmed 컬럼의 결측치 제거하기
covid_country_confirmed = covid_country_confirmed.dropna(subset=['Confirmed'])
covid_country_confirmed.info()
# 1   Confirmed       2522 non-null   int64 
#     현재 Confirmed 컬럼의 dtype 은 int64 임
#  Confirmed 컬럼의 dtype 을 float64 로 변경하기
covid_country_confirmed = covid_country_confirmed.astype({'Confirmed':'float64'})
covid_country_confirmed.info()
# 1   Confirmed       2522 non-null   float64
#     현재 Confirmed 컬럼의 dtype 은 float64 로 변경됨
# 다시 int64 로 변경하기
covid_country_confirmed = covid_country_confirmed.astype({'Confirmed':'int64'})
covid_country_confirmed.info()
# 1   Confirmed       2522 non-null   int64 
#     현재 Confirmed 컬럼의 dtype 은 int64 로 변경됨

In [None]:
'''
DataFrame 의 column 이름 변경하기
'''
covid_country_confirmed = covid_df[['Country_Region', 'Confirmed']]
covid_country_confirmed.columns
covid_country_confirmed[:10]

In [None]:
# Country_Region --> Country
# Confirmed      --> Confirmed_Case
covid_country_confirmed.columns = ['Country', 'Confirmed_Case']
covid_country_confirmed.columns
covid_country_confirmed[:10]

In [None]:
# 다른 방법
# Country         --> Country_Region
# Confirmed_Case  --> Confirmed
# inplace=True : 원본을 변형함 - 기본값은 inplace=False 임
# covid_country_confirmed.rename({'Country':'Country_Region', 'Confirmed_Case':'Confirmed'}, inplace=True)
covid_country_confirmed.rename(columns={'Country':'Country_Region',  'Confirmed_Case':'Confirmed'})[:10]

In [None]:
'''
중복 행(raw) 확인하기 - duplicated() 메소드

'''
iso_df = pd.read_csv('UID_ISO_FIPS_LookUp_Table.csv')
print(iso_df.shape)
print(iso_df.columns)

In [None]:
iso2_country = iso_df[['iso2', 'Country_Region']]

In [None]:
iso2_country[-10:]

In [None]:
'''
어떤 행이 중복되어 있는지 확인하기
'''
iso2_country.duplicated()

In [None]:
'''
중복된 행만 확인하기 - boolean indexing
'''
iso2_country_duplicated = iso2_country[iso2_country.duplicated()]
print(iso2_country_duplicated.shape)

In [None]:
'''
중복된 행 삭제하기 - drop_duplicates() 메소드
  ㄴ 특정 column 을 기준으로 중복행 삭제하기
     subset=특정 column
  ㄴ 중복된 경우, 처음과 마지막 중 어느 행을 남길 것인지 설정하기
     처음 : keep='first'  <-- default(기본값)
     마지막 : keep='last'     
'''
iso2_country_drop = iso2_country.drop_duplicates(subset='Country_Region', keep='last')
iso2_country_drop

In [None]:
iso_df.shape

In [None]:
iso2_country.shape

In [None]:
iso2_country_drop.shape

In [None]:
# iso2_country_drop.sort_values('iso2',ascending=False)
iso2_country_drop.sort_index(ascending=False)

In [None]:
'''
DataFrame 합치기

1) concat() - DataFrame 을 위/아래 또는 왼쪽/오른쪽으로 연결함
              pd.concat(DataFrame1, DataFrame2)
2) merge() - DataFrame 에서 같은 이름의 column 을 기준으로 병합함
             pd.merge(DataFrame1, DataFrame2)
             
원하는 dataset 을 만들기 위해서
두 DataFrame 합치기
DataFrame의 concat() 함수
  ㄴ 두 DataFrame 을 연결해서 하나의 DataFrame 으로 만듬
     두 DataFrame 을 위/아래 또는 왼쪽/오른쪽으로 연결함
     pd.concat([DataFrame1, DataFrame2])
     axis 파라미터를 0으로 설정하면 row 방향으로 합치고 <-- default 설정임
     axis 파라미터를 1로 설정하면 column 방향으로 합침


두 DataFrame 병합하기 : merge() 함수
  ㄴ merge(DataFrame1, DataFrame2)
      ㄴ 두 DataFrame 에 있는 같은 이름의 column 을 기준으로 병합함
    ***************************************************************  
      같은 이름의 column 을 기준으로 병합한다는 것의 의미
      공통 컬럼에 들어있는 값이 같은 row 만 선택한다는 의미
    ***************************************************************  


merge() 함수로 병합할 때 결합형태를 다양하게 할 수 있음
  ㄴ merge(DataFrame1, DataFrame2, how=결합방법)
       ㄴ 결합방법 :  1) inner : 내부조인 : SQL 의 INNER JOIN  <-- default 설정
                      2) outer : 외부조인 : SQL 의 OUTER JOIN  
                      3) left  : SQL 의 LEFT OUTER JOINT
                      4) right : SQL 의 RIGHT OUTER JOINT


 1) inner : 내부조인 : SQL 의 INNER JOIN  <-- default 설정
 inner 가 기본이므로 명시적으로 해 주지 않아도 inner 로 됨
   ㄴ  on 에 지정한 컬럼값이 df01 과 df02 에서 같은 값인 것만 가져옴


 2) outer : 외부조인 : SQL 의 OUTER JOIN  
     a) on 의 컬럼값이 두 DataFrame 에서 같은 row들을 찾음
     b) 각 같은 row 의 컬럼/컬럼값을 가져와서 붙임
     c) 각 DataFrame 에서 on 컬럼값이 다른 나머지 row들을 찾음
     d) 각 나머지 row 의 컬럼/컬럼값을 가져와서 별도의 row에 붙임
           ㄴ 이때, 두 DataFrame 에 각각에만 있는 컬럼이라서
                    컬럼값이 없는 경우에는 결측치(NaN)로 표기함


 3) left  : SQL 의 LEFT OUTER JOINT
     a) 왼쪽 DataFrame 의 row들을 모두 가져옴
     b) 왼쪽 DataFrame 의 row 에 있는 컬럼값과 같은 컬럼값을 가지고 있는
        오른쪽 DataFrame 의 row 를 가져와서 붙임
     c) 오른쪽 DataFrame 에 없는 on 컬럼값을 가진 
        왼쪽 DataFrame 중에서 오른쪽 DataFrame 의 컬럼들에는 
        결측치(NaN)로 표기함
       <-- 오른쪽 DataFrame 에 있는 결측치만 표기됨        


 4) right : SQL 의 RIGHT OUTER JOINT
     a) 오른쪽 DataFrame 의 row들을 모두 가져옴
     b) 오른쪽 DataFrame 의 row 에 있는 컬럼값과 같은 컬럼값을 가지고 있는
        왼쪽 DataFrame 의 row 를 가져와서 붙임
     c) 왼쪽 DataFrame 에 없는 on 컬럼값을 가진 
        오른쪽 DataFrame 중에서 왼쪽 DataFrame 의 컬럼들에는 
        결측치(NaN)로 표기함
       <-- 왼쪽 DataFrame 에 있는 결측치만 표기됨        


 column 이 아니라, 
 index 를 기준으로 병합하기
   ㄴ merge(DataFrame1, DataFrame2, left_index=True, right_index=True)
      (기준 컬럼을 명시할 수도 있음)
             
'''

In [None]:
test1_dict = {
                 'id':[1, 2, 3],
                 'customer_id':[1, 2, 3],
                 'customer_name':['이순신','서태지','강감찬']
             }
test1_df = pd.DataFrame(test1_dict)
display(test1_df)

In [None]:
test2_dict = {
    'id':[1, 2, 4],
    'order_id':[100, 200, 300],
    'order_date':['2022-01-21','2022-02-03','2022-10-01']
}
test2_df = pd.DataFrame(test2_dict)
display(test2_df)

In [None]:
'''
같은 컬럼은 그대로 나오고 
다른 컬럼은 오른쪽으로 추가됨
axis=0 - 아래로 연결됨
'''
pd.concat([test1_df, test2_df],axis=0)

In [None]:
'''
axis=1 - 오른쪽 옆으로 연결됨
'''
pd.concat([test1_df, test2_df],axis=1)

In [None]:
'''
2) merge() - DataFrame 에서 같은 이름의 column 을 기준으로 병합함
             pd.merge(DataFrame1, DataFrame2)
'''
pd.merge(test1_df, test2_df)

In [None]:
pd.merge(test1_df, test2_df, on='id')

In [None]:
pd.merge(test1_df, test2_df, on='id', how='inner')

In [None]:
pd.merge(test1_df, test2_df, on='id', how='outer')

In [None]:
pd.merge(test1_df, test2_df, on='id', how='left')

In [None]:
pd.merge(test1_df, test2_df, on='id', how='right')

In [None]:
'''
test1_df, test2_df 의 index 를 id 컬럼으로 만들어 보세요
  ㄴ DataFrame 의 set_index(컬럼) 메소드
'''
test1_idx_df = test1_df.set_index('id')
test1_idx_df

In [None]:
test2_idx_df = test2_df.set_index('id')
test2_idx_df

In [None]:
'''
test1_df 과 test2_df DataFrame 을 index 를 기준으로 병합하세요 
(inner join 을 사용하세요) 
ㄴ inner join 이 default 이므로 how 에 지정하지 않아도 됨
'''
pd.merge(test1_idx_df, test2_idx_df, left_index=True, right_index=True)

In [None]:
pd.merge(test1_idx_df, test2_idx_df, left_index=True, right_index=True, how='inner')

In [None]:
'''
test1_df 과 test2_df DataFrame 을 index 를 기준으로 병합하세요 
(outer join 을 사용하세요) 
'''
pd.merge(test1_idx_df, test2_idx_df, left_index=True, right_index=True, how='outer')