In [39]:
import pandas as pd
import numpy as np

In [2]:
# 범주형 데이터의 요약
# 1. 수준별로 데이터 분류
# 2. 수준별로 데이터 개수 세기
# 3. 시각화하기

In [24]:
data = {
    'year': ['2017', '2017', '2019', '2020', '2021', '2021'],
    'grade': ['C', 'C', 'B', 'A', 'B', 'E']
}

df = pd.DataFrame(data)
df

Unnamed: 0,year,grade
0,2017,C
1,2017,C
2,2019,B
3,2020,A
4,2021,B
5,2021,E


In [25]:
df1 = df.groupby('grade').count()
df1

Unnamed: 0_level_0,year
grade,Unnamed: 1_level_1
A,1
B,2
C,2
E,1


In [26]:
df2 = df.groupby('year').count()
df2

Unnamed: 0_level_0,grade
year,Unnamed: 1_level_1
2017,2
2019,1
2020,1
2021,2


---

In [7]:
# 수준별로 데이터 갯수 세기
# size: 사이즈 반환
# count(): 데이터가 없는 경우를 뺀 사이즈 반환
# unique(): 유일한 값만 반환
# value_counts(): 데이터가 없는 경우를 제외하고, 각 값의 갯수를 반환

In [8]:
df['year'].value_counts()

2021    2
2017    2
2019    1
2020    1
Name: year, dtype: int64

In [10]:
df['year'].size

6

In [14]:
df['year'].count()

6

In [12]:
df['year'].unique()

array(['2017', '2019', '2020', '2021'], dtype=object)

---

In [15]:
# 분석 타입에 따른 그래프 종류 이해
# 1. 막대 그래프 (절대빈도)
# 2. 원 그래프 (상대빈도)

In [16]:
import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected=True)

In [19]:
# 막대 그래프
df2.iplot('bar')

In [20]:
import plotly.graph_objects as go

In [21]:
fig = go.Figure()

fig.add_trace(
    go.Bar(
        x=df1.index, y=df1['year'], name='A'
    )
)

fig.show()

----

In [27]:
# 원 그래프
# iplot(kind='pie') 시에는
# labels에 labels(수준)으로 분류될 컬럼명,
# values에 각 수준(분류)의 값이 될 카운트값을 가진 컬럼명을 넣어줘야 함. 
df3 = df1.reset_index()
df3

Unnamed: 0,grade,year
0,A,1
1,B,2
2,C,2
3,E,1


In [29]:
df3.iplot(kind='pie', labels='grade', values='year')

In [30]:
fig = go.Figure()

fig.add_trace(
    go.Pie(
        labels=df3['grade'], values=df3['year'], name='A'
    )
)

fig.show()

---

In [32]:
# 테이블 데이터와 시계열 데이터
# 테이블 데이터:엑셀과 같이 행과 열로 나타낸 데이터
# - feature: 테이블의 각 열을 의미
# - record: 테이블의 각 행을 의미
# - index: 각 데이터 위치를 식별하기 위한 값
# 시계열 데이터: 일정 시간 간격으로 배치된 데이터 (시간에 종속된 데이터)

In [33]:
# 시계열 데이터 시각화를 위한 사전 준비
# pd.data_range(start='2020-01-01', end='2020-12-31')
# - freg = '3M' (3개월)
# - freq = 'D' (1일)
# - periods=10 (start와 end 사이 균등 시간 분할)

In [35]:
pd.date_range(start='2020-01-01', end='2020-12-31')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-12-22', '2020-12-23', '2020-12-24', '2020-12-25',
               '2020-12-26', '2020-12-27', '2020-12-28', '2020-12-29',
               '2020-12-30', '2020-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [36]:
pd.date_range(start='2020-01-01', end='2020-12-31', periods=3)

DatetimeIndex(['2020-01-01 00:00:00', '2020-07-01 12:00:00',
               '2020-12-31 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [37]:
pd.date_range(start='2020-01-01', end='2020-12-31', freq='3M')

DatetimeIndex(['2020-01-31', '2020-04-30', '2020-07-31', '2020-10-31'], dtype='datetime64[ns]', freq='3M')

In [38]:
pd.date_range(start='2020-01-01', end='2020-12-31', freq='D')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-12-22', '2020-12-23', '2020-12-24', '2020-12-25',
               '2020-12-26', '2020-12-27', '2020-12-28', '2020-12-29',
               '2020-12-30', '2020-12-31'],
              dtype='datetime64[ns]', length=366, freq='D')

In [40]:
date_index = pd.date_range('2020-05-01', periods=15)
df = pd.DataFrame(data=range(len(date_index)), columns=['count'], index=date_index)
df

Unnamed: 0,count
2020-05-01,0
2020-05-02,1
2020-05-03,2
2020-05-04,3
2020-05-05,4
2020-05-06,5
2020-05-07,6
2020-05-08,7
2020-05-09,8
2020-05-10,9


In [42]:
# 시계열 데이터
# 1. 라인 그래프
# 2. 막대 그래프

df.iplot('line')

In [43]:
df.iplot('bar')

----

In [44]:
# 상관관계를 확인하기 위해 주로 사용되는 그래프
# - feature 간의 연관 관계 분석
# - 그래프
#   1) heatmap 그래프
#   2) scatter 그래프

In [48]:
doc = pd.read_csv('./file/COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-01-2020.csv', encoding='utf-8-sig')
doc

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key
0,45001.0,Abbeville,South Carolina,US,2020-04-01 21:58:49,34.223334,-82.461707,4,0,0,0,"Abbeville, South Carolina, US"
1,22001.0,Acadia,Louisiana,US,2020-04-01 21:58:49,30.295065,-92.414197,47,1,0,0,"Acadia, Louisiana, US"
2,51001.0,Accomack,Virginia,US,2020-04-01 21:58:49,37.767072,-75.632346,7,0,0,0,"Accomack, Virginia, US"
3,16001.0,Ada,Idaho,US,2020-04-01 21:58:49,43.452658,-116.241552,195,3,0,0,"Ada, Idaho, US"
4,19001.0,Adair,Iowa,US,2020-04-01 21:58:49,41.330756,-94.471059,1,0,0,0,"Adair, Iowa, US"
...,...,...,...,...,...,...,...,...,...,...,...,...
2478,,,,Venezuela,2020-04-01 21:58:34,6.423800,-66.589700,143,3,41,99,Venezuela
2479,,,,Vietnam,2020-04-01 21:58:34,14.058324,108.277199,218,0,63,155,Vietnam
2480,,,,West Bank and Gaza,2020-04-01 21:58:34,31.952200,35.233200,134,1,18,115,West Bank and Gaza
2481,,,,Zambia,2020-04-01 21:58:34,-13.133897,27.849332,36,0,0,36,Zambia


In [49]:
doc.corr()

Unnamed: 0,FIPS,Lat,Long_,Confirmed,Deaths,Recovered,Active
FIPS,1.0,0.144217,0.139813,0.003306,-0.00019,,
Lat,0.144217,1.0,-0.487517,0.028217,0.021578,-0.00463,0.029301
Long_,0.139813,-0.487517,1.0,0.15711,0.104027,0.155989,0.143738
Confirmed,0.003306,0.028217,0.15711,1.0,0.886551,0.727257,0.913162
Deaths,-0.00019,0.021578,0.104027,0.886551,1.0,0.56784,0.880624
Recovered,,-0.00463,0.155989,0.727257,0.56784,1.0,0.493139
Active,,0.029301,0.143738,0.913162,0.880624,0.493139,1.0


In [50]:
doc2 = doc.corr()

In [51]:
doc2.iplot('heatmap')

In [52]:
cf.colors.scales()

In [53]:
doc2.iplot('heatmap', colorscale='pubu')

In [56]:
fig = go.Figure()
fig.add_trace(
    go.Heatmap(
        x = doc2.index,
        y=doc2.columns,
        z=doc2,
        colorscale='reds'
    )
)
fig.show()

In [59]:
doc.iplot('scatter', x='Recovered', y='Confirmed', mode='markers')

In [60]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(
        x=doc['Recovered'],
        y=doc['Confirmed'],
        mode='markers'
    )
)

fig.show()

---

#### 탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)
1. 데이터의 출처와 주제에 대해 이해
2. 데이터의 크기 확인
3. 데이터 구성요소의 속성 확인

- 수치형 데이터일 경우
    : EDA 5 수치 + 평균 확인
    - 최소값, 제1사분위수, 중간값=제2사분위수, 제3사분위수, 최대값, 평균 확인
    - 특잇값 확인 (아웃라이어)
    - 시각화 boxplot, histogram 그려보기
- 범주형 데이터일 경우
    : 각 수준별 갯수 세기
    - 시각화 절대빈도(bar), 상대빈도(pie) 그려보기
- 시계열 데이터일 경우
    - 시각화 line, bar 그래프 그려보기
    - feature 간 상관관계 분석이 필요할 경우에는 heatmap, scatter 그래프 그려보기