# Chapter 04 : 그래프 그리기

## 04 - 1 : 데이터 시각화가 필요한 이유
- 앤스콤 4분할 그래프 : 앤스콤 4분할 그래프에 있는 수칫값, 상관관계, 회귀선이 같은 4개의 데이터 그룹을 보았을 때 모두 같은 그룹이라고 생각할 수 있다. 이게 앤스콤이 지적한 함정. 하지만 시각화를 해보면 서로 다른 데이터 패턴을 갖는다.

In [133]:
import seaborn as sb
import pandas as pd
%matplotlib notebook
import matplotlib.pyplot as plt

In [134]:
# 앤스콤 데이터 집합 불러와서 그래프 그리기
ans = sb.load_dataset('anscombe')
print(ans)
print(type(ans))

   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68
11      II  10.0   9.14
12      II   8.0   8.14
13      II  13.0   8.74
14      II   9.0   8.77
15      II  11.0   9.26
16      II  14.0   8.10
17      II   6.0   6.13
18      II   4.0   3.10
19      II  12.0   9.13
20      II   7.0   7.26
21      II   5.0   4.74
22     III  10.0   7.46
23     III   8.0   6.77
24     III  13.0  12.74
25     III   9.0   7.11
26     III  11.0   7.81
27     III  14.0   8.84
28     III   6.0   6.08
29     III   4.0   5.39
30     III  12.0   8.15
31     III   7.0   6.42
32     III   5.0   5.73
33      IV   8.0   6.58
34      IV   8.0   5.76
35      IV   8.0   7.71
36      IV   8.0   8.84
37      IV   8.0   8.47
38      IV   8.0   7.04
39      IV   8.0   5.25
40      IV  19.0

In [135]:
# 1번 그룹 그래프 그리기
dataset_1 = ans[ans['dataset'] == 'I']
plt.plot(dataset_1['x'], dataset_1['y'], 'o') # 세번째 인자에 'o'를 쓰면 점으로 표시

[<matplotlib.lines.Line2D at 0x10ed8bc6bd0>]

### matplotlib 라이브러리로 그래프 그리기 (앤스콤 데이터 다 그리기)
1. 전체 그래프가 위치할 기본 틀을 만든다.
2. 그래프를 그려 넣을 그래프 격자를 만든다.
3. 그런 다음 격자에 그래프를 하나씩 추가한다. 격자에 그래프가 추가되는 순서는 왼쪽에서 오른쪽
4. 만약 격자의 첫 번째 행이 꽉 차면 두 번째 행에 그래프를 그려 넣는다.

In [136]:
dataset_2 = ans[ans['dataset'] == 'II']
dataset_3 = ans[ans['dataset'] == 'III']
dataset_4 = ans[ans['dataset'] == 'IV']

fig = plt.figure() # 그래프 격자가 위치할 기본 틀
# add_subplot(a,b,c) : a는 행 b는 열 c는 어디에 위치할지를 지정
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)

<IPython.core.display.Javascript object>

In [137]:
# 각 격자에 그래프를 그린다.
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

fig # 그래프 확인을 하려면 입력

<IPython.core.display.Javascript object>

In [138]:
# 격자별 제목 설정
axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')

Text(0.5, 1.0, 'dataset_4')

In [139]:
# 기본 틀에 제목
fig.suptitle('Anscombe Data')

Text(0.5, 0.98, 'Anscombe Data')

In [140]:
# 그래프 레이아웃 조절
fig.tight_layout()
fig

<IPython.core.display.Javascript object>

## 04 - 2 : matplotlib 라이브러리 자유자재로 사용하기

### 기초 그래프 그리기 - 히스토그램 (일변량 그래프)
- 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용하는 그래프

In [141]:
tips = sb.load_dataset('tips')
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [142]:
fig = plt.figure()
axes1 = fig.add_subplot(1,1,1)

<IPython.core.display.Javascript object>

In [143]:
# hist 메서드 이용
axes1.hist(tips['total_bill'], bins = 10) # bin = 10 : x축의 간격을 10으로 조정
axes1.set_title('Histogram of Total Bill')
axes1.set_xlabel('Frequency')
axes1.set_ylabel('Total Bill')

Text(0, 0.5, 'Total Bill')

### 기초 그래프 그리기 - 산점도 (다변량 그래프)

In [144]:
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
# scatter 메서드 이용
axes1.scatter(tips['total_bill'], tips['tip'])
axes1.set_title('Scatterplot of Total Bill vs Tip')
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

### 기초 그래프 그리기 - 박스 그래프 (이산형, 연속형 변수 함께 사용)

In [145]:
boxplot = plt.figure()
axes1 = boxplot.add_subplot(1,1,1)
axes1.boxplot([tips[tips['sex'] == 'Female']['tip'],
               tips[tips['sex'] == 'Male']['tip']],
               labels=['Female', 'Male'])

axes1.set_xlabel('Sex')
axes1.set_ylabel('Tip')
axes1.set_title('Boxplot of Tips by Sex')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Boxplot of Tips by Sex')

### 다변량 데이터로 다변량 그래프 그리기 - 산점도 그래프

In [146]:
# 남성은 1, 여성은 0을 출력하는 함수
def recode_sex(sex):
    if sex == 'Female' :
        return 0
    else :
        return 1

# 함수를 이용해 데이터 프레임에 반환 값 추가
tips['sex_color'] = tips['sex'].apply(recode_sex)

In [147]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_color
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1
2,21.01,3.50,Male,No,Sun,Dinner,3,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,1
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2,1
242,17.82,1.75,Male,No,Sat,Dinner,2,1


In [148]:
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
# s : 점의 크기 (인원 수를 의미하는 size)/ c : 점의 색깔 (성별을 의미하는 sex_color)
axes1.scatter(
    x = tips['total_bill'],
    y = tips['tip'],
    s = tips['size'] * 10,
    c = tips['sex_color'],
    alpha = 0.5)
axes1.set_title('Total Bill vs Tip Colored by Sex and Sized by Size')
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

## 04 - 2 : seaborn 라이브러리 자유자재로 사용하기

### seaborn 라이브러리로 단변량 그래프 그리기

In [149]:
# seaborn 라이브러리로 히스토그램 : subplots, distplot 메서드
ax = plt.subplots()
ax = sb.distplot(tips['total_bill'])
ax.set_title('Total Bill Histogram with Density Plot') # 검색해보니 이렇게 사용

<IPython.core.display.Javascript object>


`distplot` is a deprecated function and will be removed in seaborn v0.14.0.

Please adapt your code to use either `displot` (a figure-level function with
similar flexibility) or `histplot` (an axes-level function for histograms).

For a guide to updating your code to use the new functions, please see
https://gist.github.com/mwaskom/de44147ed2974457ad6372750bbe5751

  ax = sb.distplot(tips['total_bill'])


Text(0.5, 1.0, 'Total Bill Histogram with Density Plot')

In [150]:
ax = plt.subplots()
ax = sb.distplot(tips['total_bill'], rug=True) # rug : 양탄자 그래프
ax.set_title('Total Bill Histogram with Density and Rug Plot')
ax.set_xlabel('Total Bill')

<IPython.core.display.Javascript object>


`distplot` is a deprecated function and will be removed in seaborn v0.14.0.

Please adapt your code to use either `displot` (a figure-level function with
similar flexibility) or `histplot` (an axes-level function for histograms).

For a guide to updating your code to use the new functions, please see
https://gist.github.com/mwaskom/de44147ed2974457ad6372750bbe5751

  ax = sb.distplot(tips['total_bill'], rug=True) # rug : 양탄자 그래프


Text(0.5, 0, 'Total Bill')

In [151]:
# 이산값을 나타내는 count 그래프
ax = plt.subplots()
ax = sb.countplot(x = 'day', data=tips)
ax.set_title('Count of days')
ax.set_ylabel('frequency')
ax.set_xlabel('Day of the Week')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Day of the Week')

### 다양한 종류의 이변량 그래프 그리기

In [152]:
# seaborn 라이브러리로 산점도 그래프 그리기
ax = plt.subplots()
ax = sb.regplot(x = 'total_bill', y = 'tip', data = tips, fit_reg = False)
ax.set_title('Scatterplot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

In [153]:
# jointplot() : 산점도와 히스토그램을 한 번에 그려줌
joint = sb.jointplot(x='total_bill', y='tip',data=tips)
joint.set_axis_labels(xlabel = 'Total Bill', ylabel='Tip')
joint.fig.suptitle('Joint Plot of Total Bill and Tip', fontsize = 10, y = 1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Joint Plot of Total Bill and Tip')

- 산점도 그래프는 점이 겹쳐 보일 경우 구분하기 어려움. 산점도 그래프의 데이터를 구분하기 쉽게 그리고 싶으면 hexbin, 육각 그래프를 사용하면 됨.
- hexbin : 2차원 표면에 육각형으로 데이터를 쌓아 표현하는 그래프. 즉, 특정 데이터의 개수가 많아지면 점점 진한 색이 됨.

In [154]:
hexbin = sb.jointplot(x='total_bill', y='tip', data=tips, kind='hex') # kind 인자를 이용
hexbin.set_axis_labels(xlabel = 'Total Bill', ylabel = 'Tip')
hexbin.fig.suptitle('Hexbin Joint Plot of Total Bill and Tip', fontsize = 10, y = 1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Hexbin Joint Plot of Total Bill and Tip')

In [155]:
# 이차원 밀집도 그리기
ax = plt.subplots()
ax = sb.kdeplot(x = tips['total_bill'],
               y = tips['tip'],
               shade=True)
ax.set_title('Kernel Density Plot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>


`shade` is now deprecated in favor of `fill`; setting `fill=True`.
This will become an error in seaborn v0.14.0; please update your code.

  ax = sb.kdeplot(x = tips['total_bill'],


Text(0, 0.5, 'Tip')

In [156]:
# 바 그래프
ax = plt.subplots()
ax = sb.barplot(x = 'time', y = 'total_bill', data = tips)
ax.set_title('Bar plot of average total bill for time of day')
ax.set_xlabel('Time of day')
ax.set_ylabe('Average total bill')

<IPython.core.display.Javascript object>

AttributeError: 'Axes' object has no attribute 'set_ylabe'

In [None]:
# 박스 그래프 그리기
ax = plt.subplots()
ax = sb.boxplot(x = 'time', y = 'total_bill', data = tips)
ax.set_title('Boxplot of total bill by time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Total Bill')

In [None]:
# 바이올린 그래프 : 박스 그래프에 커널 밀도를 추정해 분산을 확실하게 표현
ax = plt.subplots()
ax = sb.violinplot(x = 'time', y = 'total_bill', data = tips)
ax.set_title('Violin plot of total bill by time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Total Bill')

In [None]:
# 관계 그래프 그리기 : 중복된 정보가 표현된다는 단점 보유
fig = sb.pairplot(tips)

In [None]:
pair_grid = sb.PairGrid(tips)
pair_grid = pair_grid.map_upper(sb.regplot) # 대각선 기준 위에 그릴 그래프
pair_grid = pair_grid.map_lower(sb.kdeplot) # 대각선 기준 아래에 그릴 그래프
pair_grid = pair_grid.map_diag(sb.distplot, rug = True) # 대각선 라인에 그릴 그래프
plt.show()

### 다양한 종류의 다변량 그래프 그리기

In [None]:
# 바이올린 그래프 색상 추가
ax = plt.subplots()
ax = sb.violinplot(x='time', y='total_bill', hue='sex', data = tips)

In [None]:
# 산점도, 관계 그래프 색상 추가
scatter = sb.lmplot(x='total_bill', y='tip', data=tips,hue='sex', fit_reg=False)

In [None]:
fig=sb.pairplot(tips,hue='sex')

In [None]:
# 산점도 그래프의 크기와 모양 조절하기 : scatter_kws 인자
scatter = sb.lmplot(x='total_bill', y='tip', data=tips, fit_reg=False, hue='sex', scatter_kws={'s' : tips['size']*10})

In [None]:
# 4개의 데이터 그룹에 대한 그래프 한 번에 그리기
anscombe_plot = sb.lmplot(x = 'x', y = 'y', data=ans, fit_reg=False)

In [None]:
# 그룹별로 나누어 보기 : col 인자 , col_wrap은 몇 개의 열로 표현할지
anscombe_plot = sb.lmplot(x = 'x', y = 'y', data=ans, fit_reg=False, col='dataset', col_wrap=2)

## 04 - 4 : 데이터프레임과 시리즈로 그래프 그리기

In [None]:
# tips['total_bill'] 시리즈 내에 plot이라는 속성에 hist 메서드가 존재함.
fig,ax = plt.subplots()
ax = tips['total_bill'].plot.hist()

In [None]:
fig,ax = plt.subplots()
ax = tips[['total_bill','tip']].plot.hist(alpha = 0.5, bins=20, ax=ax) # alpah는 투명도, bins는 x축 간격

In [None]:
ax = plt.subplots()
ax = tips['tip'].plot.kde()

In [None]:
fig,ax = plt.subplots()
ax = tips.plot.scatter(x = 'total_bill', y = 'tip', ax = ax)

In [None]:
fig, ax = plt.subplots()
ax = tips.plot.hexbin(x='total_bill', y = 'tip', ax = ax)

In [None]:
fig, ax = plt.subplots()
ax = tips.plot.hexbin(x='total_bill', y = 'tip', gridsize = 10, ax = ax)

In [None]:
fig, ax = plt.subplots()
ax = tips.plot.box(ax=ax)

## 04 - 5 : seaborn 라이브러리로 그래프 스타일 설정하기

In [None]:
fig, ax = plt.subplots()
ax = sb.violinplot(x='time', y='total_bill', hue='sex', data=tips, split=True)

In [None]:
# whitegrid 스타일 : 배경에 가로 줄이 생김
sb.set_style('white')
fig, ax = plt.subplots()
ax = sb.violinplot(x='time', y='total_bill', hue='sex', data=tips, split=True)

In [None]:
# for 문을 이용한 모든 스타일 각각 적용
fig = plt.figure()
sb_style = ['darkgrid', 'whitegrid', 'dark','white','ticks']

for idx, style in enumerate(sb_style):
    plot_position = idx + 1
    ax = fig.add_subplot(2,3,plot_position)
    violin = sb.violinplot(x='time',y='total_bill',data=tips, ax=ax)
    violin.set_title(style)
    
fig.tight_layout()

# Chapter 06 : 누락값 처리하기
## 06 - 1 : 누락값이란?

In [None]:
from numpy import NaN, NAN, nan

In [None]:
# 누락값은 말 그대로 데이터 자체가 없음을 의미한다.
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

In [None]:
print(NaN == NaN) # 그렇기 때문에 자신과 비교해도 False가 나옴

In [None]:
print(pd.isnull(NaN)) # 누락값 확인
print(pd.isnull(nan))
print(pd.isnull(NAN))
print(pd.notnull(NaN)) # 반대로 확인
print(pd.notnull(42))
print(pd.notnull('missing')) 

### 누락값이 생기는 이유

In [None]:
visited = pd.read_csv('data/survey_visited.csv')
survey = pd.read_csv('data/survey_survey.csv')

In [None]:
print(visited)
print(survey)

In [None]:
vs = visited.merge(survey, left_on='ident', right_on = 'taken')
print(vs)

In [None]:
# 누락값은 데이터를 잘못 입력하여 생길 수 있다.
num_legs = pd.Series({'goat' : 4, 'amoeba' : nan})
print(num_legs)
print(type(num_legs))

scientists = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'missing' : [NaN,nan] # 누락값
})

print(scientists)
print(type(scientists))

In [None]:
# 범위를 지정하여 데이터 추출 시 누락값이 생기는 경우
gapminder = pd.read_csv('data/gapminder.tsv', sep='\t')
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

In [None]:
print(life_exp.loc[range(2000,2010), ]) # 그냥 안되는듯

In [None]:
y2000 = life_exp[life_exp.index > 2000]
print(y2000) # 불린 추출을 이용하면 결측값을 가져오는 것을 방지 할 수 있다.

### 누락값 개수 구하기

In [166]:
ebola = pd.read_csv('data/country_timeseries.csv')

In [None]:
print(ebola.count()) # 누락값이 아닌 값의 개수

In [None]:
# shpae[0] : 전체 행의 데이터 개수
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
print(num_missing)

In [None]:
# numpy 라이브러리를 이용하면 더욱 쉽게 가능
import numpy as np
print(np.count_nonzero(ebola.isnull()))
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

### 누락값 처리하기

In [None]:
# 누락값 변경하기

# fillna ; 누락값을 0으로 변경, 처리해야 하는 데이터프레임 크기가 매우 크고 메로리를 효율적으로 사용해야하는 경우에 자주 사용
print(ebola.fillna(0).iloc[0:10, 0:5])
print(ebola.fillna(method = 'ffill').iloc[0:10, 0:5]) # method = 'ffill' : 누락값이 나타나기 전의 값으로 변경
print(ebola.fillna(method = 'bfill').iloc[0:10, 0:5]) # method = 'bfill' : 누락값이 나타난 이후의 첫 번째 값으로 앞쪽의 누락값이 모두 변경

In [None]:
# interpolate() : 누락값 양쪽에 있는 값을 이용하여 중간값을 구해 처리
print(ebola.interpolate().iloc[0:10, 0:5])

In [None]:
# dropna() : 누락값을 삭제해버림. 무작정 삭제하면 편향된 데이터 혹은 개수 부족 문제가 생겨 데이터 구조 먼저 확인
print(ebola.shape)
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape) 

### 누락값이 포함된 데이터 계산하기

In [None]:
# 누락값이 있는 Guinea, Liberia, SierraLeone 열을 계산해보자
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

In [None]:
# 연산을 진행한 각 열과 연산 결과 값을 비교 : 누락값이 하나라도 있는 행은 누락값이 됨. 즉, 누락값이 더 많아짐
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(n=10))

In [None]:
# 세 지역의 발병 수 합 구하기 가능 skipna=True
print(ebola.Cases_Guinea.sum(skipna=True))
print(ebola.Cases_Guinea.sum(skipna=False))

# Chapter 07 : 깔끔한 데이터
## 07 - 1 : 열과 피벗

### melt 메서드
- 인자
    - id_vars : 위치를 그대로 유지할 열의 이름을 지정
    - value_vars : 행으로 위치를 변경할 열의 이름을 지정
    - var_name : value_vars로 위치를 변경한 열의 이름을 지정
    - value_name : var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정

In [157]:
pew = pd.read_csv('data/pew.csv')
print(pew.head())

             religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k  $50-75k  \
0            Agnostic     27       34       60       81       76      137   
1             Atheist     12       27       37       52       35       70   
2            Buddhist     27       21       30       34       33       58   
3            Catholic    418      617      732      670      638     1116   
4  Don’t know/refused     15       14       15       11       10       35   

   $75-100k  $100-150k  >150k  Don't know/refused  
0       122        109     84                  96  
1        73         59     74                  76  
2        62         39     53                  54  
3       949        792    633                1489  
4        21         17     18                 116  


In [158]:
# 1개 열 고정하고 나머지 열을 행으로 바꿈
print(pew.iloc[:, 0:6])
pew_long = pd.melt(pew, id_vars='religion') # religion 고정
print(pew_long.head()) # 소득을 열로 옮김

                   religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k
0                  Agnostic     27       34       60       81       76
1                   Atheist     12       27       37       52       35
2                  Buddhist     27       21       30       34       33
3                  Catholic    418      617      732      670      638
4        Don’t know/refused     15       14       15       11       10
5          Evangelical Prot    575      869     1064      982      881
6                     Hindu      1        9        7        9       11
7   Historically Black Prot    228      244      236      238      197
8         Jehovah's Witness     20       27       24       24       21
9                    Jewish     19       19       25       25       30
10            Mainline Prot    289      495      619      655      651
11                   Mormon     29       40       48       51       56
12                   Muslim      6        7        9       10        9
13    

In [159]:
# 열의 이름을 바꾸기 (var_name : 변수들을 행으로 바꾼 열의 이름, value_name : 값들을 행으로 바꾼 열의 이름)
pew_long = pd.melt(pew, id_vars='religion', var_name = 'income', value_name = 'count')
print(pew_long.head())

             religion income  count
0            Agnostic  <$10k     27
1             Atheist  <$10k     12
2            Buddhist  <$10k     27
3            Catholic  <$10k    418
4  Don’t know/refused  <$10k     15


In [160]:
billboard = pd.read_csv('data/billboard.csv')

In [161]:
print(billboard.iloc[0:5,0:16])

   year        artist                    track  time date.entered  wk1   wk2  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   87  82.0   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   91  87.0   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08   81  70.0   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21   76  76.0   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15   57  34.0   

    wk3   wk4   wk5   wk6   wk7   wk8   wk9  wk10  wk11  
0  72.0  77.0  87.0  94.0  99.0   NaN   NaN   NaN   NaN  
1  92.0   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  
2  68.0  67.0  66.0  57.0  54.0  53.0  51.0  51.0  51.0  
3  72.0  69.0  67.0  65.0  55.0  59.0  62.0  61.0  61.0  
4  25.0  17.0  17.0  31.0  36.0  49.0  53.0  57.0  64.0  


In [162]:
# 두 개 이상의 열을 고정하고 나머지를 행으로 바꾸기
billboard_long = pd.melt(billboard, id_vars = ['year','artist','track','time','date.entered'], var_name = 'week', value_name = 'rating')
print(billboard_long.head())

   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0


## 07 - 2 :  열 이름 관리하기
### 하나의 열이 여러 의미를 가지고 있는 경우

In [167]:
print(ebola.iloc[:5, [0,1,2,3,10,11]])

         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


In [168]:
# 먼저 Date와 Day를 고정하고 나머지를 피벗
ebola_long = pd.melt(ebola, id_vars = ['Date', 'Day'])
print(ebola_long.head())

         Date  Day      variable   value
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3    1/2/2015  286  Cases_Guinea     NaN
4  12/31/2014  284  Cases_Guinea  2730.0


In [169]:
# Cases_Guniea 같이 2개 이상의 의미를 갖는 열 이름을 split 메서드를 이용해 분리
variable_split = ebola_long.variable.str.split('_')
print(variable_split[:5]) # 이때 저장된 값은 시리즈, 시리즈 내 값들은 리스트임.

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object


In [170]:
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)
print(status_values[:5])
print(status_values[-5:])
print(country_values[:5])
print(country_values[-5:])

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: variable, dtype: object
1947    Deaths
1948    Deaths
1949    Deaths
1950    Deaths
1951    Deaths
Name: variable, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: variable, dtype: object
1947    Mali
1948    Mali
1949    Mali
1950    Mali
1951    Mali
Name: variable, dtype: object


In [171]:
ebola_long['status'] = status_values
ebola_long['country'] = country_values
print(ebola_long.head())

         Date  Day      variable   value status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea


## 07 - 3 : 여러 열을 하나로 정리하기

In [172]:
weather = pd.read_csv('data/weather.csv')
print(weather.iloc[:5, :]) # 날짜 열이 옆으로 늘어져 있음

        id  year  month element  d1    d2    d3  d4    d5  d6  ...  d22   d23  \
0  MX17004  2010      1    tmax NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
1  MX17004  2010      1    tmin NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
2  MX17004  2010      2    tmax NaN  27.3  24.1 NaN   NaN NaN  ...  NaN  29.9   
3  MX17004  2010      2    tmin NaN  14.4  14.4 NaN   NaN NaN  ...  NaN  10.7   
4  MX17004  2010      3    tmax NaN   NaN   NaN NaN  32.1 NaN  ...  NaN   NaN   

   d24  d25  d26  d27  d28  d29   d30  d31  
0  NaN  NaN  NaN  NaN  NaN  NaN  27.8  NaN  
1  NaN  NaN  NaN  NaN  NaN  NaN  14.5  NaN  
2  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
3  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
4  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  

[5 rows x 35 columns]


In [173]:
weather_melt = pd.melt(weather, id_vars = ['id', 'year', 'month', 'element'], var_name = 'day', value_name = 'temp')
print(weather_melt.head())

        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004  2010      3    tmax  d1   NaN


In [174]:
# pivot_table 메서드 : 행과 열의 위치를 다시 바꿔 정리해줌.
weather_tidy = weather_melt.pivot_table(index = ['id','year','month','day'], # 위치를 그대로 유지할 열
                                       columns = 'element', # 피벗할 열 이름
                                       values = 'temp', # 새로운 열의 데이터가 될 열
                                       dropna = False)
print(weather_tidy)

element                 tmax  tmin
id      year month day            
MX17004 2010 1     d1    NaN   NaN
                   d10   NaN   NaN
                   d11   NaN   NaN
                   d12   NaN   NaN
                   d13   NaN   NaN
...                      ...   ...
             12    d5    NaN   NaN
                   d6   27.8  10.5
                   d7    NaN   NaN
                   d8    NaN   NaN
                   d9    NaN   NaN

[341 rows x 2 columns]


In [175]:
# reset_index() : 데이터 프레임의 인덱스를 새로 지정
weather_tidy_flat = weather_tidy.reset_index()
print(weather_tidy_flat.head())

element       id  year  month  day  tmax  tmin
0        MX17004  2010      1   d1   NaN   NaN
1        MX17004  2010      1  d10   NaN   NaN
2        MX17004  2010      1  d11   NaN   NaN
3        MX17004  2010      1  d12   NaN   NaN
4        MX17004  2010      1  d13   NaN   NaN


## 07 - 3 : 중복 데이터 처리하기

In [176]:
print(billboard_long.shape)

(24092, 7)


In [177]:
print(billboard_long.head())

   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0


In [178]:
# 중복 데이터
print(billboard_long[billboard_long.track == 'Loser'].head())

      year        artist  track  time date.entered week  rating
3     2000  3 Doors Down  Loser  4:24   2000-10-21  wk1    76.0
320   2000  3 Doors Down  Loser  4:24   2000-10-21  wk2    76.0
637   2000  3 Doors Down  Loser  4:24   2000-10-21  wk3    72.0
954   2000  3 Doors Down  Loser  4:24   2000-10-21  wk4    69.0
1271  2000  3 Doors Down  Loser  4:24   2000-10-21  wk5    67.0


In [179]:
# 중복 데이터를 가지고 있는 열을 따로 모아 새로운 데이터 프레임에 저장
billboard_songs = billboard_long[['year','artist','track','time']]
print(billboard_songs.shape)

(24092, 4)


In [180]:
# drop_duplicates() 메서드 이용
billboard_songs = billboard_songs.drop_duplicates()
print(billboard_songs.shape)

(317, 4)


In [181]:
billboard_songs['id'] = range(len(billboard_songs))
print(billboard_songs.head(10))

   year          artist                    track  time  id
0  2000           2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000         2Ge+her  The Hardest Part Of ...  3:15   1
2  2000    3 Doors Down               Kryptonite  3:53   2
3  2000    3 Doors Down                    Loser  4:24   3
4  2000        504 Boyz            Wobble Wobble  3:35   4
5  2000            98^0  Give Me Just One Nig...  3:24   5
6  2000         A*Teens            Dancing Queen  3:44   6
7  2000         Aaliyah            I Don't Wanna  4:15   7
8  2000         Aaliyah                Try Again  4:03   8
9  2000  Adams, Yolanda            Open My Heart  5:30   9


In [182]:
# merge를 이용해 노래 정보와 주간 순위 데이터 합침
billboard_ratings = billboard_long.merge(billboard_songs, on=['year', 'artist', 'track', 'time'])
print(billboard_ratings.shape)
print(billboard_ratings.head())

(24092, 8)
   year artist                    track  time date.entered week  rating  id
0  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0   0
1  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk2    82.0   0
2  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk3    72.0   0
3  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk4    77.0   0
4  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk5    87.0   0


## 07 - 5 : 대용량 데이터 처리하기

### 여러 개로 나누어진 데이터 불러오기
- 데이터는 나누어 저장하면 용량이 작아져 공유가 쉬워지므로 나누어 저장하기도 함.

In [183]:
import os
import urllib.request

with open('data/raw_data_urls.txt', 'r') as data_urls :
    for line, url in enumerate(data_urls):
        if line == 5:
            break
        fn = url.split('/')[-1].strip()
        fp = os.path.join('','data',fn)
        print(url)
        print(fp)
        urllib.request.urlretrieve(url,fp)

https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-01.csv

data\fhv_tripdata_2015-01.csv


HTTPError: HTTP Error 403: Forbidden

#### 이후
- fhv_tripdata_YYYY_MM.csv 라고 저장된 파일을 glob.glob('data/fhv_*')로 불러옴.
- 해당 파일은 리스트로 파일 이름이 저장되어 있음.
- 각 파일을 여러 데이터 프레임으로 저장하고 pd.concat으로 데이터 프레임을 연결.