# Book_<파이썬 Jupyter Notebook 실전 입문>_#3장_Pandas 데이터 처리

#### 출판사 '터닝포인트'
#### 이케우치 타카히로, 카타야나기 노부코, 이와오 엠마 하루카, @driller 지음

#### 판다스(Pandas)란?
    레이블이 부여된 데이터를 쉽고 직관적으로 취급할 수 있도록 설계된 Python 서드파티 패키지
    Pandas의 두 가지 주요 데이터구조인 1) Series(1차원 데이터)와 2)DataFrame(2차원 데이터)은 금융, 통계 사회과학 등 많은 분야의 데이터 처리에 적합하다.

## 3-2 Sample Data 설명

In [1]:
import os
import pandas as pd

base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime_split_genre.csv')

pd.read_csv(anime_csv).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,20707,"""0""",Music,Music,1,5.06,1170
1,25627,"""Aesop"" no Ohanashi yori: Ushi to Kaeru, Yokub...",Kids,Movie,1,5.0,113
2,7669,"""Bungaku Shoujo"" Kyou no Oyatsu: Hatsukoi",Comedy,OVA,1,7.06,14351
3,7669,"""Bungaku Shoujo"" Kyou no Oyatsu: Hatsukoi",School,OVA,1,7.06,14351
4,7669,"""Bungaku Shoujo"" Kyou no Oyatsu: Hatsukoi",Fantasy,OVA,1,7.06,14351


In [2]:
anime_csv = os.path.join(base_url, 'anime_stock_price.csv')
pd.read_csv(anime_csv, index_col=0, parse_dates=['Date']).head()

Unnamed: 0_level_0,TOEI ANIMATION,IG Port
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,3356.86,1201.51
2015-01-02,3356.86,1201.51
2015-01-05,3396.12,1218.44
2015-01-06,3361.77,1201.51
2015-01-07,3297.97,1202.51


In [3]:
anime_csv = os.path.join(base_url, '4816.csv')
pd.read_csv(anime_csv, index_col=0, parse_dates=['Date']).head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-01-04,1600.0,1600.0,1580.0,1597.0,5600.0
2010-01-05,1597.0,1605.0,1590.0,1600.0,14800.0
2010-01-06,1600.0,1602.0,1579.0,1601.0,8300.0
2010-01-07,1600.0,1600.0,1590.0,1595.0,3700.0
2010-01-08,1599.0,1601.0,1595.0,1600.0,32300.0


## 3-3 Series

    #특징
    index(label)를 가지는 1차원 데이터
    index는 중복 가능
    lable 또는 데이터 위치를 지정한 추출 가능. 
    index 슬라이스 가능
    산술 연산 가능. 통계량 산출 가능.
    
    #제1인수
    - list
    - tuple
    - dictionary
    - numpy.ndarray
    
    #ex
    index | values
    index | values
    index | values
    ..

In [4]:
# index 지정할 경우
import pandas as pd

ser = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [5]:
# index 생략할 경우
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [6]:
# Series.loc : lable(index) 사용해서 데이터 선택하기

ser.loc['b']

2

In [7]:
# loc 생략해서 데이터 선택하기
ser['b']

2

In [8]:
# label 범위 지정해서 데이터 선택하기
ser.loc['b':'c']

b    2
c    3
dtype: int64

In [9]:
# 복수 요소 지정
ser.loc[['a', 'c']] #list

a    1
c    3
dtype: int64

In [10]:
#Series.iloc : 데이터 위치를 정수값으로 지정해 데이터 선택

ser.iloc[1]
ser.iloc[1:3]


b    2
c    3
dtype: int64

In [11]:
# 논리값 지정해 데이터 선택
ser.loc[[True, False, True]]

a    1
c    3
dtype: int64

In [12]:
# Series에 대한 비교 연산
ser != 2

a     True
b    False
c     True
dtype: bool

In [13]:
# 비교 연산 이용한 데이터 추출
ser[ser !=2]

a    1
c    3
dtype: int64

## 3-4 DataFrame

    DataFrame은 행과 열에 레이블을 가진 2차원 데이터.
    
    #인수
    - 1차원 또는 2차원 데이터

In [14]:
# basic code

df = pd.DataFrame([[1, 10, 100], [2, 20, 200], [3, 30, 300]],
                 index=['r1', 'r2', 'r3'],
                 columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [15]:
# label 사용해서 데이터 선택
df.loc['r2', 'c2']

20

In [16]:
# 모든 행(열) 지정하는 경우 - [:]
df.loc['r2',:]

c1      2
c2     20
c3    200
Name: r2, dtype: int64

In [17]:
df.loc[:, 'c2']

r1    10
r2    20
r3    30
Name: c2, dtype: int64

In [18]:
# 슬라이스 또는 리스트 넘겨주기
df.loc[['r1', 'r3'], 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


In [19]:
# iloc 활용해 데이터 선택 
# * iloc : Purely integer-location based indexing for selection by position.

df.iloc[1:3, [0, 2]]

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


In [20]:
# 열 이름 지정해서 데이터 선택
df['c2']

r1    10
r2    20
r3    30
Name: c2, dtype: int64

In [21]:
# 논리값 사용해 데이터 선택
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [22]:
# c2열의 값이 10보다 큰 데이터

df.loc[df['c2'] >10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


In [23]:
df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


## 3-5 다양한 데이터 불러오기

    Pandas는 다양한 형식의 데이터를 불러올 수 있음.
    - CSV
    - Excel
    - Database
    - JSON
    - MessagePack
    - HTML
    - Google BigQuery
    - Clipboard
    - Pickle
    - etc

#### CSV 파일 불러오기

In [24]:
import os
import_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')

df = pd.read_csv(anime_csv).head()
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [25]:
# 인덱스 열 이름 지정
df = pd.read_csv(anime_csv, index_col='anime_id')
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [26]:
# 열의 형식 변경
df = pd.read_csv(anime_csv, dtype={'members': float})
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630.0
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665.0
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262.0
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572.0
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266.0


In [27]:
# datetime 형의 열이 포함된 경우
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
df.dtypes

Date              datetime64[ns]
TOEI ANIMATION           float64
IG Port                  float64
dtype: object

In [28]:
# 단락 문자 변경
anime_tsv = os.path.join(base_url, 'anime.tsv')
df = pd.read_csv(anime_tsv, sep='\t')

#### Excel 파일 불러오기

In [29]:
# basic code

anime_xlsx = os.path.join(base_url, 'anime.xlsx')
df = pd.read_excel(anime_xlsx)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
2,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
3,199,Sen to Chihiro no Kamikakushi,"Adventure, Drama, Supernatural",Movie,1,8.93,466254
4,12355,Ookami Kodomo no Ame to Yuki,"Fantasy, Slice of Life",Movie,1,8.84,226193


In [30]:
# 특정 시트 불러오기
df = pd.read_excel(anime_xlsx, sheetname='Movie')

TypeError: read_excel() got an unexpected keyword argument 'sheetname'

#### SQL 사용해 불러오기

    pandas.read_sql()
    제1인수 : 쿼리를 실행하는 SQL문
    제2인수 : SQLAlchemy or DBAPI2의 접속 인스턴스 넘겨줌

In [None]:
from urllib.request import urlopen
import sqlite3

anime_db = os.path.join(base_url, 'anime.db')
res = urlopen(anime_db)
with open('anime.db', 'wb') as f:
    f.write(res.read())
    with sqlite3.connect(f.name) as conn:
        df = pd.read_sql('SELECT * FROM anime', conn)

#### HTML 파일 불러오기

    HTML 파일의 table 요소를 DataFrame으로 불러온다. 

In [None]:
url = 'https://docs.python.org/3/py-modindex.html'
tables = pd.read_html(url, index_col=1)
tables[0].loc[:, 1:].dropna().head(10)

## 3-6 데이터 처리

In [None]:
# 논리값으로 데이터 처리
import os
import pandas as pd
base_url = 'http://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')
df = pd.read_csv(anime_csv)

df.loc[df['episodes'] == 'Unknown'].head()

In [None]:
# Where 메서드로 데이터 추출하기
df.where(df['rating'] < 9.2).head()

In [None]:
# 값 변경

import numpy as np

df.loc[74, 'episodes']  = np.nan
df.loc[74, 'episodes']

In [None]:
# 결손값 제외하기 (NaN은 결손값임)
df.loc[df['episodes'].isnull()].head()

In [None]:
# 결손값이 포함되어 있는 데이터 제외
df.dropna().loc[70:].head()

In [None]:
#비파괴적 조작
df.loc[70:].head()

In [None]:
# DataFrame의 내용을 파괴적으로 다시 쓰는 경우
df.dropna(inplace=True)
df.loc[70:].head()

#### 데이터형
    Series나 DataFrame은 작성된 시점에서 데이터형이 자동으로 설정됨. 
    수치 데이터는 NumPy의 데이터형이, 문자열 등의 데이터는 object형으로 취급됨.

In [None]:
# 데이터 형
df['anime_id'].dtype

In [None]:
# DataFrame의 데이터 형을 확인하는 경우
df.dtypes

In [None]:
pd.options.display.max_rows=10
df['episodes'].astype(np.int64)

In [None]:
# Sort 하기
df.sort_values('rating', ascending=False).head()

In [None]:
# 함수 적용하기
# map 메서드에 의한 함수 적용

import html

print(df['name'].head())
print(df['name'].map(html.unescape).head())

In [None]:
# apply 메서드에 의한 함수 적용
df.apply(len)

In [None]:
df.apply(len, axis=1).head()

##  3-7. 통계량 산출

    Series나 DataFrame에는 일반적인 수학적, 통계적인 계산을 실행하는 메서드를 사용할 수 있다.

In [None]:
import os
import pandas as pd

base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

df.mean()

In [31]:
df['members'].sum()

24062234