## Ch03-06  데이터 처리
데이터 추출이나 결손값의 취급 방법 등 pandas를 사용한 데이터 처리의 기본을 설명한다. 

### 논리값으로 데이터 추출하기
Series에 대해 비교 연산자를 사용하여 loc로 레이블을 지정한다. 다음 코드는 episodes 열이 Unknown이 된 데이터를 추출한다. 

In [1]:
import os
import pandas as pd

anime_csv = './anime/anime.csv'
df = pd.read_csv(anime_csv)

df.loc[df['episodes']== 'Unknown'].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,Unknown,8.58,504862
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,Unknown,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,Unknown,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,Unknown,7.72,5400
1226,21639,Yu☆Gi☆Oh! Arc-V,"Action, Fantasy, Game, Shounen",TV,Unknown,7.61,17571



### where 메서드로 데이터 추출하기

앞의 레이블을 사용한 방법에는 검색 조건에 맞지 않는 행은 제외되었다. 

DataFrame.where() 메서드는 해당하지 않는 데이터를 NaN으로 채운 DataFrame을 되돌려 준다. 
rating 열이 9.2 보다 작은 데이터를 추출해서 조건에 맞지 않은 데이터는 NaN 으로 채운 DataFrame을 되돌려 준다.


In [2]:
df.where(df['rating']<9.2).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,,,,,,,
1,,,,,,,
2,,,,,,,
3,9253.0,Steins;Gate,"Sci-Fi, Thriller",TV,24.0,9.17,673572.0
4,9969.0,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51.0,9.16,151266.0



### 값 변경하기

DataFrame의 레이블을 지정하고 값을 대입하면 지정된 범위의 값이 바뀐다. 
다음은 행과 열의 레이블을 지정해서 값을 NaN으로 변경하는 예이다. 


In [3]:
import numpy as np

df.loc[74, 'episodes'] = np.nan
df.loc[74, 'episodes']

nan

#### 복수의 값 변경
복수의 값을 변경하는 것도 가능하다. 다음 코드는 episodes 열의 값이 Unknown일 경우에 값을 NaN으로 변경하고 있다. 

In [4]:
df.loc[df['episodes']=='Unknown', 'episodes'] = np.nan


### 결손 값 제외 하기
NaN 은 결손값으로 취급된다. isnull() 메서드는 결손값일 경우에 True를 되돌려 준다. 
다음 코드는 isnull()을 이용해서 episode 열에 결손값이 있는 값을 추출한다. 

In [5]:
df.loc[df['episodes'].isnull()].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,,7.72,5400


- isnull()의 반대는 isnotnull이 아니라 notnull() 이다. 

In [6]:
df.loc[df['episodes'].notnull()].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266



### 결손값이 포함되어 있는 데이터 제외

DataFrame.dropna() 메서드를 이용하여 결손값이 포함된 데이터를 제외할 수 있다. 
행레이블 73~74가 제외되어 있는 것을 알 수 있다

dropnan() 은 기본적으로 비파괴 조작이다 다시 한 번 이전 DataFrame을 참조한 경우에 제외했던 값이 남아 있음을 알 수 있다. 

In [7]:
df.dropna().loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658


In [8]:
df.loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1.0,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25.0,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25.0,8.58,28653
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993


### DataFrame의 내용을 파괴적으로 다시 쓰는 경우

파괴적으로 DataFrame의 내용을 다시 쓰는 경우, dropna()의 키워드 인수 inplaace에 True를 지정한다.

In [9]:
df.dropna(inplace=True)
df.loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658



### 데이터형
Series나 DataFrame은 작성된 시점에 데이터형이 자동적으로 설정된다. 수치 데이터는 NumPy의 데이터형이 저장되고, 문자열 등의 데이터는 object 형으로 취급된다.

#### Series의 데이터형을 확인하는 경우 
Series의 데이터형을 확인할 때는 dtype을 참조한다 

In [10]:
df['anime_id'].dtype

dtype('int64')

#### DataFrame의 데이터 형을 확인하는 경우
DataFrame의 데이터 형을 확인할 때는 dtypes을 참조한다. 

In [11]:
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes     object
rating      float64
members       int64
dtype: object

형을 변환하는 경우에는 astype() 메서드를 사용한다. 인수는 type형 또는 NumPy의 데이터 형을 지정한다. 

In [12]:
pd.options.display.max_rows=10 # pandas에서 표시하는 행 수를 설정
# pandsa.options.display.max_rows는 지면 관계상 출력을 한정하는 목적으로 설정할 수 있다. 
df['episodes'].astype(np.int64)
# df['episodes'].astype(np.int64).head()  #  그냥 하던 대로 head()메서드를 써도 된다. 

0         1
1        64
2        51
3        24
4        51
         ..
10272     1
10273    23
10274     1
10275     1
10276    32
Name: episodes, Length: 10075, dtype: int64

#### 복수열의 형을 변경하는 경우

복수열의 형을 변경하는 경우에는 인수에 사전을 지정한다. 


In [13]:
df.astype({'episodes':np.int64, 'rating':np.float64}).head()


Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [14]:
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes     object
rating      float64
members       int64
dtype: object

#### DataFrame을 다시 쓰는 경우
DataFrame을 다시 쓰는 경우에는 열을 지정해서 대입한다. 

In [15]:
df['episodes'] = df['episodes'].astype(np.int64)
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes      int64
rating      float64
members       int64
dtype: object

#### 소트하기

데이터의 순서를 바꿀 때는 sort_values()메서드를 사용한다. 대상이 DataFrame의 경우에는 인수에 열 이름을 지정한다. 초기 설정에서는 오름차순으로 설정한다. 내림차순으로 소트하는 경우에는 키워드 인수 ascending에 False를 지정한다. 

sort_values() 메서드는 비파괴적인 조작이다. 이전데이터를 다시 쓰는 경우에는 인수 inplace에 True를 지정한다. 

df.sort_values('rating', ascending=False, inplace=True)

In [16]:
df.sort_values('rating', ascending=False).head()
# df.sort_values('rating', inplace=True, ascending=False)
# df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
9846,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13
8985,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
8474,33607,Kahei no Umi,Historical,Movie,1,9.33,44
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665


#### 함수 적용하기

Series 또는 DataFrame에서 다음 메서드를 사용하여 임의의 함수를 적용할 수 있다. 


메서드    | 통용대상               | 돌아오는 값
--------|----------------------|------------
map     | Series(값별)          | Series
apply   | DataFrame(열 또는 행별) | Series
applymap| DataFrame(값별)       | DataFrame 

### map 메서드에 의한 함수 적용

다음 코드는 map()메서드를 사용해서 name 열(Series)에 html.unescape()함수를 적용하고 있다. 

In [17]:
import html

print(df['name'].head())
print(df['name'].map(html.unescape).head())

0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                       Gintama&#039;
Name: name, dtype: object
0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                            Gintama'
Name: name, dtype: object


#### apply 메서드에 의한 함수 적용
다음 코드는 apply() 메서드를 사용해서 DataFrame의 각 열에 대한 임베디드 함수 len()을 적용하고 있다. 

In [18]:
df.apply(len)

anime_id    10075
name        10075
genre       10075
type        10075
episodes    10075
rating      10075
members     10075
dtype: int64

#### apply 메서드를 이용한 행에 대한 함수 적용
각각의 행에 함수를 적용하는 경우, 키워드 인수 axis에 1을 지정한다. 

In [19]:
df.apply(len, axis=1).head()

0    7
1    7
2    7
3    7
4    7
dtype: int64

#### applymap 메서드를 이용한 함수 적용
DataFrame의 이름값에 대한 len()을 적용하고 있다. 

In [20]:
df[['name', 'genre']].applymap(len).head()

Unnamed: 0,name,genre
0,14,36
1,32,59
2,8,60
3,11,16
4,13,60
