# 데이터 불러오기
### 샘플 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
anime_csv = './sample-data/anime/anime.csv'

In [5]:
df = pd.read_csv(anime_csv)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


### 데이터 처리
#### 논리값으로 데잍 추출하기

In [6]:
df.loc[df['episodes'] == 'Unknown'].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,Unknown,8.58,504862
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,Unknown,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,Unknown,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,Unknown,7.72,5400
1226,21639,Yu☆Gi☆Oh! Arc-V,"Action, Fantasy, Game, Shounen",TV,Unknown,7.61,17571


#### where 메서드로 데이터 추출하기
앞의 레이블을 사용한 방법에서는 검색 조건에 맞지 않은 행은 제외되었습니다. DataFrame.where( ) methon는 해
당하지 않는 데이터를 NaN 으로 채운 DataFrame을 되돌려줍니다. rating열이 9.2보다 작은 데이터를 추출해서 조
건에 맞지 않은 데이터는 NaN으로 채운 DataFrame으로 되돌려줍니다.

※ NaN이란? Not a Number로 컴퓨터 연산에서 NaN은 연산 과정에서 잘못된 입력을 받았음을 나타내는 기호입니
다.

In [7]:
df.where(df['rating'] < 9.2).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,,,,,,,
1,,,,,,,
2,,,,,,,
3,9253.0,Steins;Gate,"Sci-Fi, Thriller",TV,24.0,9.17,673572.0
4,9969.0,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51.0,9.16,151266.0


#### 값 변경하기
DataFrame의 레이블을 지정하고 값을 대입하면 지정된 범위의 값이 바뀝니다. 행과 열의 레이블을 지정해서 값을
NaN으로 변경 해보겠습니다.

In [8]:
df.loc[74, 'episodes'] = np.nan
df.loc[74, 'episodes']

nan

복수의 값을 변경하는 것도 가능합니다. episodes 열의 값이 Unknown일 경우에 값을 NaN으로 변경해보겠습니
다.

In [9]:
df.loc[df['episodes'] == 'Unknown', 'episodes'] = np.nan

#### 결손값 제외하기
NaN은 결손값으로 취급됩니다. isnull( )함수는 결손값일 경우에 True를 반환합니다. isnull( )함수를 이용해서
episodes 열에 결손값이 있는 값을 추출해보겠습니다.

In [10]:
df.loc[df['episodes'].isnull()].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,,7.72,5400


#### 결손값이 포함되어 있는 데이터 제외하기
DataFrame.dropna( )함수를 이용하여 결손값이 포함된 데이터를 제외할 수 있습니다.

In [11]:
df.dropna().loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658


실행을 해보면, 73~74 행이 제외되어 있는 것을 확인할 수 있습니다.

dropna( )는 기본적으로 비파괴적 조작입니다. 다시 한 번 이전 DataFrame을 참조한 경우에 제외했던 값이 남아있
는 경우를 확인할 수 있습니다.

In [12]:
df.loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1.0,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25.0,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25.0,8.58,28653
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993


#### DataFrame의 내용을 파괴적으로 다시 쓰는 경우
파괴적으로 DataFrame의 내용을 다시 쓰는 경우, dropna()의 키워드 인수 inplace에 True를 지정할 수 있습니다.
파괴적 조작은 이전의 오브젝트를 다시 쓰는 조작이며, 이전의 오브젝트를 유지해서 새로운 오브젝트를 작성하는
조작을 가리킵니다. 파괴적인 조작을 하면 대상의 오브젝트 참조하고 있는 다른 처리에 대해서도 영향을 주기 때
문에 주의가 필요합니다.

In [13]:
df.dropna(inplace=True)
df.loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658


### 데이터 형
Series나 DataFrame은 작성된 시점에 데이터형이 자동적으로 설정됩니다. 수치 데이터는 Numpy의 데이터형이
저장되고 문자열 등의 데이터는 object형으로 취급됩니다.
#### Series의 데이터 형을 확인하는 경우
Series의 데이터 형을 확인할 때는 dtype을 참조하면 됩니다.

In [14]:
df['anime_id'].dtype

dtype('int64')

#### DataFrame의 데이터 형을 확인하는 경우
DataFrame의 데이터 형을 확인할 때는 dtypes을 참조하면 됩니다

In [15]:
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes     object
rating      float64
members       int64
dtype: object

DataFrame이 열마다 형을 가지고 있는 것을 확인할 수 있습니다. 형을 변환하는 경우에는 astype() 함수를 사용할
수 있습니다. 인수에는 type형 또는 Numpy의 데이터 형을 지정할 수 있습니다.

In [16]:
pd.options.display.max_rows = 10 # pandas에서 표시하는 행 수를 설정
df['episodes'].astype(np.int64)

0         1
1        64
2        51
3        24
4        51
         ..
10272     1
10273    23
10274     1
10275     1
10276    32
Name: episodes, Length: 10075, dtype: int64

#### 복수열의 형을 변경하는 경우
복수열의 형을 변경하는 경우에는 인수에 사전을 지정할 수 있습니다.

In [17]:
df.astype({'episodes': np.int64, 'rating': np.float64})

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...,...
10272,11095,Zouressha ga Yatte Kita,Adventure,Movie,1,6.06,78
10273,7808,Zukkoke Knight: Don De La Mancha,"Adventure, Comedy, Historical, Romance",TV,23,6.47,172
10274,28543,Zukkoke Sannin-gumi no Hi Asobi Boushi Daisakusen,"Drama, Kids",OVA,1,5.83,50
10275,18967,Zukkoke Sannin-gumi: Zukkoke Jikuu Bouken,"Comedy, Historical, Sci-Fi",OVA,1,6.13,76


형 변환 후의 DataFrame을 확인해보겠습니다.

In [18]:
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes     object
rating      float64
members       int64
dtype: object

#### DataFrame을 다시 쓰는 경우
DataFrame을 다시 쓰는 경우에는 열을 지정해서 대입하면 됩니다.

In [19]:
df['episodes'] = df['episodes'].astype(np.int64)
df.dtypes

anime_id      int64
name         object
genre        object
type         object
episodes      int64
rating      float64
members       int64
dtype: object

### 소트하기
데이터의 순서를 바꿀 때는 sort_values() 함수를 사용하면 됩니다. 대상이 DataFrame의 경우에는 인수에 열 이름
을 지정합니다. 초기 설정에서는 오름차순으로 소트됩니다. 내림차순으로 소트하는 경우에는 키워드 인수
ascending에 False를 지정하면 됩니다. rating 열이 내림차순이 되도록 데이터를 소트해보겠습니다.

In [20]:
df.sort_values('rating', ascending=False).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
9846,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13
8985,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
8474,33607,Kahei no Umi,Historical,Movie,1,9.33,44
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665


sort_values()는 비파괴적인 조작입니다. 이전 데이터를 다시 쓰는 경우에는 키워드 인수 inplace에 True를 지정한
다.

### 함수 적용하기
Series 또는 DataFrame에서 함수를 사용하여 임의의 함수를 적용할 수 있습니다. applymap() 함수는 DataFrame
만 사용할 수 있습니다.
#### map에 의한 함수 적용
map()을 사용해서 name 열(Series)에 html.unescape() 함수를 적용해보겠습니다. 작품명 Gintama'의 HTML 특수
문자가 변환되어 있는 것을 확인할 수 있습니다.

In [21]:
import html
print(df['name'].head())
print(df['name'].map(html.unescape).head())

0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                       Gintama&#039;
Name: name, dtype: object
0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                            Gintama'
Name: name, dtype: object


#### apply() 에 의한 함수적용
apply()를 이용해서 DataFrame의 각 열에 대한 대한 임베디드 함수 len()을 적용해보겠습니다.

In [22]:
df.apply(len)

anime_id    10075
name        10075
genre       10075
type        10075
episodes    10075
rating      10075
members     10075
dtype: int64

#### apply 를 이용한 행에 대한 함수 적용
각각의 행에 함수를 적용하는 경우, 키워드 인수 axis에 1을 지정합니다.

In [23]:
df.apply(len, axis=1).head()

0    7
1    7
2    7
3    7
4    7
dtype: int64

#### apply 에 넘겨준 함수의 인수에 레이블 지정하기
apply()에 넘겨진 함수에 넘겨지는 인수는 Series형이 됩니다. 행에 대해 실시한 경우도 같습니다.

In [24]:
df.apply(type)

anime_id    <class 'pandas.core.series.Series'>
name        <class 'pandas.core.series.Series'>
genre       <class 'pandas.core.series.Series'>
type        <class 'pandas.core.series.Series'>
episodes    <class 'pandas.core.series.Series'>
rating      <class 'pandas.core.series.Series'>
members     <class 'pandas.core.series.Series'>
dtype: object

이를 이용해서 적용하는 함수의 안에 레이블을 지정할 수 있습니다. name열과 genre열의 문자수를 합산 해보겠습니다.

In [25]:
df.apply(lambda x: len(x['name']) + len(x['genre']), axis=1).head()

0    50
1    91
2    68
3    27
4    73
dtype: int64

#### applymap()에 의한 함수 적용
applymap()을 사용해서 DataFrame의 이름값에 대한 len()을 적용해보겠습니다.

In [26]:
df[['name', 'genre']].applymap(len).head()

Unnamed: 0,name,genre
0,14,36
1,32,59
2,8,60
3,11,16
4,13,60
