# 1장 pandas 기초

- pandas 데이터의 각 column은 단일 data type만 저장한다.
- DataFrame 데이터의 각 column을 선택할 수 있다. 그 결과는 Series를 반환한다.

## 가. pandas 주요 구성 요소
- index, index label
- columns
- axis 0
- axis 1
- data

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
movie = pd.read_csv('../data/movie.csv')
movie.head()

- color, director_name 등을 column name
- 0, 1, 2 등을 index, index는 index label을 총칭하는 단어
- index 방향을 axis 0 (수직축)
- 가로 방향을 axis 1 (수평축)

- head(n) 상위 n개
- tail(n) 하위 n개

## 나. DataFrame의 주요 attribute

### attribute
- index
- columns
- values

### index

In [None]:
# index는 range 와 유사하게 생겼다.
index = movie.index
index

In [None]:
# list
[val for val in index]

In [None]:
len(index.values)

In [None]:
index.values

### columns

In [None]:
columns = movie.columns
columns

In [None]:
len(columns)

In [None]:
columns.values

### values

In [None]:
data = movie.values
data

- index, columns, 데이터 모두 Numpy의 ndarray로 만들어져있다.

## 다. pandas의 Data Type

- 중요한거 몇 가지만 기억하자.
    - Boolean: bool
    - Integer: int
    - Float: float
    - Object: 문자열, 다른 파이썬 객체(tuple, list, dict)
    - Datetime
    - Timedelta

In [None]:
# DataFrame 각 열의 Data Type을 표시
movie.dtypes

In [None]:
# 각 type 별 개수를 확인한다.
movie.get_dtype_counts()

## 라. 데이터 단일 열을 Series로 선택하기
- indexing operator
- dot notation: 추천하지 않는다.

In [None]:
movie['director_name']

In [None]:
movie.director_name

### tip
- shift + tab + tab

In [None]:
# Series의 name attribute
director = movie['director_name']
director.name

In [None]:
# to_frame() 메서드를 이용하여 Series를 단일 column을 가진 DafaFrame으로 변환한다.
# Series의 이름을 column name으로 사용한다.
director.to_frame().head()

## 마. Series, DataFrame의 attribute / method
- Series와 DataFrame은 각각 다양한 attribute와 메서드를 가지고 있다.

- dir 함수로 확인할 수 있다.

----
### tip. python 기초: set

In [None]:
set([1, 2, 2, 3, 3])

In [None]:
(set([1, 2, 3]) & set([2, 3, 4]))

In [None]:
len((set([1, 2, 3]) & set([2, 3, 4])))

----

In [None]:
# Series의 attribute + method
len(dir(pd.Series))

In [None]:
# DataFrame의 attribute + method
len(dir(pd.DataFrame))

In [None]:
len(set(dir(pd.Series)) & set(dir(pd.DataFrame)))

- Series와 DataFrame의 많은 수의 attribute와 메서드를 공유한다는 것을 알 수 있다.

- 1.head() / tail()
- 2.value_counts(): 각 데이터의 빈도 출력, 대략적인 분포 확인, value_counts(normalize=True): 정규화
- 3.size / shape: 데이터의 길이? 개수
- 4.count(): NaN이 아닌 데이터의 개수
- 5.min(), max(), mean(), median(), std(), sum()
- 6.describe(): 숫자 데이터와 아닐 때 각각 결과가 다름
- 7.quantile()
- 8.isnull() / notnull() / isnull().sum() / notnull().sum()
- 9.fillna() / dropna()
- 10.hasnans: True/Fasle

In [None]:
movie = pd.read_csv('../data/movie.csv')

In [None]:
director = movie['director_name']

In [None]:
actor_1_fb_likes = movie['actor_1_facebook_likes']

In [None]:
director.head()

In [None]:
actor_1_fb_likes.head()

In [None]:
# 각 데이터의 count를 출력
director.value_counts()

In [None]:
actor_1_fb_likes.value_counts()

- size, shape, len() 함수 거의 동일한 기능을 한다.

In [None]:
# Series가 속한 DataFrame의 row 수와 동일하다.
director.size

In [None]:
director.shape

In [None]:
len(director)

In [None]:
# NaN 제외
director.count()

In [None]:
len(director) - director.count()

In [None]:
director.isnull().sum()

In [None]:
(actor_1_fb_likes.min(), actor_1_fb_likes.max(),
 actor_1_fb_likes.mean(), actor_1_fb_likes.median(),
 actor_1_fb_likes.std(), actor_1_fb_likes.sum())

In [None]:
actor_1_fb_likes.describe()

In [None]:
director.describe()

In [None]:
actor_1_fb_likes.quantile(0.2)

In [None]:
actor_1_fb_likes.quantile([.1, .2, .3, .4, .5, .6, .7, .8, .9])

In [None]:
director.isnull()

In [None]:
director_fill = director.fillna('leesuho')

In [None]:
director_fill.describe()

In [None]:
director_drop = director.dropna()

In [None]:
director_drop.describe()

In [None]:
director.value_counts(normalize=True)

In [None]:
director.hasnans

In [None]:
director.notnull()

In [None]:
director.notnull().sum()

## 바. Series 메서드 체인
- dot notation을 사용해서 메서드를 연속적으로 호출하는 것을 method chaining이라고 한다.
- Series나 DataFrame 메서드는 또 다른 Series나 DataFrame을 반환하므로 method chaining이 용이하다.

In [None]:
movie = pd.read_csv('../data/movie.csv')

In [None]:
director = movie['director_name']
actor_1_fb_likes = movie['actor_1_facebook_likes']

In [None]:
director.value_counts().head(3)

In [None]:
director.isnull().sum()

In [None]:
actor_1_fb_likes.dtype

In [None]:
actor_1_fb_likes.fillna(0)\
                .astype(int)\
                .head()

In [None]:
(actor_1_fb_likes.fillna(0)
                 .astype(int)
                 .head())

In [None]:
actor_1_fb_likes.isnull().mean()

## index를 의미 있게 만들기
- DataFrame의 index는 각 row의 label을 제공한다.
- DataFrame을 생성할 때 명시적인 index를 제공하지 않으면 디폴트로 RangeIndex가 생성된다.
- RangeIndex는 0부터 n-1까지 정수가 부여된다.

In [None]:
movie = pd.read_csv('../data/movie.csv')

In [None]:
movie2 = movie.set_index('movie_title')

In [None]:
movie2.head()

In [None]:
movie = pd.read_csv('../data/movie.csv', index_col='movie_title')

In [None]:
movie.head()

In [None]:
movie2.reset_index()

## Rename row and column

In [None]:
movie = pd.read_csv('../data/movie.csv', index_col='movie_title')

In [None]:
movie.head()

In [None]:
idx_rename = {'Avatar': 'Evatar', 'Spectre': 'Ertceps'}

In [None]:
movie_rename = movie.rename(index=idx_rename)

In [None]:
movie_rename.head()

In [None]:
col_rename = {'director_name': 'Director Name', 'num_critic_for_reviews': 'Critical Reviews'}

In [None]:
movie_rename = movie.rename(columns=col_rename)

In [None]:
movie_rename.head()

In [None]:
movie = pd.read_csv('../data/movie.csv', index_col='movie_title')

In [None]:
index = movie.index

In [None]:
columns = movie.columns

In [None]:
index_list = index.tolist()

In [None]:
columns_list = columns.tolist()

In [None]:
index_list[0] = 'Ratava'

In [None]:
index_list[2] = 'Ertceps'

In [None]:
columns_list[0] = 'Director Name'

In [None]:
columns_list[2] = 'Critical Reviews'

In [None]:
index_list

In [None]:
columns_list

In [None]:
movie.index = index_list

In [None]:
movie.columns = columns_list

In [None]:
movie.head()

## Create/Delete columns

In [None]:
movie = pd.read_csv('../data/movie.csv')

In [None]:
movie['has_seen'] = 0

In [None]:
movie.head()

In [None]:
movie['actor_director_facebook_likes'] = \
    (movie['actor_1_facebook_likes'] +
     movie['actor_2_facebook_likes'] +
     movie['actor_3_facebook_likes'] +
     movie['director_facebook_likes'])

In [None]:
movie['actor_director_facebook_likes'].isnull().sum()

In [None]:
movie['actor_director_facebook_likes'] =\
    movie['actor_director_facebook_likes'].fillna(0)

In [None]:
movie['actor_director_facebook_likes'].isnull().sum()