## 이 책의 활용 방법
---
1. 모든 코드를 다운로드해 주피터 노트북에 저장한다. (데이터 주소: https://github.com/AcornPublishing/pandas-cookbook-2e)
2. 각 예제를 읽으면서 코드의 각 단계를 노트북에서 실행해보라.
3. 코드를 실행하며 직접 탐색해봐야 한다.

1. 브라우저 탭에 Pandas 공식 문서를 열어두라. (http://pandas.pydata.org/pandas-docs/stable/)
2. 문서에는 Pandas 연산에 대한 대부분의 예제가 제공되고 종종 '추가사항' 절과도 연계돼 있다.

### 개요

---

>   그날 그날 Pandas를 공부하며 마구잡이로 정리하는 파일입니다.
>
>   -   처음부터 각잡고 정리하며 하니 진도가 안나가 유용한 것들부터 적기 시작합니다.
>   -   나름의 정리가 필요

In [2]:
import pandas as pd
import numpy as np

In [4]:
# 1. 데이터를 담은 병렬 리스트 생성
fname = ['Paul', 'John', 'Richard', 'George']
lname = ['McCarthey', 'Lennon', 'Starkey', 'Harrison']
birth = [1942, 1940, 1940, 1943]

In [5]:
# 2. 리스트에서 딕셔너리를 생성하고 열 이름을 리스트와 매핑
people = {'first': fname, 'last': lname, 'birth': birth}

In [7]:
# 딕셔너리에서 DataFrame을 생성
beatles = pd.DataFrame(people)
beatles

Unnamed: 0,first,last,birth
0,Paul,McCarthey,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


### 작동원리
---
기본 설정으로 Pandas는 DataFrame의 생성자가 호출되면 RangeIndex를 생성한다.

In [8]:
beatles.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# If you need. You can insert into DataFrame to change index to other thing.
pd.DataFrame(people, index=['a', 'b', 'c', 'd'])

Unnamed: 0,first,last,birth
a,Paul,McCarthey,1942
b,John,Lennon,1940
c,Richard,Starkey,1940
d,George,Harrison,1943


### 추가사항
---
딕셔너리의 리스트에서도 DataFrame을 생성할 수 있다.

In [10]:
pd.DataFrame(
    [
        {
            'first': 'Paul',
            'last': 'McCarthey',
            'birth': 1942,
        },
        {
            'first': 'John',
            'last': 'Lennon',
            'birth': 1942,
        },
        {
            'first': 'Richard',
            'last': 'Starkey',
            'birth': 1940,
        },
        {
            'first': 'George',
            'last': 'Harrison',
            'birth': 1943,
        }
    ]
)

Unnamed: 0,first,last,birth
0,Paul,McCarthey,1942
1,John,Lennon,1942
2,Richard,Starkey,1940
3,George,Harrison,1943


In [11]:
# 딕셔너리의 행을 사용하면 키의 알파벳순으로 열이 정렬된다.
# 필요하면 columns 매개변수를 사용해 열 순서를 지정할 수 있다.
pd.DataFrame(
    [
        {
            'first': 'Paul',
            'last': 'McCarthey',
            'birth': 1942,
        },
        {
            'first': 'John',
            'last': 'Lennon',
            'birth': 1942,
        },
        {
            'first': 'Richard',
            'last': 'Starkey',
            'birth': 1940,
        },
        {
            'first': 'George',
            'last': 'Harrison',
            'birth': 1943,
        }
    ],
    columns = ['last', 'first', 'birth']
)

Unnamed: 0,last,first,birth
0,McCarthey,Paul,1942
1,Lennon,John,1942
2,Starkey,Richard,1940
3,Harrison,George,1943


In [2]:
import pandas as pd

In [7]:
movies = pd.read_csv('data/movie.csv')

In [8]:
# 각 열의 이름과 데이터 형식을 나란히 표시할 수 있음
movies.dtypes

color                         object
director_name                 object
num_critic_for_reviews       float64
duration                     float64
director_facebook_likes      float64
actor_3_facebook_likes       float64
actor_2_name                  object
actor_1_facebook_likes       float64
gross                        float64
genres                        object
actor_1_name                  object
movie_title                   object
num_voted_users                int64
cast_total_facebook_likes      int64
actor_3_name                  object
facenumber_in_poster         float64
plot_keywords                 object
movie_imdb_link               object
num_user_for_reviews         float64
language                      object
country                       object
content_rating                object
budget                       float64
title_year                   float64
actor_2_facebook_likes       float64
imdb_score                   float64
aspect_ratio                 float64
m

In [9]:
# 각 데이터 형식의 개수를 반환
movies.dtypes.value_counts()

float64    13
object     12
int64       3
dtype: int64

In [10]:
# 정보보기
movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4916 entries, 0 to 4915
Data columns (total 28 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   color                      4897 non-null   object 
 1   director_name              4814 non-null   object 
 2   num_critic_for_reviews     4867 non-null   float64
 3   duration                   4901 non-null   float64
 4   director_facebook_likes    4814 non-null   float64
 5   actor_3_facebook_likes     4893 non-null   float64
 6   actor_2_name               4903 non-null   object 
 7   actor_1_facebook_likes     4909 non-null   float64
 8   gross                      4054 non-null   float64
 9   genres                     4916 non-null   object 
 10  actor_1_name               4909 non-null   object 
 11  movie_title                4916 non-null   object 
 12  num_voted_users            4916 non-null   int64  
 13  cast_total_facebook_likes  4916 non-null   int64

## 추가 사항
---
- 거의 모든 pandas 데이터 형식은 Numpy를 기반한다.
- pandas는 가능한 가지 수로만 이뤄진 고정 개수의 문자열을 처리하고자 고유의 범주형 데이터 형식을 만들었다.

## 열 선택
---
- DataFrame에서 단일 열을 선택하면 Series가 반환된다.


In [13]:
# Column을 선택하여 시리즈 추출
movies.director_name

0           James Cameron
1          Gore Verbinski
2              Sam Mendes
3       Christopher Nolan
4             Doug Walker
              ...        
4911          Scott Smith
4912                  NaN
4913     Benjamin Roberds
4914          Daniel Hsia
4915             Jon Gunn
Name: director_name, Length: 4916, dtype: object

## Series를 추출하는 데 .loc / .iloc 속성을 사용할 수 있다.
- loc : 열 이름을 끄집어 내는데 사용 - Label-based
- iloc : 위치를 기반으로 사용 - Positional-based

## iloc의 사용법
---
- (,)를 사용해 행과 열 모두를 지정한다.
- 행 선택자는 시작과 끝 이름이 없는 슬라이스로, 콜론으로 나타내며 전체 행을 선택한다.

In [14]:
# 열 선택자는 'director_name'이라는 이름의 열만 끄집어낸다.
movies.loc[:, 'director_name']

0           James Cameron
1          Gore Verbinski
2              Sam Mendes
3       Christopher Nolan
4             Doug Walker
              ...        
4911          Scott Smith
4912                  NaN
4913     Benjamin Roberds
4914          Daniel Hsia
4915             Jon Gunn
Name: director_name, Length: 4916, dtype: object

In [15]:
# .iloc 인덱스 연산도 행과 열 선택자를 모두 지정한다. 
movies.iloc[:, 1]

0           James Cameron
1          Gore Verbinski
2              Sam Mendes
3       Christopher Nolan
4             Doug Walker
              ...        
4911          Scott Smith
4912                  NaN
4913     Benjamin Roberds
4914          Daniel Hsia
4915             Jon Gunn
Name: director_name, Length: 4916, dtype: object

### Series 탐색하기
---

In [22]:
movies['director_name'].index
movies['director_name'].dtype
movies['director_name'].size
movies['director_name'].name
type(movies['director_name'])

movies['director_name'].apply(type).unique()

array([<class 'str'>, <class 'float'>], dtype=object)

In [25]:
s_attr_methods = set(dir(pd.Series))
len(s_attr_methods)

df_attr_methods = set(dir(pd.DataFrame))
len(df_attr_methods)

len(s_attr_methods & df_attr_methods)

384

In [29]:
fb_likes = movies['actor_1_facebook_likes']
director = movies['director_name']

director.dtype
fb_likes.dtype

dtype('float64')

## .head
---
- Series의 첫 5개 원소를 표시한다.
- 반환되는 원소 개수를 조절하려면 옵션 인수를 사용하면 된다.

## .sample
---
- 데이터 중 일부를 살표보는 것이다.
- 데이터셋에 따라 이 메서드가 더 유용할 수 있다.
- 특히 첫 번째 행 근처의 데이터들이 다른 데이터들과 상당히 다를 경우 그렇다.

In [30]:
director.head()

0        James Cameron
1       Gore Verbinski
2           Sam Mendes
3    Christopher Nolan
4          Doug Walker
Name: director_name, dtype: object

In [31]:
director.sample(n=5, random_state=42)

2347      Brian Percival
4687         Lucio Fulci
691        Phillip Noyce
3911       Sam Peckinpah
2488    Rowdy Herrington
Name: director_name, dtype: object

In [32]:
fb_likes.head()

0     1000.0
1    40000.0
2    11000.0
3    27000.0
4      131.0
Name: actor_1_facebook_likes, dtype: float64

## Series의 데이터 형식에 따라 가장 유용한 메서드가 달라진다.
---
> object 데이터 형식의 Series에 가장 유용한 메서드 중 하나는 빈도를 계산하는 .value_counts이다.

In [34]:
director.value_counts()

Steven Spielberg    26
Woody Allen         22
Martin Scorsese     20
Clint Eastwood      20
Ridley Scott        16
                    ..
Bigas Luna           1
Craig Johnson        1
Craig Zobel          1
Wilson Yip           1
Jack Perez           1
Name: director_name, Length: 2397, dtype: int64

### Series의 원소 개수 알아보기 - .size | .shape | len

In [37]:
director.size
director.shape
len(director)
director.unique()

array(['James Cameron', 'Gore Verbinski', 'Sam Mendes', ...,
       'Scott Smith', 'Benjamin Roberds', 'Daniel Hsia'], dtype=object)

In [38]:
# .count 메서드는 아이템 개수를 반환하는 것이 아닌 결측치가 아닌 개수를 반환
director.count()

4814

## Series 메서드 체인
---
- 속성 접근을 사용해 메서드를 연속으로 호출할 수 있다.
- 이러한 방법을 메서드 체인 또는 플로우 프로그래밍이라 부른다.
    ```python
    (person.drive('store')
    .buy('food')
    .drive('home')
    .prepare('food')
    .cook('food'))
    ```

> - 전체 메서드 체인을 연속된 단일 줄로도 작성할 수 있지만, 줄당 단일 메서드를 작성하는 것이 훨씬 더 보기 좋다.
> - 파이썬은 일반적으로 단일 표현식을 여러 줄에 쓸 수 없으므로 몇 가지 옵션을 사용해야 한다.
> - 필자가 선호하는 방식은 모든 것을 괄호로 묶는 것
> - 다른 방법은 각 줄을 백슬래시로 끝내 줄이 다음 줄에서 계속됨을 나타내는 것이다.

In [39]:
# 메서드 체인 예제
movies = pd.read_csv('data/movie.csv')
fb_likes = movies['actor_1_facebook_likes']
director = movies['director_name']

- 체인 끝에 추가되는 가장 흔한 두 가지 메서드는 .head나 .sample이다.
- 이 방법은 출력이 길어지는 것을 방지해준다.

In [40]:
director.value_counts().head(3)

Steven Spielberg    26
Woody Allen         22
Martin Scorsese     20
Name: director_name, dtype: int64

In [41]:
# 결측치의 개수를 알아내는 일반적인 방법은 .isna를 호출한 후 .sum 메서드를 체인시키는 것이다.
fb_likes.isna().sum()

7