# 데이터 사이언스 시작하기

## 4. Pandas

### 01. pandas란?

기존 R에서 데이터를 보관, 정리, 분석하는데 핵심적인 역할을 했던 게 바로 데이터프레임(DataFrame)이었는데 이를 pandas 라이브러리를 통해 파이썬에서도 활용할 수 있게 하였다. 이때 pands 라이브러리는 numpy 라이브러리를 바탕으로 만들어졌다.

### 02. DataFrame 소개

2차원 데이터를 다루기 위한 것이 바로 데이터프레임이다.

데이터프레임은 표형식의 데이터를 담는 자료형을 의미한다. 가로로 나열되어 있는 줄들을 열(Column), 세로로 나열되어 있는 줄들을 행(Row) 또는 인덱스(Index)라 부른다. 이때 컬럼은 데이터의 특징을 나타내고 각 로우는 레코드(Record)라고도 부르며 하나의 정보 단위를 의미한다.

numpy 배열은 앞서 파이썬 리스트와의 차이점을 이야기했을 때처럼 모든 데이터의 자료형이 동일해야 한다는 제약조건이 있는 반면 pandas 라이브러리를 활용할 경우 문자열 등 여러 자료형을 하나의 데이터프레임에서 사용할 수 있다.

### 03. DataFrame 사용해 보기

`DataFrame` 메서드의 매개변수로 `columns` 및 `index`를 전달해서 2차원 표 데이터의 컬럼명과 인덱스명을 지정해줄 수 있다.

추가로 `dtypes` 메서드를 사용해서 각 컬럼의 자료형을 반환할 수 있는데 `object`는 문자열을 의미하고 `int64`는 64비트 정수를 의미한다. 하나의 데이터프레임에는 여러 자료형이 존재할 수 있지만 같은 컬럼 내에서는 모두 같은 자료형이어야 한다는 제약조건이 있다.

### 04. DataFrame을 만드는 다양한 방법

#### 리스트, numpy 배열, pands 시리즈 리스트

파이썬의 리스트, numpy 배열, 그리고 pandas 시리즈(Series)의 리스트 모두 데이터프레임으로 만들 수 있으며 각 요소가 모두 동일할 경우 그 데이터프레임 또한 동일하다.

이때 시리즈란 1차원 배열을 의미하며 인덱스와 데이터의 값은 일대일로 대응된다.

#### 딕셔너리, numpy 배열을 값으로 가지는 딕셔너리, pandas 시리즈를 값으로 가지는 딕셔너리

파이썬의 딕셔너리, numpy 배열 또는 pandas 시리즈를 값으로 가지는 딕셔너리 또한 데이터프레임으로 만들 수 있으며 각 요소가 모두 동일할 경우 그 데이터프레임 또한 동일하다. 이때 딕셔너리의 키는 곧 컬럼명이 된다.

#### 딕셔너리가 담긴 리스트

딕셔너리가 리스트에 담긴 것 또한 데이터프레임으로 만들 수 있다.

### 05. 스타들의 생일은 언제?

```Python
import pandas as pd


entertainers = [
    {
        "name": "Taylor Swift",
        "birthday": "December 13, 1989",
        "occupation": "Singer-songwriter"
    },
    {
        "name": "Aaron Sorkin",
        "birthday": "June 9, 1961",
        "occupation": "Screenwriter"
    },    
    {
        "name": "Harry Potter",
        "birthday": "July 31, 1980",
        "occupation": "Wizard"
    },
    {
        "name": "Ji-Sung Park",
        "birthday": "February 25, 1981",
        "occupation": "Footballer"
    }    
]
columns=["name", "birthday", "occupation"]
df = pd.DataFrame(entertainers, columns=columns)

df
```

### 06. pandas의 데이터 타입

`dtypes` 메서드를 사용해서 각 컬럼이 어떤 데이터 자료형을 가지고 있는지 확인할 수 있다. 이때 한 컬램 내에서는 모든 값이 동일한 데이터 자료형이어야 한다.

pandas에서 사용할 수 있는 대표적인 데이터 자료형은 아래와 같다.

<table>
    <tr>
        <th> dtype </th>
        <th> 설명 </th>    
    </tr>
    <tr>
        <td> int64 </td>
        <td> 정수 </td>
    </tr>
    <tr>
        <td> float64 </td>
        <td> 소수 </td>
    </tr>
    <tr>
        <td> object </td>
        <td> 텍스트 </td>
    </tr>
    <tr>
        <td> bool </td>
        <td> 불린(참과 거짓) </td>
    </tr>
    <tr>
        <td> datetime64 </td>
        <td> 날짜와 시간 </td>
    </tr>
    <tr>
        <td> category </td>
        <td> 카테고리 </td>
    </tr>    
</table>

### 07. pandas로 데이터 읽어들이기

`read_csv` 메서드를 사용해서 CSV 파일을 읽을 수 있는데 CSV 파일의 첫 번째 줄을 자동으로 헤더로 인지해서 컬럼명으로 사용한다. 이때 CSV 파일의 첫 줄이 바로 데이터일 경우 헤더가 없는 경우이기 때문에 메서드의 `header` 매개변수 값으로 `None`을 넘겨줘야 한다. 또한 특정 컬럼을 로우로 지정해줄 수 있는데 `index_col` 매개변수의 값으로 해당 컬럼의 번호를 넘겨주면 된다.

추가적으로 `columns` 메서드에서 `values` 메서드를 추가적으로 사용하여 인덱스로 접근해 컬럼명을 변경할 수 있다. 혹은 `rename` 메서드에서 `columns` 매개변수에 딕셔너리 자료형을 활용해서 키를 기존 컬럼명으로 값을 바꾸고자 하는 컬럼명으로 전달해서 사용하면 된다.

### 08. 가장 인기 있는 아기 이름은?

```Python
import pandas as pd


df = pd.read_csv("./data/popular_baby_names.csv")
df
```

### 09. 메가밀리언 로또 당첨 번호

```Python
import pandas as pd


df = pd.read_csv("./data/mega_millions.csv", index_col="Draw Date")
df
```

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd


two_dimensional_list = [
    ["Denis", 50, 60],
    ["Alex", 90, 95],
    ["Alice", 70, 80],    
]
df = pd.DataFrame(two_dimensional_list)

print(df)
print(type(df))

       0   1   2
0  Denis  50  60
1   Alex  90  95
2  Alice  70  80
<class 'pandas.core.frame.DataFrame'>


In [3]:
columns = ["name", "english_score", "math_score"]
indexes = ["a", "b", "c"]
df = pd.DataFrame(two_dimensional_list, columns=columns, index=indexes)

print(df)
print(df.columns)
print(df.index)

print(df.dtypes)

    name  english_score  math_score
a  Denis             50          60
b   Alex             90          95
c  Alice             70          80
Index(['name', 'english_score', 'math_score'], dtype='object')
Index(['a', 'b', 'c'], dtype='object')
name             object
english_score     int64
math_score        int64
dtype: object


In [4]:
import numpy as np


two_dimensional_list = [
    ['dongwook', 50, 86],
    ['sineui', 89, 31],
    ['ikjoong', 68, 91],
    ['yoonsoo', 88, 75]
]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(['dongwook', 50, 86]), 
    pd.Series(['sineui', 89, 31]), 
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

print(pd.DataFrame(two_dimensional_list))
print(pd.DataFrame(two_dimensional_array))
print(pd.DataFrame(list_of_series))

          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75
          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75
          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75


In [5]:
names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

pure_dictionary = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

numpy_array_in_dictionary = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

pandas_series_in_dictionary = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}

print(pd.DataFrame(pure_dictionary))
print(pd.DataFrame(numpy_array_in_dictionary))
print(pd.DataFrame(pandas_series_in_dictionary))

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75
       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75
       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


In [6]:
dictionary_in_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

print(pd.DataFrame(dictionary_in_list))

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


In [7]:
# 05. 스타들의 생일은 언제?

entertainers = [
    {
        "name": "Taylor Swift",
        "birthday": "December 13, 1989",
        "occupation": "Singer-songwriter"
    },
    {
        "name": "Aaron Sorkin",
        "birthday": "June 9, 1961",
        "occupation": "Screenwriter"
    },    
    {
        "name": "Harry Potter",
        "birthday": "July 31, 1980",
        "occupation": "Wizard"
    },
    {
        "name": "Ji-Sung Park",
        "birthday": "February 25, 1981",
        "occupation": "Footballer"
    }    
]
columns=["name", "birthday", "occupation"]

print(pd.DataFrame(entertainers, columns=columns))

           name           birthday         occupation
0  Taylor Swift  December 13, 1989  Singer-songwriter
1  Aaron Sorkin       June 9, 1961       Screenwriter
2  Harry Potter      July 31, 1980             Wizard
3  Ji-Sung Park  February 25, 1981         Footballer


In [20]:
iphone_df = pd.read_csv("./iphone.csv")
print(iphone_df)
print(iphone_df.columns)


iphone_df = pd.read_csv("./iphone.csv", index_col=0)
print(iphone_df)


iphone_df = pd.read_csv("./iphone.csv")
iphone_df.columns.values[0] = "모델"
print(iphone_df)
print(iphone_df.columns)


iphone_df = pd.read_csv("./iphone.csv")
iphone_df.rename(columns={"Unnamed: 0": "아이폰 모델"}, inplace=True)
print(iphone_df)
print(iphone_df.columns)

      Unnamed: 0         출시일  디스플레이  메모리     출시 버전 Face ID
0       iPhone 7  2016-09-16    4.7  2GB  iOS 10.0      No
1  iPhone 7 Plus  2016-09-16    5.5  3GB  iOS 10.0      No
2       iPhone 8  2017-09-22    4.7  2GB  iOS 11.0      No
3  iPhone 8 Plus  2017-09-22    5.5  3GB  iOS 11.0      No
4       iPhone X  2017-11-03    5.8  3GB  iOS 11.1     Yes
5      iPhone XS  2018-09-21    5.8  4GB  iOS 12.0     Yes
6  iPhone XS Max  2018-09-21    6.5  4GB  iOS 12.0     Yes
Index(['Unnamed: 0', '출시일', '디스플레이', '메모리', '출시 버전', 'Face ID'], dtype='object')
                      출시일  디스플레이  메모리     출시 버전 Face ID
iPhone 7       2016-09-16    4.7  2GB  iOS 10.0      No
iPhone 7 Plus  2016-09-16    5.5  3GB  iOS 10.0      No
iPhone 8       2017-09-22    4.7  2GB  iOS 11.0      No
iPhone 8 Plus  2017-09-22    5.5  3GB  iOS 11.0      No
iPhone X       2017-11-03    5.8  3GB  iOS 11.1     Yes
iPhone XS      2018-09-21    5.8  4GB  iOS 12.0     Yes
iPhone XS Max  2018-09-21    6.5  4GB  iOS 12.0     Yes