# jupyter 단축키 정리

a : 선택된 셀 위에 추가  
b : 선택된 셀 아래에 추가  
dd : 선택된 셀 삭제  
alt + enter : 선택된 셀 실행  
shift + enter : 선택된 셀 실행 및 새로운 셀 추가

# Pandas DataFrame 사용해보기

In [1]:
import pandas as pd

In [2]:
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

In [3]:
my_df = pd.DataFrame(two_dimensional_list)
my_df

Unnamed: 0,0,1,2
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


In [4]:
type(my_df)

pandas.core.frame.DataFrame

In [5]:
my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'])
my_df

Unnamed: 0,name,english_score,math_score
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


In [6]:
my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,89,31
c,ikjoong,68,91
d,yoonsoo,88,75


In [7]:
my_df.columns

Index(['name', 'english_score', 'math_score'], dtype='object')

In [8]:
my_df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [9]:
my_df.dtypes

name             object
english_score     int64
math_score        int64
dtype: object

한 데이터셋에 여러 자료형을 기입할 수 있지만, 같은 컬럼에서는 같은 자료형만 가능하다. 

# From list of lists, array of arrays, list of series

2차원 리스트나 2차원 numpy array로 DataFrame을 만들 수 있습니다. 심지어 pandas Series를 담고 있는 리스트로도 DataFrame을 만들 수 있습니다.

따로 column과 row(index)에 대한 설정이 없으면 그냥 0, 1, 2, ... 순서로 값이 매겨집니다.

In [10]:
import numpy as np
import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(['dongwook', 50, 86]), 
    pd.Series(['sineui', 89, 31]), 
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)
df3 = pd.DataFrame(list_of_series)

print(df1)

          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75


# From dict of lists, dict of arrays, dict of series

파이썬 사전(dictionary)으로도 DataFrame을 만들 수 있습니다.

사전의 key로는 column 이름을 쓰고, 그 column에 해당하는 리스트, numpy array, 혹은 pandas Series를 사전의 value로 넣어주면 됩니다.

In [11]:
import numpy as np
import pandas as pd

names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}


# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

print(df1)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


# From list of dicts

리스트가 담긴 사전이 아니라, 사전이 담긴 리스트로도 DataFrame을 만들 수 있습니다.

In [13]:
import numpy as np
import pandas as pd

my_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

df = pd.DataFrame(my_list)
print(df)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


# pandas의 dtype들

pandas에 담을 수 있는 dtype(데이터 타입) 몇 가지를 살펴봅시다.

|dtype|설명|
| :---: | :----: |
|int64|정수|
|float64|소수|
|object|텍스트|
|bool|불린(참과 거짓)|
|datetime64|날짜와 시간|
|category|카테고리|


# pandas로 데이터 읽어들이기

In [2]:
import pandas as pd

In [3]:
iphone_df = pd.read_csv('data/iphone.csv')

In [4]:
iphone_df

Unnamed: 0.1,Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
0,iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
1,iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
2,iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
3,iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
4,iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
5,iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
6,iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


pandas는 첫 줄을 헤더라고 인식한다.   
첫 줄에 컬럼명이 없을 경우 `header` 옵션을 준다. 

In [7]:
iphone_df = pd.read_csv('data/iphone.csv', header=None)
iphone_df

Unnamed: 0,0,1,2,3,4,5
0,,출시일,디스플레이,메모리,출시 버전,Face ID
1,iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
2,iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
3,iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
4,iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
5,iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
6,iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
7,iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [8]:
type(iphone_df)

pandas.core.frame.DataFrame

In [9]:
iphone_df = pd.read_csv('data/iphone.csv', index_col = 0)
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


`index_col=0`으로 옵션을 주면 0번째 컬럼이 index 명(row 명)이 된다.