# DataFrame 사용해 보기

In [2]:
import pandas as pd

In [6]:
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['yoonsu', 88, 75]]

In [16]:
my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,89,31
c,yoonsu,88,75


In [10]:
type(my_df)

pandas.core.frame.DataFrame

In [17]:
my_df.columns

Index(['name', 'english_score', 'math_score'], dtype='object')

In [18]:
my_df.index

Index(['a', 'b', 'c'], dtype='object')

In [19]:
my_df.dtypes

name             object
english_score     int64
math_score        int64
dtype: object

# DataFrame을 만드는 다양한 방법

2차원 리스트나 2차원 numpy array로 DataFrame을 만들 수 있습니다. 심지어 pandas series를 담고 있는 리스트로도 DataFrame을 만들 수 있습니다.

따로 column과 row(index)에 대한 설정이 없으면 그냥 0, 1, 2, ... 순서로 값이 매겨집니다.

In [1]:
import numpy as np
import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(['dongwook', 50, 86]),
    pd.Series(['sineui', 89, 31]),
    pd.Series(['ikjoong', 68, 91]),
    pd.Series(['yoonsoo', 88, 75])
]

# 아래 셋은 모두 동일합니다.
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)
df3 = pd.DataFrame(list_of_series)

print(df1)

          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75


## From dict of lists, dict of arrays, dict of series


파이썬 사전(dictionary)으로도 DataFrame을 만들 수 있습니다.

사전의 key로는 column 이름을 쓰고, 그 column에 해당하는 리스트, numpy array 혹은 pandas Series를 사전의 value로 넣어주면 됩니다.

In [5]:
import numpy as np
import pandas as pd

names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 91, 75]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names,
    'english_score': english_scores,
    'math_score': math_scores
}
dict2 = {
    'name': np.array(names),
    'english_score': np.array(english_scores),
    'math_score': np.array(math_scores)
}
dict3 = {
    'name': pd.Series(names),
    'english_score': pd.Series(english_scores),
    'math_score': pd.Series(math_scores)
}

#아래 셋은 모두 동일합니다.
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

print(df1)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             91          91
3   yoonsoo             75          75


## From list of dicts

리스트가 담긴 사전이 아니라, 사전이 담긴 리스트로도 DataFrame을 만들 수 있습니다.

In [6]:
import numpy as np
import pandas as pd

my_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

df = pd.DataFrame(my_list)
print(df)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


# pandas의 데이터 타입

pandas DataFrame에는 다양한 종류의 데이터를 담을 수 있습니다. dtypes를 사용해서 각 column이 어떤 데이터 타입을 보관하는지 확인할 수 있는데요.

In [7]:
import pandas as pd
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
my_df = pd.DataFrame(two_dimensional_list, columns = ['name', 'english_score', 'math_score'])
print(my_df.dtypes)

name             object
english_score     int64
math_score        int64
dtype: object


위 경우 'name' column은 object라는 데이터 타입을 보관하고, 'english_score'와 'math_score' column은 int64라는 데이터 타입을 보관하는 거죠.

보시다시피 한 column 내에서는 모든 값이 동일한 데이터 타입입니다.

## pandas의 dtype들

pandas에 담을 수 있는 dtype(데이터 타입) 몇 가지를 살펴봅시다.

|dtype|설명|
|--|--|
|int64|정수|
|float64|소수|
|object|텍스트|
|bool|불린(참과 거짓)|
|datetime64|날짜와 시간|
|category|카테고리|

# pandas 데이터 읽어들이기

In [9]:
import pandas as pd

In [11]:
iphone_df = pd.read_csv('data/iphone.csv')
# 헤더가 없는 경우
# iphone_df = pd.read_csv('data/iphone.csv', header=None)

In [12]:
iphone_df

Unnamed: 0.1,Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
0,iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
1,iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
2,iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
3,iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
4,iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
5,iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
6,iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [13]:
type(iphone_df)

pandas.core.frame.DataFrame

In [14]:
iphone_df = pd.read_csv('data/iphone.csv', index_col = 0)

In [15]:
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


# DataFrame 인덱싱 1

In [17]:
iphone_df.loc['iPhone 8', '메모리']

'2GB'

In [20]:
iphone_df.loc['iPhone X',  :]

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [21]:
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [22]:
type(iphone_df.loc['iPhone X'])

pandas.core.series.Series

In [24]:
iphone_df.loc[:, '출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

In [26]:
iphone_df['출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

In [27]:
type(iphone_df['출시일'])

pandas.core.series.Series

# DataFrame 인덱싱 2

In [28]:
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [29]:
iphone_df.loc[['iPhone X', 'iPhone 8']]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No


In [31]:
type(iphone_df.loc[['iPhone X', 'iPhone 8']])

pandas.core.frame.DataFrame

In [32]:
iphone_df['Face ID']

iPhone 7          No
iPhone 7 Plus     No
iPhone 8          No
iPhone 8 Plus     No
iPhone X         Yes
iPhone XS        Yes
iPhone XS Max    Yes
Name: Face ID, dtype: object

In [33]:
iphone_df[['Face ID', '출시일', '메모리']]

Unnamed: 0,Face ID,출시일,메모리
iPhone 7,No,2016-09-16,2GB
iPhone 7 Plus,No,2016-09-16,3GB
iPhone 8,No,2017-09-22,2GB
iPhone 8 Plus,No,2017-09-22,3GB
iPhone X,Yes,2017-11-03,3GB
iPhone XS,Yes,2018-09-21,4GB
iPhone XS Max,Yes,2018-09-21,4GB


In [34]:
iphone_df.loc['iPhone 8':'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [35]:
iphone_df.loc[:'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [36]:
iphone_df.loc['iPhone 8':]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [37]:
iphone_df['메모리':'Face ID']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID


In [38]:
iphone_df.loc[:, '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes
iPhone XS Max,4GB,iOS 12.0,Yes


In [39]:
iphone_df.loc['iPhone 7':'iPhone X', '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes


# DataFrame 조건으로 인덱싱

In [41]:
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [44]:
iphone_df.loc[[True, False, True, True, False, True, False]]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [47]:
iphone_df['디스플레이']>5

iPhone 7         False
iPhone 7 Plus     True
iPhone 8         False
iPhone 8 Plus     True
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: 디스플레이, dtype: bool

In [48]:
iphone_df.loc[iphone_df['디스플레이']>5]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [49]:
iphone_df.loc[iphone_df['Face ID'] == 'Yes']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [50]:
(iphone_df['디스플레이'] > 5) & (iphone_df['Face ID'] == 'Yes')

iPhone 7         False
iPhone 7 Plus    False
iPhone 8         False
iPhone 8 Plus    False
iPhone X          True
iPhone XS         True
iPhone XS Max     True
dtype: bool

In [51]:
condition = (iphone_df['디스플레이'] > 5) & (iphone_df['Face ID'] == 'Yes')

In [52]:
iphone_df[condition]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [53]:
condition = (iphone_df['디스플레이'] > 5) | (iphone_df['Face ID'] == 'Yes')

In [54]:
iphone_df[condition]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


# DataFrame 위치로 인덱싱하기

In [55]:
import pandas as pd

In [56]:
iphone_df = pd.read_csv('data/iphone.csv', index_col = 0)
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [57]:
iphone_df.iloc[2, 4]

'No'

In [58]:
iphone_df.iloc[[1, 3], [1, 4]]

Unnamed: 0,디스플레이,Face ID
iPhone 7 Plus,5.5,No
iPhone 8 Plus,5.5,No


In [59]:
iphone_df.iloc[3:, 1:4]

Unnamed: 0,디스플레이,메모리,출시 버전
iPhone 8 Plus,5.5,3GB,iOS 11.0
iPhone X,5.8,3GB,iOS 11.1
iPhone XS,5.8,4GB,iOS 12.0
iPhone XS Max,6.5,4GB,iOS 12.0


# DataFrame 인덱싱 문법 정리

|이름으로 인덱싱하기|기본 형태|단축 형태|
|--|--|--|
|하나의 row 이름|df.loc["row4"]||
|row 이름의 리스트|df.loc[["row4", "row5", "row3"]]||
|row 이름의 리스트 슬라이싱|df.loc["row2":"row5"]|df["row2":"row5"]|
|하나의 column 이름|df.loc[:, "col1"]|df["col1"]|
|column 이름의 리스트|df.loc[:, ["col4", "col6", "col3"]]]|df[["col4", "col6", "col3"]]|
|column 이름의 리스트 슬라이싱|df.loc[:, "col2":"col5"]||

|위치로 인덱싱하기|기본 형태|단축 형태|
|--|--|--|
|하나의 row 위치|df.iloc[8]||
|row 위치의 리스트|df.iloc[[4, 5, 3]]||
|row 위치의 리스트 슬라이싱|df.iloc[2:5]|df[2:5]|
|하나의 column 위치|df.iloc[:, 3]||
|column 위치의 리스트|df.iloc[:, [3, 5, 6]]||
|column 위치의 리스트 슬라이싱|df.iloc[:, 3:7]||