In [7]:
import pandas as pd
import numpy as np

In [3]:
two_dim_list = [['dongwook',50,60],['seonhwa',60,30],['gerald',40,30]]

In [15]:
my_np = np.array(two_dim_list)
my_np

array([['dongwook', '50', '60'],
       ['seonhwa', '60', '30'],
       ['gerald', '40', '30']], dtype='<U21')

In [17]:
my_df = pd.DataFrame(two_dim_list, columns=['name','english','math'],index=['a','b','c'])
my_df

Unnamed: 0,name,english,math
a,dongwook,50,60
b,seonhwa,60,30
c,gerald,40,30


In [20]:
my_df.dtypes

name       object
english     int64
math        int64
dtype: object

# 04. DataFrame을 만드는 다양한 방법
# From list of lists, array of arrays, list of series
1. 2차원 리스트나 2차원 numpy array로 DataFrame을 만들 수 있습니다. 심지어 pandas Series를 담고 있는 리스트로도 DataFrame을 만들 수 있습니다. 따로 column과 row(index)에 대한 설정이 없으면 그냥 0, 1, 2, ... 순서로 값이 매겨집니다.

In [1]:
import numpy as np
import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(['dongwook', 50, 86]), 
    pd.Series(['sineui', 89, 31]), 
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)
df3 = pd.DataFrame(list_of_series)

df1

Unnamed: 0,0,1,2
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


# From dict of lists, dict of arrays, dict of series
파이썬 사전(dictionary)으로도 DataFrame을 만들 수 있습니다.

사전의 key로는 column 이름을 쓰고, 그 column에 해당하는 리스트, numpy array, 혹은 pandas Series를 사전의 value로 넣어주면 됩니다.

In [2]:
import numpy as np
import pandas as pd

names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}


# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

df2

Unnamed: 0,name,english_score,math_score
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


# From list of dicts
리스트가 담긴 사전이 아니라, 사전이 담긴 리스트로도 DataFrame을 만들 수 있습니다.

In [32]:
import numpy as np
import pandas as pd

my_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

df = pd.DataFrame(my_list)
df

Unnamed: 0,name,english_score,math_score
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


# 실습과제

In [34]:
import pandas as pd

names = ['Taylor Swift','Aaron Sorkin','Harry Potter','Ji-Sung Park']
birthdays = ['December 13, 1989','June 9, 1961','July 31, 1980','February 25, 1981']
occupations = ['Singer-songwriter','Screenwriter','Wizard','Footballer']


dict = { 'name':names, 'birtday':birthdays, 'occupation':occupations}
df = pd.DataFrame(dict)
df

Unnamed: 0,name,birtday,occupation
0,Taylor Swift,"December 13, 1989",Singer-songwriter
1,Aaron Sorkin,"June 9, 1961",Screenwriter
2,Harry Potter,"July 31, 1980",Wizard
3,Ji-Sung Park,"February 25, 1981",Footballer


In [39]:
import pandas as pd

legends =[
    ['Taylor Swift','December 13, 1989','Singer-songwriter'],
    ['Aaron Sorkin','June 9, 1961', 'Screenwriter'],
    ['Harry Potter','July 31, 1980','Wizard'],
    ['Ji-Sung Park','February 25, 1981','Footballer']
]
df = pd.DataFrame(legends,columns=['name','birthday','occupation'])
print(df.dtypes)
df

name          object
birthday      object
occupation    object
dtype: object


Unnamed: 0,name,birthday,occupation
0,Taylor Swift,"December 13, 1989",Singer-songwriter
1,Aaron Sorkin,"June 9, 1961",Screenwriter
2,Harry Potter,"July 31, 1980",Wizard
3,Ji-Sung Park,"February 25, 1981",Footballer


# 어떤 데이터 타입을 보관하고 있는지 보는 법 dtypes
int64	정수
float64	소수
object	텍스트
bool	불린(참과 거짓)
datetime64	날짜와 시간
category	카테고리

In [37]:
import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])

print(my_df.dtypes)

name             object
english_score     int64
math_score        int64
dtype: object


In [3]:
import pandas as pd
iphone_df = pd.read_csv('data/iphone.csv', index_col=0)
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


# 실습과제

아기의 성별과 어머니의 인종에 따른, 뉴욕에서 가장 인기 있는 아기 이름이 무엇인지 조사를 해 봤습니다.

조사 결과가 data 폴더의 popular_baby_names.csv라는 파일에 담겨 있는데요. 안에 있는 정보를 DataFrame으로 읽어 들이고, DataFrame을 출력해 주세요.

In [45]:
import pandas as pd
popular_baby_names = pd.read_csv('data/popular_baby_names.csv')
popular_baby_names

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
0,2016,FEMALE,ASIAN AND PACIFIC ISLANDER,Olivia,172,1
1,2016,FEMALE,ASIAN AND PACIFIC ISLANDER,Chloe,112,2
2,2016,FEMALE,ASIAN AND PACIFIC ISLANDER,Sophia,104,3
3,2016,FEMALE,ASIAN AND PACIFIC ISLANDER,Emily,99,4
4,2016,FEMALE,ASIAN AND PACIFIC ISLANDER,Emma,99,4
...,...,...,...,...,...,...
11340,2011,MALE,WHITE NON HISPANIC,LEV,10,97
11341,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
11342,2011,MALE,WHITE NON HISPANIC,SHAUL,10,97
11343,2011,MALE,WHITE NON HISPANIC,WESLEY,10,97


# 실습과제
‘메가밀리언’은 ‘파워볼’과 더불어 미국에서 양대산맥을 이루는 복권입니다. 당첨될 확률이 약 3억분의 1 정도로 굉장히 낮은 대신, 당첨시 금액이 어마어마하죠. 2018년에는 한 명이 무려 1.8조원을 가져가기도 했습니다.

메가밀리언 측에서 2002년부터 현재(2/15/19)까지의 당첨 번호가 담긴 mega_millions.csv 파일을 공개했는데요. 이 데이터를 DataFrame에 넣어 봅시다.

날짜(Draw Date)가 이 DataFrame의 인덱스가 되도록 해 주세요!

In [47]:
import pandas as pd
mega_millions = pd.read_csv('data/mega_millions.csv',index_col=0)
mega_millions

Unnamed: 0_level_0,Winning Numbers,Mega Ball,Multiplier
Draw Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
02/15/2019,10 38 40 43 65,12,2.0
02/12/2019,15 32 39 50 65,7,3.0
02/08/2019,14 24 31 42 48,13,3.0
02/05/2019,03 34 36 59 66,7,2.0
02/01/2019,02 37 48 66 68,11,5.0
...,...,...,...
05/31/2002,12 28 45 46 52,47,
05/28/2002,06 21 22 29 32,24,
05/24/2002,02 04 32 44 52,36,
05/21/2002,04 28 39 41 44,9,
