In [1]:
import numpy as np
import pandas as pd

In [2]:
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

In [3]:
np.array(two_dimensional_list)

array([['dongwook', '50', '86'],
       ['sineui', '89', '31'],
       ['ikjoong', '68', '91'],
       ['yoonsoo', '88', '75']], dtype='<U8')

In [4]:
my_df = pd.DataFrame(two_dimensional_list, columns = ['name', 'english_score', 'math_score'], index = ['a', 'b', 'c', 'd'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,89,31
c,ikjoong,68,91
d,yoonsoo,88,75


``DataFrame`` 메소드 안에 리스트와 컬럼, 인덱스를 지정하여 줄 수 있다.

In [5]:
type(my_df)

pandas.core.frame.DataFrame

In [6]:
my_df.columns

Index(['name', 'english_score', 'math_score'], dtype='object')

In [7]:
my_df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
my_df.dtypes

name             object
english_score     int64
math_score        int64
dtype: object

``dtypes`` 메소드를 통해 my_df 안에 있는 자료들의 유형을 파악할 수 있다.

## DateFrame을 만드는 다양한 방법

* 리스트의 리스트, 어레이의 어레이, 리스트의 묶음

In [11]:
two_dimensional_list =  [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(["dongwook", 50, 86]),
    pd.Series(["sinuei", 89, 31]),
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

#아래 셋은 모두 동일하게 출력된다.
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)
df3 = pd.DataFrame(list_of_series)

df1
df2
df3

Unnamed: 0,0,1,2
0,dongwook,50,86
1,sinuei,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


## DataFrame 을 만드는 다양한 방법2

* 리스트 dict, 어레이의 dict 혹은 시리즈의 dict를 생성하는 방법

In [3]:
import numpy as np
import pandas as pd

names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names,
    'english_score': english_scores,
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}

# 아래 셋은 모두 동일합니다.

df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

print(df1)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


## 문제. 스타들의 생일은 언제?

주어진 표와 같은 결과가 나오도록 DataFrame 을 만들고 출력하기

In [4]:
import pandas as pd

# 코드를 작성하세요.
names = ['Taylor Swift', 'Aaron Sorkin', 'Harry Potter', 'Ji-Sung Park']
birthdays = ['December 13, 1989', 'June 9, 1961', 'July 31, 1980', 'February 25, 1981']
occupations = ['Singer-songwriter', 'Screenwriter', 'Wizard', 'Footballer']

dict = {
    'name' : names,
    'birthday' : birthdays,
    'occupation' : occupations
}

df = pd.DataFrame(dict)

# 정답 출력
df

Unnamed: 0,name,birthday,occupation
0,Taylor Swift,"December 13, 1989",Singer-songwriter
1,Aaron Sorkin,"June 9, 1961",Screenwriter
2,Harry Potter,"July 31, 1980",Wizard
3,Ji-Sung Park,"February 25, 1981",Footballer


## pandas의 data types

pandas에 담을 수 있는 dtype(데이터타입) 몇가지를 아래에 출력해보자

``print(df.dtypes)``방식으로 데이터타입을 확인할 수 있다.

In [7]:
dtypes = ['int64', 'float64', 'object', 'bool', 'datetime64', 'category']
explains = ['정수', '소수', '텍스트', '불린(참과 거짓)', '날짜와 시간', '카테고리']

dict = {
    'dtype' : dtypes,
    '설명' : explains,
}

df2 = pd.DataFrame(dict)

df2

Unnamed: 0,dtype,설명
0,int64,정수
1,float64,소수
2,object,텍스트
3,bool,불린(참과 거짓)
4,datetime64,날짜와 시간
5,category,카테고리


## pandas로 데이터 읽어들이기



In [2]:
import pandas as pd

In [3]:
iphone_df = pd.read_csv('iphone.csv', index_col = 0)

In [4]:
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [6]:
type(iphone_df)

pandas.core.frame.DataFrame

## DataFrame 인덱싱

In [7]:
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [9]:
type(iphone_df.loc['iPhone X'])

pandas.core.series.Series

``type`` 함수를 통해 확인해보면 ``loc``를 통해 인덱싱한 **iPhone X**의 정보는 Series로 분류된다

In [6]:
iphone_df.loc['iPhone 8', '메모리'] # 특정 변수의 인덱싱

'2GB'

In [8]:
iphone_df.loc[:,'출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

In [9]:
iphone_df['출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

위와 같이 loc 없이 출력해도 같은 결과값을 얻을 수 있다.

In [1]:
import pandas as pd

df  = pd.read_csv('data/broadcast.csv', index_col = 0)

## 방송사 시청률 받아오기

2016년도 KBS의 시청률

In [2]:
df

Unnamed: 0,KBS,MBC,SBS,TV CHOSUN,JTBC,Channel A,MBN
2011,35.951,18.374,11.173,9.102,7.38,3.771,2.809
2012,36.163,16.022,11.408,8.785,7.878,5.874,3.31
2013,31.989,16.778,9.673,9.026,7.81,5.35,3.825
2014,31.21,15.663,9.108,9.44,7.49,5.776,4.572
2015,27.777,16.573,9.099,9.94,7.267,6.678,5.52
2016,27.583,14.982,8.669,9.829,7.727,6.624,5.477
2017,26.89,12.465,8.661,8.886,9.453,6.056,5.215


In [3]:
df.loc[:, 'KBS']

2011    35.951
2012    36.163
2013    31.989
2014    31.210
2015    27.777
2016    27.583
2017    26.890
Name: KBS, dtype: float64

In [4]:
df.loc[2016, 'KBS']

27.583000000000002

## 방송사 시청률 받아오기 pt.2

JTBC 의 시청률을 확인하려면?

In [5]:
df['JTBC']

2011    7.380
2012    7.878
2013    7.810
2014    7.490
2015    7.267
2016    7.727
2017    9.453
Name: JTBC, dtype: float64

In [8]:
df.loc[:, 'JTBC']  # loc를 쓰면 이렇게 할 수 있다.

2011    7.380
2012    7.878
2013    7.810
2014    7.490
2015    7.267
2016    7.727
2017    9.453
Name: JTBC, dtype: float64

## 방송사 시청률 받아괴 pt.3

이벤어ㅔ는 DataFrame에서 여러 줄을 찾아보자.

SBS와 JTBC의 시청률만 확인하려면?

In [10]:
df[['SBS','JTBC']]

Unnamed: 0,SBS,JTBC
2011,11.173,7.38
2012,11.408,7.878
2013,9.673,7.81
2014,9.108,7.49
2015,9.099,7.267
2016,8.669,7.727
2017,8.661,9.453


## 카드사 고객 분석

데이터의 중요성을 깨달을 삼송과 현디카드의 협업을 위한 과제

두 카드가 고객이 요일별로 지출하는 평균 금액을 요일, 식비, 교통비, 문화생활비, 기타 로 분류하여 정리해 놓았다

두 회사의 데이터를 활용하여 사람들의 요일별 문화생활비를 분석하려면?

In [20]:
import pandas as pd

samsong_df = pd.read_csv('data/samsong.csv')
hyundee_df = pd.read_csv('data/hyundee.csv')

samsong

Unnamed: 0,요일,식비,교통비,문화생활비,기타
0,MON,19420,2560,4308,3541
1,TUE,16970,2499,7644,2903
2,WED,15091,2511,5674,2015
3,THU,17880,2545,8621,3012
4,FRI,27104,2993,23052,2508
5,SAT,29055,2803,15330,4901
6,SUN,23509,1760,19030,4230


In [21]:
hyundee

Unnamed: 0,요일,식비,교통비,문화생활비,기타
0,MON,22420,2574,5339,5546
1,TUE,19940,2689,3524,2501
2,WED,18086,2281,5364,2234
3,THU,18863,2155,9942,3252
4,FRI,35144,2463,33511,2342
5,SAT,34952,2812,19397,4324
6,SUN,28513,2680,19925,4577


In [22]:
day = samsong_df['요일']
sam = samsong_df['문화생활비']
hyun = hyundee_df['문화생활비']

dict = {
    'day' : day,
    'samsong' : sam,
    'hyundee' : hyun
}

df = pd.DataFrame(dict)
df

Unnamed: 0,day,samsong,hyundee
0,MON,4308,5339
1,TUE,7644,3524
2,WED,5674,5364
3,THU,8621,9942
4,FRI,23052,33511
5,SAT,15330,19397
6,SUN,19030,19925


### 위의 경우는 dict을 활용하여 만들었을 경우(내 답변)
### 아래는 바로 인덱싱하여 데이터프레임을 만드는 방법(모범답)

In [23]:
combined_df = pd.DataFrame({
    'day' : samsong_df['요일'],
    'samsong' : samsong_df['문화생활비'],
    'hyundee' : hyundee_df['문화생활비']
})

combined_df

Unnamed: 0,day,samsong,hyundee
0,MON,4308,5339
1,TUE,7644,3524
2,WED,5674,5364
3,THU,8621,9942
4,FRI,23052,33511
5,SAT,15330,19397
6,SUN,19030,19925


## DataFrame 인덱싱 pt.2


In [4]:
import pandas as pd

iphone_df = pd.read_csv("data/iphone.csv", index_col = 0)

iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [31]:
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [32]:
iphone_df.loc[['iPhone X', 'iPhone 8']]   # 다수의 특정 index(row)를 선택하는 방법

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No


In [33]:
type(iphone_df.loc[['iPhone X', 'iPhone 8']] )

pandas.core.frame.DataFrame

In [34]:
iphone_df['Face ID']

iPhone 7          No
iPhone 7 Plus     No
iPhone 8          No
iPhone 8 Plus     No
iPhone X         Yes
iPhone XS        Yes
iPhone XS Max    Yes
Name: Face ID, dtype: object

In [36]:
iphone_df[['Face ID', '출시일', '메모리']]

Unnamed: 0,Face ID,출시일,메모리
iPhone 7,No,2016-09-16,2GB
iPhone 7 Plus,No,2016-09-16,3GB
iPhone 8,No,2017-09-22,2GB
iPhone 8 Plus,No,2017-09-22,3GB
iPhone X,Yes,2017-11-03,3GB
iPhone XS,Yes,2018-09-21,4GB
iPhone XS Max,Yes,2018-09-21,4GB


In [42]:
iphone_df.loc['iPhone 8' : 'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [44]:
iphone_df.loc[: 'iPhone XS']  # 첫 행부터 XS까지 인덱싱

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [46]:
iphone_df.loc['메모리':'Face ID']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID


In [47]:
iphone_df.loc[:, '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes
iPhone XS Max,4GB,iOS 12.0,Yes


In [48]:
iphone_df.loc['iPhone 7':'iPhone 8 Plus', '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No


## 방송사 시청률 받아오기 pt.4

방송사는 KBS 부터 SBS까지, 연도는 2012년부터 2017년까지의 시청률만 확인하고 싶다.

In [1]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col = 0)

df

Unnamed: 0,KBS,MBC,SBS,TV CHOSUN,JTBC,Channel A,MBN
2011,35.951,18.374,11.173,9.102,7.38,3.771,2.809
2012,36.163,16.022,11.408,8.785,7.878,5.874,3.31
2013,31.989,16.778,9.673,9.026,7.81,5.35,3.825
2014,31.21,15.663,9.108,9.44,7.49,5.776,4.572
2015,27.777,16.573,9.099,9.94,7.267,6.678,5.52
2016,27.583,14.982,8.669,9.829,7.727,6.624,5.477
2017,26.89,12.465,8.661,8.886,9.453,6.056,5.215


In [2]:
df.loc['2012':'2017', 'KBS':'SBS']

Unnamed: 0,KBS,MBC,SBS
2012,36.163,16.022,11.408
2013,31.989,16.778,9.673
2014,31.21,15.663,9.108
2015,27.777,16.573,9.099
2016,27.583,14.982,8.669
2017,26.89,12.465,8.661


## DataFrame 조건으로 인덱싱

pandas DataFrame에서도 bloolean으로 값을 받아올 수 있다.

In [9]:
import pandas as pd

iphone_df = pd.read_csv('data/iphone.csv', index_col = 0)

iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [10]:
iphone_df.loc[[True, False, True, True, False, True, False]]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [19]:
iphone_df.loc[[True, False, True]  # 불린 리스트를 적게주게 되면 에러를 산출한다.

SyntaxError: invalid syntax (<ipython-input-19-ac045d2a6435>, line 1)

In [18]:
print(pd.__version__)  # 판다스 버전을 확인하는 파라미터

0.25.1


## 방송사 시청률 받아오기 pt5
