# 목차

0. 필요 모듈 및 데이터 불러오기
1. 행 순서 뒤집기
2. 열 순서 뒤집기
3. 데이터 타입으로 데이터프레임 필터링
4. 문자 데이터를 숫자로 변환
5. 다수의 파일을 하나의 프레임으로 통합(행)
6. 다수의 파일을 하나의 프레임으로 통합(열)
7. 데이터프레임 랜덤하게 분할하기
8. 카테고리로 데이터프레임 필터링하기
9. 가장 많이 등장하는 카테고리들로 데이터프레임 필터링하기
10. 결측치 처리
11. 문자 데이터를 담은 열을 복수의 열로 분리하기
12. 그룹 연산의 결과를 기존 데이터프레임에 통합하기
12. 서브그룹을 가지는 데이터프레임 다루기
14. 연속적인 데이터를 카테고리 데이터로 바꾸기
15. 디스플레이 옵션 변경
16. 데이터 프레임 스타일링



# **0. 필요 모듈 및 데이터 불러오기**

우선 실습을 위해 필요한 모듈과 데이터를 불러오겠습니다.

In [None]:
import pandas as pd
import numpy as np

In [None]:

drinks = pd.read_csv('http://bit.ly/drinksbycountry')
movies = pd.read_csv('http://bit.ly/imdbratings')
orders = pd.read_csv('http://bit.ly/chiporders', sep='\t')
orders['item_price'] = orders.item_price.str.replace('$', '').astype('float')
stocks = pd.read_csv('http://bit.ly/smallstocks', parse_dates=['Date'])
titanic = pd.read_csv('http://bit.ly/kaggletrain')
ufo = pd.read_csv('http://bit.ly/uforeports', parse_dates=['Time'])

# **1. 행 순서 뒤집기**

데이터프레임의 행 순서를 뒤집는 법에 대해서 알아봅시다.

우선 사용할 데이터를 먼저 확인해봅니다.

In [None]:
drinks

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,South America
189,Vietnam,111,2,1,2.0,Asia
190,Yemen,6,0,0,0.1,Asia
191,Zambia,32,19,4,2.5,Africa


행 순서를 뒤집고 싶다면 loc 메소드를 이용해야 합니다.

데이터프레임에 loc[::-1]을 적용해주시면 행의 순서가 뒤집어집니다.

일반적으로 [::-1] 표현은 리스트나 배열(array)을 뒤집을 때 사용되는 메소드입니다.

판다스에서도 loc와 함께 [::-1]를 사용하면 리스트나 배열을 뒤집는 것처럼 데이터프레임을 뒤집을 수 있습니다.

In [None]:
drinks.loc[::-1]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
192,Zimbabwe,64,18,4,4.7,Africa
191,Zambia,32,19,4,2.5,Africa
190,Yemen,6,0,0,0.1,Asia
189,Vietnam,111,2,1,2.0,Asia
188,Venezuela,333,100,3,7.7,South America
...,...,...,...,...,...,...
4,Angola,217,57,45,5.9,Africa
3,Andorra,245,138,312,12.4,Europe
2,Algeria,25,0,14,0.7,Africa
1,Albania,89,132,54,4.9,Europe


행이 뒤집어져서 출력된 것을 확인했지만 행의 인덱스는 바뀌지 않았습니다.

인덱스까지 변경하려면 reset_index 메소드를 적용하시면 됩니다.

reset_index 메소드는 데이터프레임의 인덱스를 초기화합니다.

reset_index 메소드를 사용하면 이전의 인덱스는 새로운 열에 저장됩니다.

drop 인자를 True로 설정하면 기존의 인덱스를 새로운 열에 따로 저장하지 않습니다.

In [None]:
drinks.loc[::-1].reset_index(drop=True)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Zimbabwe,64,18,4,4.7,Africa
1,Zambia,32,19,4,2.5,Africa
2,Yemen,6,0,0,0.1,Asia
3,Vietnam,111,2,1,2.0,Asia
4,Venezuela,333,100,3,7.7,South America
...,...,...,...,...,...,...
188,Angola,217,57,45,5.9,Africa
189,Andorra,245,138,312,12.4,Europe
190,Algeria,25,0,14,0.7,Africa
191,Albania,89,132,54,4.9,Europe


# **2. 열 순서 뒤집기**



열 순서를 뒤집는 것은 행 순서를 뒤집는 것과 유사합니다.

loc[:, ::-1]를 적용하면 열 순서가 뒤집어집니다.

In [None]:
drinks.loc[:, ::-1]

Unnamed: 0,continent,total_litres_of_pure_alcohol,wine_servings,spirit_servings,beer_servings,country
0,Asia,0.0,0,0,0,Afghanistan
1,Europe,4.9,54,132,89,Albania
2,Africa,0.7,14,0,25,Algeria
3,Europe,12.4,312,138,245,Andorra
4,Africa,5.9,45,57,217,Angola
...,...,...,...,...,...,...
188,South America,7.7,3,100,333,Venezuela
189,Asia,2.0,1,2,111,Vietnam
190,Asia,0.1,0,0,6,Yemen
191,Africa,2.5,4,19,32,Zambia


# **3. 데이터 타입으로 데이터프레임 필터링**



dtypes 메소드를 이용해 drink 데이터프레임의 데이터 타입에 대해 먼저 알아봅시다.

dtypes 메소드는 데이터프레임의 각 열이 어떤 데이터 타입을 가지는지 알려줍니다.

In [None]:
drinks.dtypes

country                          object
beer_servings                     int64
spirit_servings                   int64
wine_servings                     int64
total_litres_of_pure_alcohol    float64
continent                        object
dtype: object

drinks 데이터프레임은 전체 데이터 타입으로 object, int64, float64을 가진다는 것을 알 수 있습니다.

select_dtypes 메소드를 이용해 원하는 데이터 타입을 가지는 열만 선택 할 수 있습니다.

숫자 타입(int64, float64)만 가지는 열을 선택하고 싶으면 어떻게 해야할까요?

select_dtypes 메소드의 include 인자에 'number'를 전달하면 숫자 타입을 가지는 열만 반환됩니다.



In [None]:
drinks.select_dtypes(include='number').head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,0,0,0,0.0
1,89,132,54,4.9
2,25,0,14,0.7
3,245,138,312,12.4
4,217,57,45,5.9


리스트로 복수의 데이터 타입을 전달할 수도 있습니다.

리스트에 있는 데이터 타입을 가지는 열이 반환됩니다.

In [None]:
drinks.select_dtypes(include=['int64', 'object']).head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,continent
0,Afghanistan,0,0,0,Asia
1,Albania,89,132,54,Europe
2,Algeria,25,0,14,Africa
3,Andorra,245,138,312,Europe
4,Angola,217,57,45,Africa


특정 데이터 타입을 가지는 열만 제외할 수도 있습니다.

exclude의 인자로 제외하고 싶은 데이터 타입을 입력하시면 됩니다.

In [None]:
drinks.select_dtypes(exclude='number').head()

Unnamed: 0,country,continent
0,Afghanistan,Asia
1,Albania,Europe
2,Algeria,Africa
3,Andorra,Europe
4,Angola,Africa


select_dtypes 메소드에 대한 자세한 정보는 아래 링크에서 확인할 수 있습니다.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html?highlight=select_dtypes#pandas.DataFrame.select_dtypes

# **4. 문자 데이터를 숫자로 변환**



숫자 데이터가 문자 데이터로 저장되어 있는 경우가 종종 있습니다.

to_numeric 메소드를 이용하여 문자 타입의 데이터를 숫자 타입의 데이터로 변환할 수 있습니다.

판다스에서 문자 타입의 데이터는 object 데이터 타입으로 저장됩니다.

우선 문자 타입의 숫자 데이터를 가지는 더미 데이터 프레임을 하나 만들어 보겠습니다.

In [None]:
# 3행 4열의 0과 1 사이의 숫자를 가지는 행렬 생성
a = np.random.rand(3, 4)
# 행렬을 데이터 프레임으로 변환.
df = pd.DataFrame(a, columns=['a', 'b', 'c', 'd'])
# 숫자 타입을 문자 타입(object)으로 변환
df = df.apply(np.object0)
# 데이터프레임 데이터 타입 체크
df.dtypes

a    object
b    object
c    object
d    object
dtype: object

to_numeric 메소드는 스칼라, 리스트, 튜플, 1차원 배열, 시리즈(하나의 열) 타입의 데이터를 입력으로 받습니다.

데이터프레임을 입력하면 에러가 발생합니다.

In [None]:
pd.to_numeric(df)

TypeError: ignored

즉, 직접적으로 to_numeric 메소드를 사용한다면 한 번에 하나의 열의 데이터 타입만 바꿀 수 있습니다.

In [None]:
pd.to_numeric(df.a)

0    0.549568
1    0.093865
2    0.265102
Name: a, dtype: float64

하지만 to_numeric 메소드를 apply 메소드와 함께 이용한다면

데이터프레임의 모든 열을 숫자 데이터 타입으로 변경할 수 있습니다.

In [None]:
df.apply(pd.to_numeric).dtypes

a    float64
b    float64
c    float64
d    float64
dtype: object

# **5. 다수의 파일을 하나의 데이터 프레임으로 통합 (행)**



데이터가 여러 개의 파일에 분산되어 저장되어 있을 때 하나의 데이터프레임으로 통합하는 방법에 대해 알아봅시다.

우선 사용할 stocks 데이터에 대해 살펴봅시다.

In [None]:
stocks

Unnamed: 0,Date,Close,Volume,Symbol
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-03,112.52,21701800,AAPL
2,2016-10-03,57.42,19189500,MSFT
3,2016-10-04,113.0,29736800,AAPL
4,2016-10-04,57.24,20085900,MSFT
5,2016-10-04,31.35,18460400,CSCO
6,2016-10-05,57.64,16726400,MSFT
7,2016-10-05,31.59,11808600,CSCO
8,2016-10-05,113.05,21453100,AAPL


stocks 데이터는 총 3개의 종목으로 구성되어 있습니다. (CSCO, AAPL, MSFT)

실습을 위해 종목별로 데이터프레임을 만들어서 각각 다른 csv 파일에 저장해줍시다.

isin 메소드에 대해서는 추후에 설명드리겠습니다.

In [None]:
CSCO = stocks[stocks.Symbol.isin(['CSCO'])]
AAPL = stocks[stocks.Symbol.isin(['AAPL'])]
MSFT = stocks[stocks.Symbol.isin(['MSFT'])]

CSCO.to_csv('stock1.csv', index=False)
AAPL.to_csv('stock2.csv', index=False)
MSFT.to_csv('stock3.csv', index=False)

가장 쉬운 방법은 각 파일을 변수에 저장해주고 통합해주는 방법입니다.

데이터프레임 통합에는 concat 메소드가 사용됩니다.

concat 메소드의 인자로 통합할 데이터프레임의 리스트를 전달해 하나의 데이터프레임으로 통합합니다.

ignore_index 인자를 True로 설정하면 기존 인덱스를 무시하고 새로운 인덱스를 부여합니다.

In [None]:
stock1 = pd.read_csv('stock1.csv')
stock2 = pd.read_csv('stock2.csv')
stock3 = pd.read_csv('stock3.csv')

new_stocks = pd.concat([stock1, stock2, stock3], ignore_index=True)

new_stocks

Unnamed: 0,Date,Close,Volume,Symbol
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-04,31.35,18460400,CSCO
2,2016-10-05,31.59,11808600,CSCO
3,2016-10-03,112.52,21701800,AAPL
4,2016-10-04,113.0,29736800,AAPL
5,2016-10-05,113.05,21453100,AAPL
6,2016-10-03,57.42,19189500,MSFT
7,2016-10-04,57.24,20085900,MSFT
8,2016-10-05,57.64,16726400,MSFT


하지만 이런 방식은 메모리 사용이 비효율적이란 단점이 있습니다.

메모리를 효율적으로 사용하기 위해서는 데이터프레임을 따로 변수에 저장하지 않고  바로 통합시키는 방법을 사용하면 됩니다.

이를 위해서는 우선 읽을 파일명을 리스트에 담아 정리해야 합니다.

glob 모듈을 사용하면 특정 패턴의 파일명을 찾아 리스트로 반환받을 수 있습니다.

In [None]:
from glob import glob

In [None]:
# 'stock*.csv'는 파일명이 stock으로 시작하는 모든 csv 파일명을 의미합니다.
file_name_pattern = 'stock*.csv'
# 패턴을 glob의 인자로 전달해 패턴과 일치하는 모든 파일명을 리스트로 반환받습니다.
file_names = glob(file_name_pattern)
file_names

['stock2.csv', 'stock1.csv', 'stock3.csv']

glob을 사용해서 파일명을 리스트로 반환받았습니다.

sorted 메소드를 이용해 파일명을 순서대로 정렬해줍니다.

In [None]:
file_names = sorted(file_names)
file_names

['stock1.csv', 'stock2.csv', 'stock3.csv']

리스트에 담긴 파일명들을 이용해 데이터프레임을 불러옴과 동시에 통합해보겠습니다.

파이썬 리스트 표현식을 이해하고 있다고 가정하겠습니다.

리스트 표현식을 모르신다면 다음 링크를 참조해주세요.

https://dojang.io/mod/page/view.php?id=2285

In [None]:
new_stocks = pd.concat([pd.read_csv(file_name) for file_name in file_names ], ignore_index=True)
new_stocks

Unnamed: 0,Date,Close,Volume,Symbol
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-04,31.35,18460400,CSCO
2,2016-10-05,31.59,11808600,CSCO
3,2016-10-03,112.52,21701800,AAPL
4,2016-10-04,113.0,29736800,AAPL
5,2016-10-05,113.05,21453100,AAPL
6,2016-10-03,57.42,19189500,MSFT
7,2016-10-04,57.24,20085900,MSFT
8,2016-10-05,57.64,16726400,MSFT


# **6. 다수의 파일을 하나의 데이터프레임으로 통합하기 (열)**



이번에는 열을 기준으로 다수의 파일을 하나의 데이터프레임으로 통합해보겠습니다.

실습을 위해 방금 사용했던 stocks 데이터프레임을 열마다 분할하고 개별 파일로 만들어보겠습니다.

In [None]:
for i in range(len(stocks.columns)):
  column = stocks.iloc[:, i]
  column.to_csv(f'column{i+1}.csv', index=False)

우선 glob 모듈을 사용하여 파일명을 리스트에 담고 정렬해줍니다.

In [None]:
file_name_pattern = 'column*.csv'
file_names = glob(file_name_pattern)
file_names = sorted(file_names)
file_names

['column1.csv', 'column2.csv', 'column3.csv', 'column4.csv']

열을 기준으로 데이터프레임을 통합하고싶다면 concat 메소드의 axis 인자를 1로 설정하면 됩니다. (axis의 default 값은 0(행)입니다.)

열을 기준으로 데이터프레임을 통합하실 때는 ignore_index를 True로 설정하시면 

열 이름이 사라지고 정수값으로 대체되니 주의하시길 바랍니다.

In [None]:
new_stocks = pd.concat([pd.read_csv(file_name) for file_name in file_names], axis=1, ignore_index=True)
new_stocks

Unnamed: 0,0,1,2,3
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-03,112.52,21701800,AAPL
2,2016-10-03,57.42,19189500,MSFT
3,2016-10-04,113.0,29736800,AAPL
4,2016-10-04,57.24,20085900,MSFT
5,2016-10-04,31.35,18460400,CSCO
6,2016-10-05,57.64,16726400,MSFT
7,2016-10-05,31.59,11808600,CSCO
8,2016-10-05,113.05,21453100,AAPL


In [None]:
new_stocks = pd.concat([pd.read_csv(file_name) for file_name in file_names], axis=1)
new_stocks

Unnamed: 0,Date,Close,Volume,Symbol
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-03,112.52,21701800,AAPL
2,2016-10-03,57.42,19189500,MSFT
3,2016-10-04,113.0,29736800,AAPL
4,2016-10-04,57.24,20085900,MSFT
5,2016-10-04,31.35,18460400,CSCO
6,2016-10-05,57.64,16726400,MSFT
7,2016-10-05,31.59,11808600,CSCO
8,2016-10-05,113.05,21453100,AAPL


# **7. 데이터프레임 랜덤하게 분할하기**



이번에는 데이터프레임에 있는 데이터를 랜덤하게 분할하는 방법에 대해 알아보겠습니다.

이번 실습에는 movies 데이터를 사용합니다.

In [None]:
print(movies.head())
print(f'The length of the movie dataframe is {len(movies)}')

   star_rating  ...                                        actors_list
0          9.3  ...  [u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...
1          9.2  ...    [u'Marlon Brando', u'Al Pacino', u'James Caan']
2          9.1  ...  [u'Al Pacino', u'Robert De Niro', u'Robert Duv...
3          9.0  ...  [u'Christian Bale', u'Heath Ledger', u'Aaron E...
4          8.9  ...  [u'John Travolta', u'Uma Thurman', u'Samuel L....

[5 rows x 6 columns]
The length of the movie dataframe is 979


데이터프레임을 랜덤 샘플링을 하려면 sample 메소드를 사용해야 합니다.

sample 메소드의 frac 인자로 전체에서 몇 퍼센트를 샘플링할 것인지 설정할 수 있습니다.

random_state 인자로 랜덤한 상태를 고정할 수 있습니다.

random_state를 이용해 랜덤한 상태를 고정시키면 매번 샘플링을 하더라도 똑같은 랜덤 샘플을 얻을 수 있습니다.

random_state 인자를 설정하지 않으면 샘플링할 때마다 다른 랜덤 샘플이 반환됩니다.

샘플링 된 데이터는 원래의 인덱스 값을 간직하고 있습니다.


In [None]:
movies_1 = movies.sample(frac=0.75, random_state=1212)
print(movies_1.head())
print(len(movies_1))

     star_rating  ...                                        actors_list
522          7.8  ...  [u'George Clooney', u'John Turturro', u'Tim Bl...
571          7.8  ...  [u'Robert De Niro', u'Chazz Palminteri', u'Lil...
832          7.5  ...  [u'Peter Weller', u'Nancy Allen', u"Dan O'Herl...
755          7.6  ...  [u'Tony Chiu Wai Leung', u'Wei Tang', u'Joan C...
114          8.3  ...       [u'Brad Pitt', u'Diane Kruger', u'Eli Roth']

[5 rows x 6 columns]
734


샘플링된 데이터를 바탕으로 하나의 데이터프레임을 두 개로 나눠봅시다.

샘플링된 데이터는 원래의 인덱스 값을 가지고 있다는 점을 활용합니다.

drop 메소드를 활용해 movie 데이터프레임에서 샘플링된 데이터(movie_1)의 인덱스 값과 똑같은 인덱스 값을 가지는 행을 제거해 movies_2를 만듭니다.

drop 메소드는 데이터프레임에서 행 또는 열을 제거하기 위해 사용하는 메소드입니다.

자세한 설명은 아래 링크를 참조바랍니다.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop

In [None]:
movies_2 = movies.drop(movies_1.index)
print(movies_2.head())
print(len(movies_2))

    star_rating  ...                                        actors_list
4           8.9  ...  [u'John Travolta', u'Uma Thurman', u'Samuel L....
10          8.8  ...  [u'Elijah Wood', u'Ian McKellen', u'Orlando Bl...
11          8.8  ...  [u'Leonardo DiCaprio', u'Joseph Gordon-Levitt'...
12          8.8  ...  [u'Mark Hamill', u'Harrison Ford', u'Carrie Fi...
14          8.8  ...  [u'Elijah Wood', u'Ian McKellen', u'Viggo Mort...

[5 rows x 6 columns]
245


# **8. 카테고리로 데이터프레임 필터링하기**



특정 열에서 특정 카테고리 값을 가지는 데이터만 반환받는 방법에 대해 알아보겠습니다.

이번 실습을 위해 movies 데이터프레임을 사용합니다. 

카테고리 필터링을 위해 isin 메소드를 사용합니다.

isin 메소드는 데이터프레임 또는 시리즈의 셀의 값이 isin의 인자로 전달한 값에 포함되면 True를 반환하고 아니면 False를 반환합니다.

공식 문서에 isin 메소드에 대한 자세한 설명과 예시가 있으니 읽어보시는걸 권장합니다.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html?highlight=isin#pandas.DataFrame.isin

In [None]:
# 영화의 장르가 Action이면 True를 반환합니다.
movies.genre.isin(['Action'])

0      False
1      False
2      False
3       True
4      False
       ...  
974    False
975    False
976     True
977    False
978    False
Name: genre, Length: 979, dtype: bool

isin 메소드를 이용해 다음과 같이 장르가 Action인 영화만 반환받을 수 있습니다.

In [None]:
movies[movies.genre.isin(['Action'])].head()

Unnamed: 0,star_rating,title,content_rating,genre,duration,actors_list
3,9.0,The Dark Knight,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
11,8.8,Inception,PG-13,Action,148,"[u'Leonardo DiCaprio', u'Joseph Gordon-Levitt'..."
12,8.8,Star Wars: Episode V - The Empire Strikes Back,PG,Action,124,"[u'Mark Hamill', u'Harrison Ford', u'Carrie Fi..."
19,8.7,Star Wars,PG,Action,121,"[u'Mark Hamill', u'Harrison Ford', u'Carrie Fi..."
20,8.7,The Matrix,R,Action,136,"[u'Keanu Reeves', u'Laurence Fishburne', u'Car..."


장르가 Action 혹은 Drama인 영화만 반환받아 보겠습니다.

In [None]:
movies[movies.genre.isin(['Action', 'Drama'])].head()

Unnamed: 0,star_rating,title,content_rating,genre,duration,actors_list
3,9.0,The Dark Knight,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
5,8.9,12 Angry Men,NOT RATED,Drama,96,"[u'Henry Fonda', u'Lee J. Cobb', u'Martin Bals..."
9,8.9,Fight Club,R,Drama,139,"[u'Brad Pitt', u'Edward Norton', u'Helena Bonh..."
11,8.8,Inception,PG-13,Action,148,"[u'Leonardo DiCaprio', u'Joseph Gordon-Levitt'..."
12,8.8,Star Wars: Episode V - The Empire Strikes Back,PG,Action,124,"[u'Mark Hamill', u'Harrison Ford', u'Carrie Fi..."


~ 연산자를 사용해 True와 False를 뒤바꿔 입력한 카테고리에 해당하지 않는 영화만 반환받을 수도 있습니다.

In [None]:
movies[~movies.genre.isin(['Action', 'Drama'])].head()

Unnamed: 0,star_rating,title,content_rating,genre,duration,actors_list
0,9.3,The Shawshank Redemption,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,9.2,The Godfather,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
2,9.1,The Godfather: Part II,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
4,8.9,Pulp Fiction,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."
6,8.9,"The Good, the Bad and the Ugly",NOT RATED,Western,161,"[u'Clint Eastwood', u'Eli Wallach', u'Lee Van ..."


# **9. 가장 많이 등장하는 카테고리들로 데이터프레임 필터링하기**



movies 데이터프레임을 데이터프레임에서 가장 많이 나오는 3개의 장르의 영화들로만 필터링 해봅시다. 

우선 어떤 장르의 영화가 가장 많은지 확인하기 위해 genre 열에 value_counts 메소드를 사용합니다.

Drama, Comedy, Action 장르가 가장 많이 등장한다는 것을 알 수 있습니다.

In [None]:
counts = movies.genre.value_counts()
counts

Drama        278
Comedy       156
Action       136
Crime        124
Biography     77
Adventure     75
Animation     62
Horror        29
Mystery       16
Western        9
Thriller       5
Sci-Fi         5
Film-Noir      3
Family         2
Fantasy        1
History        1
Name: genre, dtype: int64

nlargest 메소드를 사용하면 가장 많이 등장하는 n개의 장르를 확인할 수 있습니다.

가장 많이 등장하는 카테고리 3개만 추출해보겠습니다.

In [None]:
counts.nlargest(3)

Drama     278
Comedy    156
Action    136
Name: genre, dtype: int64

movies 데이터프레임을 isin 메소드를 사용하여 가장 많이 등장하는 3개 장르의 영화들로만 구성합니다.

In [None]:
movies[movies.genre.isin(counts.nlargest(3).index)].head()

Unnamed: 0,star_rating,title,content_rating,genre,duration,actors_list
3,9.0,The Dark Knight,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
5,8.9,12 Angry Men,NOT RATED,Drama,96,"[u'Henry Fonda', u'Lee J. Cobb', u'Martin Bals..."
9,8.9,Fight Club,R,Drama,139,"[u'Brad Pitt', u'Edward Norton', u'Helena Bonh..."
11,8.8,Inception,PG-13,Action,148,"[u'Leonardo DiCaprio', u'Joseph Gordon-Levitt'..."
12,8.8,Star Wars: Episode V - The Empire Strikes Back,PG,Action,124,"[u'Mark Hamill', u'Harrison Ford', u'Carrie Fi..."


# **10. 결측치 처리**



결측치 처리 실습을 위해서 ufo 데이터프레임을 사용합니다.

In [None]:
ufo.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,1930-06-01 22:00:00
1,Willingboro,,OTHER,NJ,1930-06-30 20:00:00
2,Holyoke,,OVAL,CO,1931-02-15 14:00:00
3,Abilene,,DISK,KS,1931-06-01 13:00:00
4,New York Worlds Fair,,LIGHT,NY,1933-04-18 19:00:00


isna 메소드를 사용해 데이터프레임의 데이터가 결측치(NaN)인지 아닌지 확인할 수 있습니다.

결측치이면 셀 값으로 True가 반환되고 아니면 False가 반환됩니다.

In [None]:
ufo.isna()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,False,True,False,False,False
1,False,True,False,False,False
2,False,True,False,False,False
3,False,True,False,False,False
4,False,True,False,False,False
...,...,...,...,...,...
18236,False,True,False,False,False
18237,False,True,False,False,False
18238,False,True,True,False,False
18239,False,False,False,False,False


isna 메소드 적용 이후 sum 메소드를 사용해 각 열에 결측치가 몇 개나 있는지 확인할 수 있습니다.

In [None]:
ufo.isna().sum()

City                  25
Colors Reported    15359
Shape Reported      2644
State                  0
Time                   0
dtype: int64

각 행에 결측치가 몇 개나 있는지 확인하기 위해서는 sum 메소드에서  axis를 1로 설정하면 됩니다.

In [None]:
ufo.isna().sum(axis=1)

0        1
1        1
2        1
3        1
4        1
        ..
18236    1
18237    1
18238    2
18239    0
18240    1
Length: 18241, dtype: int64

dropna 메소드를 통해 결측치가 있는 행 또는 열을 제거할 수 있습니다.

axis는 0이 default 값이고 결측치가 있는 열을 제거하기 위해서는 axis를 1로 설정하면 됩니다. 

결측치가 하나라도 있다면 해당하는 행 또는 열이 사라지니 주의가 필요합니다.

In [None]:
# 결측치가 있는 행을 제거합니다.
ufo.dropna().head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
12,Belton,RED,SPHERE,SC,1939-06-30 20:00:00
19,Bering Sea,RED,OTHER,AK,1943-04-30 23:00:00
36,Portsmouth,RED,FORMATION,VA,1945-07-10 01:30:00
44,Blairsden,GREEN,SPHERE,CA,1946-06-30 19:00:00
82,San Jose,BLUE,CHEVRON,CA,1947-07-15 21:00:00


In [None]:
# 결측치가 있는 열을 제거합니다.
ufo.dropna(axis=1).head()

Unnamed: 0,State,Time
0,NY,1930-06-01 22:00:00
1,NJ,1930-06-30 20:00:00
2,CO,1931-02-15 14:00:00
3,KS,1931-06-01 13:00:00
4,NY,1933-04-18 19:00:00


thresh 인자를 설정해 각 행 또는 열에서 결측치가 thresh로 설정한 값 이상 존재하면 행 또는 열을 제거할 수도 있습니다.

In [None]:
# 열의 값이 90% 이상이 결측치라면 해당 열을 제거합니다.
ufo.dropna(thresh=len(ufo)*0.9, axis=1).head()

Unnamed: 0,City,State,Time
0,Ithaca,NY,1930-06-01 22:00:00
1,Willingboro,NJ,1930-06-30 20:00:00
2,Holyoke,CO,1931-02-15 14:00:00
3,Abilene,KS,1931-06-01 13:00:00
4,New York Worlds Fair,NY,1933-04-18 19:00:00


In [None]:
# 결측치가 2개 이상인 행을 제거합니다.
ufo.dropna(thresh=2).head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,1930-06-01 22:00:00
1,Willingboro,,OTHER,NJ,1930-06-30 20:00:00
2,Holyoke,,OVAL,CO,1931-02-15 14:00:00
3,Abilene,,DISK,KS,1931-06-01 13:00:00
4,New York Worlds Fair,,LIGHT,NY,1933-04-18 19:00:00


**11. 데이터프레임 그룹으로 묶기**



groupby 메소드를 이용하면 특정 열의 unique한 값으로 데이터프레임을 서로 다른 그룹으로 분류할 수 있습니다.

그룹으로 분류한 후 각 그룹에 대한 연산을 수행할 수 있습니다.

이번 실습에는 orders 데이터프레임을 사용하겠습니다.

우선 orders 데이터프레임에 대해 먼저 살펴보겠습니다.

In [None]:
orders

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75


같은 order_id를 공유하는 행들이 있다는 것을 확인할 수 있습니다.

order_id를 기준으로 데이터프레임을 order별로 분류해보겠습니다.

그리고 하나의 order에서 총지출이 얼마인지 확인하기 위해 item_price 열에 sum 메소드를 적용해보겠습니다.

In [None]:
orders.groupby('order_id').item_price.sum().head()

order_id
1    11.56
2    16.98
3    12.67
4    21.00
5    13.70
Name: item_price, dtype: float64

각 order에 몇 개의 아이템이 있는지 count 메소드를 이용해서 계산하겠습니다.

저는 숫자를 계산한 열로 order_id를 지정했지만 다른 열을 지정하셔도 됩니다.

어느 열을 지정하던 간에 그룹에 있는 아이템 수와 그룹의 행의 수는 같기 때문입니다.

In [None]:
orders.groupby('order_id').item_price.count()

order_id
1       4
2       1
3       2
4       2
5       2
       ..
1830    2
1831    3
1832    2
1833    2
1834    3
Name: item_price, Length: 1834, dtype: int64

각 order에서 총지출과 몇 개의 아이템이 있는지 동시에 알아보려면 어떻게 해야할까요?

이럴 때는 agg 메소드를 사용해 수행할 연산을 리스트에 담아서 전달해주면 됩니다.

In [None]:
orders.groupby('order_id').item_price.agg(['sum', 'count']).head()

Unnamed: 0_level_0,sum,count
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,11.56,4
2,16.98,1
3,12.67,2
4,21.0,2
5,13.7,2


# **11. 문자 데이터를 담은 열을 복수의 열로 분리하기**



데이터프레임의 하나의 열에 사람의 성(last name)과 이름(first name)이 동시에 들어있다고 해봅시다.

성과 이름을 나눠서 각각 다른 열에 저장하고 싶다면 어떻게 해야할까요?

str 메소드를 이용하면 됩니다.

우선 사용할 데이터프레임을 정의해줍니다.

In [None]:
df = pd.DataFrame({"name": ['John Doe', 'Jane Smith'], "location": ['Los Angeles, CA', 'Chigago, IL']})
df

Unnamed: 0,name,location
0,John Doe,"Los Angeles, CA"
1,Jane Smith,"Chigago, IL"


분리하고자 하는 열에 str을 적용시킨 다음 문자열에 사용할 수 있는 연산들을 적용할 수 있습니다.

split 메소드를 이용해 name 열의 이름을 공백을 기준으로 두 개로 나눈 뒤 각각 first와 last에 나눠주겠습니다.

split 메소드는 문자열을 입력한 문자열을 기준으로 여러 문자열로 나눠주는 메소드입니다.

expand를 True로 설정해야 나눠진 문자열이 각각 다른 열에 배정됩니다.

In [None]:
df[['first', 'last']] = df.name.str.split(' ', expand=True)
df

Unnamed: 0,name,location,first,last
0,John Doe,"Los Angeles, CA",John,Doe
1,Jane Smith,"Chigago, IL",Jane,Smith


expand를 True로 설정하지 않으면 문자열이 기준에 따라 나눠지긴 하지만 나눠진 문자열이 각각 다른 열에 배정되지는 않습니다.

In [None]:
print(df.name.str.split(' '))
print('--------------------')
print(df.name.str.split(' ', expand=True))

0      [John, Doe]
1    [Jane, Smith]
Name: name, dtype: object
--------------------
      0      1
0  John    Doe
1  Jane  Smith


이번에는 location 열의 문자열을 ', '를 기준으로 나눈 뒤 첫번째 값(도시 이름)을 city라는 열에 새로 할당해보겠습니다.


In [None]:
df['city'] = df.location.str.split(', ', expand=True)[0]
df

Unnamed: 0,name,location,first,last,city
0,John Doe,"Los Angeles, CA",John,Doe,Los Angeles
1,Jane Smith,"Chigago, IL",Jane,Smith,Chigago


# **12. 그룹 연산의 결과를 기존 데이터프레임에 통합하기**



groupby 메소드를 사용해서 반환받은 데이터프레임의 길이는 그룹의 개수(1834)만큼 줄어들게 됩니다.

In [None]:
print(len(orders))
print(len(orders.groupby('order_id').item_price.sum()))

4622
1834


그룹 연산 이후에도 원본 데이터프레임의 길이를 유지하고 싶다면 transform 메소드를 사용하면 됩니다.

transform 메소드의 인자에 수행할 연산의 이름을 전달하면 됩니다.

transform을 통한 그룹 연산의 결과의 길이는 원본 데이터프레임의 길이(4621)와 같은 것을 확인할 수 있습니다.

In [None]:
total_price = orders.groupby('order_id').item_price.transform('sum')
total_price

0       11.56
1       11.56
2       11.56
3       11.56
4       16.98
        ...  
4617    23.50
4618    23.50
4619    28.75
4620    28.75
4621    28.75
Name: item_price, Length: 4622, dtype: float64

반환된 결과의 길이가 원본 데이터프레임의 길이와 같다면 원본 데이터프레임에 새로운 열로 통합할 수 있습니다.

In [None]:
orders['total_price'] = total_price

In [None]:
orders.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,total_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39,11.56
1,1,1,Izze,[Clementine],3.39,11.56
2,1,1,Nantucket Nectar,[Apple],3.39,11.56
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39,11.56
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,16.98


# **13. 서브그룹을 가지는 데이터프레임 다루기**




groupby 메소드에 열의 이름들을 리스트로 전달하면 그룹 분할이 리스트의 길이만큼 일어납니다.

쉽게 말하자면 그룹 안에 또다른 서브그룹이 생긴다는 의미입니다.

서브그룹이 생기면 데이터프레임 내의 개별 행에 그룹 분할이 일어난 횟수만큼 인덱스가 생성됩니다.

이때 복수의 인덱스를 행과 열로 사용해 새로운 데이터프레임을 만들 수 있습니다.

말만 들으면 어지럽지만 코드를 보면 쉽게 이해하실 수 있습니다.

이번 실습을 위해서 titanic 데이터를 사용하겠습니다.

우선 titanic 데이터프레임을 성별(Sex)과 좌석등급(Pclass)으로 그룹을 묶은 뒤 각 그룹의 평균적인 생존률을 알아보겠습니다.

확인 결과 여성의 생존율이 일반적으로 더 높았고, 그 중에서도 높은 등급의 좌석을 가진 여성들이 생존율이 더 높은 것을 알 수 있엇습니다.

좌석 등급이 높을 수록 생존 확률이 높은 경향은 남성 그룹에서도 확인할 수 있습니다.

In [None]:
titanic.groupby(['Sex', 'Pclass']).Survived.mean()

Sex     Pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: Survived, dtype: float64


이제 unstack 메소드를 이용해 결과를 일반적인 데이터프레임 형태로 바꿔보겠습니다.

상위 그룹인 Sex의 인덱스(female, male)는 행의 인덱스가 되었고

하위 그룹인 Pclass의 인덱스는 열의 이름이 된 걸 확인할 수 있습니다.

In [None]:
titanic.groupby(['Sex', 'Pclass']).Survived.mean().unstack()

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


**14. 연속적인 데이터를 카테고리 데이터로 바꾸기**




계속해서 titanic 데이터프레임을 사용하겠습니다.

Age 열을 이용해 사람들을 연령대 카테고리로 묶어봅시다.

예를 들어, 18세 미만이면 child, 18세 이상 25세 미만이면 young adult, 25세 이상이면 adult 카테고리로 묶을 수 있습니다.

cut 메소드를 사용하면 손쉽게 연속적인 데이터(나이)를 카테고리(연령대)로 묶어서 나타낼 수 있습니다.

우선 titanic의 Age 열에 대해 describe 메소드를 활용해 간략하게 살펴보겠습니다.

확인 결과 가장 늙은 사람은 80세이고 가장 젊은 사람은 0.42세(?)인 것을 알 수 있습니다. 

또한, 타이타닉 호에 탑승한 사람들의 평균 연령은 29세 정도라는 것도 알 수 있습니다.

In [None]:
titanic.Age.describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

cut 메소드를 이용해 0세 이상 18세 미만은 child, 18세 이상 25세 미만은 young adult, 25세 이상은 adult로 카테고리를 부여해봅시다.

bins 인자에는 구간을 리스트로 전달하고

labels 인자에는 구간의 이름을 리스트로 전달합니다.

In [None]:
titanic['age_group'] = pd.cut(titanic.Age, bins=[0, 18, 25, 99], labels=['child', 'young adult', 'adult'])
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_group
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,young adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,adult


# **15. 디스플레이 옵션 변경**



set_option 메소드를 이용해 디스플레이 옵션을 바꿀 수 있습니다.

titanic 데이터프레임을 살펴보면 Age 열은 숫자가 소수 첫째자리까지 표현되고

Fare 열은 숫자가 소수 넷째자리까지 표현되는 것을 알 수 있습니다.

In [None]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_group
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,young adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,adult


set_option 메소드를 이용해 데이터프레임의 소수 표현을 소수 둘째자리로 통일해보겠습니다.

Age와 Fare열 모두 소수 둘째자리까지만 표현되는 것을 확인할 수 있습니다.

In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [None]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_group
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,young adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,adult


reset_option 메소드를 이용해 default 설정값으로 되돌릴 수도 있습니다.

더 많은 디스플레이 설정은 공식문서를 참고해주세요.

https://pandas.pydata.org/docs/reference/api/pandas.set_option.html?highlight=set_option#pandas.set_option

In [None]:
pd.reset_option('display.float_format')

# **16. 데이터 프레임 스타일링**

style 메소드를 이용해 데이터프레임을 스타일링할 수 있습니다.

사용할 stock 데이터프레임 먼저 살펴보도록 하겠습니다.

In [None]:
stocks.head()

Unnamed: 0,Date,Close,Volume,Symbol
0,2016-10-03,31.5,14070500,CSCO
1,2016-10-03,112.52,21701800,AAPL
2,2016-10-03,57.42,19189500,MSFT
3,2016-10-04,113.0,29736800,AAPL
4,2016-10-04,57.24,20085900,MSFT


데이터프레임을 포맷할 양식을 담은 format의 인자로 전달해주면 format에 맞게 데이터 프레임이 변환됩니다.

{:%m/%d/%y}는 Date 열에 담긴 datetime 데이터를 월/일/연도 형식으로 표현한다는 의미입니다.

${:.2f}는 숫자 값의 맨 앞에 달러 사인을 붙이고 소수 둘째자리까지 표현한다는 의미입니다.

{:,}는 세자리마다 쉼표를 붙여준다는 의미입니다.

In [None]:
format_dict = {'Date':'{:%m/%d/%y}', 'Close':'${:.2f}', 'Volume':'{:,}'}

In [None]:
stocks.style.format(format_dict)

Unnamed: 0,Date,Close,Volume,Symbol
0,10/03/16,$31.50,14070500,CSCO
1,10/03/16,$112.52,21701800,AAPL
2,10/03/16,$57.42,19189500,MSFT
3,10/04/16,$113.00,29736800,AAPL
4,10/04/16,$57.24,20085900,MSFT
5,10/04/16,$31.35,18460400,CSCO
6,10/05/16,$57.64,16726400,MSFT
7,10/05/16,$31.59,11808600,CSCO
8,10/05/16,$113.05,21453100,AAPL


연쇄적으로 메소드를 사용해 데이터프레임을 다채롭게 스타일링 할 수 있습니다.

hide_index는 인덱스값을 숨기는 메소드입니다.

highlight_min과 highlight_max 메소드를 사용해 'Close'열의 최소값을 빨간색으로, 최대값을 연두색으로 표시해보겠습니다.

In [None]:
(stocks.style.format(format_dict)
.hide_index()
.highlight_min('Close', color='red')
.highlight_max('Close', color='lightgreen'))

Date,Close,Volume,Symbol
10/03/16,$31.50,14070500,CSCO
10/03/16,$112.52,21701800,AAPL
10/03/16,$57.42,19189500,MSFT
10/04/16,$113.00,29736800,AAPL
10/04/16,$57.24,20085900,MSFT
10/04/16,$31.35,18460400,CSCO
10/05/16,$57.64,16726400,MSFT
10/05/16,$31.59,11808600,CSCO
10/05/16,$113.05,21453100,AAPL


background_gradient 메소드를 사용해 지정한 열의 셀에 배경색을 입힐 수도 있습니다.

subset 인자에 배경색을 입힐 열을 설정하고 cmap 인자에 배경색의 컬러맵을 설정합니다.

Volume 열에 파란색 계열의 배경값을 부여해보겠습니다

Volume 열에 있는 값이 클 수록 진한 파란색으로 표현되고 값이 낮을 수록 연한 파란색으로 표현됩니다.

In [None]:
(stocks.style.format(format_dict)
.hide_index()
.background_gradient(subset='Volume', cmap='Blues'))

Date,Close,Volume,Symbol
10/03/16,$31.50,14070500,CSCO
10/03/16,$112.52,21701800,AAPL
10/03/16,$57.42,19189500,MSFT
10/04/16,$113.00,29736800,AAPL
10/04/16,$57.24,20085900,MSFT
10/04/16,$31.35,18460400,CSCO
10/05/16,$57.64,16726400,MSFT
10/05/16,$31.59,11808600,CSCO
10/05/16,$113.05,21453100,AAPL


bar 메소드를 이용해 데이터프레임에 바 차트를 그릴 수도 있습니다.

 align의 값으로 left, zero, mid를 설정할 수 있습니다. default 값은 left입니다.

 align='zero'는 열의 중앙부터 바 차트를 그린다는 의미입니다.

set_caption 메소드를 이용해 데이터프레임에 제목을 달아줄 수도 있습니다.

더 많은 스타일 옵션은 아래 공식 문서를 참조해주세요.

https://pandas.pydata.org/docs/reference/api/pandas.io.formats.style.Styler.html?highlight=style

In [None]:
(stocks.style.format(format_dict)
.hide_index()
.bar('Volume', color='lightblue', align='zero')
.set_caption('Stock Price'))

Date,Close,Volume,Symbol
10/03/16,$31.50,14070500,CSCO
10/03/16,$112.52,21701800,AAPL
10/03/16,$57.42,19189500,MSFT
10/04/16,$113.00,29736800,AAPL
10/04/16,$57.24,20085900,MSFT
10/04/16,$31.35,18460400,CSCO
10/05/16,$57.64,16726400,MSFT
10/05/16,$31.59,11808600,CSCO
10/05/16,$113.05,21453100,AAPL
