<a href="https://colab.research.google.com/github/goareum93/K-digital-training/blob/master/0_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Google Colab 사용 방법

- 방향키 ↑↓: 셀 간 이동
- Enter: 편집모드
- Ctrl + Enter: 셀 실행
- Shift + Enter: 셀 실행 + 다음 셀 선택

---

- Ctrl +M D: 셀 삭제
- Ctrl + M K: 셀 위로 이동
- Ctrl + M J: 셀 아래로 이동

# 1. Pandas

Pandas는 다음과 같은 특징을 같습니다.
- NumPy를 내부적으로 활용함(NumPy의 특징을 그대로 가짐)
- 데이터분석에 특화된 데이터 구조 제공
- 다양한 데이터 분석 함수 제공
- 데이터베이스에 쉽게 연결 가능

## Cheat Sheet

판다스는 많은 기능을 제공합니다. 이번 강의에서는 이러한 기능들을 학습할 예정입니다.</br>
그러나 이 모든 기능을 외울 순 없습니다. 외울 필요도 없고요.

**아래는 판다스를 한 장에 정리해 둔 치트시트입니다**

어떠한 기능들을 하는 함수들이 있다는것만 학습한 뒤 해당 기능이 필요할 때 아래의 치트시트를 참조해가며 판다스를 사용하면 됩니다.



![](http://drive.google.com/uc?export=view&id=12qAWxrdhFmdYN61uYbqM58jHm1y9PWJ3)

파이썬에서 pandas를 사용할 때는 일반적으로 다음과 같이 pd형태로 임포트해서 사용합니다

In [1]:
import pandas as pd

In [2]:
# numpy와 matplotlib 임포트
# %matplotlib inline # 노트북에서 그래프를 보여주기 위해 추가해주는 코드
import numpy as np
import matplotlib.pyplot as plt

Pandas의 모든 API는 help 함수를 이용하여 도움말을 확인할 수 있습니다.

In [4]:
# help(pd)
# help(pd.read_csv)
# help(pd.DataFrame)
# pd.DataFrame?

# 2. Pandas 데이터 구조

![](http://drive.google.com/uc?export=view&id=1B0ZpHC2hCXfoeYKxMT4DRHqKrQbEbztj)

## Series
- 1차원 데이터 구조
- 일반적으로 s 또는 sr로 이름 붙임

![](http://drive.google.com/uc?export=view&id=1msqZqjnrFLJXlaBGF7DsLf2B0_lA_J07)

Series는 **pd.Series()** 로 생성합니다.

In [5]:
s = pd.Series([3, -5, 7, 4]) # 인덱스 없이 생성

In [6]:
s

0    3
1   -5
2    7
3    4
dtype: int64

인덱스를 특별히 지정해주지 않으면 NumPy 다차원배열처럼 0부터 인덱스가 시작됩니다.

NumPy 다차원 배열과 다르게 Pandas Series는 인덱스를 지정해 줄 수 있으며 숫자가 아닌 문자열도 인덱스가 될 수 있습니다.

In [7]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])

In [8]:
s

a    3
b   -5
c    7
d    4
dtype: int64

**type()**을 통해 데이터타입이 Series인 걸 확인할 수 있습니다.

In [9]:
type(s)

pandas.core.series.Series

### 속성

Series는 index와 values를 가집니다.

In [10]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [11]:
s.values

array([ 3, -5,  7,  4])

### 인덱싱

Series는 요소는 index명 또는 index의 순서를 통해 인덱싱할 수 있습니다.

In [12]:
# index명으로 조회
s['a']

3

In [13]:
# index순서로 조회
s[0]

3

### 파이썬 딕셔너리와 Pandas Series의 공통점, 차이점

Index와 value를 가진다는 점에서 key와 value를 가지는 파이썬 딕셔너리와 유사하다 볼 수 있습니다.

그렇기에 파이썬 딕셔너리를 통해 Series를 생성할 수 있습니다.

In [14]:
# pop_dict는 파이썬 딕셔너리
pop_dict = {'Germany': 81.3, 
            'Belgium': 11.3, 
            'France': 64.3, 
            'United Kingdom': 64.9, 
            'Netherlands': 16.9}

# pop_dict로 Series 생성
population = pd.Series(pop_dict)
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

딕셔너리에서 key값을 이용해 value를 조회하듯 Series에서 index를 이용해 value를 조회할 수 있습니다.

In [15]:
pop_dict['France']

64.3

In [16]:
population['France']

64.3

딕셔너리와 Series의 차이점은, 딕셔너리의 Key는 순서가 없고 pandas Series의 index는 순서가 있다는 점입니다.
그렇기에 Series는 index의 순서를 통해서도 value 조회가 가능합니다.

In [17]:
# KeyError 발생(2라는 Key 값은 없음)
pop_dict[2]

KeyError: ignored

In [18]:
population[2]

64.3

또한 Series는 딕셔너리와 다르게 아래와 같은 연산이 가능합니다.

In [19]:
population*1000

Germany           81300.0
Belgium           11300.0
France            64300.0
United Kingdom    64900.0
Netherlands       16900.0
dtype: float64

In [20]:
# TypeError발생 (dict * int)
pop_dict * 1000

TypeError: ignored

## 참고. Index가 문자열에 저장된 숫자일 경우

Series의 요소를 조회하는데 혼돈이 올 수 있으니 숫자 Index를 원할 경우,
- 문자가 아닌 정수형으로 index를 지정합시다.
- 1이 아닌 0부터 index를 지정합시다.

In [21]:
sr = pd.Series([1, 2, 3, 4], index=['1', '2', '3', '4'])

In [22]:
# index명으로 접근
sr['1']

1

In [23]:
# index순서로 접근
sr[1]

2

DataFrame에서도 마찬가지로 숫자 Index를 사용할 경우 염두해두어야 합니다.

## DataFrame
- 2차원 데이터 구조
- 일반적으로 df로 이름 붙임
- 엑셀 스프레드시트, 데이터베이스등과 동일한 2차원 구조
- 가장 많이 활용하게될 구조
- Series가 합쳐진 형태

![](http://drive.google.com/uc?export=view&id=1lixriaQy119N0nNM0e_TTQ1DfuSNMk76)

DataFrame은 **pd.DataFrame()** 으로 생성합니다.

중첩된 리스트나 딕셔너리를 통해 DataFrame을 생성할 수 있습니다.

In [24]:
# 중첩된 리스트를 통한 데이터 생성
# 각 행을 리스트로 만들어야 함
data = [['Belgium', 'Brussels', 11190846],
        ['India', 'New Delhi', 1303171035],
        ['Brazil', 'Brasília', 207847528]]

df = pd.DataFrame(data)

df

Unnamed: 0,0,1,2
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


columns 파라메터를 통해 칼럼명 역시 정해줄 수 있습니다.

In [25]:
# 중첩된 리스트를 통한 데이터 생성
# 각 행을 리스트로 만들어야 함
data = [['Belgium', 'Brussels', 11190846],
        ['India', 'New Delhi', 1303171035],
        ['Brazil', 'Brasília', 207847528]]

df = pd.DataFrame(data, columns=['Country', 'Capital', 'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


데이터프레임의 데이터는 딕셔너리로 넘겨주는게 일반적입니다.

- 칼럼명을 함께 넘겨줄 수 있기 때문입니다.
- **동일한 데이터타입끼리 함께 묶어서 넘겨줄 수 있기 때문입니다.**

In [26]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

df = pd.DataFrame(data)

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


칼럼명과 마찬가지로 인덱스 역시 변경할 수 있습니다.

In [28]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

df_2 = pd.DataFrame(data,
                    index=['aa', 'bb', 'cc'])

df_2

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brussels,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasília,207847528


**type()**을 통해 데이터타입이 DataFrame인 걸 확인할 수 있습니다.

In [29]:
type(df)

pandas.core.frame.DataFrame

데이터프레임의 하나의 열은 어떤 데이터구조로 되어있을까요?

In [30]:
type(df['Country'])

pandas.core.series.Series

In [31]:
df.Country

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

데이터프레임 각 열의 데이터타입은 Series라는걸 알 수 있습니다.

### 속성

아래와 같은 속성을 가집니다.

- index
- columns
- dtypes
- values

In [32]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [33]:
df.columns

Index(['Country', 'Capital', 'Population'], dtype='object')

In [34]:
df.dtypes

Country       object
Capital       object
Population     int64
dtype: object

In [35]:
df.values

array([['Belgium', 'Brussels', 11190846],
       ['India', 'New Delhi', 1303171035],
       ['Brazil', 'Brasília', 207847528]], dtype=object)

Index, columns, dtypes를 한번에 조회하고 싶다면 info()를 사용하세요.

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Country     3 non-null      object
 1   Capital     3 non-null      object
 2   Population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


특정한 칼럼을 index로 사용할수도 있습니다.

In [37]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [38]:
df_index_with_country = df.set_index('Country')

df_index_with_country

Unnamed: 0_level_0,Capital,Population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


하나의 인덱스만 가능한것은 아닙니다. DataFrame은 여러개의 인덱스를 가질 수 있습니다.

In [39]:
df_index_with_country_and_capital = df.set_index(['Country', 'Capital'])

df_index_with_country_and_capital

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Country,Capital,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


In [41]:
# 인덱싱
# df_index_with_country_and_capital.loc[['Belgium', 'Brusseles']]

KeyError: ignored

### Dataframe의 column은 어떤 데이터타입일까

기존에 학습한 데이터프레임 생성 방식은 아래처럼 모든 데이터를 직접 명시해주는 것이었습니다.

아래 코드는 각 열을 파이썬의 리스트 형태로 입력하는 방식입니다.
리스트 형태로 입력된 데이터를 기반으로 판다스가 Series를 만들고 Series들로 DataFrame을 만드는 것이죠.

In [42]:
data = {'col1': [1, 2, 3, 4],
        'col2': [5, 6, 7, 8],
        'col3': [9, 10, 11, 12]}

df_3 = pd.DataFrame(data, 
                    index=['A', 'B', 'C', 'D'])

df_3

Unnamed: 0,col1,col2,col3
A,1,5,9
B,2,6,10
C,3,7,11
D,4,8,12




![](http://drive.google.com/uc?export=view&id=1vXLOGcypyLgT12DGNIGTnmna8BIW1pvK)




파이썬 리스트가 아닌 Series를 통해서도 DataFrame을 생성할 수 있습니다.

In [43]:
s_1 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
s_2 = pd.Series([5, 6, 7, 8], index=['A', 'B', 'C', 'D'])
s_3 = pd.Series([9, 10, 11, 12], index=['A', 'B', 'C', 'D'])

data = {'col1': s_1,
        'col2': s_2,
        'col3': s_3}

df_4 = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])

df_4

Unnamed: 0,col1,col2,col3
A,1,5,9
B,2,6,10
C,3,7,11
D,4,8,12


## NumPy ndarray와 비교

### 공통점

NumPy 다차원배열처럼 많은 연산들이 요소들간에 이루어집니다.(Elementwise-operation)

In [44]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [45]:
s + 10

a    13
b     5
c    17
d    14
dtype: int64

In [46]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [47]:
df['Population'] / 1000

0      11190.846
1    1303171.035
2     207847.528
Name: Population, dtype: float64

In [48]:
df['Country'] + df['Capital']

0    BelgiumBrussels
1     IndiaNew Delhi
2     BrazilBrasília
dtype: object

### 차이점

Series간 연산을 하는 경우, index를 기반으로 이루어집니다. 

(모든 NumPy 다차원배열은 shape가 동일하다면 index도 동일하기에 index가 달라 연산이 이루어지지 않는 경우는 없음.)

In [49]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [50]:
s1 = s[['a', 'b']]
s2 = s[['b', 'c']]

In [51]:
s1

a    3
b   -5
dtype: int64

In [52]:
s2

b   -5
c    7
dtype: int64

In [53]:
s1 + s2

a     NaN
b   -10.0
c     NaN
dtype: float64

## 실습

In [54]:
df_index_with_country

Unnamed: 0_level_0,Capital,Population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


<div class="alert alert-success">
    <b>EXERCISE</b>: df_index_with_country이 데이터로 주어졌을때 각 국가의 수도 인구는 벨기에 수도 인구 대비 몇 배인지 구하세요.
</div>

In [64]:
df_index_with_country['Population']

Country
Belgium      11190846
India      1303171035
Brazil      207847528
Name: Population, dtype: int64

In [65]:
df_index_with_country['Population'][0]

11190846

In [66]:
df_index_with_country['Population'] / df_index_with_country['Population'][0]

Country
Belgium      1.000000
India      116.449734
Brazil      18.572995
Name: Population, dtype: float64

# 3. Pandas Importing/Exproting

직접 데이터를 입력하여 DataFrame이나 Series를 생성할 일은 실무에서 많지 않습니다.<br>
실무에서는 이미 데이터가 존재하는 경우가 많고 그 데이터를 판다스로 importing해서 분석을 진행합니다.

CSV나 엑셀 형태의 파일로 저장된 데이터를 판다스로 가져오거나 직접 데이터베이스에 연결해서 데이터를 가져와서 작업하는 경우가 일반적입니다.

pandas가 지원하는 Importing/Exporting 포맷은 아래와 같습니다.
- csv (모든 text파일 연결에 사용)
- excel
- sql (모든 데이터베이스 연결에 사용)
- hdf5
- json
- html
- pickle
- ...

Importing 함수의 경우 **pd.read** 형태를 가지며 Exporting 함수의 경우 **df.to** 형태를 가집니다.


예시) json의 경우

In [67]:
json_data = df.to_json()
json_data

'{"Country":{"0":"Belgium","1":"India","2":"Brazil"},"Capital":{"0":"Brussels","1":"New Delhi","2":"Bras\\u00edlia"},"Population":{"0":11190846,"1":1303171035,"2":207847528}}'

In [68]:
pd.read_json(json_data)

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


## 1) CSV

하나의 파일로 관리 가능한 크기의 데이터라면, 데이터를 파일로 저장할때 일반적으로 CSV포맷을 활용합니다.

CSV는 comma-separated values의 약자이며 값들을 ,로 구분합니다.

### Importing

In [69]:
# 파일다운로드 받기
!wget -O 'iris_sample.csv' https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv

--2021-06-09 14:10:56--  https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 683 [text/plain]
Saving to: ‘iris_sample.csv’


2021-06-09 14:10:57 (28.6 MB/s) - ‘iris_sample.csv’ saved [683/683]



In [70]:
df_iris_sample = pd.read_csv('iris_sample.csv')

In [71]:
df_iris_sample

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


csv뿐만 아니라 tsv, txt도 read_csv()파일을 통해 읽어올 수 있습니다.

파일 관점에서 보면 csv, tsv, txt는 동일합니다. csv, tsv역시 txt파일이며 값을 구분하는 구분자가 콤마냐 탭이냐의 차이입니다.

#### txt

In [72]:
# 'iris_sample.txt' 로 확장자를 바꿔 파일다운로드 받기
!wget -O 'iris_sample.txt' https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv

--2021-06-09 14:11:31--  https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 683 [text/plain]
Saving to: ‘iris_sample.txt’


2021-06-09 14:11:31 (25.8 MB/s) - ‘iris_sample.txt’ saved [683/683]



In [73]:
pd.read_csv('iris_sample.txt')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


#### tsv

TSV는 tab-separated values의 약자이며 값들을 tab으로 구분합니다.

In [74]:
!wget -O 'tsv_sample.tsv' https://gist.githubusercontent.com/mbostock/3305937/raw/a5be7c5fd55c4fa0ca8a400cb68d658a40989966/data.tsv

--2021-06-09 14:11:39--  https://gist.githubusercontent.com/mbostock/3305937/raw/a5be7c5fd55c4fa0ca8a400cb68d658a40989966/data.tsv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 33 [text/plain]
Saving to: ‘tsv_sample.tsv’


2021-06-09 14:11:39 (2.75 MB/s) - ‘tsv_sample.tsv’ saved [33/33]



In [75]:
pd.read_csv('tsv_sample.tsv')

Unnamed: 0,x\ty
0,5\t90
1,25\t30
2,45\t50
3,65\t55
4,85\t25


In [76]:
pd.read_csv('tsv_sample.tsv', sep='\t')

Unnamed: 0,x,y
0,5,90
1,25,30
2,45,50
3,65,55
4,85,25


### Exporting
csv를 통해 생성한 df_iris_sample에서 첫 5행만 'iris_sample_2.csv'로 저장해봅시다

In [77]:
df_iris_sample.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [78]:
df_iris_sample_2 = df_iris_sample.head()

In [79]:
df_iris_sample_2

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [80]:
df_iris_sample_2.to_csv('iris_sample_2.csv')

잘 저장되었는지 다시 확인해보겠습니다.

In [81]:
pd.read_csv('iris_sample_2.csv')

Unnamed: 0.1,Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,0,5.1,3.5,1.4,0.2,setosa
1,1,4.9,3.0,1.4,0.2,setosa
2,2,4.7,3.2,1.3,0.2,setosa
3,3,4.6,3.1,1.5,0.2,setosa
4,4,5.0,3.6,1.4,0.2,setosa


**Unnamed: 0** 라는 열이 들어가 있습니다. 이는 to_csv()시 index도 함께 파일에 저장되기에 생기는 문제입니다.

저장시 index=False 를 통해 이 문제를 해결할 수 있습니다.

In [82]:
df_iris_sample_2.to_csv('iris_sample_2_no_index.csv', index=False)

In [83]:
pd.read_csv('iris_sample_2_no_index.csv')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


txt, tsv도 동일한 to_csv()로 다룰 수 있습니다.

## 2) 엑셀

엑셀파일은 read_excel(), to_excel() 을 활용해서 다룹니다.

### 입력

In [84]:
# 파일다운로드 받기
!wget -O '성적표.xlsx' https://www.dropbox.com/s/zubhmxf4aj9eg7y/%EC%84%B1%EC%A0%81%ED%91%9C.xlsx?dl=0

--2021-06-09 14:22:59--  https://www.dropbox.com/s/zubhmxf4aj9eg7y/%EC%84%B1%EC%A0%81%ED%91%9C.xlsx?dl=0
Resolving www.dropbox.com (www.dropbox.com)... 162.125.65.18, 2620:100:6027:18::a27d:4812
Connecting to www.dropbox.com (www.dropbox.com)|162.125.65.18|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: /s/raw/zubhmxf4aj9eg7y/%EC%84%B1%EC%A0%81%ED%91%9C.xlsx [following]
--2021-06-09 14:22:59--  https://www.dropbox.com/s/raw/zubhmxf4aj9eg7y/%EC%84%B1%EC%A0%81%ED%91%9C.xlsx
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uce14330c5c03df27b9d29915493.dl.dropboxusercontent.com/cd/0/inline/BQFB_0yd_4SQhPF6Hvfwldxsax1K0g6TlF1PUfzHaRZUdO2qspCaJ34vqKb13H2AoxRV1jRK-s__JTxd2mRRfmjnOB927kEHKyjdcoO8QzT7Qr1lLoqCI9naMPoDIRbNqAFVJEfhOAtkuCjFLCEJSOB9/file# [following]
--2021-06-09 14:23:00--  https://uce14330c5c03df27b9d29915493.dl.dropboxusercontent.com/cd/0/inline/BQFB_0yd_4SQhPF6Hvfwld

In [85]:
pd.read_excel('성적표.xlsx')

Unnamed: 0,반,이름,국,영,수,과
0,1,A,67,87,90,98
1,1,B,45,45,56,98
2,1,C,95,59,96,88
3,1,D,65,94,89,98
4,1,E,45,65,78,98
5,1,F,78,76,98,89
6,2,G,87,67,65,56
7,2,H,89,98,78,78
8,2,I,100,78,56,65
9,2,J,99,89,87,87


기본적으로 read_excel()은 첫번째 시트를 가져옵니다. 위 코드는 sheet_name=0이 생략되어있으며 아래의 코드와 동일한 결과를 보입니다. 

In [86]:
pd.read_excel('성적표.xlsx', sheet_name=0)

Unnamed: 0,반,이름,국,영,수,과
0,1,A,67,87,90,98
1,1,B,45,45,56,98
2,1,C,95,59,96,88
3,1,D,65,94,89,98
4,1,E,45,65,78,98
5,1,F,78,76,98,89
6,2,G,87,67,65,56
7,2,H,89,98,78,78
8,2,I,100,78,56,65
9,2,J,99,89,87,87


두 번째 시트를 가져오려면 sheet_name 파라메터에 1을 전달해야 합니다.

In [87]:
pd.read_excel('성적표.xlsx', sheet_name=1)

Unnamed: 0,반,이름,국,영,수,과
0,3,A,67,87,90,98
1,3,B,45,45,56,98
2,3,C,95,59,96,88
3,3,D,65,94,89,98
4,3,E,45,65,78,98
5,3,F,78,76,98,89
6,4,G,87,67,65,56
7,4,H,89,98,78,78
8,4,I,100,78,56,65
9,4,J,99,89,87,87


또는 시트의 이름을 명시해서 가져올수도 있습니다.

In [88]:
pd.read_excel('성적표.xlsx', sheet_name='Sheet2')

Unnamed: 0,반,이름,국,영,수,과
0,3,A,67,87,90,98
1,3,B,45,45,56,98
2,3,C,95,59,96,88
3,3,D,65,94,89,98
4,3,E,45,65,78,98
5,3,F,78,76,98,89
6,4,G,87,67,65,56
7,4,H,89,98,78,78
8,4,I,100,78,56,65
9,4,J,99,89,87,87


### 출력

to_excel()로 엑셀 파일 쓰기가 가능합니다.

sheet_name 파라메터를 통해 시트명을 정할 수 있습니다.

> to_excel()을 사용하기 위해선 ‘openpyxl’ 또는 ‘xlsxwriter’ 라이브러리가 필요합니다.

In [89]:
# xlsxwriter 라이브러리 설치
!pip install xlsxwriter

Collecting xlsxwriter
[?25l  Downloading https://files.pythonhosted.org/packages/2c/ce/74fd8d638a5b82ea0c6f08a5978f741c2655a38c3d6e82f73a0f084377e6/XlsxWriter-1.4.3-py2.py3-none-any.whl (149kB)
[K     |██▏                             | 10kB 14.0MB/s eta 0:00:01[K     |████▍                           | 20kB 19.7MB/s eta 0:00:01[K     |██████▋                         | 30kB 24.5MB/s eta 0:00:01[K     |████████▊                       | 40kB 19.9MB/s eta 0:00:01[K     |███████████                     | 51kB 16.3MB/s eta 0:00:01[K     |█████████████▏                  | 61kB 12.5MB/s eta 0:00:01[K     |███████████████▍                | 71kB 13.6MB/s eta 0:00:01[K     |█████████████████▌              | 81kB 13.4MB/s eta 0:00:01[K     |███████████████████▊            | 92kB 12.8MB/s eta 0:00:01[K     |██████████████████████          | 102kB 13.5MB/s eta 0:00:01[K     |████████████████████████▏       | 112kB 13.5MB/s eta 0:00:01[K     |██████████████████████████▎     | 

In [92]:
df_sheet2 = pd.read_excel('성적표.xlsx', sheet_name='Sheet2')

# df_sheet2.to_excel('to_excel.xlsx', sheet_name='이름을 적어주세요')
df_sheet2.to_excel('to_excel.xlsx', sheet_name='이름을 적어주세요', index=False)

In [93]:
pd.read_excel('to_excel.xlsx')

Unnamed: 0,반,이름,국,영,수,과
0,3,A,67,87,90,98
1,3,B,45,45,56,98
2,3,C,95,59,96,88
3,3,D,65,94,89,98
4,3,E,45,65,78,98
5,3,F,78,76,98,89
6,4,G,87,67,65,56
7,4,H,89,98,78,78
8,4,I,100,78,56,65
9,4,J,99,89,87,87


## 3) 데이터베이스

In [94]:
#  라이브러리 설치
!pip install mysql-connector-python

Collecting mysql-connector-python
[?25l  Downloading https://files.pythonhosted.org/packages/ef/5b/a7dc32e711e4a065896188afef6864489ccf4bdab0928581c4262e84110d/mysql_connector_python-8.0.25-cp37-cp37m-manylinux1_x86_64.whl (25.4MB)
[K     |████████████████████████████████| 25.4MB 1.6MB/s 
Installing collected packages: mysql-connector-python
Successfully installed mysql-connector-python-8.0.25


In [95]:
import sqlalchemy

user = "anonymous"
host = "ensembldb.ensembl.org"
port = 3337
database = "ailuropoda_melanoleuca_core_79_1"

url = f"mysql+mysqlconnector://{user}@{host}:{port}/{database}"
# url = f"mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}"

connection = sqlalchemy.create_engine(url)

In [96]:
pd.read_sql("select * from analysis limit 10", connection)

Unnamed: 0,analysis_id,created,logic_name,db,db_version,db_file,program,program_version,program_file,parameters,module,module_version,gff_source,gff_feature
0,10,2010-01-27 18:23:33,genscan,HumanIso.smat,,HumanIso.smat,,,genscan,,Genscan,,,
1,151,2010-06-17 12:10:04,other_protein,,uniprot_15_14,,,,,,BlastMiniGenewise,,,
2,38,2010-01-27 18:23:34,eponine,eponine,,,eponine-scan,,/software/bin//java,-epojar => /usr/local/ensembl/lib/eponine-scan...,EponineTSS,,,
3,147,2010-06-17 12:10:04,trf,,,,,,trf,,TRF,,,
4,148,2010-06-17 12:10:04,trnascan,trna,,,,1.23,tRNAscan-SE,,tRNAscan_SE,,,
5,43,2010-01-27 18:23:34,unigene,uniuni,,/data/blastdb/Supported/uniuni,wutblastn,,wutblastn,"-cpus => 1, -hitdist => 40",BlastGenscanDNA,,,
6,45,2010-01-27 18:23:34,dust,,,,,,tcdust,,Dust,,,
7,49,2010-01-27 18:23:34,cpg,,,,,,cpg,,CPG,,,
8,51,2010-01-27 18:23:34,vertrna,embl_vertrna,,/data/blastdb/Supported/embl_vertrna,wutblastn,,wutblastn,"-cpus => 1, -hitdist => 40",BlastGenscanDNA,,,
9,46,2010-01-27 18:23:34,firstef,,,,,,,,FirstEF,,,


# 4. 인덱싱/슬라이싱


## 0) [ ] 

- **[ ]** 연산자를 활용해 데이터를 가져올 수 있습니다.
- 간단히 사용하기에는 좋지만 불규칙적이라 loc, iloc를 통한 인덱싱/슬라이싱을 추천합니다.

In [97]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


- 단일 칼럼 조회

In [98]:
df['Country']

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

- 복수 칼럼 조회

In [99]:
df[['Country', 'Population']]

Unnamed: 0,Country,Population
0,Belgium,11190846
1,India,1303171035
2,Brazil,207847528


- 슬라이싱
  - **[ ]** 를 통한 슬라이싱은 row(행)에 적용됩니다.

In [100]:
# index 슬라이싱. 2 미포함
df[0:2]

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035


- 슬라이싱
  - index로 슬라이싱 하지 않고 label로 슬라이싱 하는 경우, 마지막 라벨은 포함됩니다.

In [101]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

df_2 = pd.DataFrame(data
                  , index=['aa', 'bb', 'cc']                  
                 )

df_2

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brussels,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasília,207847528


In [102]:
# label 슬라이싱. 'cc' 포함
df_2['aa':'cc']

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brussels,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasília,207847528


## 1) 인덱싱

- loc (Label based indexing)
- iloc (Positional indexing)
- ix (사용 권장하지 않음)

In [103]:
df.iloc[0,0] # 위치를 통한 인덱싱

'Belgium'

In [104]:
df.iat[0,0] # 위치를 통한 인덱싱

'Belgium'

In [105]:
df.loc[0, 'Country'] # 라벨을 통한 인덱싱

'Belgium'

In [106]:
df.at[0, 'Country'] # 라벨을 통한 인덱싱

'Belgium'

In [107]:
df.ix[1, 'Capital'] # 위치/라벨을 통한 인덱싱 (사용하지 말것을 권장)
                    # 행은 위치, 열은 라벨을 통해 인덱싱

AttributeError: ignored

## 2) 슬라이싱

In [108]:
df.iloc[0:1,0:2] # 위치를 통한 슬라이싱 (끝은 미포함)

Unnamed: 0,Country,Capital
0,Belgium,Brussels


In [109]:
df.loc[0:1, 'Country':'Capital'] # 라벨을 통한 슬라이싱 (끝 포함)

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi


## 3) 불리언 인덱싱 (필터링)
- 조건을 제시하고 조건이 True인 요소만을 조회하는 방식
- 필터링이라고도 불리웁니다.

In [110]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [111]:
df['Population'] > 200000000

0    False
1     True
2     True
Name: Population, dtype: bool

In [112]:
df[df['Population'] > 200000000] 

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


## 실습

In [113]:
# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries = countries.set_index('country') # 인덱스 지정
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


---

<div class="alert alert-success">
    <b>EXERCISE</b>: 인구밀도를 의미하는 `density` 칼럼을 추가하세요. (주의: 현재 'population' 칼럼은 10만 단위로 표기되어 있습니다)  
  
</div>

In [114]:
countries['density'] = countries['population']*1000000 / countries['area']
countries

Unnamed: 0_level_0,population,area,capital,density
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Belgium,11.3,30510,Brussels,370.37037
France,64.3,671308,Paris,95.783158
Germany,81.3,357050,Berlin,227.699202
Netherlands,16.9,41526,Amsterdam,406.973944
United Kingdom,64.9,244820,London,265.092721


<div class="alert alert-success">
    <b>EXERCISE</b>: 인구밀도가 300을 초과하는 국가(country)의 수도(capital)과 인구(population)을 선택해주세요.  
  
</div>

In [121]:

countries.loc[countries['density'] > 300, ['capital','population']]
# df.loc[0:1, 'Country':'Capital'] # 라벨을 통한 슬라이싱 (끝 포함)

Unnamed: 0_level_0,capital,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11.3
Netherlands,Amsterdam,16.9


<div class="alert alert-success">
    <b>EXERCISE</b>: 'density_ratio' 칼럼을 추가해주세요. (density_ratio = 인구밀도/평균 인구밀도)
</div>

In [127]:
countries['density'].mean()

273.1838790074409

In [126]:
countries['density_ratio'] = countries['density']/countries['density'].mean()
countries

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgium,11.3,30510,Brussels,370.37037,1.355755
France,64.3,671308,Paris,95.783158,0.350618
Germany,81.3,357050,Berlin,227.699202,0.833502
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,London,265.092721,0.970382




```
# 코드로 형식 지정됨
```

<div class="alert alert-success">
    <b>EXERCISE</b>: 영국(United Kingdom)의 수도(capital)를 'Cambridge'로 변경해주세요.
</div>

In [128]:
countries.loc['United Kingdom', 'capital']

'London'

In [129]:
countries.loc['United Kingdom', 'capital'] = 'Cambridge'
countries

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgium,11.3,30510,Brussels,370.37037,1.355755
France,64.3,671308,Paris,95.783158,0.350618
Germany,81.3,357050,Berlin,227.699202,0.833502
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,Cambridge,265.092721,0.970382


<div class="alert alert-success">
    <b>EXERCISE</b>: 인구 밀도가 100 초과, 300 미만인 국가들을 표시해주세요.  
</div>

In [132]:
(100 < countries['density'])& (countries['density']< 300)

country
Belgium           False
France            False
Germany            True
Netherlands       False
United Kingdom     True
Name: density, dtype: bool

In [143]:
countries.loc[(100 < countries['density'])& (countries['density']< 300)]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Germany,81.3,357050,Berlin,227.699202,0.833502
United Kingdom,64.9,244820,Cambridge,265.092721,0.970382




---



- 스트링 다루는 법

In [144]:
countries['capital'].str.len()

country
Belgium           8
France            5
Germany           6
Netherlands       9
United Kingdom    9
Name: capital, dtype: int64



---



<div class="alert alert-success">
    <b>EXERCISE</b>: 수도가 7글자 이상인 국가들을 표시해주세요. (힌트: string의 len( )를 사용하세요.)
</div>

In [145]:
countries.loc[countries['capital'].str.len()>=7]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgium,11.3,30510,Brussels,370.37037,1.355755
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,Cambridge,265.092721,0.970382


<div class="alert alert-success">
    <b>EXERCISE</b>: 수도에 'am' 이 포함되는 국가들을 표시해주세요. (힌트: string의 contains( )를 사용하세요.)
</div>

In [146]:
countries['capital'].str.contains('am')

country
Belgium           False
France            False
Germany           False
Netherlands        True
United Kingdom     True
Name: capital, dtype: bool

In [147]:
countries.loc[countries['capital'].str.contains('am')]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,Cambridge,265.092721,0.970382


# 5. 삭제

## 1) Row(행) 삭제


- axis=0
- axis의 기본 값이 0이니 생략 가능

### 단일 행 삭제

In [None]:
df.drop(1)

### 복수 행 삭제

In [None]:
df.drop([0,1])

## 2) Column(열) 삭제

- axis=1

### 단일 열 삭제

In [None]:
df.drop('Country', axis=1)

### 복수 열 삭제

In [None]:
df.drop(['Country', 'Population'], axis=1)

## 참조. Series 삭제

In [None]:
s

In [None]:
s.drop(['a', 'c'])
# s = s.drop(['a', 'c']) # 삭제한 결과를 사용하고 싶다면 다시 변수로 선언해주어야 한다

In [None]:
s

# 6. Pandas 함수

In [None]:
df

##  데이터 탐색에 유용한 함수

In [None]:
df.describe() # 숫자 열에만 적용. 숫자열의 통계값과 최대최소값등을 보여줌

In [None]:
df.head(2) # 초반 n행을 보여줌. default는 5
# df.head(n=2)

In [None]:
df.sort_values('Population') # 오름차순 정렬

In [None]:
df.sort_values('Population', ascending=False) # 내림차순 정렬

In [None]:
df.isnull() # null값이 있는지 확인

In [None]:
# column(열)별로 null값이 있는지 확인
df.isnull().any() # axis=0이 생략된 형태
# df.isnull().any(axis=0)

In [None]:
# row(행)별로 null값이 있는지 확인
df.isnull().any(axis=1)

In [None]:
# null값이 DataFrame내에 하나라도 있는지 확인
df.isnull().any().any()

In [None]:
df2 = df.copy()

In [None]:
df2

In [None]:
df2.loc[0, 'Population'] = None

In [None]:
df2

In [None]:
df2.isnull().any()

## aggregate 함수

In [None]:
df.count()

In [None]:
df.sum()

In [None]:
df.min()

In [None]:
df.max()

In [None]:
df.mean() # 숫자 열에만 적용

In [None]:
df.median() # 숫자 열에만 적용

## 실습

In [None]:
!wget -O 'titles.csv' https://docs.google.com/spreadsheets/d/1fiioUPMRurfE523yWGaRF3ckO-TUHu1AaIAI6Eo7Ti8/export?format=csv

In [None]:
titles = pd.read_csv('titles.csv')
titles.head()

<div class="alert alert-success">
    <b>EXERCISE</b>: titles 데이터프레임에는 몇 개의 영화가 기록되어 있나요?
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: titles에서 가장 빠른 시기에 제작된 영화 두 개를 표시하세요.
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 제목(title)이 "Hamlet"인 영화는 몇 개가 있나요?
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 제목(title)이 "Treasure Island"인 영화를 제작년도(year)의 오름차순에 따라 표시하세요. (df.sort_values())
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 1590년에서 1959년 사이 몇 개의 영화가 만들어졌나요?(1950 <= 제작년도 <= 1959)
</div>

# 7. apply 함수

- apply함수는 요소별로 적용됨

## 하나의 요소를 활용하는 경우

In [None]:
df.loc[:, 'Population':'Population']

- 각 Population에 1씩 추가

In [None]:
df.loc[:, 'Population':'Population'].apply(lambda x: x + 1)

## 여러개의 요소를 활용하는 경우

In [None]:
df.loc[:, 'Country':'Capital']

칼럼명(Country, Capital)을 사용해도 되고 칼럼 위치(0, 1)를 사용해도 됩니다.

In [None]:
df.loc[:, 'Country':'Capital'].apply(lambda x: x['Country'] + "'s capital is " + x['Capital'], axis=1)

In [None]:
df.loc[:, 'Country':'Capital'].apply(lambda x: x[0] + "'s capital is " + x[1], axis=1)

# 8. GroupBy

dataframe을 key값에 따라 나눈 뒤 각각에 특정한 함수를 적용한 뒤 다시 합치고 싶을때 사용합니다.

groupby는 Split-Apply-Combine 단계를 거칩니다.

- **Split**: Key값에 따라 나눈 뒤
- **Apply**: 함수를 적용
- **Combine**: 다시 합치기


SQL의 **GROUP BY**와 유사합니다.

![alt text](https://github.com/jorisvandenbossche/pandas-tutorial/blob/master/img/splitApplyCombine.png?raw=true)

아래 데이터로 Groupby 예를 들어 보겠습니다.

In [None]:
df = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                   'data': [0, 5, 10, 5, 10, 15, 10, 15, 20]})
df

key값에 따라 data의 합을 구하고 싶다면 어떻게 해야 할까요?

key값대로 불리언인덱싱을 한 후 sum()함수를 취해주면 됩니다.

In [None]:
df['key'].unique()

key는 'A', 'B', 'C' 이렇게 세 개가 있고 각각의 키값에 대해 불리언 인덱싱을 한 후 sum()해보겠습니다.

In [None]:
df[df['key'] == "A"].sum()

In [None]:
df[df['key'] == "B"].sum()

In [None]:
df[df['key'] == "C"].sum()

이 과정을 groupby를 사용하면 한번에 수행할 수 있습니다.

In [None]:
df.groupby('key').sum()
# df.groupby('key').aggregate(np.sum)  # 'sum'

## 실습

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/jorisvandenbossche/pandas-tutorial/master/data/titanic.csv')

In [None]:
df.head()

타이타닉 데이터셋을 df라는 판다스 데이터프레임으로 불러왔습니다. 이 데이터로 아래 실습을 진행해주세요.

<div class="alert alert-success">
    <b>EXERCISE</b>: groupby()를 사용하여 각 성별(sex)의 평균 나이(age)를 구하세요.
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 전체 승객(passenger)의 평균 생존율을 구하세요.
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 25세 이하 승객의 생존율을 구하세요. (힌트: 불리언 인덱싱)
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 남성의 생존율을 구하세요. 여성의 생존율을 구하세요. (힌트: 불리언 인덱싱)
</div>

<div class="alert alert-success">
    <b>EXERCISE</b>: 생존율을 구하는 함수가 작성되어 있습니다. 성별 생존율을 groupby를 활용해 구하기 위해 ?부분을 알맞게 채워주세요.
</div>

In [None]:
def survival_ratio(survived):
    return survived.sum() / len(survived)
  
df.groupby(?)[?].aggregate(survival_ratio)  

<div class="alert alert-success">
    <b>EXERCISE</b>: 'Pclass'별로 생존율을 보기 위해 bar 차트를 그리고자 합니다. ?부분을 알맞게 채워서 bar 차트를 그려주세요.
</div>

In [None]:
df.groupby(?)[?].aggregate(survival_ratio).plot(kind='bar')