# 판다스(Pandas) 튜토리얼

[판다스(Pandas)](https://pandas.pydata.org)는 파이썬에서 데이터분석을 위해 사용하는 패키지(Package) 중 하나입니다. 간단히 요약하자면, "파이썬으로 엑셀과 같은 파일을 다루기에 최적화된 도구"라고 생각하시면 됩니다.

판다스는 엑셀과 비슷하지만 다음과 같은 장점을 갖고 있습니다.

  1. 대용량 데이터를 효율적으로 다룰 수 있습니다. 엑셀은 데이터의 용량이 100MB만 넘어가면 정상적으로 작동하지 않는데, 판다스는 최소 1GB, 많으면 100GB가 넘는 데이터도 빠른 속도로 처리할 수 있습니다.
  2. 복잡한 기능을 구현할 때는 엑셀보다 더 쉽습니다. 엑셀은 복잡한 기능을 엑셀 전용 함수를 사용하는데, 함수의 문법도 직관적이지 않고 동작도 제대로 안 되는 경우가 많습니다. 반면, 판다스는 파이썬을 기반으로 동작하기 때문에 엑셀보다 더 쉽습니다.
  3. 다른 시스템과 연동하기 쉽습니다. 엑셀은 분석 결과를 데이터베이스에 집어넣거나 웹 페이지에 띄우는 일을 하기 어렵지만, 판다스는 플라스크([Flask](http://flask.pocoo.org/), 웹 프레임워크)나 SQL알케미([SQL Alchemy](https://www.sqlalchemy.org/), 데이터베이스)를 통해 다른 시스템과 연동하기 매우 편합니다.

판다스는 파이썬과 달리 일반인의 직관과 상식과 다소 동떨어진 방식으로 동작합니다. 하지만 판다스의 기본적인 룰 몇 가지만 숙지하면, 적은 문법 만으로도 굉장히 다양하고 창의적인 방식으로 엑셀(또는 CSV) 파일을 다룰 수 있습니다.

다음의 튜토리얼에 익숙해진 뒤, [10 Minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)라는 판다스의 공식 튜토리얼을 읽어보시는 것을 추천 드립니다. 또는 판다스를 속성으로 배우고 싶거나, 책에서 나오지 않는 실전 노하우(한글 데이터 처리, 데이터베이스 연동 등)를 배우고 싶다면. DS School의 [중급(판다스) 과정](https://dsschool.co.kr/suggestions)을 수강하는 것을 추천 드립니다.


### 패키지 읽어오기

파이썬은 범용적인 목적으로 만들어진 프로그래밍 언어입니다. 하지만 범용적인 프로그래밍 언어라 하더라도,세상의 모든 기능을 전부 구현하는 것은 이론적으로 불가능합니다.

그래서 파이썬은 패키지(package)라는 시스템을 만들었습니다. 이제 개발자는 파이썬에 존재하지 않는 기능이 있다면 이를 스스로 구현한 뒤 세상에 공개할 수 있고, 파이썬은 패키지라는 시스템을 통해 이 기능을 파이썬에서 쉽게 사용할 수 있도록 구현해 놓았습니다.

다음은 판다스라는 패키지를 파이썬에서 읽어오는 코드입니다.

In [1]:
# pandas 라는 패키지를 파이썬으로 읽어(import)옵니다. 그리고 pd라는 축약어로 사용합니다.
import pandas as pd

### 파일 읽어오기

판다스에서는 **read_csv**라는 기능으로 [CSV(comma-separated values)](https://en.wikipedia.org/wiki/Comma-separated_values)파일을 읽어올 수 있습니다. 여기서 파일 경로는 (ex: data/train.csv)는 개인의 설정마다 다른데, 자세한 건 [절대경로와 상대경로](http://88240.tistory.com/122)에 관한 아티클을 참고해주세요.

In [2]:
# train.csv 파일을 읽어옵니다. 여기서 PassengerId라는 컬럼을 인덱스(index)로 지정한 뒤, train 변수에 할당합니다.
# 변수에 할당한 결과값을 판다스 전문 용어로 데이터프레임(DataFrame)이라고 부릅니다.
train = pd.read_csv("data/titanic/train.csv", index_col="PassengerId")

# train 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(train.shape)

# head()로 train 데이터의 상위 5개를 출력합니다.
train.head()

(891, 11)


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


여기서 가져온 결과(train 변수에 저장된 값)을 판다스의 전문 용어로 데이터프레임([DataFrame](https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe)) 이라고 합니다.

데이터프레임을 읽어왔으면 여기서 인덱스(index)와 컬럼(columns)을 가져올 수 있습니다.

In [3]:
# 인덱스(index)를 가져옵니다. 여기서 index는 PassengerId와 동일합니다.
train.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
           dtype='int64', name='PassengerId', length=891)

In [4]:
# 컬럼들(columns)을 가져옵니다.
train.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')

또한 ```head```로 상위 5개를, ```tail```으로 하위 5개의 데이터를 가져올 수 있습니다. 여기서 ```head```나 ```tail```안에 숫자를 넣어주면 숫자 만큼의 데이터를 가져옵니다. (가령 ```.head(3)```은 상위 5개가 아닌 상위 3개의 데이터를 가져옵니다.)

In [5]:
# train 데이터의 상위 5개를 출력합니다.
train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
# head에 갯수(n)를 지정해주면 n개 만큼의 데이터를 가져옵니다,
# 아래 코드는 train 데이터의 상위 3개를 출력합니다.
train.head(3)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [7]:
# train 데이터의 하위 5개를 출력합니다.
train.tail()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [8]:
# head(n)과 동일한 원리로, tail(n)은 하위 n개의 데이터를 가져옵니다.
# 아래 코드는 train 데이터의 하위 7개를 출력합니다.
train.tail(7)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## 행렬

판다스 데이터프레임의 기본은 행렬 접근하기입니다. (참고로 행은 row, 열은 column이라고 합니다) 행렬 접근을 시도해보면 판다스의 특징을 바로 깨달을 수 있는데, 일단 1) 굉장히 간단한 문법으로 행렬을 접근할 수 있고, 2) 이 문법을 조금만 응용하면 다양한 방식으로 행렬을 가져올 수 있습니다.

먼저 열(column)을 가져오는 방법부터 배워보겠습니다.

### 열(column) 가져오기

일단 대괄호([])를 엽니다. 이 대괄호에 문자열을 집어넣으면, 문자열에 해당하는 열(column)을 반환합니다.

In [9]:
# Survived라는 이름의 컬럼을 가져옵니다. 길이가 길기 때문에, .head()로 상위 5개만 출력합니다.
train["Survived"].head()

PassengerId
1    0
2    1
3    1
4    1
5    0
Name: Survived, dtype: int64

컬럼 가져오기의 응용. 대괄호를 두 개([[]]) 연 뒤, 컬럼명 여러개를 집어넣습니다.

In [10]:
# Sex, Pclass, Survived 컬럼 세 개를 가져옵니다. 마찬가지로 .head()로 상위 5개만 출력합니다.
train[["Sex", "Name", "Survived"]].head()

Unnamed: 0_level_0,Sex,Name,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,male,"Braund, Mr. Owen Harris",0
2,female,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1
3,female,"Heikkinen, Miss. Laina",1
4,female,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1
5,male,"Allen, Mr. William Henry",0


위의 컬럼 여러개 가져오기는 파이썬의 리스트(list)를 응용한 것입니다. 위의 코드와 아래의 코드는 사실상 동일합니다.

In [11]:
# 리스트를 하나 만드는데, 리스트 안에 컬럼 이름 여러개(Sex, Pclass, Survived)를 집어넣습니다.
# 이후 판다스 데이터프레임에서 대괄호를 하나 열고([]) 그 안에 리스트를 집어넣습니다.
columns = ["Sex", "Name", "Survived"]
train[columns].head()

Unnamed: 0_level_0,Sex,Name,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,male,"Braund, Mr. Owen Harris",0
2,female,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1
3,female,"Heikkinen, Miss. Laina",1
4,female,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1
5,male,"Allen, Mr. William Henry",0


### 행(row) 가져오기

열(column) 가져오기와 비슷하나, 이번에는 .loc(locate의 약자)라는 표현을 사용합니다.

In [12]:
# loc(locate)를 사용하면 이번에는 열(column)이 아니라 행(row)을 가져옵니다.
# 다음의 코드는 PassengerId가 1번인 승객 정보를 반환합니다.
train.loc[1]

Survived                          0
Pclass                            3
Name        Braund, Mr. Owen Harris
Sex                            male
Age                              22
SibSp                             1
Parch                             0
Ticket                    A/5 21171
Fare                           7.25
Cabin                           NaN
Embarked                          S
Name: 1, dtype: object

파이썬의 슬라이싱과 비슷한 기능도 있습니다.

In [13]:
# 아래 코드는 PassengerId가 1번인 승객부터 7번인 승객까지 반환합니다.
# 파이썬의 슬라이싱(ex: odd[0:4])과 다르게, 이번에는 PassengerId가 7번인 승객을 포함하여 출력합니다.
train.loc[1:7]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


행 가져오기의 응용. 이번에는 .loc 후 대괄호를 두 개([[]]) 열고, 1, 3, 7, 13을 넣습니다.

In [14]:
# PassengerId가 1, 3, 7, 13번인 승객을 반환합니다.
train.loc[[1, 3, 7, 13]]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S


위의 코드 역시 파이썬의 리스트(list)를 응용한 것입니다. 위의 코드와 아래의 코드는 사실상 동일합니다.

In [15]:
passenger_ids = [1, 3, 7, 13]
train.loc[passenger_ids]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S


### 행렬 동시에 가져오기

위의 방법을 응용하면 행(row)과 열(column)을 동시에 접근할 수 있습니다. 행렬 가져오기는 판다스의 가장 중요한 기능 중 하나이며, 이 기능을 창의적으로 응용하면 많은 일을 한 두줄의 코드로 쉽게 해결할 수 있기 때문에 반드시 숙지할 것을 권장 드립니다.

In [16]:
# 행렬 가져오기의 기본. .loc 후 콤마(,)를 기준으로
# 좌측에는 행(row)을 가져오는 조건, 우측에는 열(column)을 가져오는 조건을 넣습니다.
# 아래 코드는 PassengerId가 1번인 승객의 성별(Sex)을 가져옵니다.
train.loc[1, "Sex"]

'male'

In [17]:
# 여러 열을 가져오기. PassengerId가 1번인 승객의 Pclass, Sex, Survived를 가져옵니다.
train.loc[1, ["Sex", "Name", "Survived"]]

Sex                            male
Name        Braund, Mr. Owen Harris
Survived                          0
Name: 1, dtype: object

In [18]:
# 여러 행을 가져오기. PassengerId가 1, 3, 7, 13번인 승객의 성별(Sex)를 가져옵니다.
train.loc[[1, 3, 7, 13], "Sex"]

PassengerId
1       male
3     female
7       male
13      male
Name: Sex, dtype: object

In [19]:
# 여러 행을 슬라이싱해서 가져오기. PassengerId가 1번 부터 7번 까지의 승객의 성별(Sex)를 가져옵니다.
train.loc[1:7, "Sex"]

PassengerId
1      male
2    female
3    female
4    female
5      male
6      male
7      male
Name: Sex, dtype: object

In [20]:
# 여러 행과 여러 열을 동시에 가져오기
# PassengerId가 1, 3, 7, 13번인 승객의 Sex, Pclass, Survived를 가져옵니다.
train.loc[[1, 3, 7, 13], ["Sex", "Name", "Survived"]]

Unnamed: 0_level_0,Sex,Name,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,male,"Braund, Mr. Owen Harris",0
3,female,"Heikkinen, Miss. Laina",1
7,male,"McCarthy, Mr. Timothy J",0
13,male,"Saundercock, Mr. William Henry",0


## 색인

다음으로 배울 기능은 판다스의 색인(Indexing)입니다. 색인은 판다스의 꽃이라고 불리울 수 있는 강력한 기능인데, 위의 컬럼 접근하는 기능을 약간만 응용하면 매우 쉬운 방식으로 데이터를 색인할 수 있습니다.




In [21]:
# 성별(Sex)이 남성(male)인 데이터를 가져옵니다.
# train["Sex"] == "male"은 성별이 남성(male)이면 True, 아니면 False로 이루어진 리스트 값입니다.
# 이 리스트를 train[] 의 괄호 안에 넣어주면 값이 True인 데이터만 가져오고 False인 데이터는 버리는데
# 이게 판다스 색인의 원리입니다.
train[train["Sex"] == "male"].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


위 색인의 원리를 응용하면 정말 쉬운 방식으로 다양한 값을 찾을 수 있습니다.

In [22]:
# 운임요금(Fare) 값이 20달러보다 높은(초과) 데이터를 가져옵니다.
train[train["Fare"] > 20].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [23]:
# 선착장(Embarked)이 C(Cherbourg)인 승객만 가져옵니다.
train[train["Embarked"] == "C"].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C


In [24]:
# 정 반대로, 선착장(Embarked)이 C가 아닌(Q, S) 승객만 가져옵니다.
train[train["Embarked"] != "C"].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


이제부터는 몇 가지 기능을 추가해서 더 다양한 방식으로 데이터를 색인해보도록 하겠습니다.

In [25]:
# isin() 함수를 사용합니다. 이 함수에는 리스트 값이 들어가는데,
# 리스트 안에 있는 값들 중 하나라도 있으면 True, 아니면 False를 반환합니다.

# isin을 응용하면 다른 방식으로 선착장(Embarked)이 Q이거나 S인 승객을 가져올 수 있습니다.
# 즉, 아래 코드와 위 코드의 결과는 사실상 동일합니다.
train[train["Embarked"].isin(["Q", "S"])].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


판다스 색인의 경우 소괄호(```()```)와 대괄호(```[]```)의 조합이 복잡하기 때문에 개발자가 실수할 여지가 많습니다. 그러므로 색인 코드를 작성할 때는 아래처럼 다소 코드가 길더라도 한 줄에 하나의 기능만 실행하는 것을 권장합니다. 이렇게 하면 코드가 더 직관적이고 명확하기 때문에, 개발자가 실수를 일으킬 여지가 줄어듭니다.

In [26]:
# 위 코드는 이렇게 세 줄로 풀어서 사용할 수 있습니다.
not_cherbourg = ["Q", "S"]
embarked_isin = train["Embarked"].isin(not_cherbourg)

train[embarked_isin].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


또한 판다스 색인을 할 때는 데이터의 타입을 명확하게 지정해줘야 합니다. 앞서 파이썬에서 1(정수형 1)과 "1"(문자열 1)은 다르듯이, 판다스 색인에서도 정수형과 문자열을 명확히 구분해서 사용해줘야 합니다.

In [27]:
# 객실 등급(Pclass)이 1인 승객을 가져옵니다.
# 여기서 객실 등급(Pclass)은 정수형인데, "1"은 문자열이므로
# "다른 형식의 데이터 타입으로 비교하였다" (invalid type comparison) 는 에러가 나면서 실행이 중지됩니다.
train[train["Pclass"] == "1"].head()

  result = getattr(x, name)(y)


TypeError: invalid type comparison

In [None]:
# 그러므로 색인을 할 때는 데이터의 타입을 정확하게 맞춰주는 것이 중요합니다.
# 아래 코드는 정수형(1)으로 비교하였기 때문에 색인이 정상적으로 동작합니다.
train[train["Pclass"] == 1].head()

이번에는 색인에서 응용할 수 있는 새로운 기능을 하나 더 배워보겠습니다. 이번에 배울 기능은 ```str.contains```입니다. 이 기능은 보통 문자열 컬럼에서 자주 사용하는데, 문자열 컬럼에 특정 문자열이 포함(contains) 되어있을 경우에는 True, 아닌 경우에는 False를 반환합니다.

In [28]:
# 티켓(Ticket)에 "STON"이라는 문자열이 들어가 있으면 True, 아니면 False로 간주합니다.
ston_contains = train["Ticket"].str.contains("STON")

# 판다스의 색인 기능을 실행하면 티켓(Ticket)에 STON이 포함되어있는 승객 정보만 가져옵니다.
train[ston_contains].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
116,0,3,"Pekoniemi, Mr. Edvard",male,21.0,0,0,STON/O 2. 3101294,7.925,,S
143,1,3,"Hakkarainen, Mrs. Pekka Pietari (Elin Matilda ...",female,24.0,1,0,STON/O2. 3101279,15.85,,S
174,0,3,"Sivola, Mr. Antti Wilhelm",male,21.0,0,0,STON/O 2. 3101280,7.925,,S
217,1,3,"Honkanen, Miss. Eliina",female,27.0,0,0,STON/O2. 3101283,7.925,,S


이번에는 컬럼 안의 내용이 비어있는지 여부를 확인하겠습니다.

판다스는 비어있는 데이터를 ```NaN```이라고 표기합니다. ```NaN```은 Not a Number의 약자라고 보시면 됩니다. 또는 비어있는 데이터를 ```null```이라고도 표현합니다.

다음은 나이(Age) 컬럼이 비어있는 승객 정보를 반환하는 코드입니다.

In [29]:
# 나이(Age)가 비어있으면(NaN) True, 비어있지 않으면 False를 반환합니다.
null_age = train["Age"].isnull()

# 판다스의 색인 기능을 실행하면 나이(Age)가 비어있는(NaN) 데이터만을 반환합니다.
train[null_age].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S
20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q


정 반대의 기능은 ```notnull``` 입니다. 이 기능은 나이가 비어있지 않으면 True, 비어있으면 False를 반환합니다.

In [30]:
# 나이(Age)가 비어있지 않으면 True, 비어있으면 False를 반환합니다.
not_null_age = train["Age"].notnull()

train[not_null_age].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


다른 방식으로도 ```not_null```을 표현할 수 있습니다. 바로 물결 표시(~)입니다. 물결 표시(~)는 판다스를 색인할 때 True를 False로, False를 True로 뒤집어줍니다. 이렇게 하면 not_null을 사용해도 물결 표시(~)를 통해 null과 동일한 효과를 낼 수 있습니다.

In [31]:
# not_null을 사용하였지만 물결 표시(~)로 결과를 뒤집어줬습니다.
# 그런고로 isnull과 동일한 결과가 나옵니다.
null_age = ~train["Age"].notnull()

# 색인을 실행하면 Age가 비어있는(NaN) 승객 정보만 가져옵니다.
train[not_null_age].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


물결 표시(~)의 장점은 다른 모든 색인 방식에서도 사용할 수 있다는 것입니다. 가령 ```train["Pclass"] == 1```에 물결 표시를 적용하면 "객실 등급이 1등급이 아닌 승객(=2, 3등급인 승객)"을 반환합니다. 단 이 경우에는 판다스의 문법상의 문제 때문에, 언제나 물결 표시(~) 전에 소괄호로 감싸줘야 합니다.

In [32]:
# 객실 등급(Pclass)이 1등급이 아닌 승객을 가져옵니다. 
not_first_class = ~(train["Pclass"] == 1)

# 색인을 실행하면 객실 등급(Pclass)이 2, 3등급인 승객만 가져옵니다.
train[not_first_class].head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S


색인을 할 때는 여러 조건을 동시에 넣을 수 있습니다. 여러 조건을 넣을 때는 ```&```(and, shift + 7)와 ```|```(or, shift + \\ (대괄호 닫는 버튼 오른쪽에 있는 버튼))를 사용합니다. 

한 가지 주의해야 할 점은, 조건을 여러개 넣을 땐 서로간의 충돌이 생길 수 있기 때문에 언제나 조건마다 괄호를 넣어줘야 합니다. 다만 조건을 여러 개의 변수로 쪼개서 사용하면 괄호를 사용하지 않아도 무방합니다.

In [33]:
# 많은 분들이 실수하시는 판다스의 색인을 잘못 사용한 사례
# and는 파이썬의 문법이기 때문에 판다스에서는 동작하지 않습니다. 판다스에서는 and가 아닌 & 표시를 사용합니다.
train[train["Pclass"] == 1 and train["Age"].isnull()].head()

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [34]:
# 위 코드에서 and를 &로 바꿔주면 정상적으로 동작합니다.
# 아래 코드는 객실 등급(Pclass)이 1등급이면서, 나이(Age) 컬럼이 비어있는 승객을 반환합니다.
train[train["Pclass"] == 1 & train["Age"].isnull()].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
56,1,1,"Woolner, Mr. Hugh",male,,0,0,19947,35.5,C52,S
65,0,1,"Stewart, Mr. Albert A",male,,0,0,PC 17605,27.7208,,C
167,1,1,"Chibnall, Mrs. (Edith Martha Bowerman)",female,,0,1,113505,55.0,E33,S
169,0,1,"Baumann, Mr. John D",male,,0,0,PC 17318,25.925,,S


In [35]:
# 하지만 판다스에서는 문법상의 이유로 인해 두 개의 조건을 &로 묶으면 잘 동작하지 않는 경우가 있습니다.
train[train["SibSp"] == 0 & train["Parch"] == 0].head()

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [36]:
# 그래서 언제나 &(and)나 |(or)를 사용할때는 모든 조건을 괄호로 묶어줘야 잘 동작합니다.
# 아래 코드는 타이타닉호에 동승한 형제, 자매, 배우자(SibSp)가 없고 동승한 부모와 자식(Parch)도 없는 승객을 반환합니다.
train[(train["SibSp"] == 0) & (train["Parch"] == 0)].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [37]:
# 위 코드를 풀어서 여러 줄의 코드로 나눠서 사용했습니다.
# 이 방식이 앞선 방식보다 훨씬 직관적이며 간결합니다. 그러므로 아래와 같은 방식으로 코드를 작성하는걸 추천드립니다.
without_sibsp = train["SibSp"] == 0
without_parch = train["Parch"] == 0

train[without_sibsp & without_parch].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [38]:
# &(and)와 동일한 방식으로 or(|)를 사용할 수 있습니다.
# 아래 코드는 타이타닉호에 동승한 형제, 자매, 배우자(SibSp)가 없거나, 동승한 부모와 자식(Parch)이 없는 승객을 반환합니다.
train[without_sibsp | without_parch].head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


판다스의 색인과 행렬검색의 ```loc```를 응용하면, 특정 조건으로 컬럼을 검색하는 것도 가능합니다.

In [39]:
# 성별(Sex) 컬럼이 남성(male)인 승객의 가족 수(FamilySize)를 검색합니다.
# loc를 사용하면 이렇게 조건으로 색인을 한 뒤 컬럼을 검색할 수도 있습니다.
train.loc[train["Sex"] == "male", "FamilySize"].head()

KeyError: 'the label [FamilySize] is not in the [columns]'

In [40]:
# 비슷한 방식으로 이번에는 여러 개의 컬럼(SibSp, Parch, FamilySize)을 검색합니다.
train.loc[train["Sex"] == "male", ["SibSp", "Parch", "FamilySize"]].head()

Unnamed: 0_level_0,SibSp,Parch,FamilySize
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,0,
5,0,0,
6,0,0,
7,0,0,
8,3,1,


## 기본 연산

이번에 배울 기능은 판다스의 기본 연산입니다. 판다스에서는 간단한 수학/통계 연산(ex: 평균, 합 etc)이 기본으로 탑재되어 있는데, 이 기능을 미리 숙지하고 있으면 차후에 큰 도움이 됩니다.

In [41]:
# .mean() 은 평균을 계산하는 기능입니다.
# 아래 코드는 운임요금(Fare)의 평균(약 32.2 달러)을 계산 후 출력합니다.
train["Fare"].mean()

32.2042079685746

In [42]:
# .max() 는 최대치를 계산하는 기능입니다.
# 아래 코드는 나이(Age)가 가장 많은 승객의 나이(80세)를 계산 후 출력합니다.
train["Age"].max()

80.0

In [43]:
# .min() 는 최소치를 계산하는 기능입니다.
# 아래 코드는 나이(Age)가 가장 적은 승객의 나이(약 0.42세, 생후 4개월)를 계산 후 출력합니다.
train["Age"].min()

0.41999999999999998

또는 ```.describe()```를 통해 전체 숫자 컬럼(정수형, 소수점)의 통계치를 한 눈에 볼 수 있습니다.

In [44]:
train.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


또 다른 재미있는 기능은 ```.shift()``` 입니다. 이 기능은 전체 데이터를 기준으로 앞 행(row)의 데이터와 뒤 행(row)의 데이터를 가져옵니다. 앞 행의 데이터는 ```.shift()``` 또는 ```.shift(+1)```으로, 뒤 행의 데이터는 ```.shift(-1)```으로 가져올 수 있습니다.

In [45]:
# .shift(+1)으로 이전 승객의 나이(Age)를 가져옵니다.
# 혹시나 이전 승객이 없다면(=첫 번째 데이터) NaN을 가져옵니다.
train["prev_Age"] = train["Age"].shift(+1)

# .shift(-1)으로 다음 승객의 나이(Age)를 가져옵니다.
# 혹시나 다음 승객이 없다면(=마지막 번째 데이터) NaN을 가져옵니다.
train["next_Age"] = train["Age"].shift(-1)

# 현재 승객의 나이(Age)와 이전 승객의 나이(prev_age), 그리고 다음 승객의 나이(next_Age)를 가져옵니다.
train[["Age", "prev_Age", "next_Age"]].head()

Unnamed: 0_level_0,Age,prev_Age,next_Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,22.0,,38.0
2,38.0,22.0,26.0
3,26.0,38.0,35.0
4,35.0,26.0,35.0
5,35.0,35.0,


### Crosstab

다음으로는 판다스에서 제공하는 간단한 통계분석 기능을 배워보겠습니다. 이번에 배울 기능은 [crosstab](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html) 입니다.

crosstab은 매우 간단합니다. 첫 번째 인자(```index```)와 두 번째 인자(```columns```)에 각각 컬럼명을 넣어주면, 두 컬럼에 해당하는 데이터의 발생 빈도를 출력해줍니다. 

In [46]:
# crosstab을 실행합니다. index에는 선착장(Embarked)을, columns에는 생존 여부(Survived)를 넣습니다.
# 이렇게 하면 C, Q, S마다의 생존자(1)의 총 인원수와 사망자(0)의 총 인원수가 나옵니다.
pd.crosstab(index=train["Embarked"], columns=train["Survived"])

Survived,0,1
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,75,93
Q,47,30
S,427,217


```index```나 ```columns```에는  하나가 아닌 여러 개의 컬럼을 넣어줄 수 있습니다. 이 경우에는 파이썬의 리스트(```[]```)를 사용합니다.

In [47]:
# crosstab을 실행합니다. 이번에는 index에 성별(Sex)과 선착장(Embarked) 두 개를 동시에 넣어줍니다.
# 이렇게 하면 여성(female) C, Q, S, 남성(male) C, Q, S마다의 생존자의 인원수와 사망자의 인원수가 나옵니다.
pd.crosstab(index=[train["Sex"], train["Embarked"]], columns=train["Survived"])

Unnamed: 0_level_0,Survived,0,1
Sex,Embarked,Unnamed: 2_level_1,Unnamed: 3_level_1
female,C,9,64
female,Q,9,27
female,S,63,140
male,C,66,29
male,Q,38,3
male,S,364,77


주의해야 할 점은, ```crosstab```에서 숫자 컬럼(ex: Age, Fare)를 사용할 경우 분석 결과가 너무 잘게 쪼개지는 문제가 발생합니다.

In [48]:
# crosstab을 실행합니다. 이번에는 columns 생존 여부(Survived)가 아닌 운임 요금(Fare)을 지정합니다.
# 이럴 경우 운임 요금(Fare)을 표시하는 컬럼이 너무 잘게 쪼개져서 가독성이 떨어지는 현상이 일어납니다.
pd.crosstab(index=[train["Sex"], train["Embarked"]], columns=train["Fare"])

Unnamed: 0_level_0,Fare,0.0,4.0125,5.0,6.2375,6.4375,6.45,6.4958,6.75,6.8583,6.95,...,153.4625,164.8667,211.3375,211.5,221.7792,227.525,247.5208,262.375,263.0,512.3292
Sex,Embarked,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
female,C,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,3,1,2,0,1
female,Q,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
female,S,0,0,0,0,0,0,0,0,0,0,...,2,2,3,0,0,0,0,0,2,0
male,C,0,1,0,0,1,0,0,0,0,0,...,0,0,0,1,0,1,1,0,0,2
male,Q,0,0,0,0,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
male,S,15,0,1,1,0,1,2,0,0,0,...,1,0,0,0,1,0,0,0,2,0


이런 경우에는 다소 복잡하지만, ```values```와 ```aggfunc``` 옵션을 줌으로써 해결할 수 있습니다.  

In [49]:
# pandas에 이은, numpy 라는 새로운 패키지를 읽어옵니다.
# numpy는 공식적으로는 선형대수(linear algebra) 패키지이지만, 지금은 편하게 수학 연산을 쉽게 해주는 패키지라고 이해하셔도 무방합니다.
import numpy as np

# crosstab을 실행합니다. 이번에는 columns엔 빈 리스트([])를 넣습니다.
# 대신 분석하고 싶은 숫자형 컬럼을 values엔 넣습니다. 그리고 aggfunc에는 평균을 계산하는 함수인 numpy의 mean(np.mean)을 넣습니다.
# 이렇게 하면 여성(female) C, Q, S, 남성(male) C, Q, S마다의 평균 운임요금이 출력되는 것을 확인할 수 있습니다.
pd.crosstab(index=[train["Sex"], train["Embarked"]], columns=[], values=train["Fare"], aggfunc=np.mean)

Unnamed: 0_level_0,Unnamed: 1_level_0,__dummy__
Sex,Embarked,Unnamed: 2_level_1
female,C,75.169805
female,Q,12.634958
female,S,38.740929
male,C,48.262109
male,Q,13.838922
male,S,21.711996


```__dummy___```라는 표시를 바꾸고 싶다면, columns에 원하는 컬럼명을 리스트로 넣어주면 됩니다.

In [50]:
# 위와 거의 동일한 코드이지만,
# columns에 빈 리스트([])가 아닌 원하는 컬럼명(운임요금(Fare))을 집어넣습니다.
pd.crosstab(index=[train["Sex"], train["Embarked"]], columns=["운임요금(Fare)"], values=train["Fare"], aggfunc=np.mean)

Unnamed: 0_level_0,col_0,운임요금(Fare)
Sex,Embarked,Unnamed: 2_level_1
female,C,75.169805
female,Q,12.634958
female,S,38.740929
male,C,48.262109
male,Q,13.838922
male,S,21.711996


만일 평균(mean)이 아닌 합(sum)을 보여주고 싶다면 ```np.mean```을 ```np.sum```으로 바꿔주면 됩니다.

In [51]:
# 이번에는 aggfunc에 np.mean이 아닌 np.sum을 집어넣습니다.
# 이 경우 운임요금의 평균(mean)이 아닌 합(sum)이 나옵니다.
pd.crosstab(index=[train["Sex"], train["Embarked"]], columns=["운임요금(Fare)"], values=train["Fare"], aggfunc=np.sum)

Unnamed: 0_level_0,col_0,운임요금(Fare)
Sex,Embarked,Unnamed: 2_level_1
female,C,5487.3958
female,Q,454.8585
female,S,7864.4085
male,C,4584.9004
male,Q,567.3958
male,S,9574.9903


### pivot_table

이번에 다룰 통계분석 기능은 [pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html)입니다. pivot_table은 우리가 엑셀(Excel)에서 자주 다루던 그 pivot_table과 거의 동일한 기능입니다.

In [52]:
# pivot-table을 실행합니다. index에는 성별(Sex) 컬럼을, values에는 생존 여부(Survived) 컬럼을 집어넣습니다.
# 이렇게 하면 여성(female)의 생존률과 남성(male)의 생존률이 나옵니다.
pd.pivot_table(train, index="Sex", values="Survived")

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


crosstab과 비슷하게, pivot_table도 여러 개의 컬럼을 추가할 수 있습니다. 마찬가지로 이 경우에는 리스트(```[]```)를 사용합니다.

In [53]:
# pivot-table을 실행합니다. 이번에는 index에 성별(Sex) 컬럼과 선착장(Embarked) 컬럼을 동시에 집어넣습니다.
# 이렇게 하면 여성(female) C, Q, S, 남성(male) C, Q, S마다의 생존률이 나옵니다.
pd.pivot_table(train, index=["Sex", "Embarked"], values="Survived")

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Sex,Embarked,Unnamed: 2_level_1
female,C,0.876712
female,Q,0.75
female,S,0.689655
male,C,0.305263
male,Q,0.073171
male,S,0.174603


crosstab과는 다르게, pivot_table에서는 숫자 컬럼(ex: Age, Fare)를 쉽게 분석할 수 있습니다.

In [54]:
# pivot-table을 실행합니다. 이번에는 values에 운임요금(Fare)을 지정합니다.
# 이렇게 하면 여성(female) C, Q, S, 남성(male) C, Q, S마다의 평균 운임요금이 나옵니다.
pd.pivot_table(train, index=["Sex", "Embarked"], values="Fare")

Unnamed: 0_level_0,Unnamed: 1_level_0,Fare
Sex,Embarked,Unnamed: 2_level_1
female,C,75.169805
female,Q,12.634958
female,S,38.740929
male,C,48.262109
male,Q,13.838922
male,S,21.711996


crosstab과 동일하게, aggfunc에 다른 값을 집어넣음으로써 평균(mean)을 합(sum)으로 바꿔줄 수도 있습니다.

In [55]:
# pivot-table을 실행합니다. 이번에는 aggfunc에 np.sum을 집어넣습니다.
# 이렇게 하면 평균 운임요금(mean)이 아닌 운임요금의 합(sum)을 출력합니다.
pd.pivot_table(train, index=["Sex", "Embarked"], values="Fare", aggfunc=np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,Fare
Sex,Embarked,Unnamed: 2_level_1
female,C,5487.3958
female,Q,454.8585
female,S,7864.4085
male,C,4584.9004
male,Q,567.3958
male,S,9574.9903


### 컬럼 추가 & 수정

판다스에서 컬럼을 추가하는 기능과 수정하는 기능은 간단합니다. 재미있는 건 1) 컬럼을 추가하거나 수정하는데 배워야 하는 기능은 거의 없으며, 2) 컬럼을 추가하는 코드와 수정하는 코드는 사실상 동일합니다.

아래의 코드에서는 컬럼을 추가하는 기능만 다루도록 하겠습니다. (하지만 동일한 코드를 컬럼을 수정할 때 사용할 수 있습니다)

새로운 컬럼을 추가하고 수정할 수 있습니다.

In [56]:
# 컬럼 안에 들어가는 값이 모두 동일하다면, 파이썬에서 변수에 값을 할당하는 것과 동일한 문법으로 컬럼을 추가할 수 있습니다.
# 아래 코드는 Category라는 이름의 새로운 컬럼을 추가하고, 해당 컬럼에 "Titanic"이라는 값을 대입합니다.
train["Category"] = "Titanic"

# train 데이터의 Category 컬럼만 출력합니다.
# 컬럼 안에 있는 모든 값에 Titanic 이라고 들어가 있는 것을 확인할 수 있습니다.
train[["Category"]].head()

Unnamed: 0_level_0,Category
PassengerId,Unnamed: 1_level_1
1,Titanic
2,Titanic
3,Titanic
4,Titanic
5,Titanic


판다스에서 컬럼을 추가하는 가장 기본적인 룰은 **갯수만 맞으면 무조건 들어간다** 입니다. 가령 타이타닉의 ```train``` 데이터의 갯수는 891개인데, 어떤 데이터 형식이건 상관 없이 891개로 된 데이터를 넣어주면 새로운 컬럼을 추가할 수 있습니다.

In [57]:
# Id라는 새로운 컬럼을 추가하고, 여기에 파이썬의 range 기능을 사용하여 0부터 891 직전(=890)까지의 숫자를 대입합니다.
train["Id"] = range(891)

# train 데이터의 Id 컬럼만 출력합니다.
# 0부터 시작해서 값이 하나씩 늘어나며 추가되는 것을 확인할 수 있습니다.
train[["Id"]].head()

Unnamed: 0_level_0,Id
PassengerId,Unnamed: 1_level_1
1,0
2,1
3,2
4,3
5,4


이제부터 위에서 배운 내용을 응용하여 컬럼을 추가하는 다양한 방법에 대해 살펴보겠습니다.

먼저 **가족 인원 수(FamilySize)**라는 새로운 컬럼을 추가하겠습니다. 타이타닉 데이터에는 나와 함께 타이타닉호에 동승한 **형제+자매+배우자(SibSp)** 컬럼과 **부모+자식(Parch)** 컬럼이 있습니다. 이 두 컬럼을 더하면 가족 인원 수가 나옵니다. (단 나 자신을 포함하기 위해 언제나 +1을 해줘야 합니다)


In [58]:
# 가족 인원 수(FamilySize) 라는 새로운 컬럼을 만듭니다.
# 여기에는 SibSP와 Parch를 더한 후, 나 자신을 포함하기 위해 +1을 해줍니다.
train["FamilySize"] = train["SibSp"] + train["Parch"] + 1

# SibSp, Parch, FamilySize 컬럼을 출력합니다.
train[["SibSp", "Parch", "FamilySize"]].head()

Unnamed: 0_level_0,SibSp,Parch,FamilySize
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,0,2
2,1,0,2
3,0,0,1
4,1,0,2
5,0,0,1


이번에는 조건별 컬럼을 넣는 기능을 살펴보겠습니다. 조건별 컬럼을 넣는 기능은 크게 1) 각 조건마다 컬럼을 하나씩 추가하는 방법, 2) 컬럼은 하나인데 그 안에 조건마다 값이 다르게 들어가는 방법 이렇게 두 가지가 있습니다.

먼저 1번 방식으로 컬럼을 추가해보도록 하겠습니다. 선착장(Embarked) 컬럼을 분석하여, C(Cherbourg)에 탑승한 사람을 프랑스 사람, Q(Queenstown)나 S(Southampton)에 탑승한 사람을 영국 사람이라고 가정하고 새 컬럼을 만들어보겠습니다.

In [59]:
# Nationality_FR 컬럼을 만듭니다. 여기에는 프랑스 사람이면 True, 아니면 False가 들어갑니다.
# 먼저 선착장(Embarked)이 C(Cherbourg)이면 True, 아니면 False인 리스트를 만듭니다.
# 이 리스트의 갯수는 타이타닉의 train데이터의 갯수(=891개)와 동일합니다. 그러므로 이 값을 그대로 새 컬럼에 추가할 수 있습니다.
train["Nationality_FR"] = train["Embarked"] == "C"

# 비슷한 방식으로, Nationality_UK 컬럼을 만듭니다. 여기에는 영국 사람이면 True, 아니면 False가 들어갑니다.
train["Nationality_UK"] = train["Embarked"] != "C"

# Embarked, Nationality_FR, Nationality_UK 컬럼을 각각 출력합니다.
train[["Embarked", "Nationality_FR", "Nationality_UK"]].head()

Unnamed: 0_level_0,Embarked,Nationality_FR,Nationality_UK
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,S,False,True
2,C,True,False
3,S,False,True
4,S,False,True
5,S,False,True


이번에는 2번 방식으로 컬럼을 추가해보겠습니다. 1번 방식과 비슷하지만, 이번에는 **국적(Nationality)** 이라는 하나의 컬럼만 추가해서, 여기에 선착장(Embarked)가 C라면 France(프랑스)라는 값을, Q이거나 S라면 England(영국)라는 값을 넣을 것입니다.

In [60]:
# 먼저 판다스의 색인 기능을 활용해서, Embarked가 C인 승객을 가져옵니다.
# 여기에서 행렬 검색에서 사용한 loc를 활용하여, Nationality 컬럼을 추가로 접근합니다.
# 이 Nationality 컬럼에 "France"라는 값을 집어넣으면, Embarked가 C인 승객에게만 Nationality 컬럼에 France라고 들어갑니다.
train.loc[train["Embarked"] == "C", "Nationality"] = "France"

# 비슷한 방식을 응용하여, Embarked가 C가 아닌 승객(=Q이거나 S인 승객)의 Nationality 컬럼에는 England라고 집어넣습니다.
train.loc[train["Embarked"] != "C", "Nationality"] = "England"

# Embarked, Nationality 컬럼을 각각 출력합니다.
train[["Embarked", "Nationality"]].head()

Unnamed: 0_level_0,Embarked,Nationality
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,S,England
2,C,France
3,S,England
4,S,England
5,S,England


이번에는 다른 컬럼을 추가해보겠습니다. 숫자 컬럼의 구역을 나눈 새로운 컬럼을 만드는 방법입니다.

가령 운임요금(Fare)을 바탕으로 다음과 같은 조건으로 새 컬럼을 만들고 싶습니다.

  * 운임 요금이 30달러 미만
  * 운임 요금이 30달러 이상이고 100달러 미만
  * 운임 요금이 100달러 이상
  
이 방식도 1번 방식과 2번 방식 모두 가능합니다. 먼저 1번 방식으로 해보겠습니다.

In [61]:
# 운임요금(Fare)이 30달러 미만이면 True, 아니면 False인 리스트를 만듭니다.
# 이 결과를 Fare_Cheap이라는 이름의 새로운 컬럼에 할당합니다.
train["Fare_Cheap"] = train["Fare"] < 30

# 비슷한 방식으로, 운임요금(Fare)이 30달러 이상이고 100달러 미만이면 True, 아니면 False인 리스트를 만듭니다.
# 마찬가지로 Fare_Medium이라는 이름의 새로운 컬럼에 할당합니다.
train["Fare_Medium"] = (train["Fare"] >= 30) & (train["Fare"] < 100)

# 마찬가지로, 운임요금(Fare)이 100달러 이상이면 True, 아니면 False인 리스트를 만듭니다.
# 이를 Fare_Expensive 라는 컬럼에 할당합니다.
train["Fare_Expensive"] = train["Fare"] >= 100

# 운임요금(Fare)과 그 관련 컬럼(Fare_Cheap, Fare_Medium, Fare_Expensive)을 출력합니다.
train[["Fare", "Fare_Cheap", "Fare_Medium", "Fare_Expensive"]].head()

Unnamed: 0_level_0,Fare,Fare_Cheap,Fare_Medium,Fare_Expensive
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,7.25,True,False,False
2,71.2833,False,True,False
3,7.925,True,False,False
4,53.1,False,True,False
5,8.05,True,False,False


이번에는 2번 방식으로 해보겠습니다.

In [62]:
# 1) train["Fare"] < 30  먼저 판다스의 색인 기능을 활용해서, 운임 요금이 30달러 미만이면 True, 그렇지 않으면 False인 리스트를 만듭니다.
# 2) train[train["Fare"] < 30]  이 리스트를 통해 운임요금이 30달러 미만인 데이터를 색인하고, 
# 3) train.loc[train["Fare"] < 30, "FareType"] 이 후 판다스 행렬 검색에서 사용한 loc를 활용하여, FareType 컬럼을 접근합니다.
# 4) train.loc[train["Fare"] < 30, "FareType"] = "Cheap"  비록 FareType이라는 이름의 컬럼은 없지만, 이 컬럼에 "Cheap"이라는 데이터를 넣음으로서 새로운 컬럼을 생성합니다.
train.loc[train["Fare"] < 30, "FareType"] = "Cheap"

# 유사한 방식으로 운임요금이 30달러 이상, 100달러 미만인 경우 FareType 컬럼에 Medium이라는 값을 넣습니다.
train.loc[(train["Fare"] >= 30) & (train["Fare"] < 100), "FareType"] = "Medium"

# 비슷하게 운임요금이 100달러 이상인 경우 FareType 컬럼에 Expensive이라는 값을 넣습니다.
train.loc[train["Fare"] >= 100, "FareType"] = "Expensive"

# 운임요금(Fare)과 운임요금 타입(FareType) 컬럼을 출력합니다.
train[["Fare", "FareType"]].head()

Unnamed: 0_level_0,Fare,FareType
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,7.25,Cheap
2,71.2833,Medium
3,7.925,Cheap
4,53.1,Medium
5,8.05,Cheap


지금까지 배운 내용을 응용한다면, 다음과 같은 방식으로 빈 값(```NaN```)에 원하는 값을 채워넣을 수 있습니다.

In [63]:
# 나이(Age) 컬럼의 평균값을 할당합니다. 이 결과를 mean_age라는 이름의 변수에 할당합니다.
mean_age = train["Age"].mean()

# 나이(Age) 값이 비어있는(NaN, null) 데이터의 나이 컬럼에 평균 나이(mean_age)를 대입합니다.
train.loc[train["Age"].isnull(), "Age"] = mean_age

# train 데이터의 상위 5개를 보여줍니다.
train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Category,Id,FamilySize,Nationality_FR,Nationality_UK,Nationality,Fare_Cheap,Fare_Medium,Fare_Expensive,FareType
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,...,Titanic,0,2,False,True,England,True,False,False,Cheap
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,...,Titanic,1,2,True,False,France,False,True,False,Medium
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,...,Titanic,2,1,False,True,England,True,False,False,Cheap
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,...,Titanic,3,2,False,True,England,False,True,False,Medium
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,...,Titanic,4,1,False,True,England,True,False,False,Cheap


## 컬럼 삭제하기

컬럼을 삭제하는 노하우는 간단합니다. 크게 두 가지 방법이 있는데, 첫 번째 방법은 우리가 이전에 배운 행렬 검색을 조금만 응용하면 되고, 두 번째 방법은 판다스의 ```drop```이라는 기능을 사용하면 됩니다.

가령 위에서 새롭게 추가한 1) 국적 관련 컬럼(Nationality, Nationality_FR, Nationality_UK)과 2) 운임요금 관련 컬럼(FareType, Fare_Cheap, Fare_Medium, Fare_Expensive)을 제거해보겠습니다.





In [64]:
# 새롭게 가져올 컬럼명이 들어있는 리스트를 생성합니다.
# 이 리스트에는 다음의 컬럼이 제거되어 있습니다.
# 국적 관련 컬럼(Nationality, Nationality_FR, Nationality_UK)
# 운임요금 관련 컬럼(FareType, Fare_Cheap, Fare_Medium, Fare_Expensive)
columns = ['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
           'Fare', 'Cabin', 'Embarked', 'prev_Age', 'next_Age', 'Category', 'Id',
           'FamilySize']

# 앞서 생성한 columns 리스트를 활용해 필요한 컬럼만 검색합니다.
# 이후 그 결과를 자기 자신(train)에 대입합니다.
train = train[columns]

# 이제 국적 관련 컬럼과 운임요금 관련 컬럼이 삭제되어 있는 것을 확인할 수 있습니다.
train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,prev_Age,next_Age,Category,Id,FamilySize
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,,38.0,Titanic,0,2
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,22.0,26.0,Titanic,1,2
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,38.0,35.0,Titanic,2,1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,26.0,35.0,Titanic,3,2
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0,,Titanic,4,1


두 번째 방법은 판다스의 [drop](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html)이라는 기능을 활용하는 방법입니다. 아래의 코드는 ```train``` 데이터프레임에서 Category 컬럼을 제거합니다.



In [65]:
# train 데이터프레임에서 Category라는 이름의 컬럼을 제거합니다.
# drop으로 컬럼을 제거할때는 언제나 axis=1이라는 옵션을 넣어줘야 합니다.
# (반대로 axis=0은 컬럼이 아닌 로우(행)을 제거하는 역할을 합니다)
train.drop("Category", axis=1).head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,prev_Age,next_Age,Id,FamilySize
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,,38.0,0,2
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,22.0,26.0,1,2
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,38.0,35.0,2,1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,26.0,35.0,3,2
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0,,4,1


판다스의 [drop](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html)을 사용하면 여러 개의 컬럼을 동시에 지울 수도 있습니다.

In [66]:
# train 데이터프레임에서 prev_Age와 next_Age라는 이름의 컬럼을 제거합니다.
# 여러 컬럼을 동시에 지울때는 컬럼명을 리스트로 넣어주면 됩니다.
train.drop(["prev_Age", "next_Age"], axis=1).head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Category,Id,FamilySize
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Titanic,0,2
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Titanic,1,2
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Titanic,2,1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Titanic,3,2
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Titanic,4,1


### Apply

판다스에는 [apply](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html)라고 하는 기능이 있습니다. 쉽게 설명하자면 판다스 버전의 반복문(for)이라고 볼 수 있는데, 판다스의 문법만으로 해결하기 어려운 일이 있다면 판다스의 ```apply```를 시도해볼 수 있습니다.

In [67]:
# recognize_title라는 이름의 파이썬 함수를 만듭니다.
# 이 함수에서는 name을 인자로 받습니다.
def recognize_title(name):
    # name 안에 Miss라는 텍스트가 있다면 "Miss"를 반환합니다.
    if "Miss" in name:
        return "Miss"
    # name 안에 Mrs라는 텍스트가 있다면 "Mrs"를 반환합니다.
    elif "Mrs" in name:
        return "Mrs"
    # name 안에 Mr라는 텍스트가 있다면 "Mr"를 반환합니다.
    elif "Mr" in name:
        return "Mr"
    # name 안에 Master라는 텍스트가 있다면 "Master"를 반환합니다.
    elif "Master" in name:
        return "Master"
    # 위에 4가지 중 어느 곳에도 해당되지 않는다면 "Others"를 반환합니다.
    else:
        return "Others"

# Name 컬럼에 apply를 실행합니다. 인자로는 recognize_title라는 함수를 집어넣습니다.
# 이렇게 하면 타이타닉의 train 데이터에 있는 총 891개의 모든 이름(Name)으로 recognize_title를 실행한 뒤 그 결과를 반환합니다.
# 반환한 결과를 호칭(Title)이라는 이름의 새로운 컬럼에 집어넣습니다.
train["Title"] = train["Name"].apply(recognize_title)

# 이름(Name)과 호칭(Title) 컬럼을 출력하여 두 가지를 비교합니다.
train[["Name", "Title"]].head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0_level_0,Name,Title
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"Braund, Mr. Owen Harris",Mr
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mrs
3,"Heikkinen, Miss. Laina",Miss
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mrs
5,"Allen, Mr. William Henry",Mr
6,"Moran, Mr. James",Mr
7,"McCarthy, Mr. Timothy J",Mr
8,"Palsson, Master. Gosta Leonard",Master
9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Mrs
10,"Nasser, Mrs. Nicholas (Adele Achem)",Mrs


## 파일 저장하기

마지막으로 배울 것은 파일 저장하기입니다. 우리는 처음에 ```pd.read_csv```로 ```train.csv``` 데이터를 읽어와 ```train```이라는 변수에 저장했는데, 이 변수에 있는 값을 고친다고 하더라도 ```train.csv``` 데이터에 바로 갱신되지 않습니다. (오히려 바로 갱신된다면 원본이 훼손되는 문제가 생기겠죠) 그렇기때문에 우리가 명시적으로 데이터를 저장하겠다는 명령을 해줘야만 판다스는 데이터를 저장합니다.

다음은 판다스에서 데이터를 저장하는 방식입니다.

In [68]:
# train 변수에 있는 데이터프레임을 train_modified.csv라는 이름으로 저장합니다.
train.to_csv("data/titanic/train_modified.csv")

이후 data 폴더의 titanic 폴더에 있는 ```train_modified.csv```를 보면 수정한 train 데이터가 성공적으로 저장되어 있는 것을 확인할 수 있습니다.