# 판다스(Pandas) 튜토리얼

[판다스(Pandas)](https://pandas.pydata.org)는 파이썬에서 데이터분석을 위해 사용하는 패키지(Package) 중 하나입니다. 간단히 요약하자면, "파이썬으로 엑셀과 같은 파일을 다루기에 최적화된 도구"라고 생각하시면 됩니다.

판다스는 파이썬과 달리 일반인의 직관과 상식과 다소 동떨어진 방식으로 동작합니다. 하지만 판다스의 기본적인 룰 몇 가지만 숙지하면, 적은 문법 만으로도 굉장히 다양하고 창의적인 방식으로 엑셀(또는 CSV) 파일을 다룰 수 있습니다.

다음의 튜토리얼에 익숙해진 뒤, [10 Minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)라는 판다스의 공식 튜토리얼을 읽어보시는 것을 추천 드립니다.


### 패키지 읽어오기

파이썬은 범용적인 목적으로 만들어진 프로그래밍 언어입니다. 하지만 범용적인 프로그래밍 언어라 하더라도,세상의 모든 기능을 전부 구현하는 것은 이론적으로 불가능합니다.

그래서 파이썬은 패키지(package)라는 시스템을 만들었습니다. 이제 개발자는 파이썬에 존재하지 않는 기능이 있다면 이를 스스로 구현한 뒤 세상에 공개할 수 있고, 파이썬은 패키지라는 시스템을 통해 이 기능을 파이썬에서 쉽게 사용할 수 있도록 구현해 놓았습니다.

다음은 판다스라는 패키지를 파이썬에서 읽어오는 코드입니다.

In [2]:
# pandas 라는 패키지를 파이썬으로 읽어(import)옵니다. 그리고 pd라는 축약어로 사용합니다.
import pandas as pd

ModuleNotFoundError: No module named 'pandas'

### 파일 읽어오기

판다스에서는 **read_csv**라는 기능으로 [CSV(comma-separated values)](https://en.wikipedia.org/wiki/Comma-separated_values)파일을 읽어올 수 있습니다. 여기서 파일 경로는 (ex: data/train.csv)는 개인의 설정마다 다른데, 자세한 건 [절대경로와 상대경로](http://88240.tistory.com/122)에 관한 아티클을 참고해주세요.

In [None]:
# train.csv 파일을 읽어옵니다. 여기서 PassengerId라는 컬럼을 인덱스(index)로 지정한 뒤, train 변수에 할당합니다.
# 변수에 할당한 결과값을 판다스 전문 용어로 데이터프레임(DataFrame)이라고 부릅니다.
train = pd.read_csv("data/train.csv", index_col="PassengerId")

# train 변수에 할당된 데이터의 행렬 사이즈를 출력합니다. 출력은 (row, column) 으로 표시됩니다.
print(train.shape)

# 이후 .head()로 train 데이터프레임의 전체가 아닌 상위 5개를 띄웁니다.
train.head()

데이터를 읽어왔으면 여기서 인덱스(index)와 컬럼(columns)을 가져올 수 있습니다.

In [None]:
# 인덱스(index)를 가져옵니다. 여기서 index는 PassengerId와 동일합니다.
train.index

In [None]:
# 컬럼(columns)을 가져옵니다.
train.columns

## 행렬

행렬 가져오기의 기본은 다음과 같습니다.

### 열(column) 가져오기

일단 대괄호([])를 엽니다. 이 대괄호에 문자열을 집어넣으면, 문자열에 해당하는 열(column)을 반환합니다.

In [None]:
# Survived라는 이름의 컬럼을 가져옵니다. 길이가 길기 때문에, .head()로 상위 5개만 출력합니다.
train["Survived"].head()

컬럼 가져오기의 응용. 대괄호를 두 개([[]]) 연 뒤, 컬럼명 여러개를 집어넣습니다.

In [None]:
# Sex, Pclass, Survived 컬럼 세 개를 가져옵니다. 마찬가지로 .head()로 상위 5개만 출력합니다.
train[["Sex", "Pclass", "Survived"]].head()

위의 컬럼 여러개 가져오기는 파이썬의 리스트(list)를 응용한 것입니다. 위의 코드와 아래의 코드는 사실상 동일합니다.

In [None]:
# 리스트를 하나 만드는데, 리스트 안에 컬럼 이름 여러개(Sex, Pclass, Survived)를 집어넣습니다.
# 이후 판다스 데이터프레임에서 대괄호를 하나 열고([]) 그 안에 리스트를 집어넣습니다.
columns = ["Sex", "Pclass", "Survived"]
train[columns].head()

### 행(row) 가져오기

열(column) 가져오기와 비슷하나, 이번에는 .loc(locate의 약자)라는 표현을 사용합니다.

In [None]:
# loc(locate)를 사용하면 이번에는 열(column)이 아니라 행(row)을 가져옵니다.
# 다음의 코드는 PassengerId가 1번인 승객 정보를 반환합니다.
train.loc[1]

파이썬의 슬라이싱과 비슷한 기능도 있습니다.

In [None]:
# 아래 코드는 PassengerId가 1번인 승객부터 7번인 승객까지 반환합니다.
# 파이썬의 슬라이싱(ex: odd[0:4])과 다르게, 이번에는 PassengerId가 7번인 승객을 포함하여 출력합니다.
train.loc[1:7]

행 가져오기의 응용. 이번에는 .loc 후 대괄호를 두 개([[]]) 열고, 1, 3, 7, 13을 넣습니다.

In [None]:
# PassengerId가 1, 3, 7, 13번인 승객을 반환합니다.
train.loc[[1, 3, 7, 13]]

위의 코드 역시 파이썬의 리스트(list)를 응용한 것입니다. 위의 코드와 아래의 코드는 사실상 동일합니다.

In [None]:
passenger_ids = [1, 3, 7, 13]
train.loc[passenger_ids]

### 행렬 동시에 가져오기

위의 방법을 응용하면 행(row)과 열(column)을 동시에 접근할 수 있습니다. 행렬 가져오기는 판다스의 가장 중요한 기능 중 하나이며, 이 기능을 창의적으로 응용하면 많은 일을 한 두줄의 코드로 쉽게 해결할 수 있기 때문에 반드시 숙지할 것을 권장 드립니다.

In [None]:
# 행렬 가져오기의 기본. .loc 후 콤마(,)를 기준으로
# 좌측에는 행(row)을 가져오는 조건, 우측에는 열(column)을 가져오는 조건을 넣습니다.
# 아래 코드는 PassengerId가 1번인 승객의 성별(Sex)을 가져옵니다.
train.loc[1, "Sex"]

In [None]:
# 여러 열을 가져오기. PassengerId가 1번인 승객의 Pclass, Sex, Survived를 가져옵니다.
train.loc[1, ["Pclass", "Sex", "Survived"]]

In [None]:
# 여러 행을 가져오기. PassengerId가 1, 3, 7, 13번인 승객의 성별(Sex)를 가져옵니다.
train.loc[[1, 3, 7, 13], "Sex"]

In [None]:
# 여러 행을 슬라이싱해서 가져오기. PassengerId가 1번 부터 7번 까지의 승객의 성별(Sex)를 가져옵니다.
train.loc[1:7, "Sex"]

In [None]:
# 여러 행과 여러 열을 동시에 가져오기
# PassengerId가 1, 3, 7, 13번인 승객의 Sex, Pclass, Survived를 가져옵니다.
train.loc[[1, 3, 7, 13], ["Sex", "Pclass", "Survived"]]

## Boolean Mask 

위 기능을 이용하여서 찾고자 하는 조건의 데이터를 가져올 수 있습니다. 판다스의 대괄호 []안에 참(True)와  거짓(False)로 이루어진 데이터 프레임과 길이가 같은 리스트를 넣어주면 참(True)에 해당하는 행(row)만을 가져올 수 있습니다.

In [None]:
# 성별(Sex) 이 'male'인 행을 가져옵니다.
# train["Sex"] == "male"은 male이면 true, 아니면 false 로 이루어진 리스트형태의 값입니다.
train[train["Sex"] == "male"].head()

In [None]:
# 요금(Fare) 값이 20 초과인 행을 가져옵니다.
train[train["Fare"] > 20].head()

In [None]:
# isin(["val", "ue"]) 함수는 값이 포함 되었는지 확인 합니다.
# 주의사항 isin함수의 인자는 항상 리스트(["value"])형태로 주어져야 합니다.
# Embarked 값이 'Q' 또는 'S'인 행을 가져옵니다.
train[train["Embarked"].isin(["Q", "S"])].head()

In [None]:
# .str은 문자열에 관련된 특수 함수를 사용 할 수 있다.
# .str.contains("STON")는 값에 "STON"이라는 문자열이 포함된 행(row)을 가져옵니다.
# Ticket의 값(문자열) 중에 "STON" 문자열이 포함되어 있는 행(row)을 가져옵니다.
train[train["Ticket"].str.contains("STON")].head()

In [None]:
# NaN(Not a Number), null
# 나이(Age)이 비여있는 행을 가져옵니다.
train[train["Age"].isnull()].head()

In [None]:
# 나이(Age) 값이 비여있지 않은 행을 가져옵니다.
train[train["Age"].notnull()].head()

In [None]:
# ~은 참(True)은 거짓(False)으로 거짓(False)은 참(True)으로 변경해준다.
# 나이(Age) 값이 비여있지 않은 행을 가져옵니다.
train[~train["Age"].isnull()].head()

In [None]:
# or == |
# and == &
# | 또는 &를 이용 시에는 헷갈릴 가능성이 있으니 조건문에 소괄호를 쳐주면은 도움이 됩니다.

# 나이(Age) 값이 비여있거나 요금(Fare) 값이 비여있는 열을 가져옵니다.
train[(train["Age"].isnull()) | (train["Fare"].isnull())].head()

In [None]:
# and == &
# 나이(Age) 값이 비여있고 요금(Fare) 값이 비여있는 열을 가져옵니다.
train[(train["Age"].isnull()) & (train["Fare"].isnull())]

### 기본 연산

In [None]:
# mean() -> 평균값을 반환합니다.
# max() -> 최고값을 반환합니다.
# min() -> 최저값을 반환합니다.

# 요금(Fare)의 평균값을 반환합니다.
print(train["Fare"].mean())

# 나이(Age)의 최대값을 반환합니다.
print(train["Age"].max())

# 나이(Age)의 최소값을 반환합니다.
print(train["Age"].min())

### 컬럼 추가 & 수정

새로운 컬럼을 추가하고 수정할 수 있습니다.

In [None]:
# 파이썬에서 리스트에 값 추가 하는 방법과 같이 새로운 컬럼을 추가할 수 있습니다. (값은 "Titanic"으로 모두 같은 값이 설정됩니다.)
train["DataCategory"] = "Titanic"
train.head()

In [None]:
# 칼럼 추가 및 수정의 핵심은 갯수만 같으면 무조건 추가 및 수정이 됩니다.
train["Id"] = range(0, 891)
train.head()

Id 컬럼에 0 부터 순서대로 값이 설정되어 있습니다.

In [None]:
# 새로운 FamilySize 칼럼에 SibSp 값 + Parch 값 + 1이 추가됩니다.
train["FamilySize"] = train["SibSp"] + train["Parch"] + 1
train[["SibSp", "Parch", "FamilySize"]].head()

In [None]:
# 새로운 Nationality_FR 컬럼에 Embarked 값이 "C"면 참(True)이 추가합니다.(아니면 거짓(False)이 추가 됩니다.)
# 새로운 Nationality_UK 컬럼에 Embarked 값이 "S" 또는 "Q"이면 참(True)이 추가합니다.(아니면 거짓(False)이 추가 됩니다.)
train["Nationality_FR"] = train["Embarked"] == "C"
train["Nationality_UK"] = train["Embarked"].isin(["S", "Q"])

train[["Embarked", "Nationality_FR", "Nationality_UK"]].head()

In [None]:
# "Nationality_FR", "Nationality_UK" 칼럼을 따로 만들지 않고 
# "Nationality"를 이용해서 하나로 컬럼 만들기.

# train.loc[train["Embarked"] == "C", "Nationality"] 은 Nationality 컬럼을 가져오는 문장이지만 Nationality 컬럼이 없으니 에러가 발생합니다.
# train.loc[train["Embarked"] == "C", "Nationality"] = "France" 이 문장은
# train["Embarked"] == "C" 인 열(row)의 Nationality 컬럼에 "France" 추가해줍니다.
train.loc[train["Embarked"] == "C", "Nationality"] = "France"

# train["Embarked"].isin(["Q", "S"]) 인 열의 Nationality 컬럼 값은 null 입니다. 
# 그 이유는 값을 설정해주지 않았기 때문입니다.
# train.loc[train["Embarked"].isin(["Q", "S"]), "Nationality"] = "England" 이 문장은
# train["Embarked"].isin(["Q", "S"]) 인 열(row)의 Nationality 컬럼을 "England"로 수정합니다.
train.loc[train["Embarked"].isin(["S", "Q"]), "Nationality"] = "England"

train[["Embarked", "Nationality"]].head()

In [None]:
# 새로운 Fare_Cheap 컬럼에 Fare 값이 30보다 작으면 참(True)이 추가됩니다.
# 새로운 Fare_Medium 컬럼에 Fare 값이 30보다 크고 100보다 작으면 참(True)이 추가됩니다.
# 새로운 Fare_Expensive 컬럼에 Fare 값이 100보다 크면 참(True)이 추가됩니다.
train["Fare_Cheap"] = train["Fare"] < 30
train["Fare_Medium"] = (train["Fare"] >= 30) & (train["Fare"] < 100)
train["Fare_Expensive"] = train["Fare"] >= 100

train[["Fare", "Fare_Cheap", "Fare_Medium", "Fare_Expensive"]].head()

In [None]:
# Fare 값이 30보다 작은 열에 새로운 컬럼 FareType의 값이 "Cheap"으로 추가합니다.
# Fare 값이 30보다 크고 100보다 작은 열에 컬럼 FareType의 값이 "Med"로 수정됩니다.
# Fare 값이 100보다 큰 열에 컬럼 FareType의 값이 "Expensive"로 수정됩니다.
train.loc[train["Fare"] < 30, "FareType"] = "Cheap"
train.loc[(train["Fare"] >= 30) & (train["Fare"] < 100), "FareType"] = "Med"
train.loc[train["Fare"] >= 100, "FareType"] = "Expensive"

train[["Fare", "FareType"]].head()

In [None]:
# mean_age 변수에 Age의 평균값을 할당합니다.
mean_age = train["Age"].mean()

# 나이(Age) 값이 null인 row에 mean_age를 할당한다.
train.loc[train["Age"].isnull(), "Age"] = mean_age

train.head()

In [None]:
# 1개의 컬럼 삭제
del train['id']

In [None]:
#여러개의 컬럼 삭제
#inplace=False 가 default 이며 칼럼을 일시적으로만 삭제 하고  결과를 리턴한다. 
#inplace=True 이면 칼럼을 실제로 삭제하고, 결과를 리턴하지 않는다.
train.drop(['data','FamilySize'],axis=1,inplace=True)
#axis=1 대신에 columns 속성을 사용해도 됨
#train.drop(columns=['data','FamilySize'],inplace=True)
