## 5.1 Pandas란?

- pandas는 <b>"python data analysis"</b>의 약자입니다.
> pandas는 정형 데이터 처리에 특화되어 있다.

- pandas 역시 다양한 머신러닝 라이브러리들에 의존성을 가지고 있습니다.
> scikit-learn, scipy, statsmodel, tensorflow, pytorch, ...


- 간단하게 생각하면, **python에서 excel의 기능을 사용**할 수 있게 됩니다.
> pandas = python + excel // pandas & excel // pandas VS MS Excel

- 하지만, pandas는 numpy array를 베이스로 지원하며 파이썬과 함께 강력한 시너지를 내기 때문에, 엑셀 그 이상의 퍼포먼스를 냅니다.
> pandas가 Excel에 비해 고성능 데이터처리에 적합하다.

![numpy_data_type](../images/pandas/dataframe.png)

- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame입니다. 흔히 알고있는 spreadsheet와 같은 개념입니다.


- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부릅니다.


- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같습니다.


- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됩니다.

![pandas_files](../images/pandas/pandas_files.png)

## 5.2. Pandas의 기본 자료구조(Series, DataFrame)

In [None]:
# pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

- DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 합니다.


- Series의 모임이 곧, DataFrame이 됩니다.

In [None]:
# s는 1, 3, 5, np.nan, 6, 8을 원소로 가지는 pandas.Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

- pandas는 date_range라는 함수를 통해, 날짜정보를 쉽게 생성해주는 객체도 제공합니다.

In [None]:
# 20210101부터 6일간의 날짜 범위를 생성하는 pandas.date_range
dates = pd.date_range('20210101', periods=6)
dates

In [None]:
# 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를 가지는 원소를 가지고, index열은 dates, 나머지 coulmns은 순서대로 A, B, C, D로 하는 DataFrame 생성
df = pd.DataFrame(data=np.random.randn(6, 4), index=dates,
                  columns=['A', 'B', 'C', 'D'])
df

## 5.3. Dataframe 기초 method

In [None]:
# dataframe의 맨 위 다섯줄을 보여주는 head()
df.head()

In [None]:
# 3줄
df.head(3)

In [None]:
# dataframe index
df.index

In [None]:
# dataframe columns
df.columns

In [None]:
# dataframe values
df.values

In [None]:
# dataframe에 대한 전체적인 요약정보를 보여줍니다. index, columns, null/not-null/dtype/memory usage가 표시됩니다.
df.info()

In [None]:
# dataframe에 대한 전체적인 통계정보를 보여줍니다.
df.describe()

In [None]:
# column B를 기준으로 내림차순 정렬
df.sort_values(by="B", ascending=False)
#df.sort_index()

## 5.4. DataFrame Indexing

> Indexing : 데이터에서 어떤 특정 조건을 만족하는 원소를 찾는 방법.

> 전체 DataFrame에서 조건에 만족하는 데이터를 쉽게 찾아서 조작할 때 유용하게 사용할 수 있습니다.

In [None]:
# pandas dataframe은 column 이름을 이용하여 기본적인 Indexing이 가능합니다.
# column A를 indexing
df["A"]
df[["A", "C"]] # 여러 column을 indexing할 때는 list로 써야함!

In [None]:
# 특정날짜를 통한 Indexing
df.loc['20210101'] # locator

In [None]:
# 특정 위치를 통한 indexing
df.iloc[1] # index locator == list(numpy array) indexing

In [None]:
# dataframe에서 slicing을 이용하면 row 단위로 잘려나옵니다.
# 앞에서 3줄을 slicing 합니다.
df[:3]

In [None]:
# df에서 index value를 기준으로 indexing도 가능합니다. (여전히 row 단위)
# 20210102부터 20210104까지 잘라봅니다. # index의 값을 사용하게되면 Index를 이용한 slicing
df['20210101':'20210103']

In [None]:
df.loc['2021-1-2']

In [None]:
# df.loc는 특정값을 기준으로 indexing합니다. (key - value)
# 2021-01-01값을 가지는 row를 가져옵니다.
df.loc['20210101']["B"]
df.loc['20210101', "B"] # .loc[row조건, col조건]

In [None]:
# df.loc에 2차원 indexing도 가능합니다. [:, ["A", "B"]]의 의미는 모든 row에 대해서 columns는 A, B만 가져오라는 의미입니다.
df.loc[:, ["A", "B"]]
df.loc['20210101', "A":"C"]

In [None]:
# 이번엔 slicing을 통해 특정 row중에서 columns는 A, B
df.loc['20210102':'20210104', ["A", "B"]]
df.loc[['20210101', '20210103'], ["A", "D"]]

In [None]:
# 특정 row를 index값을 통한 indexing
df.loc['20210101']
#df.iloc[0]

df.loc[df.index[0]]

In [None]:
# 2차원 리스트 indexing과 같은 원리가 되었습니다.
df.loc['20210104', "B"]
df["B"]['20210104']

In [None]:
# df.iloc는 정수를 이용한 indexing과 같습니다.(row 기준) 3은 4번째를 의미합니다.
df.iloc[2, 3]

In [None]:
# iloc로 2차원 indexing을 하게되면, row 기준으로 index 3,4를 가져오고 column 기준으로 0, 1을 가져옵니다.
df.iloc[[3, 4], [0, 1]]
df.iloc[3:5, 0:2]

In [None]:
# slicing이 아닌 직접 리스트 형태로 기재하는 indexing


In [None]:
# Q. 2차원 indexing에 뒤에가 : 면 어떤 의미일까요?
# 두번째 column 가져오기
df.iloc[:, 1]
df.loc[:, df.columns[1]]
df[df.columns[1]]

In [None]:
# numpy array의 2차원 indexing과 같다.

In [None]:
df

In [None]:
# pandas는 fancy indexing을 지원합니다. (사실 numpy에서 지원하기 때문에 pandas도 지원합니다.)
# fancy indexing이란 조건문을 통해 indexing을 할 수 있는 방법으로 True와 False를 원소로 하는 리스트를 통해 masking하는 원리로 동작합니다.
# Q. column A에 있는 원소들중에 0보다 큰 데이터를 가져옵니다.

# 1. column A 가져오기
df.loc[:, "A"]

# 2. column A에 있는 원소들중에 0보다 큰
df.loc[:, "A"] > 0

# 3. column A에 있는 원소들중에서 0보다 큰 데이터
df.loc[df.loc[:, "A"] > 0, "A"]

In [None]:
# fancy indexing
# Q. df의 column B에 있는 원소들 중에서 1보다 큰 원소들을 1로 바꿔주세요.
# A.
df.loc[df.loc[:, "B"] > 1, "B"] = 1
df

In [None]:
df[df < 0] = 0 # df에 있는 음수값들을 모두 0으로 바꾼다.
df

In [None]:
#df[df > 0]
df[df > 0]

In [None]:
# dataframe 하나를 복사합니다. 정말 말그대로 복사합니다.
df2 = df.copy()
df2

In [None]:
# dataframe은 dictionary와 비슷한 방식으로 assignment가 가능합니다.
# df에 ['one', 'one','two','three','four','three'] 리스트를 column의 value로 하는 column E를 추가합니다.
df2["E"] = ['one', 'one', 'two', 'three', 'four', 'three']
df2

In [None]:
# df.isin은 해당 value들이 들어있는 row에 대해선 True를 가지는 Series를 리턴한다.
df2['E'].isin(['two','four'])

In [None]:
# df2에서 column E에 two 또는 four라는 값을 가진 데이터를 출력해주세요.
df2[df2['E'].isin(['two','four'])]

## 5.5. 외부 데이터 읽고 쓰기

In [None]:
# data 폴더에 있는 iris.csv를 불러오자.
iris = pd.read_csv("../input/iris/Iris.csv")
iris

In [None]:
# Species column을 숫자로 바꿔보자.
#iris.Species.unique()
# Iris-setosa --> 0
# Iris-versicolor --> 1
# Iris-virginica --> 2

# 1. species column 찾기
iris.Species

# 2. Species column에서 Iris-setosa 찾기
iris.Species == "Iris-setosa"

# 3. Iris-setosa를 0으로 치환
iris.loc[iris.Species == "Iris-setosa", "Species"] = 0

# Q. 나머지 2개도 해보세요!
iris.loc[iris.Species == "Iris-versicolor", "Species"] = 1
iris.loc[iris.Species == "Iris-virginica", "Species"] = 2
iris

In [None]:
iris.sort_values(by="Species")

In [None]:
# 바꾼 Dataframe을 Iris_edited.csv 로 저장하자.
iris.to_csv("iris_edited.csv", index=False)

In [None]:
# 다른 파일도 불러오자.
survey = pd.read_csv("../input/kaggle-survey-2021/kaggle_survey_2021_responses.csv")
survey

In [None]:
# 박사 학위 소지자들만 골라보자.
#survey.Q4.unique()
survey.loc[survey.Q4 == "Doctoral degree"]

In [None]:
# 박사 학위 소지자들에 대한 정보만 kaggle_survey_2020_phd.csv로 다시 저장하자.


In [None]:
# regular expression
survey[survey.Q3.str.contains("Korea|India|Japan")]

In [None]:
# (OPTIONAL) 박사 학위 소지자이면서, 대한민국 국적을 가진 사람들을 뽑아보자.
# 1. 대한민국 사람 찾자
skorea = survey.loc[survey.Q3 == "South Korea"]
#survey.Q3.str.contains("Korea") # Q3 column에 "Korea" 라는 단어가 포함된 row들을 True로 돌려주는 함수.
#survey[survey.Q3.str.contains("Korea")]

# 2. 대한민국 사람 중에 박사 학위 소지자를 찾자
skorea.loc[skorea.Q4 == "Doctoral degree"]


# (OPTIONAL) 3. 대한민국 사람 중에 박사 학위 소지자를 한번에 찾는 법.
survey.loc[(survey.Q3 == "South Korea") & (survey.Q4 == "Doctoral degree")]