<a href="https://colab.research.google.com/github/sudonglee/python-for-ds/blob/main/11_12_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pandas**
- 작성자: 이수동 (울산대학교 산업경영공학부 | sudonglee@ulsan.ac.kr)
- 참고자료: 권철민, 『파이썬 머신러닝 완벽 가이드』, 위키북스(2020).

# **Introduction**
- Numpy는 행렬 형태의 데이터를 연산하고 가공하는 데에 우수한 능력을 가지고 있습니다. 하지만 데이터의 속성을 표시하는 행이나 열의 **레이블(label)**을 가지고 있지 않다는 한계점이 있습니다. 
- MS Excel의 Spreadsheet를 떠올려보세요. 행과 열로 이루어진 **테이블(table)** 형태의 데이터를 다루기 위해서는 레이블을 필수적으로 활용해야 합니다. 
- Pandas는 이러한 문제를 해결하기 위해 고안되었습니다. Pandas는 Numpy를 기반으로 하며, 데이터 탐색, 검사, 필터링, 정렬, 그룹화 등 테이블 형태(tabular)의 정형데이터 분석에 필요한 많은 기능을 제공합니다. 

### **`pandas` 시작하기**

In [None]:
import pandas as pd

`pandas` 실습을 위한 데이터를 이곳 [링크](https://liveuou-my.sharepoint.com/:u:/g/personal/sudonglee_mail_ulsan_ac_kr/EfTHfJDFsMFAttkaTxNb-awBoXEm-Ow7A6ZsMpy3yjgjrA?e=GWsNEF)를 통해 다운로드 받습니다. 

In [None]:
import os
path = os.getcwd()
print(path)

In [None]:
import zipfile
zip_file = zipfile.ZipFile('titanic.zip')
zip_file.extractall(path)

- `read_csv` 함수를 통해 CSV 데이터를 DataFrame으로 불러올 수 있습니다.
- `head()` 메서드를 이용하면 DataFrame의 첫 5개 행(default, 임의로 설정도 가능)을 출력할 수 있습니다.

In [None]:
titanic_df = pd.read_csv('titanic_train.csv')
print('변수 type:', type(titanic_df))
titanic_df.head(10)

### **타이타닉 데이터 소개: Data Dictionary**

| Variable | Definition	| Description |
| :-: | :-: | :-: |
| PassengerId | 승객 ID | |
| Survived |	생존 여부	| 0 = 사망, 1 = 생존 |
| Pclass	| 티켓 등급 |	1 = 1st, 2 = 2nd, 3 = 3rd |
| Name | 성명 | |
| Sex |	성별 | |
| Age |	나이 |  |
| SibSp |	승선한 형제자매(siblings) 및 배우자(spouses)의 수 |
| Parch | 승선한 부모(parents) 및 자식(children)의 수 |
| Ticket |	티켓 번호	|
| Fare | 티켓 가격	|
| Cabin	| 객실 번호	|
| Embarked	| 승선 항구 |	C = Cherbourg, Q = Queenstown, S = Southampton |

`shape`, `info()`, `describe()` 등의 메서드를 활용하여 DataFrame의 정보를 파악할 수 있습니다.

In [None]:
print('DataFrame 크기: ', titanic_df.shape)

In [None]:
titanic_df.info()

In [None]:
titanic_df.describe()

#### **Series**

- Series는 Index와 단 하나의 칼럼으로 구성된 데이터 세트입니다.
- DataFrame의 각 칼럼은 Series로 구성되어 있습니다.

In [None]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

In [None]:
titanic_pclass.head(10)

- `value_counts()` 메서드를 호출하면 해당 칼럼 값의 유형과 건수를 확인할 수 있습니다.
- `value_counts()`는 변수의 분포를 확인하는 데에 매우 유용합니다. 

In [None]:
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

In [None]:
print(titanic_df['Sex'].value_counts())

In [None]:
print(titanic_df['Survived'].value_counts())

### **DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환**

#### **ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기**

- 데이터 분석 상황에 따라 편리한 데이터셋의 형태가 다릅니다.
- ndarray, 리스트, 딕셔너리, DataFrame을 자유롭게 오가며 변환할 수 있어야 합니다. 

In [None]:
import numpy as np

col_name1=['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)

print('array1 shape:', array1.shape )
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

In [None]:
# 3개의 컬럼명이 필요
col_name2=['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성 한 뒤 이를 DataFrame으로 변환
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape)
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

In [None]:
# Key는 컬럼명으로 매핑, Value는 리스트 형(또는 ndarray)
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

#### **DataFrame을 ndarray, 리스트, 딕셔너리로 변환하기**

In [None]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

In [None]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

### **DataFrame의 열(column) 다루기**

DataFrame의 열에 접근하는 방법은 기본적으로 2가지 입니다.
- `df_name['col_name']`
- `df_name.col_name`

In [None]:
titanic_df['Age'].head()

In [None]:
titanic_df.Age.head()

In [None]:
titanic_df.head(3)

In [None]:
titanic_df['Age_0']=0
titanic_df.head(3)

In [None]:
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

titanic_df에 'Alone'이라는 열을 추가합니다. 혼자 탔으면 True, 아니면 False

In [None]:
titanic_df['Alone'] = (titanic_df['SibSp']+titanic_df['Parch']==0)

In [None]:
titanic_df.head()

In [None]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

In [None]:
print(titanic_df.Survived)

In [None]:
cols = ['Survived', 'Age', 'Sex']
titanic_df[cols].head()

### **DataFrame 데이터 삭제**

- `drop()` 메서드를 이용하여 DataFrame의 데이터를 삭제할 수 있습니다.
- 원본 DataFrame에 반영할 것인지의 여부는 `inplace` 옵션을 통해 선택할 수 있습니다. (defualt: `False`)

In [None]:
titanic_df.head(3)

In [None]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

In [None]:
titanic_df.head(3)

In [None]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1, inplace=True)
titanic_df.head()

In [None]:
drop_result = titanic_df.drop(['Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True 로 drop 후 반환된 값:',drop_result)

titanic_df.head(3)

In [None]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0,1,2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

In [None]:
titanic_df.head(10)

### **`pandas`의 Index 객체**

`pandas`의 Index 객체는 Dataframe과 Series의 레코드를 고유하게 식별하는 객체입니다. 

In [None]:
# 원본 파일 재 로딩 
titanic_df = pd.read_csv('titanic_train.csv')
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 arrray로 변환 
print('Index 객체 array값:\n',indexes.values)


In [None]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

Index 내부의 값은 임의로 변경할 수 없습니다.

In [None]:
indexes[0] = 5

In [None]:
titanic_df.head()

In [None]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head()

In [None]:
titanic_df_drop = titanic_df.drop([0,1,2], axis=0, inplace=False)
print('Before reset:\n', titanic_df_drop[['Pclass', 'Survived']].head(3))
titanic_df_drop.reset_index(inplace=True)
print('After reset:\n', titanic_df_drop[['Pclass', 'Survived']].head(3))

In [None]:
titanic_df_drop.head(10)

### **데이터 선택 및 필터링**

#### **Python native accessors**
- 파이썬은 객체(object)의 인덱싱(indexing) 기능을 내장하고 있습니다. (리스트(list)의 인덱싱을 떠올려보세요.) DataFrame에서도 해당 기능을 이용할 수 있습니다.
- 이에 더불어 pandas는 고유의 accessor operator도 가지고 있습니다. 바로 `loc`과 `iloc`인데요! 어떤 내용인지 살펴 봅시다.

In [None]:
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df

**Index-based selection** <br/>
- 첫번째로 살펴볼 개념은 **수치로 표현된 위치**로 데이터에 접근하는 **index-based selection**을 수행하는 연산자(operator), `iloc`입니다. 
- `iloc`을 통해 `titanic_data`의 '첫번째 행'을 불러내봅시다.



In [None]:
titanic_df.iloc[0]

In [None]:
titanic_df.head()

- `iloc`은 행(row)을 기본적으로 참조하고, 그 다음 열(column)을 참조합니다.
- `iloc`을 통해 하나의 열을 불러오기 위해서는 다음과 같은 코드를 실행합니다.

In [None]:
titanic_df['PassengerId']

In [None]:
titanic_df.iloc[:,0]

In [None]:
titanic_df.iloc[:3, 0]

In [None]:
titanic_df.iloc[[3, 5, 8], [3, 4]]

In [None]:
titanic_df.iloc[-5:,1]

In [None]:
titanic_df.iloc[-5:]

**Label-based selection** <br/>
- `loc` 연산자(operator)는 인덱스의 **레이블(label)**로 데이터를 호출합니다.
- 테이블 상의 데이터 위치가 아닌 인덱스 값 그 자체로 호출한다는 것이 특징입니다. 아래 예시를 살펴 봅시다.

In [None]:
titanic_df.head()

In [None]:
titanic_df.iloc[0, 3]

In [None]:
titanic_df.loc[0, 'Name']

In [None]:
titanic_df.loc[:, ['Name', 'Sex', 'Age']]

In [None]:
titanic_df.loc[:, 'Name':'Age']


#### [참고] `.iloc[0]`과 `.loc[0]`의 차이 정확히 이해하기
- `iloc`과 `loc` 모두 row-first, column-second 입니다.
- `.iloc[0]`의 `0`은 **'첫번째 인덱스'**라는 의미의 **숫자 0**을,<br/>
`.loc[0]`의 `0`은 **'인덱스의 값이 0인 데이터'**의 **인덱스 0**을 뜻합니다.


In [None]:
print(titanic_df.iloc[:3])

In [None]:
print(titanic_df.loc[:3])

### **Index 지정하기**

- DataFrame의 디폴트 인덱스는 행 번호입니다.
- 인덱스로 사용하고 싶은 열을 임의로 지정할 수도 있습니다.
- `iloc`과 `loc`의 차이를 명확히 이해하기 위해 `Name`을 index로 사용하는 새로운 DataFrame인 `tmp_df`를 만들어 보겠습니다.

In [None]:
tmp_df = titanic_df.set_index('Name')
tmp_df.head()

In [None]:
tmp_df.iloc[0]

In [None]:
tmp_df.loc[0]

- index가 바뀐 후에도 `tmp_df.iloc[0]`은 `tmp_df`의 첫 번째 행을 호출하며 적당 작동하는 것을 확인할 수 있습니다.
- 하지만 `tmp_df.loc[0]`은 `Name`으로 바뀐 index에 `0`이 더 이상 존재하지 않으므로 에러가 발생합니다. 

### **조건부 선택(필터링)**
- DataFrame에서 특정 조건을 만족하는 데이터를 선택하는 방법입니다. 
- MS Excel에서의 필터링과 유사한 기능입니다.<br/>

Titanic호 승선객 중 남성 데이터만을 선택 해보겠습니다.

In [None]:
titanic_df.Sex

In [None]:
titanic_df.Sex == 'male'

In [None]:
tmp = titanic_df.Sex == 'male'
print(type(tmp))

In [None]:
titanic_df.loc[titanic_df.Sex == 'male']

In [None]:
# 나이가 30세 이상인 사람만 불러오기
titanic_df.loc[titanic_df.Age >= 30]

- `loc`과 `bool`을 조합하여 원하는 조건을 만족하는 데이터를 선택할 수 있습니다.
- 여러 개의 조건도 입력 가능합니다. `&` (and), `|` (or)를 조합합니다.

In [None]:
bool_Sex = titanic_df.Sex == 'male'
print(bool_Sex)

In [None]:
titanic_df.loc[(titanic_df.Sex == 'male') & (titanic_df.Pclass > 1)]

In [None]:
bool_Pclass = titanic_df.Pclass > 1
print(bool_Pclass)

In [None]:
print(bool_Sex & bool_Pclass)

In [None]:
print(bool_Sex | bool_Pclass)

In [None]:
titanic_df.loc[bool_Sex & bool_Pclass]

In [None]:
# 여성이면서 and 20세 미만
titanic_df.loc[(titanic_df.Sex=='female') & (titanic_df.Age<20)]

In [None]:
# 여성이거나 1등석
titanic_df.loc[(titanic_df.Sex=='female') | (titanic_df.Pclass==1)]

In [None]:
# 탑승한 항구(Embarked)가 S 또는 C
titanic_df.loc[titanic_df.Embarked.isin(['S', 'C'])]

이외에도 pandas에는 다양한 기능의 built-in conditional selector들이 있습니다. 
- `isin`: 해당 데이터가 주어진 리스트에 속한 값인가?
- `isnull`: 해당 데이터가 `NaN` (Not a Number)인가? (cf. 반대는 `notnull`)

In [None]:
titanic_df.loc[titanic_df.Embarked.isin(['S', 'C'])]

In [None]:
titanic_df.loc[titanic_df.Age.isnull()]

### **데이터 입력하기**
- DataFrame의 값을 바꾸거나 새로운 데이터를 추가하는 등 기존의 데이터를 편집할 수 있습니다.
- 앞서 배운 인덱싱 기법을 활용합니다.

In [None]:
titanic_df = pd.read_csv('titanic_train.csv')

In [None]:
titanic_df.loc[titanic_df.Age.isnull(), 'Age'] = 'unknown'
titanic_df.Age

In [None]:
titanic_df['NewColumn'] = titanic_df.Age
titanic_df['NewColumn']

In [None]:
titanic_df.head(20)

### **정렬, Aggregation함수, GroupBy 적용**

#### **DataFrame, Series의 정렬: `sort_values()`**

In [None]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

In [None]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

#### **Aggregation 함수 적용**

In [None]:
titanic_df = pd.read_csv('titanic_train.csv')

In [None]:
titanic_df.count()

In [None]:
titanic_df[['Age', 'Fare']].mean()

#### **groupby() 이용하기**

In [None]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

In [None]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

In [None]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

In [None]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

In [None]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

#### **결손 데이터 처리하기**

#### **`isna()`로 결측치(missing data) 확인**

In [None]:
titanic_df.isna().head(3)

In [None]:
titanic_df.isna( ).sum( )

#### **`fillna()`로 결측치(missing data) 대체하기**

In [None]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

In [None]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

In [None]:
titanic_df.to_csv('result.csv')

### **apply lambda 식으로 데이터 가공하기**

In [None]:
def get_square(a):
    return a**2

print('3의 제곱은:',get_square(3))

In [None]:
lambda_square = lambda x : x ** 2
print('3의 제곱은:',lambda_square(3))

In [None]:
a=[1,2,3]
squares = map(lambda x : x**2, a)
list(squares)

In [None]:
a = [1, 2, 3]
odds = filter(lambda x : x % 2 == 1, a)
list(odds)

In [None]:
titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name','Name_len']].head(3)

In [None]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <=15 else 'Adult' )
titanic_df[['Age','Child_Adult']].head(8)

In [None]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x<=15 else ('Adult' if x <= 60 else 
                                                                                  'Elderly'))
titanic_df['Age_cat'].value_counts()

In [None]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성. 
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else : cat = 'Elderly'
    
    return cat

# lambda 식에 위에서 생성한 get_category( ) 함수를 반환값으로 지정. 
# get_category(X)는 입력값으로 ‘Age’ 컬럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()
    