## pandas 기초 문법 실습

In [2]:
import numpy as np
import pandas as pd

# https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
# getting started - house prices data 예시로 사용

root_dir = '../data-examples'
df = pd.read_csv(root_dir + '/house-prices-advanced-regression-techniques/train.csv')
print(f'row 개수 : {len(df)}, column 개수 : {len(df.columns)}')

row 개수 : 1460, column 개수 : 81


### pandas display option

In [None]:
# max_columns, max_rows 설정
pd.set_option('display.max_columns', 100)
# pd.set_option('display.max_columns', None) # limit 없음
pd.set_option('display.max_rows', 100)
# pd.set_option('display.max_rows', None) # limit 없음

In [None]:
# 출력되는 item 수 limit 해제하기
pd.set_option('display.max_seq_items', None)

In [None]:
# 출력창 크기 조절하기
pd.set_option('display.width', 10) # 한 줄에 하나씩 출력하고 싶을 때. 작은 수를 넣어서 사용

### data load method

In [None]:
# csv load
filepath = root_dir+'/house-prices-advanced-regression-techniques/train.csv'
pd.read_csv(filepath)

In [None]:
# 여러 형태 load
filepath = root_dir+'/house-prices-advanced-regression-techniques/train.csv'
pd.read_csv(filepath, sep='|', encoding='utf') # |로 구분되는 파일 & utf-8로 encoding된 파일

### null 처리 method

In [None]:
# null 개수 파악
df.isna().sum() # column별로 나타냄
df.isna().sum(axis=1) # row별로 나타냄

In [None]:
# null 행/열 제거
df.dropna(axis=0, inplace=True) # row제거
df.dropna(axis=1, inplace=True) # column제거

### 문자열 처리, 문자열 치환 정규 표현식

In [1]:
# DataFrame 내의 문자열에 접근하는 방법
df.GarageQual[df.GarageQual.str[1]=='A'] # GarageQual의 string자료의 [1]이 'A'인 것만 추출

NameError: name 'df' is not defined

In [None]:
# 정규 표현식 이용해 문자열 일부 수정
df.replace(r'[^0-9A-Za-z가-힣]+','',regex=True) # (수정할 문자열, 수정결과 문자열, regex=True) 정규표현식위해 regex=True
df['GarageQual'] = df['GarageQual'].str.replace('A', 'a') # 이처럼 정규표현식 없이도 부분 변경 가능하긴 함

### DataFrame 값 일부 수정하기

In [None]:
# 여러 개의 데이터에 접근하고 데이터 수정하기
df['LotShape'][df['LotShape']=='Reg'] = '3' # LotShape 가 Reg인 행의, LotShape 열을 3으로 수정. 

In [None]:
# 하나의 데이터 수정하기
col_id = list(df.columns).index('LandContour')
df.iloc[3, 8] = 10 # 3, 8 위치의 셀 값을 10으로 수정

### Groupby

#### 기준이 되는 범주형 변수의 각 범주마다, sum이나 mean, size, count 등 집계함수를 사용하는 방법

In [None]:
# groupby 기본적 사용방법 : LotShape라는 열의 각 범주에 대해, OverallQual, MasVnrArea의 sum값을 구하는 것
df.groupby('LotShape', as_index=False).sum()[['LotShape', 'OverallQual', 'MasVnrArea']]
# as_index를 False로 하면 index를 포함하지 않게 됨, 그래서 집계함수 오른쪽에 열 선택할 때 Level에 사용된 col도 넣어줘야

In [None]:
# 두 개의 기준에 대해 groupby하여 집계함수 짜기
df.groupby(['Street','LotShape']).sum()[['OverallQual','MasVnrArea']]
# as_index가 False이면 Street, LotShape가 index가 됨

In [None]:
# 각 column에 대해 각기 다른 집계함수 적용하기
df.groupby(['Street','LotShape']).agg({'OverallQual':np.sum, 'MasVnrArea':np.mean})

In [None]:
# 각 column에 대해 각기 다른 집계함수 적용하기 - 더 일반화된 방법
def func(x):
    return pd.Series([x.OverallQual.sum(), x.MasVnrArea.mean(), (x.OverallQual*x.MasVnrArea).mean()], 
                     index = ['OverallQualSUM','MasVnrAreaMEAN','MultiplyMEAN'])
# OverallQual에는 sum, MaxVnrArea에는 mean을 적용하고 또한 기존컬럼 두개 이상을 이용해 새 집계함수를 작성해서 적용
df.groupby(['Street','LotShape']).apply(func)

#### MultiIndex 처리 방법

In [22]:
# 북마크에 멀티인덱스 라는 이름으로 저장돼있음, 나중에 정리할게요