<a href="https://colab.research.google.com/github/yschoi9930/Python-for-Data-Analysis/blob/main/CHAPTER_7_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%A0%95%EC%A0%9C_%EB%B0%8F_%EC%A4%80%EB%B9%84.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CHAPTER 7 데이터 정제 및 준비

## 7.1 누락된 데이터 처리하기
- pandas 객체의 모든 기술 통계는 누락된 데이터를 배제하고 처리한다.
- NA는 데이터가 존재하지 않거나, 존재하더라도 데이터를 수집하는 과정에서 검출되지 않았음을 의미
- 결측치 자체를 데이터 수집과정에서의 실수나 결측치로 인한 잠재적인 편향을 찾아내는 수단으로 인식하는 것이 중요!
- None 값도 NA 값으로 취급

In [None]:
import pandas as pd
import numpy as np

In [None]:
string_data = pd.Series(['aardvark','artichoke', np.nan, 'avocado'])

In [None]:
string_data

In [None]:
string_data.isnull()

In [None]:
string_data[0] = None

In [None]:
string_data.isnull()

### 7.1.1 누락된 데이터 골라내기

In [None]:
from numpy import nan as NA

In [None]:
data = pd.Series([1,NA,3.5,NA,7])

In [None]:
data

In [None]:
data.dropna()

In [None]:
data[data.notnull()]

In [None]:
data[data.isnull()]

In [None]:
data = pd.DataFrame([[1.,6.5,3.],[1., NA, NA],[NA,NA,NA],[NA,6.5,3.]])

In [None]:
data

In [None]:
cleaned = data.dropna()

In [None]:
cleaned

In [None]:
data[4] = NA

In [None]:
data

- 컬럼 기준으로 드랍하고 싶을 때

In [None]:
data.dropna(axis =1, how = 'all')

In [None]:
df = pd.DataFrame(np.random.randn(7,3))

In [None]:
df

In [None]:
df.iloc[:4,1] = NA

In [None]:
df

In [None]:
df.iloc[:2,2] = NA

In [None]:
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis = 1)

- 몇개 이상의 값이 들어 있는 로우만 살펴보고 싶다면 thresh 인자에 값 넣기

In [None]:
df.dropna(thresh = 2) # 이해 잘 안됨..

### 7.1.2 결측치 채우기(fillna)

In [None]:
df.fillna(0)

-  각 컬럼마다 다른 값으로 채울 수도 있음

In [None]:
df.fillna({1:0.5,2:0})

- fillna는 새로운 객체를 반환하지만 다음처럼 기존 객체 변경도 가능

In [None]:
_ = df.fillna(0, inplace = True)
df

In [None]:
df = pd.DataFrame(np.random.randn(6,3))
df

In [None]:
df.iloc[2:,1] = NA
df.iloc[4:,2] = NA

In [None]:
df

In [None]:
df.fillna(method = 'ffill')

- ffillna의 limit을 정할 수 있음

In [None]:
df.fillna(method = 'ffill', limit = 2)

In [None]:
data = pd.Series([1.,NA,3.5,NA,7])
data.fillna(data.mean())

## 7.2 데이터 변형

### 7.2.1 중복 제거하기


In [None]:
data = pd.DataFrame({'k1':['one','two']*3 + ['two'], 'k2':[1,1,2,3,3,4,4]})
data

In [None]:
data.duplicated() # 중복인지 아닌지 불리언 시리즈 반환

In [None]:
data.drop_duplicates() # 중복 제외한 데이터셋만 반환

In [None]:
 data['v1'] = range(7)
 data

- 중복을 찾아내는 기준 설정 가능

In [None]:
data.drop_duplicates(['k1']) # k1 열의 중복데이터 모두 제거

In [None]:
data.drop_duplicates(['k1'], keep = 'last') # 중복된 값 중 마지막으로 발견한 값 반환

### 7.2.2 함수나 매핑을 이용해서 데이터 변형하기

In [None]:
data = pd.DataFrame({"food": ["bacon", "pulled pork", "bacon",
                              "pastrami", "corned beef", "bacon",
                              "pastrami", "honey ham", "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

In [None]:
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

In [None]:
lowercased = data['food'].str.lower()

In [None]:
lowercased

- 데이터 매핑을 통해 컿럼을 옆에 붙임

In [None]:
data['animal'] = lowercased.map(meat_to_animal) 

In [None]:
data

In [None]:
 data['food'].map(lambda x : meat_to_animal[x.lower()])

### 7.2.3 값 치환하기

In [None]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

In [None]:
data.replace(-999, np.nan)

- 여러개를 한번에 치환하려면

In [None]:
data.replace([-999,-1000], np.nan)

- 각자 값마다 지정할 값이 다르다면

In [None]:
data.replace([-999,-1000],[np.nan,0])

In [None]:
data.replace({-999 : np.nan, -1000 : 0})

### 7.2.4 축 색인 이름 바꾸기

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])

In [None]:
transform = lambda x : x[:4].upper()

In [None]:
transform

In [None]:
data.index.map(transform)

In [None]:
data.index = data.index.map(transform)

In [None]:
data

- 새로운 객체를 생성하려면

In [None]:
data.rename(index = str.title, columns = str.upper)

- rename 매서드는 사전형식으로 축 이름 중 일부만 변경 가능

In [None]:
data.rename(index={'OHIO' : 'INDIANA'},columns = {'three':'peekaboo'})

- rename의 경우 데이터 프레임을 직접 복사해서 index와 columns 속성을 갱신할 필요 없이 바로 변경 가능

In [None]:
data # 위의 변경 내용 저장 안되어 있음

In [None]:
data.rename(index={'OHIO' : 'INDIANA'},columns = {'three':'peekaboo'}, inplace = True)

In [None]:
data # 위의 내용 바로 적용되어 있음