# 07 - 판다스 데이터프레임 변경 (2)

## 6.데이터프레임 변경 (2)

- 정확한 데이터 분석을 위해서는 정확한 데이터가 준비되어야 합니다.
- 정확한 데이터 준비를 위해 누락된 데이터나 중복 데이터를 제거하는 전처리 작업이 필요합니다.

In [1]:
# 라이브러리 불러오기
import pandas as pd

### 6.1.결측치 처리

* 결측치란
    * NA(Not Available) 혹은 NaN(Not A Number)
    * 사용할 수 없는 값
    * 잘못 들어간 값
    * 빈 값

* NaN 조치
    * 중요한(버릴 수 없는) 변수라면,
    * 모델링을 하기전에 반드시 조치해야 합니다.
    * 조치하지 않는다면...
        * NaN 값, 즉 결측치는 정확한 분석을 방해합니다.
        * NaN 값을 만나면 오류가 발생하는 함수도 있습니다.

* NA조치 하는 세 가지 방법
    * ① 제거한다. 
    * ② 채운다
    * ③ 분리한다.


**[airquality 데이터 셋 정보]**

- Ozone: 오존 농도  
- Solar.R: 태양복사량
- Wind: 풍속
- Temp: 기온
- Month: 월
- Day: 일

In [2]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality.csv'
air = pd.read_csv(path) 

# 확인
print(air.head())

   Ozone  Solar.R  Wind  Temp  Month  Day
0   41.0    190.0   7.4    67      5    1
1   36.0    118.0   8.0    72      5    2
2   12.0    149.0  12.6    74      5    3
3   18.0    313.0  11.5    62      5    4
4    NaN      NaN  14.3    56      5    5


#### 6.1.1.결측치 찾기

- 결측치 존재 여부를 확인하고 이를 어떻게 처리할 지 방법을 결정해야 합니다.

**1) isnull(), notnull() 메소드 사용**

- **isnull()** 메소드는 결측치면 True, 유효한 값이면 False를 반환합니다.
- **notnull()** 메소드는 결측치면 False, 유효한 값이면 True를 반환합니다.
- isnull() 대신 **isna()**, notnull() 대신 **notna()** 메소드를 사용해도 됩니다.

In [3]:
# 전체 데이터 중에서 결측치는 True로 표시
air.isna()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,True,True,False,False,False,False
...,...,...,...,...,...,...
148,False,False,False,False,False,False
149,True,False,False,False,False,False
150,False,False,False,False,False,False
151,False,False,False,False,False,False


In [4]:
# 전체 데이터 중에서 결측치는 False로 표시
air.notna()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,True,True,True,True,True,True
1,True,True,True,True,True,True
2,True,True,True,True,True,True
3,True,True,True,True,True,True
4,False,False,True,True,True,True
...,...,...,...,...,...,...
148,True,True,True,True,True,True
149,False,True,True,True,True,True
150,True,True,True,True,True,True
151,True,True,True,True,True,True


- **sum()** 메소드를 사용해 True 값의 개수, 즉 **열의 결측치 개수**를 확인할 수 있습니다.

In [5]:
# 열의 결측치 개수 확인
air.isnull().sum()

Ozone      37
Solar.R     7
Wind        0
Temp        0
Month       0
Day         0
dtype: int64

#### 6.1.2.결측치 제거

- **dropna()** 메소드로 결측치가 있는 열이나 행을 제거할 수 있습니다.
- inplace=True 옵션을 지정해야 해당 데이터프레임에 실제로 반영됩니다.
- axis 옵션으로 행을 제거할 지 열을 제거할 지 지정합니다.
    - axis=0: 행 제거(기본값)
    - axis=1: 열 제거

**1) 어떤 열이든 결측치가 있는 행 제거**

- dropna() 메소드는 기본적으로 어느 열이든 결측치가 있는 행을 제거합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_01.png' width=300/>

In [6]:
# 데이터프레임 복사
air_test = air.copy()

# 열의 결측치 개수 확인
air_test.isnull().sum()

Ozone      37
Solar.R     7
Wind        0
Temp        0
Month       0
Day         0
dtype: int64

In [7]:
# 결측치가 하나라도 있는 행 제거
air_test.dropna(axis=0, inplace=True)

# 확인
air_test.isna().sum()

Ozone      0
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

**2) 특정 열에 결측치가 있는 행 제거**

- subset 옵션에 열을 지정해 해당 열에 결측치가 있는 행을 제거합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_02.png' width=300/>

In [8]:
# 데이터프레임 복사
air_test = air.copy()

# Ozone 열이 결측치인 행 제거
air_test.dropna(subset=['Ozone'], axis=0, inplace=True)

# 확인
air_test.isna().sum()

Ozone      0
Solar.R    5
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

**3) 결측치가 있는 모든 열 제거**

- axis=1 옵션을 지정해 열을 제거할 수 있습니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_03.png' width=300/>

In [9]:
# 데이터프레임 복사
air_test = air.copy()

# 결측치가 있는 열 제거
air_test.dropna(axis=1, inplace=True)

# 확인
air_test.isna().sum()

Wind     0
Temp     0
Month    0
Day      0
dtype: int64

#### 6.1.3.결측치 채우기

- **fillna()** 메소드를 사용해 결측치를 다른 값으로 채울 수 있습니다.

**1) 평균값으로 채우기**

- 결측치가 있는 열의 평균값을 구한 후 결측치를 그 값으로 채웁니다.

In [10]:
# 데이터프레임 복사
air_test = air.copy()

# Ozone 평균 구하기
mean_Ozone = air_test['Ozone'].mean()

# 결측치를 평균값으로 채우기
air_test['Ozone'].fillna(mean_Ozone, inplace=True)

# 확인
air_test.isna().sum()

Ozone      0
Solar.R    7
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

**2) 특정 값으로 채우기**

- 모든 결측치, 또는 일부 결측치를 특정 값으로 채웁니다.

In [11]:
# Solar.R 열의 누락된 값을 0으로 채우기
air_test['Solar.R'].fillna(0, inplace=True)

# 확인
print(air_test.isna().sum())

Ozone      0
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64


**3) 직전 행의 값 또는 바로 다음 행의 값으로 채우기**

- 결측치를 바로 앞의 값이나 바로 다음에 나오는 값으로 채웁니다.
- 날짜 또는 시간의 흐름에 따른 값을 갖는 **시계열 데이터**에서 사용할 수 있는 방법입니다.
- **method='ffill'**: 바로 앞의 값으로 변경(Fowared Fill)
- **method='bfill'**: 바로 다음 값으로 변경(Backwared Fill)

<img src='https://github.com/DA4BAM/image/blob/main/ffill,%20bfill.png?raw=true' width=500/>

In [None]:
# 데이터프레임 복사
air_test = air.copy()

# 결측치 확인
print(air_test.isna().sum())

In [None]:
air_test.head(7)

In [None]:
# 이전값으로 채우기
air_test.fillna(method = 'ffill', inplace = True)
air_test.head(7)

**4) 선형보간법으로 채우기**

- **interpolate()** 메소드를 사용해 선형보간법으로 채울 수 있습니다.

<img src='https://github.com/DA4BAM/image/blob/main/interpolate.png?raw=true' width=500/>

In [None]:
# 데이터프레임 복사
air_test = air.copy()

# 선형보간법으로 채우기
air_test.interpolate(method='linear', inplace=True)

# 확인
air_test.head(7)

* 그 외...추정해서 채우는 방법(KNN Imputation)도 있습니다.

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] air를 air_test로 복사해서 결측치를 이후값으로 채운(bfill) 후 채우기 전과 후를 비교해 봅시다.


### 6.2.가변수(Dummy Variable) 만들기

- 가변수는 일정하게 정해진 범위의 값을 갖는 데이터(범주형 데이터)를 독립된 열로 변환한 것입니다.
- 특히 범주형 문자열 데이터는 머신러닝 알고리즘에 사용하려면 숫자로 변환해야 합니다.
- 가변수를 만드는 과정을 **One-Hot-Encoding** 이라고 부르기도 합니다.
- **get_dummies()** 함수를 사용해서 가변수를 쉽게 만들 수 있습니다.

<img src='https://github.com/DA4BAM/image/blob/main/%EA%B0%80%EB%B3%80%EC%88%98%ED%99%94.png?raw=true' width=800/>

In [None]:
# 데이터 읽어오기
path = 'https://bit.ly/TipsFile'
tip = pd.read_csv(path)

# 확인
print(tip.head())

#### 6.2.1.범주형 변수 확인

- 범주형 여부를 우선 확인해야 합니다.

In [None]:
# 열 확인
print(tip.info())

#### 6.2.2.변수 개별 처리

- columns 옵션에 열을 하나 지정해 처리할 수 있습니다.
- 자동으로 원본 열이 제거되고, 열 이름이 prefix로 사용됩니다.
- drop_first=True 옵션을 지정합니다. 
    * 동일한 의미의 변수 하나를 빼는 작업입니다. 
    * 예를들어 성별 변수에서 가변수화를 수행하고 나면, 여자여부, 남자여부 변수 두개가 생성됩니다. 
    * 그런데 여자여부가 1이면 남자여부는 무조건 0이 되어야 합니다. 사실 두 변수가 필요하지 않고 하나를 제외해도 된다는 의미입니다. 
    * 그래서 가변수화 이후 하나의 변수를 제거해주게 됩니다.

In [None]:
# 가변수화
tip = pd.get_dummies(tip, columns=['sex'], drop_first=True)

# 확인
print(tip.head())

#### 6.2.3.일괄 처리

- columns 옵션에 대상 열을 리스트로 지정해 한 번에 처리합니다.
- 자동으로 열 이름이 prefix로 지정되며 원본 열이 제거됩니다.
- columns 옵션을 지정하지 않으면 문자열 값을 갖는 열 모두를 대상으로 합니다.

In [None]:
# 모든 범주형 변수를 가변수화
col_dumm = ['smoker', 'day', 'time']
tip = pd.get_dummies(tip, columns=col_dumm, drop_first=True)

# 확인
print(tip.head())

### 6.3 종합실습

1) 다음 요구사항에 맞게 하나의 코드셀에 순서대로 구문을 작성하고 확인하세요. 

- 1-1) pandas 라이브러리를 pd 별칭울 주어 불러오세요.
- 1-2) 다음 경로의 파일을 읽어와 titanic 데이터프레임을 선언하세요.
    - 파일 경로: 'https://bit.ly/TitanicFile' 
- 1-3) PassengerId, Name,Ticket, Cabin 열을 한 번에 제거하세요.

In [None]:
# 1-1) 라이브러리 불러오기


# 1-2) 데이터 읽어오기


# 1-3) PassengerId, Name, Ticket, Cabin 열 삭제


2) 상위 5개 행을 확인하세요.

In [None]:
# 상위 5개 확인


3) 다음 요구사항에 맞게 하나의 코드셀에 순서대로 구문을 작성하고 확인하세요. 

- 3-1) Age 열 결측치를 Age 열 평균으로 채우세요.
- 3-2) Embarked 열 결측치를 'S'로 채우세요.
- 3-3) 각 열에 결측치가 남아있는지 확인하세요.

In [None]:
# 3-1) Age 결측치 평균으로 채우기


# 3-2) Embarked 결측치 'S'로 채우기
  

# 3-3) 결측치 존재여부 확인



4) 다음 요구사항에 맞게 하나의 코드셀에 순서대로 구문을 작성하고 확인하세요. 

- 4-1) groupby 메소드를 사용해 Pclass 별 개수를 집계하여 tmp 데이터프레임으로 선언하세요.
- 4-2) tmp 데이터프레임 열 이름이 Pclass, Count가 되게 변경하세요.

In [None]:
# 4-1) Pclass 범주값 개수 확인


# 4-2) 열이름 변경



5) Pclass, Sex, Embarked 열을 한 번에 가변수화하세요. 단, 다중공선성 문제가 없도록 범주값 개수보다 하나 적은 수의 열이 만들어지게 하세요.

In [None]:
# 가변수화


# 확인
