In [1]:
import pandas as pd

# Pandas 데이터 전처리 실전

실제 데이터를 정제하고 분석하는 전처리 과정을 학습합니다.

**학습 목표:**
- `rename()`으로 column명 변경
- `str.strip()`으로 공백 제거
- `str.replace()`로 문자열 치환
- 실전 데이터 정제 (공백, 콤마, 하이픈 처리)
- `groupby()`를 활용한 집계 분석
- 조건에 맞는 행 제거하기

---

## 샘플데이터

https://www.data.go.kr/ 에서 제공하는 공공데이터를 활용합니다.  

[민간 아파트 가격동향](https://bit.ly/ds-house-price)

## 데이터프레임 로드

In [2]:
df = pd.read_csv('https://bit.ly/ds-house-price')

In [3]:
# df를 csv파일로 저장

df.to_csv("./data.csv", index=False)

In [None]:
df.info()

## 1. column 재정의 (rename)

이전 시간까지는 df.columns 를 통해 전체 column의 이름을 재정의했지만, 한 개의 column만 이름을 바꾸고 싶을 때는 다음과 같이 실행합니다.

분양가격 column의 이름을 재정의

In [None]:
df[분양가격]

In [None]:
# ㎡은 Excel과 같은 프로그램에서 복사해 온다.
df = df.rename(columns={'분양가격(㎡)': '분양가격'})
df

## 2. 데이터 Overview


### 2-1. 빈 값과 Data Type 확인하기

In [None]:
## 코드
df.info()

### 2-2. 통계값 확인

In [None]:
## describe : 컬럼중에 수치형 데이터(int,float)에 대한 통계를 보여줌
df.describe()

## 3. 분양가격 column을 int 타입으로 변환 (실전 전처리)

아래 셀을 실행하면 error가 납니다. error가 나지 않도록 전처리를 해나가 보겠습니다.

In [None]:
df['분양가격'].astype (int)

In [None]:
# ValueError: invalid literal for int() with base 10: '  '의 의미는
# '  ' 공백 문자열을 int()로 변환할 때 발생하는 에러를 의미합니다.

In [None]:
# df['분양가격']에 고유한 데이터값을 모두 출력 
df['분양가격'].unique()

실제로 이렇게 처리된 데이터들이 많습니다.. 휴우...

### strip()을 활용하여 공백이 있는 데이터 공백없애기

[tip] column의 문자열에 strip을 실행하고자 할 때는 str.strip()를 실행해줘야 합니다

[예시] df['분양가격'].str.strip()

In [None]:
mystr="Hello  world"
# strip()은 양쪽 공백을 제거
print(mystr.strip())

In [None]:
# boolean indexing으로 공백'  '를 검색
[df['분양가격'] == '  ']

In [None]:
# 분양가격 컬럼에서 공백 '  '만 출력
df.loc[df['분양가격'] == '  ']

In [None]:
#df['분양가격'].str.strip()의 의미는
# df['분양가격']의 값을 문자열로 변환하고, 좌우의 공백을 제거하는 것입니다.
df['분양가격'] = df['분양가격'].str.strip()

In [None]:
df.loc[df['분양가격'] == '']

### 빈 공백이 있는 데이터는 0을 넣어주도록 하겠습니다.

[tip] loc


In [None]:
## 코드 
df.loc[ df['분양가격'] == '', '분양가격'] = 0

In [None]:
df['분양가격'].astype(int)

이번에는 NaN 값이 말썽이네요...ㅠㅠ

### NaN 값은 fillna로 채워 주도록 합시다!

In [None]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

세상에나.. ','가 들어간 데이터도 있습니다 ㅠㅠ

In [None]:
df.loc[df['분양가격'] == '6,657']

2125 행에 ,가 들어간 것이 보이시죠?

### 콤마를 제거해 봅시다

In [None]:
## 분양가격 컬럼에서 ','를 삭제하는 방법으로 replace함수 사용
df['분양가격'] = df['분양가격'].str.replace(',', '')

In [None]:
df.iloc[2125]

6,657 -> 6657로 변환된 것을 보실 수 있네요!

In [None]:
df['분양가격'].astype(int)

다시 NaN 값이 생겼습니다. 그렇다면 fillna로 다시 처리를 해줘야 합니다.

In [None]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

이번에는 '-' 가 말썽이네요 ㅠㅠㅠ

### - 제거하기

In [None]:
## 코드
df['분양가격'] = df['분양가격'].str.replace('-', '')

In [None]:
df['분양가격'].astype(int)

다시 NaN 값이 생겼습니다..

### NaN 값은 0으로 채워 줍시다

In [None]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

빈 값이 다시 생겼습니다.

In [None]:
df.loc[df['분양가격'] == '']

## 빈 값은 0으로 채워주기

In [None]:
## 코드
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [None]:
df['분양가격'] = df['분양가격'].astype(int)

In [None]:
df.info()

In [None]:
df['분양가격'] = df['분양가격'].astype(int)

## 규모구분 column에 불필요한 '전용면적' 제거

In [None]:
## 코드
df['규모구분'] = df['규모구분'].str.replace('전용면적', '')

In [None]:
df['규모구분'].value_counts()

## 4. 전처리 내용을 복습해 봅시다

제거한 값들을 복습해 봅시다

In [None]:
df2 = pd.read_csv('https://bit.ly/ds-house-price')

In [None]:
# 콤마가 있는 경우
df2.iloc[2125]

In [None]:
# -가 있는 경우
df2.loc[df2['분양가격(㎡)']=='-']

In [None]:
# 공백이 2개 들어간 경우
df2.loc[df2['분양가격(㎡)']=='  ']

## 5. 분양가격이 잘 바뀌었나요?

In [None]:
df.info()

## 6. 지역명 별로 평균 분양가격을 확인해 봅시다

In [None]:
## 코드
df.groupby('지역명')['분양가격'].mean()

### 이번에는 분양가격이 100보다 작은 행은 제거해보겠습니다.

In [None]:
df.loc[ df['분양가격'] < 100]

[tip] 특정 조건에 만족하는 행을 제거하고자 할 때는

1. index를 list로 가져온다
2. drop을 활용하여 행을 제거한다

In [None]:
## 코드 (index 가져오기)
idx = df.loc[ df['분양가격'] < 100].index

In [None]:
idx

In [None]:
df

In [None]:
## 코드 (index를 행 기준으로 drop)
df = df.drop(idx, axis=0)

In [None]:
df.count()

df의 행의 갯수가 줄어든것이 보이시나요?
* df.count() 값이 4185개가 출력이 되어야 합니다!

다시 한 번 지역명으로 group을 묶어 분양가격을 확인해 보겠습니다.

In [None]:
## 코드
df.groupby('지역명')['분양가격'].mean()

count()로 데이터의 갯수도 확인해 볼까요?

In [None]:
## 코드
df.groupby('지역명')['분양가격'].count()

지역 별 최고로 비싼 분양가는 어떻게 될까요?

In [None]:
## 코드
df.groupby('지역명')['분양가격'].max()

## 7. 이번에는 연도별로 분양가격을 확인해 봅시다.

In [None]:
## 코드
df.groupby('연도')['분양가격'].mean()

## 8. 피벗 테이블을 활용해서 볼까요?

* 행인덱스: 연도
* 열인덱스: 규모구분
* 값: 분양가격

In [None]:
## 코드
pd.pivot_table(df, index='연도', columns='규모구분', values='분양가격')

## 9. 연도별, 규모별 가격을 알아볼까요? (multi-index)

In [None]:
## 코드
df.groupby(['연도', '규모구분'])['분양가격'].mean()

예쁘게 출력이 안되어서 보기가 힘들때는 pd.DataFrame()으로 한 번 더 감싸주면 됩니다.

In [None]:
## 코드
pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())

---
## 정리

| 함수/메서드 | 설명 | 예시 |
|------------|------|------|
| `rename(columns={})` | column명 변경 | `df.rename(columns={'old': 'new'})` |
| `str.strip()` | 문자열 앞뒤 공백 제거 | `df['col'].str.strip()` |
| `str.replace()` | 문자열 치환 | `df['col'].str.replace(',', '')` |
| `fillna()` | NaN 값 채우기 | `df['col'].fillna(0)` |
| `drop()` | 특정 index 행 제거 | `df.drop(idx, axis=0)` |
| `groupby().mean()` | 그룹별 평균 | `df.groupby('지역')['가격'].mean()` |

**전처리 순서 (실전 팁):**
1. `info()`로 데이터 타입과 결측값 확인
2. `str.strip()`으로 공백 제거
3. `str.replace()`로 특수문자 제거 (콤마, 하이픈 등)
4. `fillna()`로 NaN 값 처리
5. `astype()`으로 데이터 타입 변환
6. 조건에 맞지 않는 행 제거 (`drop()` 활용)