# 데이터마아닝 프로세스 실습

## 학습 목표

1. 파이썬을 이용하여 데이터마이닝의 주요 단계를 따라 간단한 데이터마이닝 모형을 만들어 본다.

# 파이썬 리뷰 실습

## 파이썬 모듈의 기능을 사용하는 방법

1. `import`로 모듈 적재하여 사용하기
    - `math` 모듈을 적재하시오.
    - `math` 모듈의 `sqrt` 함수를 사용하여 $\sqrt{7}$을 계산해 보시오.

2. `from`과 `import`로 모듈에서 특정 함수나 클래스만 적재하여 사용하기
  - `math` 모듈에서 `log` 함수만 적재하시오.
  - `log` 함수로 $\log(9)$를 계산해 보시오.

## 파이썬 데이터 분석 모듈

1. 파이썬의 주요 데이터 모듈을 약자로 적재하기
- 다음 셀을 실행하시오.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

2. `seaborn` 모듈을 `sns`라는 약자료 적재하여 보시오.

3. `sklearn.linear_model` 모듈에서 `LinearRegression` 클래스만 적재하시오.

## 파이썬 클래스 

1. `pandas`의 `DataFrame` 클래스로 데이터프레임 인스턴스 만들기
    - 다음을 실행해 보시오.
    - "John"이라는 이름의 나이 28, 수입 15.5인 고객 정보에 대한 행을 추가할려면 어떻게 하여야 할까?

In [None]:
# DataFrame 인스턴스 생성
df = pd.DataFrame({"name":["Tom","Jane"],"age":[25,22],"income":[10.0,12.0]})
df

2. `type` 함수로 자료형 확인하기
    - `type` 함수를 사용하여 `df`의 자료형을 출력해 보시오.

3. 인스턴스 속성 확인하기
    - `df`의 `shape` 속성을 출력해 보시오. 

4. `df`의 `columns` 속성을 출력해 보시오. 

5. 인스턴스 메소드 이용하기
    - `df`의 `info` 메소드를 사용하여 데이터프레임의 각 열에 대한 정보를 출력하시오.

6. `df`의 `plot` 메소드로 `age`를 x 축으로, `income`을 y 축으로 하는 산점도를 그리시오.
    - `plot` 메소드의 `x`와 `y` 인수에 적절한 열 이름을 설정하여 실행해 보시오.

In [None]:
df.plot(kind="scatter", x="age", y="income") 
plt.show()

## 단계 2 - 데이터 획득: 웨스트 록스베리 지역 주택 가격 데이터 

1. `WestRoxbury.csv`를 colab에 업로드 하시오.
2. `pandas`의 `read_csv()` 함수로 CSV 파일을 읽어서 DataFrame 인스턴스를 생성하기.
    - `read_csv()`에 CSV 파일 이름을 문자열로 설정한다.

In [None]:
housing_df = pd.read_csv("WestRoxbury.csv") 
housing_df

3. `housing_df` 데이터프레임의 `shape` 속성을 출력하여 행과 열 수를 확인하시오.

4. `housing_df`의 `info` 메소드를 이용하여 데이터프레임의 각 열에 대한 정보를 출력하시오.

## `pandas`의 `DataFrame`의 인덱싱 

1. 열 하나 인덱싱: `데이터프레임["열 이름"]`
  - `housing_df`에서 `TOTAL_VALUE` 열만 인덱싱

In [None]:
housing_df["TOTAL_VALUE"]

2. 여러 열 인덱싱: `데이터프레임[ ["열1 이름", "열2 이름", ....] [`
  - `housing_df`에서 `TOTAL_VALUE`, `GROSS_AREA`, `REMODEL` 열을 함께 인덱싱 하기.

In [None]:
housing_df[["TOTAL_VALUE", "GROSS_AREA", "REMODEL"]]

## 단계 3 - 데이터 탐색 - 수치형 변수 분포 

- 모든 수치형 변수의 통계치 구하기

In [None]:
housing_df.describe()

- 특정 열을 인덱싱한 후 mean, median, std, max, min 메소드를 적용하면 해당 열만 통계량 제공

In [None]:
# 특정 열에 대한 통계량 구하기
housing_df["TOTAL_VALUE"].mean()  

In [None]:
housing_df[ ["TOTAL_VALUE", "LIVING_AREA", "ROOMS"] ].std()

- `hist()` 메소드를 이용하여 특정 열에 대한 히스토그램 그리기
    - `column` 인수에 열이름을 설정하면 특정 열에 대한 히스토그램을 그린다.
    - `bins`로 구간 수 지정 가능 

In [None]:
housing_df.hist(column="TOTAL_VALUE")  
plt.show()

- `hist()` 메소드를 이용하여 모든 수치형 변수에 대해 히스토그램 그리기
    - `column` 인수에 열이름을 설정하지 않으면 모든 열에 대한 히스토그램을 그린다.
    - `figsize`로 그래프 크기를 인치로 지정 가능: (가로 크기, 세로 크기)

In [None]:
housing_df.hist()  
# housing_df.hist(figsize=(16, 12))  
plt.show() 

- `boxplot()` 메소드를 이용하여 상자 그래프 그리기
  - `column` 인수에 상자 그래프를 그릴 열이름을 설정

In [None]:
housing_df.boxplot(column="TOTAL_VALUE")  
plt.show() 

## 단계 3 - 데이터 탐색 - 범주형 변수 분포 

- 범주형 변수 빈도 구하기: 범주형 열을 선택한 후 `value_counts()` 메소드 이용
    - `normalize=True`로 설정하면 상대 빈도 계산

In [None]:
housing_df["REMODEL"].value_counts()   # 절대 빈도 구하기

In [None]:
housing_df["REMODEL"].value_counts(normalize=True)  # 상대 빈도 구하기

- 범주형 변수에 대한 막대 그래프 그리기: `value_counts()`로 빈도표를 구한 후 `plot()` 메소드를 이용. 

In [None]:
# 절대 빈도로 그리기
housing_df["REMODEL"].value_counts().plot(kind="bar")  
plt.xticks(rotation=0) # x-축 레이블 각도 조정
plt.show()

In [None]:
# 상대 빈도로 그리기
housing_df["REMODEL"].value_counts(normalize=True).plot(kind="bar")  
plt.show()

## 단계 3 - 데이터 탐색 - 결측치 수 확인

- 열 별 결측치 수 확인
  - `isna()`: 결측치인 곳은 `True`, 나머지는 `False`로 표시하는 메소드
  - `sum()`: 열별 합을 구하는 메소드. `True`는 1, `False`는 0으로 하여 계산.  

In [None]:
housing_df.isna()  # 열별 결측치 정보

In [None]:
housing_df.isna().sum()  # 열별 결측치 수 확인

- 결측치 시각화: 결측치를 검은색으로 표시하여 특정 열, 행에 집중화되어 있는지 확인
- 결측치는 `np.nan`으로 표현  

In [None]:
df = housing_df.copy()  # 데이터프레임 복사본 만들기
# 결측치 위치 시각화를 위해 1900년도 이전 집은 모두 결측치로 입력
df.loc[df["YR_BUILT"] < 1900, "YR_BUILT"] = np.nan
sns.heatmap(df.isna(), cmap="Greys")  # 결측치 시각화
plt.show()

## 단계 3 - 데이터 탐색 - 수치형 변수들의 상관성 분석 

- 산점도로 수치형 변수 간의 연관성 파악
- `plot()` 메소드를 이용하여 산점도 그리기

In [None]:
housing_df.plot(kind="scatter", x="LIVING_AREA", y="TOTAL_VALUE")
plt.show()

- `pd.plotting.scatter_matrix(데이터프레임)` 함수를 사용하면 여러 수치형 변수 간의 산점도와 히스토그램을 동시에 확인 가능

In [None]:
# 여러 수치형 변수의 산점도 그리기
pd.plotting.scatter_matrix(
    housing_df[["TOTAL_VALUE", "LIVING_AREA", "ROOMS", "YR_BUILT"]],
    figsize=(10, 8))
plt.show()

## 단계 3 - 데이터 탐색 - 수치형 변수 사이의 상관성 분석 - 상관계수 (1/2)


- `corr` 메소드로 두 수치형 변수의 상관계수 구하기
    - `numeric_only=True`로 인수를 설정해야 수치형 변수 사이의 상관계수를 구함
    - `round` 메소드를 사용하면 소수점 특정 자리에서 반올림 가능

In [None]:
# 상관계수 구하기
corr_mat = housing_df.corr(numeric_only=True)
# corr_mat = housing_df.corr(numeric_only=True).round(2)
corr_mat

- 변수가 많은 경우는 상관계수 히트맵으로 시각화하여 탐색

In [None]:
# 상관계수 히트맵
sns.heatmap(corr_mat, cmap="RdBu", vmin=-1, vmax=1)
plt.show()

## 단계 3 - 데이터 탐색 - 범주형 변수 사이의 상관성 분석 - 교차표 

- 교차표(분할표) 생성: 두 범주형 변수의 발생 빈도를 행과 열로 정리한 표
- `pd.crosstab(범주형 변수1, 범주형 변수 2)` 함수로 교차표 생성 

In [None]:
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'])

In [None]:
# 행과 열의 합 추가
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'], margins=True)

In [None]:
# 상대 빈도로 교차표 만들기: 전체가 1인 경우
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'], normalize="all")

In [None]:
# 상대 빈도로 교차표 만들기: 전행이 1인 경우
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'], normalize="index")

In [None]:
# 상대 빈도로 교차표 만들기: 열이 1인 경우
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'], normalize="columns")

In [None]:
# 백분율로 표현
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE'], 
  normalize="columns").round(3) * 100

- 막대 그래프 그리기
  - `pd.crosstab()`으로 교차료를 생성한 후 `plot()` 메소드 이용
  - 행 인덱스는 x-축으로, 열 인덱스는 색이 다른 막대로 표시

In [None]:
pd.crosstab(housing_df['REMODEL'], housing_df['FIREPLACE']).plot(kind="bar")
plt.xticks(rotation=0)
plt.show()

## 단계 3 - 데이터 탐색 - 범주형 변수와 수치형 변수의 상관성 분석 

- 범주형 변수의 범주별로 수치 변수 통계 요약하기
  - `groupby(범주형변수)` 메소드로 데이터프레임을 그룹화
  - `mean()` 등의 통계함수로 열별 통계 수행 

In [None]:
# 범주별 평균 구하기
housing_df.groupby("REMODEL").mean()["TOTAL_VALUE"] 

- 범주별로 수치 변수의 분포를 상자 그래프나 히스토그램으로 시각화하기
  - `by` 인수에 범주형 변수 이름 설정

In [None]:
housing_df.boxplot(column="TOTAL_VALUE", by="REMODEL")
plt.show()

In [None]:
housing_df.hist(column="TOTAL_VALUE", by="REMODEL", bins=20, 
  sharex=True)  # x-축 통일 
plt.show()