# 데이터사이언스 (0010085001)

## Exercise 6: Data Understanding (1)

In this excercise, we will cover the exercise on the data understanding. We will learn how to adjust and handle missing values or strange values in the data.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# import requests

%matplotlib inline

### 1. 날짜 자료형

#### 예제: html 에서 테이블 데이터 가져오기

https://pandas.pydata.org/docs/reference/api/pandas.read_html.html

In [None]:
# Step 1: 파일 읽어오기
url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/'

# html에서 표 가져오기
dfs = pd.read_html(url)

In [None]:
# 데이터 프레임 길이 출력
len(dfs)

In [None]:
# 리스트 내의 첫 번째 원소를 다른 변수에 할당
# 첫 번째 데이터만 가져오면 데이터프레임
dfs = dfs[0]

In [None]:
# 데이터프레임의 첫 5줄 출력
dfs.head()

In [None]:
# 데이터프레임 크기 확인
dfs.shape

In [None]:
# 각 column 의 정보를 출력
# 데이터프레임의 구성 정보 확인
dfs.info() 

In [None]:
# Step 2: 날짜 변경
# 문자열을 날짜형으로 변경
dfs['Closing Date'] = pd.to_datetime(dfs['Closing DateClosing']) 

In [None]:
# 데이터프레임의 첫 5줄 출력
dfs.head()

In [None]:
# 자료형 확인
dfs.dtypes

In [None]:
# Step 3: 날짜의 연도만 추출
# 날짜 형을 변경하거나 조작할 경우 dt 연산자 사용
dfs['Closing Date'].dt

In [None]:
# 날짜에서 year, month, day 를 새로운 column 으로 생성
dfs['Year'] = dfs['Closing Date'].dt.strftime('%Y')
dfs['Month'] = dfs['Closing Date'].dt.strftime('%m')
dfs['Day'] = dfs['Closing Date'].dt.strftime('%d')

In [None]:
# 데이터프레임의 첫 5줄 출력
dfs.head()

In [None]:
# Step 4: 파일로 저장하기
dfs.to_csv('failed_bank_list.csv')

In [None]:
# Step 5: 파일에서 다시 읽기
# 문자 열을 처음부터 날짜로 변환
dfs_ = pd.read_csv('failed_bank_list.csv', 
                   parse_dates=['Closing DateClosing']) 

In [None]:
# 각 row 의 정보를 출력
dfs_.info()

In [None]:
# 데이터프레임의 첫 5줄 출력
dfs_.head()

In [None]:
# 불필요한 column 제거
dfs_ = dfs_.drop('Unnamed: 0', axis=1) 
dfs_.head()

In [None]:
# 년도 열을 기준으로 히스토그램 그래프 생성
dfs_.plot(y='Year', kind='hist')

### 2. 결측치 및 이상치 값 정리

#### 예제: 구글스토어 자료로 자료형 변경

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
# Step 1: 캐글에서 데이터 받기
# url = 'https://kaggle.com/lava18/google-play-store-apps'

In [None]:
# Step 2: 파일을 읽어 데이터프레임으로 변환
gstore = pd.read_csv('googleplaystore.csv')

In [None]:
# 데이터프레임 크기 확인
gstore.shape

In [None]:
# 데이터프레임의 첫 5줄 출력
gstore.head()

In [None]:
# Step 3: 열의 결측값 확인
gstore.isna().sum()

In [None]:
# 모든 결측값을 0으로 처리
gstore = gstore.fillna(0)

In [None]:
# 다시 결측값을 확인
gstore.isna().sum().sum()
# gstore.isna().sum()

In [None]:
# Step 4: 열 자료형 확인
# 모든 자료형의 개수 확인
gstore.dtypes.value_counts() 


In [None]:
# Step 5: 날짜 자료형으로 변경
try:
  gstore['Last Updated'] = pd.to_datetime(gstore['Last Updated'])
except Exception as e:
  print(e)

In [None]:
# coerce 매개변수 이용 강제로 변경
# 발생한 에러를 N/A로 변경
gstore['Last Updated'] = pd.to_datetime(gstore['Last Updated'], errors='coerce')

In [None]:
# column 확인
gstore['Installs']

In [None]:
# Step 5: 숫자 자료형으로 변경
gstore['Installs'].str

In [None]:
# 숫자들 사이의 + 기호를 빈 문자열로 변환
gstore['Installs'] = gstore['Installs'].str.replace('+', '')
gstore['Installs']

In [None]:
# 숫자들 사이의 쉼표를 기호를 빈 문자열로 변환
gstore['Installs'] = gstore['Installs'].str.replace(',', '')
gstore['Installs']

In [None]:
# 각 column 값의 발생 횟수 계산
gstore['Installs'].value_counts()

In [None]:
# 무료라는 의미의 Free 로 작성된 것을 0 으로 변경
gstore['Installs'] = gstore['Installs'].str.replace('Free', '0')
gstore['Installs'].value_counts()

In [None]:
# 변환 후 자료형 변경
gstore['Installs'] = gstore['Installs'].astype(str).astype(int)
gstore['Installs']

### 3. 다양한 값의 정규화와 변환

#### 예제: 내부 값 크기 변환

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

In [1]:
import numpy as np
import pandas as pd
from sklearn import preprocessing

In [2]:
# Step 1: 이진화
input_data = np.arange(1, 10).reshape(3, 3)
input_data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [3]:
# 전처리 모듈 중 바이너리로 변환하는 클래스 확인
type(preprocessing.Binarizer)

type

In [4]:
# threshold 2.1 에 대해 binarization 수행
data_bin = preprocessing.Binarizer(threshold=2.1).transform(input_data)
data_bin

array([[0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [5]:
# threshold 5.1 에 대해 binarization 수행
data_bin = preprocessing.Binarizer(threshold=5.1).transform(input_data)
data_bin

array([[0, 0, 0],
       [0, 0, 1],
       [1, 1, 1]])

In [6]:
# Step 2: 스케일링 처리
# 앞에서 정의한 배열의 평균
input_data.mean()

5.0

In [7]:
# 앞에서 정의한 열에 대한 평균
input_data.mean(axis=0)

array([4., 5., 6.])

In [8]:
# 앞에서 정의한 열에 대한 표준편차
input_data.std(axis=0)

array([2.44948974, 2.44948974, 2.44948974])

In [9]:
# 전처리 수행할 scale 함수 확인
type(preprocessing.scale)

function

In [10]:
# 데이터를 스케일링 (z = (x-mu) / sigma)
data = preprocessing.scale(input_data)
data

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [11]:
# axis=0 에 대해 평균 계산
data.mean(axis=0)

array([0., 0., 0.])

In [12]:
# axis=0 에 대해 표준편차 계산
data.std(axis=0)

array([1., 1., 1.])

In [15]:
# Step 3: 최솟값과 최댓값 조정 ~ normalize
# x_i^' = (x_i - min(x)) / (max(x) - min(x))

# 8bit -> 0~255
min = np.min(input_data)
max = np.max(input_data)
input_data2 = (input_data - min) / (max - min) # [0, 1]
input_data2

array([[0.   , 0.125, 0.25 ],
       [0.375, 0.5  , 0.625],
       [0.75 , 0.875, 1.   ]])

In [13]:
# 주어진 범위 (0, 1)로 스케일링
data_minmax = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit_transform(input_data)
data_minmax

array([[0. , 0. , 0. ],
       [0.5, 0.5, 0.5],
       [1. , 1. , 1. ]])

In [14]:
# 주어진 범위 (0, 3)로 스케일링
data_minmax = preprocessing.MinMaxScaler(feature_range=(0, 3)).fit_transform(input_data)
data_minmax

array([[0. , 0. , 0. ],
       [1.5, 1.5, 1.5],
       [3. , 3. , 3. ]])

In [None]:
# Step 4: 표준화처리

In [16]:
# 정규화 (z = x - u / s)
# 평균 0, 분산 1을 갖도록 스케일 조정
data_standard_ = preprocessing.StandardScaler().fit_transform(input_data) 
data_standard_

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [17]:
# 정규화된 데이터의 평균 계산
data_standard_.mean() # 

2.4671622769447922e-17

In [18]:
# 정규화된 데이터의 표준편차 계산
data_standard_.std()

1.0

In [19]:
# Step 4: 정규화 처리 
# 주어진 norm  (L1)으로 정규화
data_normal_l1 = preprocessing.normalize(input_data, norm='l1')
data_normal_l1


array([[0.16666667, 0.33333333, 0.5       ],
       [0.26666667, 0.33333333, 0.4       ],
       [0.29166667, 0.33333333, 0.375     ]])

In [20]:
# 주어진 norm  (L2)으로 정규화
data_normal_l2 = preprocessing.normalize(input_data, norm='l2')
data_normal_l2

array([[0.26726124, 0.53452248, 0.80178373],
       [0.45584231, 0.56980288, 0.68376346],
       [0.50257071, 0.57436653, 0.64616234]])