# 데이터 전처리

- 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우됨
- 데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등의 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요
- 수집한 데이터를 분석에 적합하도록 만드는 과정

In [1]:
# GIGO 쓰래기가 들어가면 쓰래기가 나온다
# 전처리는 끝이 없다

1. 누락데이터
2. 중복데이터
의 처리... 이 전처리를 왜 했는가?
- 생각 : 누락데이터가 있으면 무엇이 문제가 되는지 삭제, 대체 등의 방법등...

# 누락 데이터 처리

- 데이터 프레임에는 여러가지 이유로 원소 데이터 값이 누락되는 경우가 종종 잇음
- 데이터를 파일로 입력할 때 빠트리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인

- 일반적으로 누락 데이터 를 NaN(Not a Number) 으로 표시

- 머신러닝 분석 모형에 데이터를 입력하기 전에 누락 데이터 를 제거하거나 다른 적절한 값으로 대체하는 과정잎 필요

- 누락 데이터가 많아지면 데이터의 품질이 덜어지고, 머신러닝 분석 알고리즘을 왜곡하는 현상이 발생

In [2]:
# 머신러닝을 할때 누락데이터가 있으면 안됨 

- 누락 데이터를 찾는 메소드
    - 누락 데이터를 True 로 반환, 유효한 데이터를 False 로 반환
        - isnull()
        - isna()
    
    - 누락 데이터를 Fasle 로 반환
        - notnull()
        - notna()

## 누락 데이터 확인

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

In [2]:
df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
df.dtypes

survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

In [7]:
df.shape

(891, 15)

In [8]:
df.describe

<bound method NDFrame.describe of      survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0           0       3    male  22.0      1      0   7.2500        S   Third   
1           1       1  female  38.0      1      0  71.2833        C   First   
2           1       3  female  26.0      0      0   7.9250        S   Third   
3           1       1  female  35.0      1      0  53.1000        S   First   
4           0       3    male  35.0      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
886         0       2    male  27.0      0      0  13.0000        S  Second   
887         1       1  female  19.0      0      0  30.0000        S   First   
888         0       3  female   NaN      1      2  23.4500        S   Third   
889         1       1    male  26.0      0      0  30.0000        C   First   
890         0       3    male  32.0      0      0   7.7500        Q   Third   

       who  adult

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [11]:
# deck 열의 NaN 개수 계산하기

# dropna = False 옵션을 사용하면 NaN 값을 포함해서 데이터의 개수를 구함
nan_deck = df["deck"].value_counts(dropna = False)

In [12]:
nan_deck

deck
NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: count, dtype: int64

In [22]:
df.head().isnull() # 이게 누락된 값이니? 결측치니? 라고 묻는것

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [23]:
# notnull 메서드로 누락데이터찾기
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [24]:
# isnull() 메서드로누락데이터 개수 구하기

df.isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [27]:
df.isnull().sum() # 각 컬럼별로 누락값을 구할수있다!

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

## 누락 데이터 제거

In [30]:
# 왜 삭제를 하는가? : deck 실질적으로 사용할수있는데이터가 200개 밖에 되지 않아서 소생 불가능이라...
# 기준을 잡아서 삭제하는거임

# Nan 값이 500개 이상인 열을 모두 삭제
df_thresh = df.dropna(axis = 1 ,thresh = 500)

In [31]:
df_thresh.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

In [32]:
# 삭제되었다!!!

In [34]:
# age 열에 나이 데이터가 없는 모든 행을 삭제

df_age = df.dropna(subset = ["age"], axis = 0) # age 를 검사할것이고 행을 삭제할것이다

In [37]:
df.shape[0]

891

In [38]:
df_age.shape[0]

714

In [39]:
# age 가 없는 행들을 모두 삭제한 값의 개수는 714 이다

- dropna()
    - subset 옵션 : 특정 열에 NaN 값이 있는 모든 행
      
    - how = "any" : NaN 값이 하나라도 존재하면 삭제
 
      
    - how = "all" : 모든 데이터가 NaN 값일 경우에만 삭제
        - 기본값은 any

In [63]:
df.dropna(subset=["age","fare"], axis = 0, how = "all") # 기본값은 any

TypeError: Series.dropna() got an unexpected keyword argument 'subset'

## 누락 데이터 치환

- 누락 데이터를 무작정 삭제한다면 데이터가 지나치게 줄어들 수 있음
- 분석 정확도는 데이터의 품질 외에도 제공되는 데이터의 양에 상당한 영향을 받음
- 데이터 주엥 일부누락되어있더라도 나머지 활용해얒죵

In [64]:
# 데이터를 골수까지 뽑아내라

- 누락 데이터를 대체할 값

- 데이터의 분포와 특성을 잘 나타낼 수 있는 값
    - 평균값
    - 최빈값

In [65]:
# 키면 남자키의 평균 여자키의 평균을 낸다 
# 왜? 를 생각해보기
# 최빈값 대체

- fillna() 메소드로 처리
- 특정한 값으로 누락 데이터를 대체
- 새로운 객체를 반환

- 데이터셋에서 서로 이웃하고 있는 데이터끼리는 유사성을 가질 가능성이 높음
- 앞이나 뒤에서 이웃하고 있는 값을 치환하는 경우가 많음
- ffill() : NaN이 있는 행의 직전 행에 있는 값으로 치환
- bfill() : NaN이 있는 행의 직후에 있는 값으로 치환

In [66]:
# 도메인 지식 강조 (주관적 견해)
# 뭔가 이유가 있다... 기존에 사용하던 방식을 채택한다...

In [80]:
df["age"].head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

In [81]:
# age 열의 NaN 값을 다른 나이 데이터의 평균으로 변경하기
mean_age = df["age"].mean() # age 열의 평균계산(NaN 값 제외)
mean_age

np.float64(29.69911764705882)

In [82]:
# NaN 값은 제외하고 평균을 구해줍니다

In [74]:
df["age"] = df["age"].fillna(mean_age)

In [75]:
df["age"].head(6)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
Name: age, dtype: float64

In [72]:
df

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64

In [78]:
# embark_town 열의 누락 데이터 출력
df["embark_town"][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [83]:
# embark_twon 열의 NaN값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기

In [84]:
df["embark_town"].value_counts() # Southampton 가장 많이 탔구나~

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

In [89]:
most_freq = df["embark_town"].value_counts().idxmax() # 가장 많이 나온 친구의 index 를 구한다!!!!

In [90]:
most_freq

'Southampton'

In [95]:
df["embark_town"] = df["embark_town"].fillna(most_freq) # 재할당

In [96]:
df["embark_town"][825:830] # 잘바뀌였는지 확인하면 끝~~~

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object

### 누락 데이터가 NaN 으로 표시가 안되는 경우

- 누락데이터가 NaN 이 아닌 0이나 "-", "?" 같은 값으로 입려되는 경우도 있다

In [100]:
df = sns.load_dataset("titanic") # 타이타닉 데이터 새로 받아오기

In [101]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [103]:
new_df = df["embark_town"][825:835]

In [104]:
new_df

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [105]:
new_df.ffill() # 앞에 있는 값인 Queenstown 으로 치환됨

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [106]:
new_df.bfill() # 뒤에 있는 값인 Cherbourg 으로 치환됨

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829      Cherbourg
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [107]:
new_df

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [108]:
df["embark_town"][825:835] = new_df

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["embark_town"][825:835] = new_df
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["embark_town"][825:835] 

In [109]:
# 없으면 그냥 NaN 이 될 수 있다...!

In [110]:
# 단위변환 이후에 배울것이 있다.

## 중복 데이터 처리

- 데이터 프레임에서 각 행은 분석 대상이 갖고 잇는 모든 속성에 대한 관측값을 뜻함
- 하나의 데이터셋에서 동일한 관측값이 중복되는 경우 분석 결과를 왜곡할 수 있기 때문에 삭제!

## 중복 데이터 확인

- duplicated()
- 행의 레코드가 중복되느느지 여부를 확인
- 전에 나온 행드로가 비교하여 중복되는 행이면 True 를 반환하고, 처음나오는 행은 False 를 반환

- 데이터프레임에 duplicated() 메소드 중복여부를 나타내는 boolean 시리즈 반환

In [5]:
# 중복 데이터를 갖는 뎅이터 프레임 만들기
df = pd.DataFrame({
    "c1": ["a","a","b","a","b"],
    "c2": [1,1,1,2,2],
    "c3": [1,1,2,2,2],
                  })

In [6]:
df.head()

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [7]:
# 데이터프레임 전체 행 데이터 중에서 중복값 찾기
df_dup = df.duplicated()

df_dup.head()

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [8]:
# 데이터프레임의 특정 열 데이터에서 중복값 찾기

col_dup = df.duplicated(subset = ["c2"])
col_dup = df["c2"].duplicated() # 같은 결과!
col_dup

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

## 중복 데이터 제거

- drop_duplicates()
- 중복되는 행을 제거하고 고유한 관측값을 가진 행들만 유지
- subset 옵션에 열 이름의 리스트를 전달 할 수 있음
- 중복 여부를 팝별할 때, subset 옵셔에 해당하는 열을 기준으로 판단

In [9]:
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [10]:
# 데이터 프레임에서 중복 행 제거 
df2 = df.drop_duplicates()

In [11]:
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [14]:
df3 = df.drop_duplicates(subset=["c2","c3"])

In [15]:
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


# 데이터 표준화

- 실무하다가 머리털 뽑게됩니다.

- 실무에서는 접하는 데이터들을 다양한 곳에서 수집되어 여러가지 원인에 의해 다양한 형태로 표현될 수 있음
    - 단위선택
    - 대소문자구분
    - 약칭 활용 등
- 이처럼 동일한 대상을 표현하는 방법에 차이가 있으면 분석의 정확도는 현저하게 낮아짐
- 데이터 형식을 일관성 있게 표준화하는 작업이 필요

## 단위 환산

- 같은 데이터셋 안에서는 측정 단위를 동일하게 맞춰줘야함
- 특히 외국 데이터를 가져오면 구내에서 사용하지 않는 도량형 단위를 사용하는 경우가 많아서 주의가 필요
- 마일 야드 온스 등...

In [198]:
df = pd.read_csv("./data/auto-mpg.csv", header = None, names = ["mpg", "cylinders","displacement","horsepower","weight","acceleration","model_year","origin","name"])

In [128]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


In [129]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model_year        int64
origin            int64
name             object
dtype: object

In [130]:
df.shape

(398, 9)

In [131]:
# mpg(mile per gallon)를 kpl(kilometer per liter)로 변환

mpg_to_kpl = 1.60934 / 3.78541
mpg_to_kpl

0.42514285110463595

In [132]:
df["kpl"] = df["mpg"] * mpg_to_kpl

In [133]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.652571
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.377143
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.652571
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.802286
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.227428


In [134]:
df["kpl"] = df["kpl"].round(2)

In [135]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.8
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.23


## 자료형 변환

- 숫자가 문자열로 저장된 경우에는 숫자형으로 변환해야함

- dtypes 속성을 사용하여 데ㅣ터 프레임을 구성하는 각 열의 자료형을 확인해야함

In [136]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model_year        int64
origin            int64
name             object
kpl             float64
dtype: object

In [137]:
# horeseposer 열의 고유값 확인

In [138]:
df["horsepower"].unique() # 종류가 너무 많다고 한다면 최솟값 최댓값을 찍어봐라

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '?', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [199]:
# 1. "?" 를 결측처리 
df["horsepower"] = df["horsepower"].replace("?", np.nan)

In [184]:
df["horsepower"].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', nan, '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [141]:
# 결측치 몇개있니?
df["horsepower"].isna().sum()

np.int64(6)

In [200]:
# 2. 행제거해버리기
df = df.dropna(subset = ["horsepower"], axis=0 )

In [143]:
df["horesepower"].isna().sum()

KeyError: 'horesepower'

In [201]:
# 3. float 변환
# 문자열을 실수형으로 변환
df["horsepower"] = df["horsepower"].astype(float)

In [193]:
df["horsepower"].dtypes

dtype('float64')

In [146]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.8
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.23


In [147]:
# origin 알아보기 쉽게 바꾸기
df["origin"].unique() # 먼저 1,2,3 으로 구성되어있는지 확인하세용

array([1, 3, 2])

In [148]:
# 청중을 생각하는 발표를 해라!!!!! => 학생이 가장 많이 하는 실수

In [187]:
# 정수형 데이터를 문자형 데이터로 변환
df["origin"] = df["origin"].replace({1:"USA",2:"EU", 3:"JAPAN"})

In [150]:
df["origin"].unique()

array(['USA', 'JAPAN', 'EU'], dtype=object)

In [151]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
model_year        int64
origin           object
name             object
kpl             float64
dtype: object

In [152]:
# origin 에 담긴 숫자의 의미는 딱히 상관 없다. object 로 바뀌어도 뭐... 딱히 상관 없소...

# 범주형 데이터 처리

In [153]:
# 연속형을 범주형으로 변경

## 구간 분할

- 데이터 분석 알고리즘에 따라서는 연속 데이터를 일정한 구간으로 나눠서 분석하는 것이 효율적인 경우가 있음
- 가격, 비용, 효율등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산값으로 나타내어 구간별 차이를 드러냄
- 연속 변수를 일정한 구간으로 나누고 각 구간을 범주형 이산변수로 변하는 과정을 구간분할 이라고 함
- binnning 비닝

In [154]:
# 예시 : 나이에 따른 소득 
# 한살한살이아닌... 20대 초반/후반 , 30대 초반/후반 => 안정적인 데이터 얻을 수 있음

In [155]:
# 스타벅스 이쁘게 국즈 만들기 : 충성고객은 산다! ( 충성고객과 안충성고객을 나누어서 분석한다 )

In [156]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,USA,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,USA,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,USA,plymouth satellite,7.65
3,16.0,8,304.0,150.0,3433.0,12.0,70,USA,amc rebel sst,6.8
4,17.0,8,302.0,140.0,3449.0,10.5,70,USA,ford torino,7.23


In [188]:
# 3개의 bin 으로 나누는 경계값의 리스트 구하기
count , bin_dividers = np.histogram(df["horsepower"], bins = 3)

In [159]:
count

array([257, 103,  32])

In [160]:
bin_drividers

array([ 46.        , 107.33333333, 168.66666667, 230.        ])

In [161]:
# 3개의 bin 에 이름 지정

In [162]:
bin_names = ["저출력","보통출력","고출력"]

In [163]:
# 각 데이터를 3개의 bin 에 할당
df["hp_bin"] = pd.cut(x = df["horsepower"], # 데이터배열
bins = bin_dividers, # 경계값 리스트
labels = bin_names) # bin 이름

In [164]:
df[["horsepower", "hp_bin"]].head()

Unnamed: 0,horsepower,hp_bin
0,130.0,보통출력
1,165.0,보통출력
2,150.0,보통출력
3,150.0,보통출력
4,140.0,보통출력


In [165]:
df["hp_bin"].value_counts()

hp_bin
저출력     255
보통출력    103
고출력      32
Name: count, dtype: int64

##  더미 변수

- 범주형 데이터를 머신러닝 알고리즘에 바로 사용할 수 없는 경우에는 컴퓨터가 인식 가능한 값으로 변환해야함

- 이때 숫자 0 또는 1 로 표현되는 더미 변수 를 사용
    - 0과 1은 수의 크고 작음이 아니라 어떤 특성이 있는지 없는지 여부만을 표시
    - 해당 특성이 존재 1, 존재 않으면 0
      
- 범주형 데이터를 컴퓨터가 인식할 수 있도록 0과 1로만 구성되는 벡터로 변환하는 것을 원핫인코딩 이라고 부름

In [166]:
# 머신러닝은 문자열이 들어가는 경우가 없다!
# 머신러닝 해야지 분석할 수 있겠죵

In [167]:
# 서울, 경기... 등을 숫자로 변경하면 오해의 소지가 있으므로...(숫자는 높낮이가 있으므로)
# ~ 라는 특징을 가진다 1 안가진다 0 이런식으로 표현하면서 숫자로 표현할 수 있느것을 더미 변수 = 원한인코딩 이라고 한다

In [168]:
# hp_bin 이 범주형 변수므로 더미 변수로 변환해 보겠습니다
horsepower_dummies = pd.get_dummies(df["hp_bin"])

In [169]:
horsepower_dummies.head()

Unnamed: 0,저출력,보통출력,고출력
0,False,True,False
1,False,True,False
2,False,True,False
3,False,True,False
4,False,True,False


In [170]:
horsepower_dummies.tail()

Unnamed: 0,저출력,보통출력,고출력
393,True,False,False
394,True,False,False
395,True,False,False
396,True,False,False
397,True,False,False


In [171]:
# 기본적으로는 booltype 으로 출력되나 
# 0 과 1로 변환되게끔하려면
horsepower_dummies = pd.get_dummies(df["hp_bin"] , dtype = int ) 
#  dtype = int 를 설정해 달라

In [172]:
horsepower_dummies.head()

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0


# 정규화

- 각 변수의 상대적 크기 차이 때문에 머신러닝 분석의 결과가 달라질 수 잇음
- 예) 0 ~ 1000 범위의 값을 갖는 변수와 0 ~ 1 범위의 값을 갖는 변수 중 상대적으로 큰 숫자값을 갖는 변수의 영향이 더 커짐

- 숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있음
- 각열에 속하는 데이터 값을 동일한 기준으로 나눈 비율로 나타내는것을 정규화 라고 함
- 일반적으로 데이터 범위는 0 ~ 1  또는 -1 ~ 1 로 정규화
- 가장 간단한 정규화 방법은 데이터를 해당 열의 <b>최댓값</b>으로 나누는 방법

In [191]:
df["horsepower"].describe()

count    392.000000
mean    -125.530612
std       38.491160
min     -184.000000
25%     -155.000000
50%     -136.500000
75%     -104.000000
max        0.000000
Name: horsepower, dtype: float64

In [174]:
# horsepower 를 max 값인 230 으로 나눠보자

df["horsepower"] = df["horsepower"] / df["horsepower"].max()

In [175]:
df["horsepower"].head()

0    0.565217
1    0.717391
2    0.652174
3    0.652174
4    0.608696
Name: horsepower, dtype: float64

In [176]:
# 0 에서 1 사이의 값으로 정규화가 되었다!!!!!!!!!!!!!!!!

In [177]:
df["horsepower"].describe() # 엄밀하게 말하면 0.2 에서 1로 정규화가 된거임....ㅠ

count    392.000000
mean       0.454215
std        0.167353
min        0.200000
25%        0.326087
50%        0.406522
75%        0.547826
max        1.000000
Name: horsepower, dtype: float64

In [178]:
# 정확하게 0 에서 1으로 정해주고 싶으면???

In [179]:
# 수식 (x - x.min()) / (x.max() - x.min()) => min max 스케일링 

In [202]:
df["horsepower"] = (df["horsepower"] - df["horsepower"].min()) / (df["horsepower"].max() - df["horsepower"].min())

In [203]:
df["horsepower"].describe()

count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64

In [204]:
# 0과 1로 아름답게 떨어진다...@

# 시계열 데이터

- 시계열 데이터란 일정 시간 간격으로 배치된 데이터들의 수열을 의미
- 시계열 데이터를 데이터프레임의 행 인덱스로 사용하면 시간으로 기록된 데이터를 분석하는 것이 편리!

## 문자열을 Timestamp 로 변환

- to_datetime()

In [205]:
df = pd.read_csv("./data/stock-data.csv")

In [206]:
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [207]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [208]:
#  Date 가 문자의 나열이라고 되어있음

In [209]:
df["new_date"] = pd.to_datetime(df["Date"])

In [210]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   new_date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [211]:
# new_date 가 datetime64 로 되어있음!!!!!!!!!!! 1!!!

In [212]:
pd.to_datetime(df["Date"])

0    2018-07-02
1    2018-06-29
2    2018-06-28
3    2018-06-27
4    2018-06-26
5    2018-06-25
6    2018-06-22
7    2018-06-21
8    2018-06-20
9    2018-06-19
10   2018-06-18
11   2018-06-15
12   2018-06-14
13   2018-06-12
14   2018-06-11
15   2018-06-08
16   2018-06-07
17   2018-06-05
18   2018-06-04
19   2018-06-01
Name: Date, dtype: datetime64[ns]

In [213]:
pd.to_datetime(df["new_date"])

0    2018-07-02
1    2018-06-29
2    2018-06-28
3    2018-06-27
4    2018-06-26
5    2018-06-25
6    2018-06-22
7    2018-06-21
8    2018-06-20
9    2018-06-19
10   2018-06-18
11   2018-06-15
12   2018-06-14
13   2018-06-12
14   2018-06-11
15   2018-06-08
16   2018-06-07
17   2018-06-05
18   2018-06-04
19   2018-06-01
Name: new_date, dtype: datetime64[ns]

In [217]:
df["new_date"] = pd.to_datetime(df["Date"], format="%Y-%m-%d") # 데이터를 어떤식으로 읽어야할지~

In [220]:
df.dtypes

Date                object
Close                int64
Start                int64
High                 int64
Low                  int64
Volume               int64
new_date    datetime64[ns]
dtype: object

In [221]:
# 시계열 값으로 변환된 여릉ㄹ 새로운 행 인덱스로 지정
df = df.set_index("new_date")

In [222]:
df.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977
2018-06-29,2018-06-29,10700,10550,10900,9990,170253
2018-06-28,2018-06-28,10400,10900,10950,10150,155769
2018-06-27,2018-06-27,10900,10800,11050,10500,133548
2018-06-26,2018-06-26,10800,10900,11000,10700,63039


In [225]:
# 기존 날짜 컬럼 없애기

df.drop("Date", axis=1)

Unnamed: 0_level_0,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039
2018-06-25,11150,11400,11450,11000,55519
2018-06-22,11300,11250,11450,10750,134805
2018-06-21,11200,11350,11750,11200,133002
2018-06-20,11550,11200,11600,10900,308596
2018-06-19,11300,11850,11950,11300,180656


In [226]:
# 특정 날짜 인덱싱
df.loc["2018-07-02"]

Date      2018-07-02
Close          10100
Start          10850
High           10900
Low            10000
Volume        137977
Name: 2018-07-02 00:00:00, dtype: object

In [227]:
# 특정 월 데이터 선택
df.loc["2018-06"]

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-06-29,2018-06-29,10700,10550,10900,9990,170253
2018-06-28,2018-06-28,10400,10900,10950,10150,155769
2018-06-27,2018-06-27,10900,10800,11050,10500,133548
2018-06-26,2018-06-26,10800,10900,11000,10700,63039
2018-06-25,2018-06-25,11150,11400,11450,11000,55519
2018-06-22,2018-06-22,11300,11250,11450,10750,134805
2018-06-21,2018-06-21,11200,11350,11750,11200,133002
2018-06-20,2018-06-20,11550,11200,11600,10900,308596
2018-06-19,2018-06-19,11300,11850,11950,11300,180656
2018-06-18,2018-06-18,12000,13400,13400,12000,309787


In [233]:
# 날짜 범위 이후 슬라이싱
df.loc["2018-06-01":]

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977
2018-06-29,2018-06-29,10700,10550,10900,9990,170253
2018-06-28,2018-06-28,10400,10900,10950,10150,155769
2018-06-27,2018-06-27,10900,10800,11050,10500,133548
2018-06-26,2018-06-26,10800,10900,11000,10700,63039
2018-06-25,2018-06-25,11150,11400,11450,11000,55519
2018-06-22,2018-06-22,11300,11250,11450,10750,134805
2018-06-21,2018-06-21,11200,11350,11750,11200,133002
2018-06-20,2018-06-20,11550,11200,11600,10900,308596
2018-06-19,2018-06-19,11300,11850,11950,11300,180656
