In [1]:
# Numpy
# => Numerical Python
# => ndarray(다차원배열)

# Pandas
# => Series(1차원), DataFrame(2차원)
# => DataFrame의 특징, 속성, 생성방법, 함수, indexing, slicing

In [2]:
# DataFrame이 제공하는 분석용 함수
# 기술분석(Descriptive Analysis)
# => 평균, 표준편차, 분산, 공분산, 상관계수, 사분위 ...

In [11]:
import numpy as np
import pandas as pd

data = np.array([[2, np.nan],
                [7, -3],
                [np.nan, np.nan],
                [1, -2]])

print(data)

df = pd.DataFrame(data,
                  columns=['one','two'],
                  index=['a','b','c','d'])
display(df)
print(df.sum())   # 만약 axis를 지정하지 않으면 axis=0 임
                  # dropna=True가 기본값으로 지정되어있다~~
print(df.sum(axis=1))

print(df['two'].sum())

[[ 2. nan]
 [ 7. -3.]
 [nan nan]
 [ 1. -2.]]


Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64
a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64
-5.0


In [None]:
# Pandas는 그래프 도구를 내장하고 있음
# 이 기능들은 matplotlib으로부터 차용
# 그래서 Pandas의 그래프 도구를 사용하는 것 보다는
# => matplotlib을 배워서 사용하는게 좋음!!

In [12]:
# 데이터 전처리 (Data Pre-processing)
import numpy as np
import pandas as pd
import seaborn as sns

In [32]:
# titanic data set loading
df = sns.load_dataset('titanic')
#display(df)   # 891 rows × 15 columns

# 1. 전체 데이터를 가지고 Missing Value가 존재하는지 확인

#print(df.info())
#print(df['deck'].value_counts(dropna=False))  # 688개의 NaN
#df.isnull().sum(axis=0)
'''
missing_df= df.isnull()
for col in missing_df.columns:
    missing_value = missing_df[col].value_counts()
    try:
        print(col, ' :', missin_value[True])
    except:
        print(col, ' :', 0)
'''
'''
# 2. 결측치 삭제
# 삭제할 column을 결정하고 삭제
df2 = df.drop('deck', axis=1, inplace=False)
display(df2.head())

# 또 다른 컬럼 삭제 방법
thresh_df = df.dropna(axis=1, thresh=500, inplace=False)
display(thresh_df.head())
'''
# 행 삭제 방법
result_df = df.dropna(subset=['age'], axis=0, how='any', inplace=False)
print(result_df.shape) # (714, 15)   // 원래 (891, 15) 였음!

(714, 15)


In [12]:
import numpy as np
import pandas as np
import seaborn as sns

# 3. 결치값을 다른 값으로 대체하기
df = sns.load_dataset('titanic')
#display(df.head(10))

# age column의 missing value(결측치)를 다른 값으로 대체
'''
# 3.1) age의 평균값으로 대체
mean_age = df['age'].mean()   # NaN은 제외하고 평균값을 구함
print(mean_age) # 29.699
df['age'].fillna(mean_age, inplace=True)
display(df.head(10))
'''

# 3.2) 최빈값으로 대체
#display(df['embarked'][820:831])

# 3.3) NaN값의 앞, 뒤에 있는 값으로 대체
#     => 데이터 특성상 서로 이웃하고 있는 데이터는 유사성을 가질 확률이 높기 때문임!
#df['embarked'].fillna(method='ffill', inplace=True) # methond='ffil'  => front fill : 앞에 있는 거로 채우겠다.
df['embarked'].fillna(method='bfill', inplace=True) # methond='ffil'  => back fill  : 뒤에 있는 거로 채우겠다.
print(df['embarked'][820:831])

820    S
821    S
822    S
823    S
824    S
825    Q
826    S
827    C
828    Q
829    C
830    C
Name: embarked, dtype: object


In [None]:
# 4. 이상치를 해치워버리기
# 이상치를 해치워 버릴때,
# 1) 어떤 데이터를 이상치로 간주할 것인가?
# ==> 데이터에 대한 전문가가 필요함!
# 2) 이상치를 정상적인 데이터로 치환!
# 요 작업은 나중에 해보겠음~

In [22]:
# 5. 중복처리
# 유의미한 중복인지, 아니면 그냥 중복된 데이터인지 판단 후
# 그냥 중복된 데이터(무의미한 데이터)는 제거!!

import numpy as np
import pandas as pd

df = pd.DataFrame({'c1':['a','a','b','a','b'],
                   'c2':[1,1,1,2,2],
                   'c3':[1,1,2,2,2]})
display(df)
# dupilicated() : 중복을 True/False로 나타내줌
dup_df = df.duplicated()  # Series를 리턴
#print(dup_df)

# duplicated()는 DataFrame에 적용되는데 Series에도 적용할 수 있음
#print(df['c2'].duplicated())

# 중복데이터 제거(모든 컬럼을 다 비교)
#df2 = df.drop_duplicates()
#display(df2)

# 중복데이터 제거(특정 컬럼만 비교)
df2 = df.drop_duplicates(subset=['c2','c3'])
display(df2)

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


In [None]:
# 데이터 타입 변환
# 사용하는 데이터셋은 MPG data set을 이용

# mpg           : 연비(mile per gallon)
# cylinders     : 실린더 개수
# displacement  : 배기량
# horsepower    : 마력(출력)
# weight        : 중량
# acceleration  : 가속능력
# year          : 출시년도
# origin        : 제조국(1: USA, 2: EU, 3: JPN)
# name         : 차량이름

In [34]:
# 데이터 타입 변환
# 사용하는 데이터셋은 MPG data set을 이용
import numpy as np
import pandas as pd

df = pd.read_csv('../data/MPG/auto-mpg.csv', header=None)

df.columns = ['mpg','cylinders','displacement','horsepower',
              'weight','acceleration','year','origin','name']
display(df.head())
print(df.dtypes)

# horsepower 컬럼은 숫자인데 type이 object임
# 떼이잉 내가 실수로 변경해주겠음!
#df['horsepower']=df['hosrsepower'].astype('float')  ## error!
#print(df['horsepower'].unique()) # ????????? 후... 모르겠으면 빈칸하라고!! 왜 문자를 넣어두냐고!!
# => 다른 문자로 표현된 결측치를 NaN으로 변환시키고,
#    dropna() 메로드로 결측치를 해치워 버리자
df['horsepower'].replace('?', np.nan, inplace=True)
#print(df['horsepower'].unique())
df.dropna(subset=['horsepower'], axis=0, inplace=True)
print(df['horsepower'].unique())
df['horsepower']=df['horsepower'].astype('float') 

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
year              int64
origin            int64
name             object
dtype: object
['130.0' '165.0' '150.0' '140.0' '198.0' '220.0' '215.0' '225.0' '190.0'
 '170.0' '160.0' '95.00' '97.00' '85.00' '88.00' '46.00' '87.00' '90.00'
 '113.0' '200.0' '210.0' '193.0' '100.0' '105.0' '175.0' '153.0' '180.0'
 '110.0' '72.00' '86.00' '70.00' '76.00' '65.00' '69.00' '60.00' '80.00'
 '54.00' '208.0' '155.0' '112.0' '92.00' '145.0' '137.0' '158.0' '167.0'
 '94.00' '107.0' '230.0' '49.00' '75.00' '91.00' '122.0' '67.00' '83.00'
 '78.00' '52.00' '61.00' '93.00' '148.0' '129.0' '96.00' '71.00' '98.00'
 '115.0' '53.00' '81.00' '79.00' '120.0' '152.0' '102.0' '108.0' '68.00'
 '58.00' '149.0' '89.00' '63.00' '48.00' '66.00' '139.0' '103.0' '125.0'
 '133.0' '138.0' '135.0' '142.0' '77.00' '62.00' '132.0' '84.00' '64.00'
 '74.00' '116.0' '82.00']


In [40]:
# origin column의 값을 1,2,3 에서 USA, EU, JPN으로 변경
df['origin'].replace({1:'USA',
                      2:'EU',
                      3:'JPN'},
                      inplace=True)
display(df.head())
print(df.dtypes)
df['origin'] = df['origin'].astype('category')
print("="*100)
print(df.dtypes)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,USA,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,USA,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,USA,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,USA,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,USA,ford torino


mpg              float64
cylinders          int64
displacement     float64
horsepower       float64
weight           float64
acceleration     float64
year               int64
origin          category
name              object
dtype: object
mpg              float64
cylinders          int64
displacement     float64
horsepower       float64
weight           float64
acceleration     float64
year               int64
origin          category
name              object
dtype: object


In [48]:
df = pd.read_csv('../data/MPG/auto-mpg.csv', header=None)

df.columns = ['mpg','cylinders','displacement','horsepower',
              'weight','acceleration','year','origin','name']

df['horsepower'].replace('?', np.nan, inplace=True)  # missing value 변환
df.dropna(subset=['horsepower'], axis=0, inplace=True)  # missing value 삭제
df['horsepower']=df['horsepower'].astype('float')    # datatype float형으로 변환
display(df.head())

count, bin_divider = np.histogram(df['horsepower'], bins=3) # bins = 구간개수
print(count, bin_divider)

bin_names = ['저출력', '보통출력', '고출력']
df['hp_bin'] = pd.cut(x=df['horsepower'],
                      bins=bin_divider,
                      labels=bin_names,
                      include_lowest=True)
display(df.head(10))

horsepower_dummy = pd.get_dummies(df['hp_bin']) # => one-hot-encoding : 0과 1로 특성이 있는지 표시!
display(horsepower_dummy)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


[257 103  32] [ 46.         107.33333333 168.66666667 230.        ]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name,hp_bin
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,보통출력
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,보통출력
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,보통출력
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,보통출력
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,보통출력
5,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500,고출력
6,14.0,8,454.0,220.0,4354.0,9.0,70,1,chevrolet impala,고출력
7,14.0,8,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii,고출력
8,14.0,8,455.0,225.0,4425.0,10.0,70,1,pontiac catalina,고출력
9,15.0,8,390.0,190.0,3850.0,8.5,70,1,amc ambassador dpl,고출력


Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
...,...,...,...
393,1,0,0
394,1,0,0
395,1,0,0
396,1,0,0


### Normalization(정규화)
=> DataFrame의 각 열이 가지고 있는 숫자 데이터의 상대적인 차이 때문에 머신러닝 결과가 달라질 수 있음<br>
=> 숫자 데이터의 상대적인 크기 차이를 제거해야 함

1. 표준화(Standardization) : 정규분포의 z-score을 사용
2. Min-Max scaling



In [None]:
df = pd.read_csv('../data/MPG/auto-mpg.csv', header=None)

df.columns = ['mpg','cylinders','displacement','horsepower',
              'weight','acceleration','year','origin','name']

df['horsepower'].replace('?', np.nan, inplace=True)  # missing value 변환
df.dropna(subset=['horsepower'], axis=0, inplace=True)  # missing value 삭제
df['horsepower']=df['horsepower'].astype('float')    # datatype float형으로 변환
display(df.head())

df['horsepower'] = (df['horsepower'] - df['horsepower'].min()) / (df['horsepower'].max() - df['horsepower'].max())