# 데이터 (사)전처리

## 누락 데이터(NaN : Not a Number) 처리
### 누락 데이터 확인

In [1]:
import seaborn as sns

In [2]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [5]:
# deck 열의 NaN 개수 확인
nan_deck = df['deck'].value_counts(dropna=False)
nan_deck

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

In [6]:
# 직접적인 방법 - null이 있나? 누락데이터 : True, 유효한 데이터 : False
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [7]:
# 간접적인 방법 - notnull() 누락데이터 : False, 유효한 데이터 : True
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [8]:
# 누락데이터 개수 구하기 
# isnull() : 반환될 때는 값이 참이면 1, 거짓이면 0으로 return
df.head().isnull().sum(axis=0)

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
deck           3
embark_town    0
alive          0
alone          0
dtype: int64

### 누락 데이터 제거

In [None]:
'''
# 열 삭제 : 분석대상이 갖는 특성(변수)를 제거
# 행 삭제 : 분석대상의 관측값(레코드)를 제거
'''

In [9]:
# titanic data 각 열의 NaN 개수 확인
missing_data = df.isnull()
for col in missing_data.columns:
    # 각 열의 NaN 개수 확인
    missing_cnt = missing_data[col].value_counts()
    
    try:
        print(col, ' : ', missing_cnt[True])
    except Exception as e:
        print(col, ' : ', 0)

survived  :  0
pclass  :  0
sex  :  0
age  :  177
sibsp  :  0
parch  :  0
fare  :  0
embarked  :  2
class  :  0
who  :  0
adult_male  :  0
deck  :  688
embark_town  :  2
alive  :  0
alone  :  0


In [10]:
# deck이 너무 많은 누락데이터가 있으므로 열을 삭제하여 분석에서 제외하는 것이 더 의미가 있다고 판단

# NaN 값이 600개 이상인 열을 모두 삭제
df_del = df.dropna(axis=1, thresh=600)
df_del.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

In [11]:
# age 열에 나이 데이터가 없는 모든 행을 삭제
df_age = df.dropna(subset=['age'], how='any', axis=0)
len(df_age)

714

### 누락데이터 치환

In [None]:
'''
# 데이터 분석의 정확도는 데이터의 품질 이외에도 제공되는 데이터의 양에 의해서도 상당한 영향을 받는다
# 데이터 중에서 일부가 누락되었다면 나머지 데이터를 최대한 살려서 데이터 분석에 활용하는 것이 좋은 결과를 얻어내는 경우가 많음
# 치환값(대체값)으로는 데이터의 분포와 특성을 잘 나타낼 수 있는 평균값, 최빈값 등을 활용
'''

In [12]:
df['age'].head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [13]:
# 평균값으로 치환
mean_age = df['age'].mean(axis=0)
# 치환함수 : fillna()
df['age'].fillna(mean_age, inplace=True)

In [14]:
df['age'].head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

In [15]:
# 최빈값 치환
# embark_town (승선도시)
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [17]:
# 승선도시 열에 NaN 값을 승선 도시 중에서 가장 많이 출현한 값으로 치환
most_freq = df['embark_town'].value_counts(dropna=True).idxmax()
most_freq

'Southampton'

In [18]:
df['embark_town'].fillna(most_freq, inplace=True)
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object

In [None]:
# 이전 행 값으로 치환 - 데이터셋의 특성상 서로 이웃하고 있는 데이터끼리는 유사성을 보일 가능성이 높다

In [19]:
import seaborn as sns

df = sns.load_dataset('titanic')

In [20]:
# 승선도시
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [21]:
df['embark_town'].fillna(method='ffill', inplace=True)
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object

In [None]:
'''
# 누락데이터가 NaN으로 표시되지 않는 경우?
# ex) 숫자 0, 문자 '=', '?'
#  : df.replace('?', np.nan, inplace=True) 이런식으로 치환하여 해결하는 방법을 사용
'''

## 중복 데이터 처리

In [None]:
'''
# 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 중복데이터를 찾아서 삭제
# 동일한 대상이 중복되면 분석 결과를 왜곡하기 때문
'''

### 중복 데이터 확인

In [22]:
import pandas as pd

df = pd.DataFrame({'c1' : ['a', 'a', 'b', 'a', 'b'],
                  'c2' : [1, 1, 1, 2, 2],
                  'c3' : [1, 1, 2, 2, 2]
                  })
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [23]:
# 중복 데이터 확인 : duplicated() - 전체 행 데이터 중에서 중복값 찾기
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [24]:
# 특정 열 데이터에서 중복값 찾기
df['c2'].duplicated()

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

### 중복 데이터 제거

In [25]:
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [26]:
# 전체 데이터 프레임에서 중복 행을 제거
df2 = df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [27]:
# 열 기준 중복 행을 제거
df3 = df.drop_duplicates(subset=['c2', 'c3'])
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


## 데이터 표준화

In [None]:
'''
# 일반적으로 데이터 잘 정리된 형태이더라도 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현하는 경우가 대부분
# 이 때 이렇게 동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 현저히 낮아짐
# 그러므로 데이터 포맷을 일관성 있게 표준화 하는 작업이 필요한 (중요)
'''

### 단위 환산

In [28]:
import pandas as pd

df = pd.read_csv('data/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleraion', 'model year', 'origin', 'car name']
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleraion,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    float64
 5   acceleraion   398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


In [30]:
# mpg(mile per gallon) -> kpl(kilometer per liter) : 0.425...
mpg_to_kpl = 0.425

# 새로운 kpl열에 단위환산된 결과를 삽입
df['kpl'] = df['mpg'] * mpg_to_kpl
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleraion,model year,origin,car name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.375
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65


In [31]:
df['kpl'] = df['kpl'].round(1)
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleraion,model year,origin,car name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.6
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.4
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.6


### 자료형 변환

In [32]:
import pandas as pd

df = pd.read_csv('data/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleraion', 'model year', 'origin', 'car name']
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleraion,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


In [33]:
# 각 열의 자료형 확인
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleraion     float64
model year        int64
origin            int64
car name         object
dtype: object

In [34]:
# horsepower - 고유값 확인
df['horsepower'].unique()

# 중간에 데이터 하나가 '?' 이므로 전체가 object

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '?', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [35]:
# '?' 삭제 처리
import numpy as np

In [36]:
df['horsepower'].replace('?', np.nan, inplace=True)
df['horsepower'].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', nan, '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [37]:
# nan 행을 삭제
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [38]:
df['horsepower'].dtypes

dtype('O')

In [39]:
# 형변환 : astype()
df['horsepower'] = df['horsepower'].astype('float')
df['horsepower'].unique()

array([130., 165., 150., 140., 198., 220., 215., 225., 190., 170., 160.,
        95.,  97.,  85.,  88.,  46.,  87.,  90., 113., 200., 210., 193.,
       100., 105., 175., 153., 180., 110.,  72.,  86.,  70.,  76.,  65.,
        69.,  60.,  80.,  54., 208., 155., 112.,  92., 145., 137., 158.,
       167.,  94., 107., 230.,  49.,  75.,  91., 122.,  67.,  83.,  78.,
        52.,  61.,  93., 148., 129.,  96.,  71.,  98., 115.,  53.,  81.,
        79., 120., 152., 102., 108.,  68.,  58., 149.,  89.,  63.,  48.,
        66., 139., 103., 125., 133., 138., 135., 142.,  77.,  62., 132.,
        84.,  64.,  74., 116.,  82.])

In [40]:
df['horsepower'].dtypes

dtype('float64')

In [41]:
# origin (차 생산 지역)
df['origin'].unique()

array([1, 3, 2], dtype=int64)

In [42]:
# 정수형 데이터를 문자형 데이터로 변환
df['origin'].replace({1 : 'USA', 2 : 'EU', 3 : 'ASIA'}, inplace=True)

print(df['origin'].unique())
print('---------------------------')
print(df['origin'].dtypes)

['USA' 'ASIA' 'EU']
---------------------------
object


In [43]:
# 현재 object 형을 범주형으로 변환
df['origin'] = df['origin'].astype('category')
df['origin'].dtypes

CategoricalDtype(categories=['ASIA', 'EU', 'USA'], ordered=False)

In [44]:
# 범주형을 문자형 변환
df['origin'] = df['origin'].astype('str')
df['origin'].dtypes

dtype('O')

## 범주형 (카테고리) 데이터 처리

In [None]:
'''
# 데이터 분석 알고리즘에 따라서는 연속형 데이터를 그대로 사용하기 보다는 일정한 구건(bin)으로 나눠서 분석하는 것이 더 효율적인
  알고리즘이 있음
# 가격, 비용, 효율 등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산적인 값으로 나타내어 구간별 차이를 드러내는 방식으로 구현
  이와 같은 방식으로 구현하는 과정을 구간 분할(binning)
# pd.cut()
'''

### 구간 분할

In [46]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleraion', 'model year', 'origin', 'car name']
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleraion,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


In [47]:
# horsepower
df['horsepower'].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '?', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

In [48]:
df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')
df['horsepower'].unique()

array([130., 165., 150., 140., 198., 220., 215., 225., 190., 170., 160.,
        95.,  97.,  85.,  88.,  46.,  87.,  90., 113., 200., 210., 193.,
       100., 105., 175., 153., 180., 110.,  72.,  86.,  70.,  76.,  65.,
        69.,  60.,  80.,  54., 208., 155., 112.,  92., 145., 137., 158.,
       167.,  94., 107., 230.,  49.,  75.,  91., 122.,  67.,  83.,  78.,
        52.,  61.,  93., 148., 129.,  96.,  71.,  98., 115.,  53.,  81.,
        79., 120., 152., 102., 108.,  68.,  58., 149.,  89.,  63.,  48.,
        66., 139., 103., 125., 133., 138., 135., 142.,  77.,  62., 132.,
        84.,  64.,  74., 116.,  82.])

In [None]:
# 엔진출력을 3구간으로 나누어 표기해보기

In [50]:
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
print(count)
print('---------------------')
print(bin_dividers)

[257 103  32]
---------------------
[ 46.         107.33333333 168.66666667 230.        ]


In [51]:
# 나눠지는 3개의 구간에 따른 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

In [53]:
# pd.cut()을 통해 각 데이터를 위 3개의 bin에 할당
df['horsepower_bin'] = pd.cut(x=df['horsepower'], bins=bin_dividers, labels=bin_names, include_lowest=True)

In [55]:
df[['horsepower', 'horsepower_bin']].head(20)

Unnamed: 0,horsepower,horsepower_bin
0,130.0,보통출력
1,165.0,보통출력
2,150.0,보통출력
3,150.0,보통출력
4,140.0,보통출력
5,198.0,고출력
6,220.0,고출력
7,215.0,고출력
8,225.0,고출력
9,190.0,고출력


In [None]:
'''
# 위 카테고리 데이터는 3개의 카테고리로 나누어졌지만 컴퓨터(머신러닝)가 인식할 수 없는 데이터 형태
# 컴퓨터가 인식할 수 있는 형태로 변경해야 함

# 어떤 특성이 있는지 여부만 표현. 특성이 있으면 1, 없으면 0 => 더미 변수
# 머신러닝 : one-hot encoding
'''

### 더미변수

In [56]:
horsepower_dummies = pd.get_dummies(df['horsepower_bin'])
horsepower_dummies.head(20)

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,0,1


## 정규화

In [None]:
'''
# 각 변수(데이터프레임의 열)에 들어있는 숫자데이터의 상대적 크기 차이는 머신러닝 분석 결과를 달라지게 함
# ex) A 변수는 0 ~ 1000 범위값, B 변수는 0 ~ 10 사이의 범위값이라면 상대적으로 큰 숫자값을 갖는 A 변수의 영향이 더 커지게 됨

# 이런 숫자 데이터의 상대적인 크기 차이를 제거하기 위해 데이터값을 동일한 크기 기준으로 나눈 비율로 나타낸 것
   : 정규화(normalization)
   
# 일반적으로 정규화 과정을 거친 데이터의 범위는 0 ~ 1 또는 -1 ~ 1 사이
'''

### 정규화 방법
### 1) 해당 열의 최대값(의 절대값)으로 나누기

In [57]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleraion', 'model year', 'origin', 'car name']

df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')

In [59]:
# horsepower 최대값 확인
df.horsepower.describe()

count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64

In [60]:
df.horsepower = df.horsepower / df.horsepower.max()
df.horsepower.head()

0    0.565217
1    0.717391
2    0.652174
3    0.652174
4    0.608696
Name: horsepower, dtype: float64

In [61]:
df.horsepower.describe()

count    392.000000
mean       0.454215
std        0.167353
min        0.200000
25%        0.326087
50%        0.406522
75%        0.547826
max        1.000000
Name: horsepower, dtype: float64

### 정규화
### 2) 각 열(변수) 데이터에서 최대값과 최소값을 뺀 값으로 나누는 방법

In [None]:
'''
# 분자 : 각 열의 데이터에서 해당 열의 최소값을 뺀 값
# 분모 : 해당 열의 최대값과 최소값의 차
# 이렇게 계산하면 가장 큰 값이 1이 됨
'''

In [62]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleraion', 'model year', 'origin', 'car name']

df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')

In [63]:
df.horsepower.describe()

count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64

In [64]:
# horsepower 열의 최대값의 절대값으로 모든 데이터를 나눠서 저장
min_x = df.horsepower - df.horsepower.min()
min_max_min = df.horsepower.max() - df.horsepower.min()

df.horsepower = min_x / min_max_min

In [65]:
df.horsepower.head()

0    0.456522
1    0.646739
2    0.565217
3    0.565217
4    0.510870
Name: horsepower, dtype: float64

## 시계열 데이터(time series) - 시간으로 기록된 데이터 분석

In [None]:
'''
# 대부분으 시간 데이터들은 별도의 시간 자료형으로 기록되지 않고 문자열 또는 숫자로 저장되는 경우가 많음
# pd.Timestamp로 변환 가능
'''

### 다른 자료형을 시계열 객체로 변환
### 문자열을 변환

In [67]:
import pandas as pd

df = pd.read_csv('data/stock-data.csv')

df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [69]:
# 판다스 Timestamp로 변환
df['new_date'] = pd.to_datetime(df['Date'])
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [70]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   new_date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [71]:
# 시계열 값으로 변환된 열을 새로운 행 인덱스로 지정
df.set_index('new_date', inplace=True)
df.drop('Date', axis=1, inplace=True)
df.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


In [72]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2018-07-02 to 2018-06-01
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Close   20 non-null     int64
 1   Start   20 non-null     int64
 2   High    20 non-null     int64
 3   Low     20 non-null     int64
 4   Volume  20 non-null     int64
dtypes: int64(5)
memory usage: 960.0 bytes


In [None]:
'''
# Timestamp로 변환한 index는 pandas가 Datetimeindex라는 객체로 자동 저장함을 확인
# 이를 시계열 인덱스라고 하고 시간 순서에 맞춰서 인덱싱, 슬라이싱이 가능
'''

# 시계열 데이터 만들기

Timestamp 객체

In [1]:
import pandas as pd

In [2]:
# date_range() : 여러 개의 날짜가 들어있는 배열형태 시계열 데이터 생성
ts_month = pd.date_range(start='2021-01-01',        # 날짜 범위 시작
                         end=None,
                         periods=6,                 # 생성할 Timestamp 개수
                         freq='MS',                 # 시간 간격 (MS : 월의 시작일)
                         tz='Asia/Seoul'            # 시간대(timezone)
                        )
ts_month

DatetimeIndex(['2021-01-01 00:00:00+09:00', '2021-02-01 00:00:00+09:00',
               '2021-03-01 00:00:00+09:00', '2021-04-01 00:00:00+09:00',
               '2021-05-01 00:00:00+09:00', '2021-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')

In [4]:
# 월 간격, 월의 마지막 날 기준
ts_month_end = pd.date_range('2021-01-01', periods=6,
                            freq='M',           # 'M' : 월의 마지막날
                            tz='Asia/Seoul'
                            )
ts_month_end

DatetimeIndex(['2021-01-31 00:00:00+09:00', '2021-02-28 00:00:00+09:00',
               '2021-03-31 00:00:00+09:00', '2021-04-30 00:00:00+09:00',
               '2021-05-31 00:00:00+09:00', '2021-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M')

In [None]:
# [실습] : 분기(3개월) 간격, 월의 마지막 날 기준, 6개월

In [5]:
ts_three_months = pd.date_range('2019-01-01', periods=6,
                               freq='3M',
                               tz='Asia/Seoul'
                               )
ts_three_months

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-07-31 00:00:00+09:00', '2019-10-31 00:00:00+09:00',
               '2020-01-31 00:00:00+09:00', '2020-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3M')

In [6]:
# period (1개월 길이)

pr_month = pd.period_range(start='2021-01-01',
                          end=None,
                          periods=3,
                          freq='M'
                          )
pr_month

PeriodIndex(['2021-01', '2021-02', '2021-03'], dtype='period[M]', freq='M')

In [7]:
# period (1시간 길이)

pr_hours = pd.period_range(start='2021-01-01',
                          end=None,
                          periods=3,
                          freq='H'           # H : Hours   / ex)2H -> 두시간단위
                          )
pr_hours

PeriodIndex(['2021-01-01 00:00', '2021-01-01 01:00', '2021-01-01 02:00'], dtype='period[H]', freq='H')

시계열 데이터 연습

In [8]:
import pandas as pd

df = pd.read_csv('data/stock-data.csv')

df['new_date'] = pd.to_datetime(df['Date'])

df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [9]:
# dt 속성 - 시각 정보 변수들이 존재
df['year'] = df['new_date'].dt.year
df['month'] = df['new_date'].dt.month
df['day'] = df['new_date'].dt.day

df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date,year,month,day
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02,2018,7,2
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29,2018,6,29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28,2018,6,28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27,2018,6,27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26,2018,6,26


In [10]:
# 원하는 열을 새로운 행 인덱스로 지정
df.set_index('new_date', inplace=True)
df.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,year,month,day
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977,2018,7,2
2018-06-29,2018-06-29,10700,10550,10900,9990,170253,2018,6,29
2018-06-28,2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-27,2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-26,2018-06-26,10800,10900,11000,10700,63039,2018,6,26


In [11]:
df.index

DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='new_date', freq=None)

In [17]:
# 날짜 인덱스로 데이터 선택
df_y = df['2018']
df_y.head()

  df_y = df['2018']


Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,year,month,day
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977,2018,7,2
2018-06-29,2018-06-29,10700,10550,10900,9990,170253,2018,6,29
2018-06-28,2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-27,2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-26,2018-06-26,10800,10900,11000,10700,63039,2018,6,26


In [12]:
df.loc['2018-07']

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,year,month,day
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977,2018,7,2


In [14]:
# 날짜 인덱싱 - 열 범위 슬라이싱
df.loc['2018-07', 'Start':'year']

Unnamed: 0_level_0,Start,High,Low,Volume,year
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10850,10900,10000,137977,2018


In [16]:
# 날짜 인덱스 - 범위 지정
df['2018-06-25':'2018-06-20']

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,year,month,day
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2018-06-25,2018-06-25,11150,11400,11450,11000,55519,2018,6,25
2018-06-22,2018-06-22,11300,11250,11450,10750,134805,2018,6,22
2018-06-21,2018-06-21,11200,11350,11750,11200,133002,2018,6,21
2018-06-20,2018-06-20,11550,11200,11600,10900,308596,2018,6,20


In [18]:
# 시간 간격 계산

# 기준일
criteria = pd.to_datetime('2018-12-02')
df['time_delta'] = criteria - df.index
df.set_index('time_delta', inplace=True)
df.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,year,month,day
time_delta,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
153 days,2018-07-02,10100,10850,10900,10000,137977,2018,7,2
156 days,2018-06-29,10700,10550,10900,9990,170253,2018,6,29
157 days,2018-06-28,10400,10900,10950,10150,155769,2018,6,28
158 days,2018-06-27,10900,10800,11050,10500,133548,2018,6,27
159 days,2018-06-26,10800,10900,11000,10700,63039,2018,6,26


In [None]:
df['150 days':'155 days']