# 예제 5-6 중복 데이터 확인  

In [1]:
import pandas as pd

### 중복 데이터를 갖는 데이터프레임 만들기 

In [2]:
df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


### 데이터프레임 전체 행 데이터 중에서 중복값 찾기 

In [3]:
df_dup = df.duplicated()
df_dup

0    False
1     True
2    False
3    False
4    False
dtype: bool

# 예제 5-7 중복 데이터 제거 

In [1]:
import pandas as pd

### 중복 데이터를 갖는 데이터프레임 만들기 

In [2]:
df = pd.DataFrame({'c1':['a','a','b','a','b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


### 데이터프레임에서 중복 행 제거 

In [4]:
df2 = df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


drop.duplicate() 메소드를 이용하여 중복되는 행을 제거할 수 있다.

### c2, c3열을 기준으로 중복 행 제거 

In [5]:
df3 = df.drop_duplicates(subset=['c2','c3'])
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


subset 옵션에 해당하는 열을 기준으로 판단한다.

c2, c3열을 기준으로 판별하면 0행과 1행, 3행과 4행의 데이터가 각각 중복된다.

0행과 3행은 처음 나타난 데이터라 제외하고, 1행과 4행의 데이터를 삭제한다.

# 예제 5-8 단위 환산 

### read_csv() 함수로 df 생성 

In [6]:
df = pd.read_csv('./auto-mpg.csv', header=None)

### 열 이름 지정 

In [7]:
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
             'weight', 'acceleration', 'model year', 'origin', 'name']
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


### mpg(mile per gallon)을 kpl(killometer to liter)로 변환
(mpg_to_kpl = 0.425)

In [8]:
mpg_to_kpl = 1.60934/3.78541

### mpg 열에 0.425를 곱한 결과를 새로운 열(kpl)에 추가 

In [9]:
df['kpl'] = df['mpg'] * mpg_to_kpl
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.652571
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.377143
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.652571
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.802286
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.227428


### kpl 열을 소수점 아래 둘째자리에서 반올림 

In [10]:
df['kpl'] = df['kpl'].round(2)
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65


# 예제 5-9 자료형 변환 

### 각 열의 자료형 확인 

In [12]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model year        int64
origin            int64
name             object
kpl             float64
dtype: object

horsepower열은 문자열을 뜻하는 object 자료형이다.

엔진 출력의 크기를 나타내는 데이터인 만큼 숫자형으로 변환하는 것이 적절하다.

문자열로 저장된 이유는 고유값을 출력해 보면 알 수 있다.

### horsepower 열의 고유값 확인 

In [14]:
df['horsepower'].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '?', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

고유값 중에 ?가 섞여 있어서 문자열로 인식된 것으로 보인다.

이를 NaN값으로 변환하고 NaN값이 들어있는 행을 삭제한다.

그리고 문자열을 실수형으로 변환한다.

### 누락데이터('?') 삭제 

In [15]:
import numpy as np

In [16]:
df['horsepower'].replace('?', np.nan, inplace=True) # '?'을 np.nan으로 변경

In [17]:
df.dropna(subset=['horsepower'], axis=0, inplace=True) # 누락 데이터 행 삭제

In [22]:
df['horsepower'] = df['horsepower'].astype('float') # 문자열을 실수형으로 변환

### horsepower 열의 자료형 확인 

In [23]:
df['horsepower'].dtypes

dtype('float64')

### origin 열의 고유값 확인 

In [26]:
df['origin'].unique()

array([1, 3, 2], dtype=int64)

origin 열에는 정수형 데이터 1,2,3이 들어 있지만, 실제로는 국가이름인

USA, EU, JPN을 뜻한다. replace()메소드를 이용하여 바꿔주면 object로 바뀐다.

### 정수형 데이터를 문자형 데이터로 변환  

In [27]:
df['origin'].replace({1:'USA', 2:'EU', 3:'JPN'}, inplace=True)

### origin 열의 고유값과 자료형 확인 

In [29]:
df['origin'].unique()

array(['USA', 'JPN', 'EU'], dtype=object)

In [31]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
model year        int64
origin           object
name             object
kpl             float64
dtype: object

origin열의 국가이름은 계속 반복되므로, 범주형 데이터로 표현하는 것이 효율적이다.

### 문자열을 범주형으로 변환 

In [32]:
df['origin'] = df['origin'].astype('category')
df['origin'].dtypes

CategoricalDtype(categories=['EU', 'JPN', 'USA'], ordered=False)

### 범주형을 문자열로 다시 변환 

In [34]:
df['origin'] = df['origin'].astype('str')
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
model year        int64
origin           object
name             object
kpl             float64
dtype: object

### model year 열의 정수형을 범주형으로 변환 

출시연도가 숫자로 기록되어 있고, 자료형은 int64이ㅣ다.

연도는 시간적인 순서의 의미가 있으니 범주형으로 표현하는 것이 적절하다.

In [36]:
df['model year'].sample(3)

286    79
1      70
319    80
Name: model year, dtype: int64

In [37]:
df['model year'] = df['model year'].astype('category')
df['model year'].sample(3)

115    73
125    74
100    73
Name: model year, dtype: category
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82]

### 

### 