# 데이터 정제 - 자료형 변환(data type conversion) & 데이터 병합(data merging)

In [2]:
# 데이터셋 저장하기
import pandas as pd
import numpy as np

url = 'https://openmv.net/file/travel-times.csv'
df = pd.read_csv(url)
df.to_csv('travel-times.csv', index=False)

In [21]:
# 데이터셋 불러오기
df = pd.read_csv('travel-times.csv')

print(df.head(10))
print(df.dtypes)

         Date StartTime  DayOfWeek GoingTo  Distance  MaxSpeed  AvgSpeed  \
0    1/6/2012     16:37     Friday    Home     51.29     127.4      78.3   
1    1/6/2012     08:20     Friday     GSK     51.63     130.3      81.8   
2    1/4/2012     16:17  Wednesday    Home     51.27     127.4      82.0   
3    1/4/2012     07:53  Wednesday     GSK     49.17     132.3      74.2   
4    1/3/2012     18:57    Tuesday    Home     51.15     136.2      83.4   
5    1/3/2012     07:57    Tuesday     GSK     51.80     135.8      84.5   
6    1/2/2012     17:31     Monday    Home     51.37     123.2      82.9   
7    1/2/2012     07:34     Monday     GSK     49.01     128.3      77.5   
8  12/23/2011     08:01     Friday     GSK     52.91     130.3      80.9   
9  12/22/2011     17:19   Thursday    Home     51.17     122.3      70.6   

   AvgMovingSpeed FuelEconomy  TotalTime  MovingTime Take407All Comments  
0            84.8         NaN       39.3        36.3         No      NaN  
1            

## 1) 자료형 변환(Pandas)
- df.astype(), pd.to_numeric(df, downcast='float'), pd.to_datetime(연월일-시분), pd.to_timedelta(시분초)
- 결측치 변환 및 숫자형 데이터로 변환: FuelEconomy(문자열(object)->숫자형)
- 문자열을 날짜형으로 변환: Date(문자열(object)->날짜/시간형)
- 범주형 데이터로 변환: DayOfWeek(문자열(object)->범주형), Take407All(문자열(object)->범주형 또는 불리언형)
  * 범주형(category) 데이터: 값의 종류가 한정된 문자열 데이터 ex) 월, 화, 수, ..., 일 7가지 범위로 구성

In [22]:
# FuelEconomy 열 숫자형 변환(to_numeric)
df['FuelEconomy'] = pd.to_numeric(df['FuelEconomy'])

ValueError: Unable to parse string "-" at position 6

In [23]:
# '-' 포함하고 있는 행 찾기
print(df[df['FuelEconomy'].str.contains('-', na=False)]) # NaN 값은 False로 처리해서 오류 방지
print(df['FuelEconomy'].unique()[:5]) # 고유값 통해 문제 있는 값 확인

       Date StartTime DayOfWeek GoingTo  Distance  MaxSpeed  AvgSpeed  \
6  1/2/2012     17:31    Monday    Home     51.37     123.2      82.9   
7  1/2/2012     07:34    Monday     GSK     49.01     128.3      77.5   

   AvgMovingSpeed FuelEconomy  TotalTime  MovingTime Take407All Comments  
6            87.3           -       37.2        35.3         No      NaN  
7            85.9           -       37.9        34.3         No      NaN  
[nan '-' '8.89' '9.08' '9.76']


In [24]:
# 숫자형 변환
# df['FuelEconomy'] = df['FuelEconomy'].replace('-', np.nan)
# df['FuelEconomy'] = df['FuelEconomy'].replace('kg', '')
df['FuelEconomy'] = pd.to_numeric(df['FuelEconomy'], errors='coerce') # 숫자로 변환할 수 없는 값은 강제로 NaN(결측치)로 변경!
# cf) errors=raise : 변환 실패 시 예외 발생(기본값)

# 변환 후 앞부분 확인
print(df['FuelEconomy'].head(10))
print('FuelEconomy dtype:', df['FuelEconomy'].dtype)

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
5     NaN
6     NaN
7     NaN
8    8.89
9    8.89
Name: FuelEconomy, dtype: float64
FuelEconomy dtype: float64


In [25]:
# 날짜, 시간 합치기
df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['StartTime'])

print(df.head())
print(df['DateTime'].dtype)

       Date StartTime  DayOfWeek GoingTo  Distance  MaxSpeed  AvgSpeed  \
0  1/6/2012     16:37     Friday    Home     51.29     127.4      78.3   
1  1/6/2012     08:20     Friday     GSK     51.63     130.3      81.8   
2  1/4/2012     16:17  Wednesday    Home     51.27     127.4      82.0   
3  1/4/2012     07:53  Wednesday     GSK     49.17     132.3      74.2   
4  1/3/2012     18:57    Tuesday    Home     51.15     136.2      83.4   

   AvgMovingSpeed  FuelEconomy  TotalTime  MovingTime Take407All Comments  \
0            84.8          NaN       39.3        36.3         No      NaN   
1            88.9          NaN       37.9        34.9         No      NaN   
2            85.8          NaN       37.5        35.9         No      NaN   
3            82.9          NaN       39.8        35.6         No      NaN   
4            88.1          NaN       36.8        34.8         No      NaN   

             DateTime  
0 2012-01-06 16:37:00  
1 2012-01-06 08:20:00  
2 2012-01-04 16:17:0

In [26]:
# 날짜, 시간 분리하기
df['date'] = df['DateTime'].dt.date
df['time'] = df['DateTime'].dt.time

print(df.head())

       Date StartTime  DayOfWeek GoingTo  Distance  MaxSpeed  AvgSpeed  \
0  1/6/2012     16:37     Friday    Home     51.29     127.4      78.3   
1  1/6/2012     08:20     Friday     GSK     51.63     130.3      81.8   
2  1/4/2012     16:17  Wednesday    Home     51.27     127.4      82.0   
3  1/4/2012     07:53  Wednesday     GSK     49.17     132.3      74.2   
4  1/3/2012     18:57    Tuesday    Home     51.15     136.2      83.4   

   AvgMovingSpeed  FuelEconomy  TotalTime  MovingTime Take407All Comments  \
0            84.8          NaN       39.3        36.3         No      NaN   
1            88.9          NaN       37.9        34.9         No      NaN   
2            85.8          NaN       37.5        35.9         No      NaN   
3            82.9          NaN       39.8        35.6         No      NaN   
4            88.1          NaN       36.8        34.8         No      NaN   

             DateTime        date      time  
0 2012-01-06 16:37:00  2012-01-06  16:37:00  


In [27]:
# Date 열을 datetime 날짜형으로 변환
df['Date'] = pd.to_datetime(df['Date'])
print(df['Date'].head())

0   2012-01-06
1   2012-01-06
2   2012-01-04
3   2012-01-04
4   2012-01-03
Name: Date, dtype: datetime64[ns]


In [28]:
# 변환 후 확인 - Year, Month 열을 새로 만들어보기
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month

print(df[['Date', 'Year', 'Month']].head(5))
print('Date dtype:', df['Date'].dtype)
print(df.dtypes)

        Date  Year  Month
0 2012-01-06  2012      1
1 2012-01-06  2012      1
2 2012-01-04  2012      1
3 2012-01-04  2012      1
4 2012-01-03  2012      1
Date dtype: datetime64[ns]
Date              datetime64[ns]
StartTime                 object
DayOfWeek                 object
GoingTo                   object
Distance                 float64
MaxSpeed                 float64
AvgSpeed                 float64
AvgMovingSpeed           float64
FuelEconomy              float64
TotalTime                float64
MovingTime               float64
Take407All                object
Comments                  object
DateTime          datetime64[ns]
date                      object
time                      object
Year                       int32
Month                      int32
dtype: object


In [29]:
# df.set_index('Date') # 날짜 인덱스로 설정

In [30]:
# format 파라미터를 사용한 날짜 형식 지정
# YYYY-MM-DD 형식의 날짜를 가진 예시 데이터
df_example = pd.DataFrame({
    'date_str': ['2025년 4월 1일', '2025년 4월 2일', '2025년 4월 3일']
})

# 기본 방법으로 변환(자동 인식 가능하지만 명시적 지정도 가능)
# %Y: 4자리 연도, %y: 2자리 연도, %m: 2자리 월, %d: 2자리 일, %H: 24시간 기준의 시간, %M: 분, %S: 초
df_example['date'] = pd.to_datetime(df_example['date_str'], format='%Y년 %m월 %d일')

print(df_example)
print(df_example.dtypes)

      date_str       date
0  2025년 4월 1일 2025-04-01
1  2025년 4월 2일 2025-04-02
2  2025년 4월 3일 2025-04-03
date_str            object
date        datetime64[ns]
dtype: object


In [31]:
# DayOfWeek 열을 범주형(category)으로 변환
# df['DayOfWeek'] = df['Date'].dt.dayofweek : 숫자로 표시(0-월, 1-화, ...)
df['DayOfWeek'] = df['DayOfWeek'].astype('category')

# 변환 후 dtype과 카테고리 목록 확인
print('DayOfWeek dtype:', df['DayOfWeek'].dtype)
print('Categories:', df['DayOfWeek'].cat.categories) # 특정 순서(order) 지정하고 싶다면, pd.Categorical 생성자나 CategoricalDtype 사용

DayOfWeek dtype: category
Categories: Index(['Friday', 'Monday', 'Thursday', 'Tuesday', 'Wednesday'], dtype='object')


In [32]:
# 추가 1. StartTime 시간형으로 변환
df['StartTime'] = pd.to_datetime(df['StartTime'], format='%H:%M')

print(df['StartTime'].dtype)

datetime64[ns]


In [33]:
# 추가 2. GoingTo 열 범주형으로 변환
df['GoingTo'] = df['GoingTo'].astype('category')
print(df['GoingTo'].cat.categories)

Index(['GSK', 'Home'], dtype='object')


In [34]:
# 추가 3. Take407All 불리언형으로 변환
df['Take407All'] = df['Take407All'].astype('bool')
print(df['Take407All'].dtype)
print(df.dtypes)
print(df)

bool
Date              datetime64[ns]
StartTime         datetime64[ns]
DayOfWeek               category
GoingTo                 category
Distance                 float64
MaxSpeed                 float64
AvgSpeed                 float64
AvgMovingSpeed           float64
FuelEconomy              float64
TotalTime                float64
MovingTime               float64
Take407All                  bool
Comments                  object
DateTime          datetime64[ns]
date                      object
time                      object
Year                       int32
Month                      int32
dtype: object
          Date           StartTime  DayOfWeek GoingTo  Distance  MaxSpeed  \
0   2012-01-06 1900-01-01 16:37:00     Friday    Home     51.29     127.4   
1   2012-01-06 1900-01-01 08:20:00     Friday     GSK     51.63     130.3   
2   2012-01-04 1900-01-01 16:17:00  Wednesday    Home     51.27     127.4   
3   2012-01-04 1900-01-01 07:53:00  Wednesday     GSK     49.17     132.3   
4 

## 2) 데이터프레임 병합
- 데이터 연결(concatenation): pd.concat(axis=0 위아래(기본 값) or axis=1 옆으로(인덱스 값 기준)) -> 같은 형태의 데이터를 많이 합칠 때 사용(UNION)
  * 기본적으로 합집합 연산, join='inner' 을 추가하면 교집합 연산도 가능!
- 데이터 병합(merge/join): pd.merge(on='열 이름', how='inner'(기본 값)), .merge(), .join() -> 공통 열(키 값) 기준으로 속성 추가, 다른 정보를 가진 데이터를 키로 맞춰 합칠 때 사용(JOIN)
  * how=inner(교집합), how='left'(왼쪽 모든 행 유지, 오른쪽 대응 값 없으면 NaN), how='right'(오른쪽 모든 행 유지, 왼쪽 없으면 NaN), how='outer'(합집합)

#### 딕셔너리 데이터프레임으로 해주려면 리스트로 묶어주기!
| 딕셔너리 구조               | 생성 형태 | 필요한 코드                 |
| --------------------- | ----- | ---------------------- |
| {"A":1,"B":2}         | 행 1개(값 스칼라(숫자 1개)) | `pd.DataFrame([dict])` |
| {"A":[1,2],"B":[3,4]} | 행 2개(값 리스트(데이터 표)) | `pd.DataFrame(dict)`   |


#### “여러 개 붙이면 concat → [ ] 필요, 둘이 키로 조인하면 merge → 그냥 2개 인자”
- pd.concat([df, new_df], ignore_index=True)
  * concat은 여러 개를 한 줄로 붙이는 애, 언제든지 df를 2개든 3개든 10개든 넣을 수 있어야 해서 리스트(또는 튜플 등 iterable) 로 받게 설계, concat은 “N개를 붙이는 함수” → N개를 넘기려면 당연히 [ ] 같은 컨테이너가 필요함
- pd.merge(df, dest_info, on='GoingTo', how='left')
  * merge는 딱 두 개를 조인하는 애, merge는 애초부터 “두 개”를 전제로 설계된 함수

In [35]:
# 새로운 운행 기록한 행(dictionary로 생성)
new_trip = {
    'Date': '1/11/2012',
    'StartTime': '08:10',
    'DayOfWeek': 'Wednesday',
    'GoingTo': 'GSK',
    'Distance': 50.0,
    'MaxSpeed': 126.0,
    'AvgSpeed': 78.0,
    'AvgMovingSpeed': 82.0,
    'FuelEconomy': 7.9,
    'TotalTime': 42.0,
    'MovingTime': 40.0,
    'Take407All': 'No',
    'Comments': ''
}

# 새로운 행을 가진 데이터프레임 생성
new_df = pd.DataFrame([new_trip])
print(new_df)

        Date StartTime  DayOfWeek GoingTo  Distance  MaxSpeed  AvgSpeed  \
0  1/11/2012     08:10  Wednesday     GSK      50.0     126.0      78.0   

   AvgMovingSpeed  FuelEconomy  TotalTime  MovingTime Take407All Comments  
0            82.0          7.9       42.0        40.0         No           


In [36]:
# 기존 df와 new_df를 연결하여 확장된 데이터프레임 만들기
df_extended = pd.concat([df, new_df], ignore_index=True)

# 연결 후 데이터프레임의 마지막 2행 확인
print(df_extended.tail(2))
print('연결 후 행 개수:', len(df_extended))

                    Date            StartTime  DayOfWeek GoingTo  Distance  \
204  2011-07-11 00:00:00  1900-01-01 16:56:00     Monday    Home     51.73   
205            1/11/2012                08:10  Wednesday     GSK     50.00   

     MaxSpeed  AvgSpeed  AvgMovingSpeed  FuelEconomy  TotalTime  MovingTime  \
204     125.0      62.8            92.5          NaN       49.5        33.6   
205     126.0      78.0            82.0          7.9       42.0        40.0   

    Take407All Comments            DateTime        date      time    Year  \
204       True      NaN 2011-07-11 16:56:00  2011-07-11  16:56:00  2011.0   
205         No                          NaT         NaN       NaN     NaN   

     Month  
204    7.0  
205    NaN  
연결 후 행 개수: 206


In [39]:
# 결합할 때는 형 변환 맞춰주고 하기! -> 아니면 기껏 설정해놓은 형 변환이 안 좋은 쪽으로 다시 바뀜!
print(df_extended.dtypes)

Date                      object
StartTime                 object
DayOfWeek                 object
GoingTo                   object
Distance                 float64
MaxSpeed                 float64
AvgSpeed                 float64
AvgMovingSpeed           float64
FuelEconomy              float64
TotalTime                float64
MovingTime               float64
Take407All                object
Comments                  object
DateTime          datetime64[ns]
date                      object
time                      object
Year                     float64
Month                    float64
dtype: object


In [37]:
# 목적지에 대한 추가 정보 데이터프레임
dest_info = pd.DataFrame({
    'GoingTo': ['Home', 'GSK', 'Cafe'],
    'DestinationType': ['Residence', 'Workplace', 'Other'],
    'Code': [1, 2, 3]
})

print(dest_info)

  GoingTo DestinationType  Code
0    Home       Residence     1
1     GSK       Workplace     2
2    Cafe           Other     3


In [38]:
# df와 dest_info를 GoingTo 키로 병합 (left join)
merged_df = pd.merge(df, dest_info, on='GoingTo', how='left')

# 병합 결과 확인 (일부 열만 출력)
print(merged_df[['Date', 'GoingTo', 'Distance', 'DestinationType', 'Code']].head(5))
print('병합 후 열 개수:', merged_df.shape[1])

        Date GoingTo  Distance DestinationType  Code
0 2012-01-06    Home     51.29       Residence     1
1 2012-01-06     GSK     51.63       Workplace     2
2 2012-01-04    Home     51.27       Residence     1
3 2012-01-04     GSK     49.17       Workplace     2
4 2012-01-03    Home     51.15       Residence     1
병합 후 열 개수: 20
