[사이트](https://dacon.io/competitions/official/235985/data)

# Dataset Info
    - train.csv [파일]
        - 2022년 8월 이전 데이터만 존재 (단, 날짜가 모두 연속적이지 않음)
        - 4,701,217개의 데이터
        - id : 샘플 별 고유 id
        - 날짜, 시간, 교통 및 도로구간 등 정보
        - target : 도로의 차량 평균 속도(km)
    
    - test.csv [파일]
        - 2022년 8월 데이터만 존재 (단, 날짜가 모두 연속적이지 않음) 291,241개의 데이터
        - id : 샘플 별 고유 id
        - 날짜, 시간, 교통 및 도로구간 등 정보
        
    - sample_submission.csv [제출양식]
        - id : 샘플 별 고유 id
        - target : 도로의 차량 평균 속도(km)

# 데이터 불러오기

In [1]:
import pandas as pd

In [2]:
data_info = pd.read_csv("../data/initial_data/data_info.csv")
train = pd.read_csv("../data/initial_data/train.csv")
test = pd.read_csv("../data/initial_data/test.csv")

In [3]:
data_info

Unnamed: 0,변수명,변수 설명
0,id,아이디
1,base_date,날짜
2,day_of_week,요일
3,base_hour,시간대
4,road_in_use,도로사용여부
5,lane_count,차로수
6,road_rating,도로등급
7,multi_linked,중용구간 여부
8,connect_code,연결로 코드
9,maximum_speed_limit,최고속도제한


In [4]:
train.head(2)

Unnamed: 0,id,base_date,day_of_week,base_hour,lane_count,road_rating,road_name,multi_linked,connect_code,maximum_speed_limit,...,road_type,start_node_name,start_latitude,start_longitude,start_turn_restricted,end_node_name,end_latitude,end_longitude,end_turn_restricted,target
0,TRAIN_0000000,20220623,목,17,1,106,지방도1112호선,0,0,60.0,...,3,제3교래교,33.427747,126.662612,없음,제3교래교,33.427749,126.662335,없음,52.0
1,TRAIN_0000001,20220728,목,21,2,103,일반국도11호선,0,0,60.0,...,0,광양사거리,33.50073,126.529107,있음,KAL사거리,33.504811,126.52624,없음,30.0


In [5]:
test.head(2)

Unnamed: 0,id,base_date,day_of_week,base_hour,lane_count,road_rating,road_name,multi_linked,connect_code,maximum_speed_limit,...,height_restricted,road_type,start_node_name,start_latitude,start_longitude,start_turn_restricted,end_node_name,end_latitude,end_longitude,end_turn_restricted
0,TEST_000000,20220825,목,17,3,107,연삼로,0,0,70.0,...,0.0,0,산지2교,33.499427,126.541298,없음,제주은행사거리,33.500772,126.543837,있음
1,TEST_000001,20220809,화,12,2,103,일반국도12호선,0,0,70.0,...,0.0,3,중문입구,33.258507,126.427003,없음,관광단지입구,33.258119,126.41584,없음


# 데이터 준비

## id

In [6]:
train['id'][:5] # 필요없는 컬럼

0    TRAIN_0000000
1    TRAIN_0000001
2    TRAIN_0000002
3    TRAIN_0000003
4    TRAIN_0000004
Name: id, dtype: object

In [7]:
train = train.drop(columns = 'id')

In [8]:
test = test.drop(columns = 'id')

## base_date

In [9]:
train['base_date'][:3] # 데이터 타입을 날짜로 변경

0    20220623
1    20220728
2    20211010
Name: base_date, dtype: int64

In [10]:
train['base_date']=pd.to_datetime(train['base_date'].astype(str), format='%Y%m%d')

In [11]:
train['base_date'][:3]

0   2022-06-23
1   2022-07-28
2   2021-10-10
Name: base_date, dtype: datetime64[ns]

In [12]:
test['base_date'][:3]

0    20220825
1    20220809
2    20220805
Name: base_date, dtype: int64

In [13]:
test['base_date']=pd.to_datetime(test['base_date'].astype(str), format='%Y%m%d')

In [14]:
test['base_date'][:3]

0   2022-08-25
1   2022-08-09
2   2022-08-05
Name: base_date, dtype: datetime64[ns]

## day_of_week

In [15]:
train['day_of_week'].value_counts()

금    684024
수    675583
목    674070
일    673632
토    669767
화    662498
월    661643
Name: day_of_week, dtype: int64

In [16]:
from sklearn.preprocessing import LabelEncoder

In [17]:
encoder = LabelEncoder()
encoder.fit(train['day_of_week'])
labels = encoder.transform(train['day_of_week'])
print(labels)

[1 1 4 ... 3 2 6]


In [18]:
print(encoder.classes_)

['금' '목' '수' '월' '일' '토' '화']


In [19]:
train['day_of_week'] = labels

In [20]:
train['day_of_week'][:3]

0    1
1    1
2    4
Name: day_of_week, dtype: int32

In [21]:
labels = encoder.transform(test['day_of_week'])
print(labels)

[1 6 0 ... 0 0 0]


In [22]:
test['day_of_week'] = labels

## base_hour
    - 오전, 오후로 나눌 수 있다.

In [23]:
train['base_hour'].head(3)

0    17
1    21
2     7
Name: base_hour, dtype: int64

## lane_count

In [24]:
train['lane_count'].head(3)

0    1
1    2
2    2
Name: lane_count, dtype: int64

## road_rating

In [25]:
train['road_rating'].head(3)

0    106
1    103
2    103
Name: road_rating, dtype: int64

## multi_linked

In [26]:
train['multi_linked'].value_counts()

0    4698978
1       2239
Name: multi_linked, dtype: int64

## connect_code

In [27]:
train['connect_code'].value_counts()

0      4689075
103      12142
Name: connect_code, dtype: int64

## maximum_speed_limit

In [28]:
train['maximum_speed_limit'].head(3)

0    60.0
1    60.0
2    80.0
Name: maximum_speed_limit, dtype: float64

## weight_restricted

In [29]:
train['weight_restricted'].head(3)

0    32400.0
1        0.0
2        0.0
Name: weight_restricted, dtype: float64

## height_restricted

In [30]:
train['height_restricted'].head(3)

0    0.0
1    0.0
2    0.0
Name: height_restricted, dtype: float64

## road_type

In [31]:
train['road_type'].head(3)

0    3
1    0
2    0
Name: road_type, dtype: int64

## start_latitude

In [32]:
train['start_latitude'].head(3)

0    33.427747
1    33.500730
2    33.279145
Name: start_latitude, dtype: float64

## start_longitude

In [33]:
train['start_longitude'].head(3)

0    126.662612
1    126.529107
2    126.368598
Name: start_longitude, dtype: float64

## start_turn_restricted

In [34]:
train['start_turn_restricted'].value_counts()

없음    4239701
있음     461516
Name: start_turn_restricted, dtype: int64

In [35]:
encoder = LabelEncoder()
encoder.fit(train['start_turn_restricted'])
labels = encoder.transform(train['start_turn_restricted'])
print(labels)

[0 1 0 ... 0 0 0]


In [36]:
train['start_turn_restricted'] = labels

In [37]:
labels = encoder.transform(test['start_turn_restricted'])

In [38]:
test['start_turn_restricted'] = labels

## end_latitude

In [39]:
train['end_latitude'].head(3)

0    33.427749
1    33.504811
2    33.280072
Name: end_latitude, dtype: float64

## end_longitude

In [40]:
train['end_longitude'].head(3)

0    126.662335
1    126.526240
2    126.362147
Name: end_longitude, dtype: float64

## end_turn_restricted	

In [41]:
train['end_turn_restricted'].value_counts()

없음    4239599
있음     461618
Name: end_turn_restricted, dtype: int64

In [42]:
encoder = LabelEncoder()
encoder.fit(train['end_turn_restricted'])
labels = encoder.transform(train['end_turn_restricted'])
print(labels)

[0 0 0 ... 0 0 0]


In [43]:
train['end_turn_restricted'] = labels

In [44]:
encoder.fit(test['end_turn_restricted'])
labels = encoder.transform(test['end_turn_restricted'])

In [45]:
test['end_turn_restricted'] = labels

## road_name (미처리)
    - one-hot-encoding

In [46]:
train['road_name'].value_counts()

일반국도12호선    1046092
-            569463
일반국도16호선     554510
일반국도95호선     248181
일반국도11호선     215701
             ...   
애원로            7718
아봉로            7342
남조로            6813
호서중앙로          2819
호근로             587
Name: road_name, Length: 61, dtype: int64

In [47]:
import tqdm
from tqdm import tqdm

In [86]:
train['road_name'] = train['road_name'].apply(lambda x : '지방도' if "지방도" in x else x)

train['road_name'] = train['road_name'].apply(lambda x : '일반국도' if "일반국도" in x else x)

train['road_name'] = train['road_name'].apply(lambda x : '관광단지' if "관광단지" in x else x)

In [92]:
len(train['road_name'].value_counts())

46

In [100]:
len(test['road_name'].value_counts())

일반국도12호선     50140
일반국도16호선     42961
지방도1132호선    20585
일반국도11호선     16145
태평로          15554
-            12600
경찰로          10045
새서귀로         10038
동홍로           9688
번영로           8876
지방도1115호선     8529
연삼로           7395
중문로           7045
일반국도99호선      5587
권학로           5264
시민광장로         4576
시청로           4518
산서로           4277
중정로           4119
서사로           2864
지방도1118호선     2856
중앙로           2853
관광단지로         2817
제2거로교         1480
첨단로           1478
애조로           1477
연북2교          1473
동부관광도로        1473
연동로           1471
연북로           1469
고평교           1468
한천로           1464
신대로           1463
관덕로           1454
지방도1136호선     1454
어시천교          1445
외도천교          1445
삼성로           1435
신산로           1420
삼봉로           1357
관광단지1로        1348
동문로           1330
수영장길          1327
관광단지2로        1319
지방도1117호선     1104
지방도97호선        755
Name: road_name, dtype: int64

In [101]:
test['road_name'] = test['road_name'].apply(lambda x : '지방도' if "지방도" in x else x)

test['road_name'] = test['road_name'].apply(lambda x : '일반국도' if "일반국도" in x else x)

test['road_name'] = test['road_name'].apply(lambda x : '관광단지' if "관광단지" in x else x)

In [103]:
len(test['road_name'].value_counts())

36

## start_node_name (미처리)
    - one-hot-encoding
    - 근데 좀 많네..

In [48]:
train['start_node_name'].value_counts()

고성교차로              42169
산신주유소              29386
미수2교               26635
영주교                24381
봉개교 시종점            24290
                   ...  
외산리사무소               934
와산리                  881
성미가든                 788
서귀포시 호근동 1838-4      744
CU서귀호근로점             744
Name: start_node_name, Length: 487, dtype: int64

## end_node_name (미처리)
    - one-hot-encoding
    - 다른 방법 생각

In [49]:
train['end_node_name'].value_counts()

고성교차로              42265
산신주유소              29202
구엄교                27510
미수2교               26621
영주교                24370
                   ...  
외산리사무소               881
대흘교차로                788
서귀포시 서호동 308-6       744
서귀포시 호근동 1838-4      744
CU서귀호근로점             587
Name: end_node_name, Length: 487, dtype: int64

## vehicle_restricted

In [50]:
train['vehicle_restricted'].value_counts()

0.0    4701217
Name: vehicle_restricted, dtype: int64

In [51]:
test['vehicle_restricted'].value_counts()

0.0    291241
Name: vehicle_restricted, dtype: int64

In [52]:
train = train.drop(columns = 'vehicle_restricted')
test = test.drop(columns = 'vehicle_restricted')

## target
    - 종속변수

In [53]:
train['target'][:3]

0    52.0
1    30.0
2    61.0
Name: target, dtype: float64

# 데이터 저장

In [105]:
train.to_csv("../data/preprocessed_data/train.csv" , index=False)
test.to_csv("../data/preprocessed_data/test.csv" , index=False)