## 라이브러리 불러오기 및 폰트 설정
- Numpy(Numerical Python)
    - 파이썬에서 과학적 계산을 위한 핵심 라이브러리
    - 다차원 배열 객체(ndarray)와 배열과 함께 작동하는 도구들을 제공
    - 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용
    - Numpy는 편의성 뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠름

In [46]:
#라이브러리 로드
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 

%matplotlib inline

In [47]:
plt.rc("font", family="Malgun Gothic")
#마이너스 폰트 깨지는 문제에 대한 대처          
plt.rc("axes", unicode_minus=False)  

In [48]:
#레티나 설정을 해주면 글씨가 좀 더 선명하게 보입니다.
#폰트의 주변이 흐릿하게 보이는 것을 방지합니다.
%config InlineBackend.figure_format = 'retina'

In [49]:
# 한글폰트 사용을 위해 설치
# 아래 모듈을 설치하고 불러오면 별도의 한글폰트 설정이 필요 없습니다.
!pip install koreanize-matplotlib

import koreanize_matplotlib




[notice] A new release of pip is available: 23.1.2 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


## 데이터 불러오기

In [50]:
df = pd.read_csv("data/dtg_01_1101.csv") #encoding = "cp949"를 통해 한글 폰트를 에러 없이 가져올 수 있음.
df.shape #이렇게 양이 많은 데이터를 엑셀로 분석한다면 매우 느리고 에러가 발생할 수 있기 때문에 판다스가 유용하다. 

(28538, 32)

In [51]:
df.head(3)

Unnamed: 0,단말ID,차대번호,트립시작일,정보발생일,누적주행거리,일일주행거리,차량속도,RPM,브레이크상태,차량위치X,...,운전자코드,메시지생성일자,메시지생성시간,응답코드,데이터길이,수집유형,DTG정보수,차량코드,차량번호,Column1
0,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:48,1045469,0,0,125,1,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
1,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:51,1045469,0,0,275,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
2,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:52,1045469,0,0,665,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,


## 기본 정보 보기

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28538 entries, 0 to 28537
Data columns (total 32 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   단말ID     28538 non-null  int64  
 1   차대번호     28538 non-null  object 
 2   트립시작일    28538 non-null  object 
 3   정보발생일    28538 non-null  object 
 4   누적주행거리   28538 non-null  int64  
 5   일일주행거리   28538 non-null  int64  
 6   차량속도     28538 non-null  int64  
 7   RPM      28538 non-null  int64  
 8   브레이크상태   28538 non-null  int64  
 9   차량위치X    28538 non-null  int64  
 10  차량위치Y    28538 non-null  int64  
 11  기기상태     28538 non-null  int64  
 12  일일연료사용량  28538 non-null  int64  
 13  누적연료사용량  28538 non-null  int64  
 14  배터리전압    28538 non-null  int64  
 15  일련번호     28538 non-null  int64  
 16  방위각      28538 non-null  int64  
 17  가속도X     28538 non-null  int64  
 18  가속도Y     28538 non-null  int64  
 19  메세지코드    28538 non-null  int64  
 20  기기모델     28538 non-null  object 
 21  사업자번호    285

In [53]:
df.columns

Index(['단말ID', '차대번호', '트립시작일', '정보발생일', '누적주행거리', '일일주행거리', '차량속도', 'RPM',
       '브레이크상태', '차량위치X', '차량위치Y', '기기상태', '일일연료사용량', '누적연료사용량', '배터리전압',
       '일련번호', '방위각', '가속도X', '가속도Y', '메세지코드', '기기모델', '사업자번호', '운전자코드',
       '메시지생성일자', '메시지생성시간', '응답코드', '데이터길이', '수집유형', 'DTG정보수', '차량코드', '차량번호',
       'Column1'],
      dtype='object')

In [54]:
df.dtypes

단말ID         int64
차대번호        object
트립시작일       object
정보발생일       object
누적주행거리       int64
일일주행거리       int64
차량속도         int64
RPM          int64
브레이크상태       int64
차량위치X        int64
차량위치Y        int64
기기상태         int64
일일연료사용량      int64
누적연료사용량      int64
배터리전압        int64
일련번호         int64
방위각          int64
가속도X         int64
가속도Y         int64
메세지코드        int64
기기모델        object
사업자번호        int64
운전자코드        int64
메시지생성일자     object
메시지생성시간      int64
응답코드         int64
데이터길이        int64
수집유형        object
DTG정보수       int64
차량코드         int64
차량번호        object
Column1    float64
dtype: object

In [55]:
df["단말ID"].count()

28538

In [56]:
# unique로 중복을 제거한 값을 보고 nunique로 그 개수를 세어본다. 
# ts: trip_start
ts = df["트립시작일"].unique()
ts

array(['2022-11-01 9:12', '2022-11-01 9:33', '2022-11-01 9:44',
       '2022-11-01 10:18', '2022-11-01 12:55', '2022-11-01 15:35',
       '2022-11-01 15:45', '2022-11-01 16:19', '2022-11-01 18:45'],
      dtype=object)

In [57]:
ts[0]

'2022-11-01 9:12'

In [58]:
df["트립시작일"].nunique()

9

In [59]:
df["정보발생일"].unique()

array(['2022-11-01 9:11:48', '2022-11-01 9:11:51', '2022-11-01 9:11:52',
       ..., '2022-11-01 20:21:13', '2022-11-01 20:21:14',
       '2022-11-01 20:21:15'], dtype=object)

In [60]:
df["정보발생일"].nunique()

28536

## 특정 데이터만 모아서 따로 보기

In [61]:
#"트립시작일"이 'ts[0]'에 해당하는 데이터만 가져와서 변수에 담기
#copy()를 해주면 df_ts0 변수에 변화가 생겨도 df 원본은 변하지 않기 때문에 안전하다.
df_ts0 = df[df["트립시작일"] == ts[0]].copy()
df_ts0

Unnamed: 0,단말ID,차대번호,트립시작일,정보발생일,누적주행거리,일일주행거리,차량속도,RPM,브레이크상태,차량위치X,...,운전자코드,메시지생성일자,메시지생성시간,응답코드,데이터길이,수집유형,DTG정보수,차량코드,차량번호,Column1
0,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:48,1045469,0,0,125,1,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
1,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:51,1045469,0,0,275,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
2,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:52,1045469,0,0,665,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
3,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:53,1045469,0,0,722,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
4,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:11:54,1045469,0,0,543,0,0,...,9179345,2022-11-01,91245,0,4924,C,60,15,충남72아3043,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
217,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:15:27,1045469,0,0,500,0,0,...,9179345,2022-11-01,91528,0,3448,C,42,15,충남72아3043,
218,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:15:28,1045469,0,0,499,0,0,...,9179345,2022-11-01,91528,0,3448,C,42,15,충남72아3043,
219,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:15:29,1045469,0,0,499,0,0,...,9179345,2022-11-01,91528,0,3448,C,42,15,충남72아3043,
220,1229496162,KMJKG18KPGC011086,2022-11-01 9:12,2022-11-01 9:15:30,1045469,0,0,499,0,0,...,9179345,2022-11-01,91528,0,3448,C,42,15,충남72아3043,


In [45]:
for i in range(len(ts)):
    df_ts = df[df["트립시작일"] == ts[i]].copy()
    print(df_ts)

           단말ID               차대번호            트립시작일               정보발생일   
0    1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:11:48  \
1    1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:11:51   
2    1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:11:52   
3    1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:11:53   
4    1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:11:54   
..          ...                ...              ...                 ...   
217  1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:15:27   
218  1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:15:28   
219  1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:15:29   
220  1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:15:30   
221  1229496162  KMJKG18KPGC011086  2022-11-01 9:12  2022-11-01 9:15:31   

      누적주행거리  일일주행거리  차량속도  RPM  브레이크상태  차량위치X  ...    운전자코드     메시지생성일자   
0    1045469       0   

             단말ID               차대번호             트립시작일                정보발생일   
22770  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 18:45:06  \
22771  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 18:45:09   
22772  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 18:45:10   
22773  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 18:45:11   
22774  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 18:45:12   
...           ...                ...               ...                  ...   
28533  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 20:21:11   
28534  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 20:21:12   
28535  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 20:21:13   
28536  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 20:21:14   
28537  1229496162  KMJKG18KPGC011086  2022-11-01 18:45  2022-11-01 20:21:15   

        누적주행거리  일일주행거리  차량속도  RPM  브레이크상태  차량위치X  .

In [30]:
len(ts)

9


In [62]:
# 출발일시: 트립시작일
# 도착일시: 정보발생일(마지막 값)
# 운전자명:
# DTG 상태: 
# 운행 시간: 정보발생일(마지막 값)-트립시작일
# 운행 거리: 누적주행거리(마지막 값) - 누적주행거리(첫번째 값)
# 최고 속도: 차량속도(max)
# 평균 속도: 차량속도(average)
# 최고 RPM: max(RPM)
# 평균 RPM: average(RPM)
# 전압정보: 배터리 전압 (min~max)
# 과속시간: 과속의 기준이 뭔가요?
# 누적주행거리: 누적주행거리(마지막 값)

In [64]:
df_ts8 = df[df["트립시작일"] == ts[8]].copy()
df_ts8

Unnamed: 0,단말ID,차대번호,트립시작일,정보발생일,누적주행거리,일일주행거리,차량속도,RPM,브레이크상태,차량위치X,...,운전자코드,메시지생성일자,메시지생성시간,응답코드,데이터길이,수집유형,DTG정보수,차량코드,차량번호,Column1
22770,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 18:45:06,1045835,366,0,0,1,0,...,9179345,2022-11-01,184606,0,4924,C,60,15,충남72아3043,
22771,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 18:45:09,1045835,366,0,202,1,0,...,9179345,2022-11-01,184606,0,4924,C,60,15,충남72아3043,
22772,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 18:45:10,1045835,366,0,414,1,0,...,9179345,2022-11-01,184606,0,4924,C,60,15,충남72아3043,
22773,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 18:45:11,1045835,366,0,840,1,0,...,9179345,2022-11-01,184606,0,4924,C,60,15,충남72아3043,
22774,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 18:45:12,1045835,366,0,648,0,0,...,9179345,2022-11-01,184606,0,4924,C,60,15,충남72아3043,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28533,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 20:21:11,1045946,476,0,509,0,0,...,9179345,2022-11-01,202115,0,660,C,8,15,충남72아3043,
28534,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 20:21:12,1045946,476,0,519,0,0,...,9179345,2022-11-01,202115,0,660,C,8,15,충남72아3043,
28535,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 20:21:13,1045946,476,0,507,0,0,...,9179345,2022-11-01,202115,0,660,C,8,15,충남72아3043,
28536,1229496162,KMJKG18KPGC011086,2022-11-01 18:45,2022-11-01 20:21:14,1045946,476,0,499,0,0,...,9179345,2022-11-01,202115,0,660,C,8,15,충남72아3043,
