## Physics Toolbox Suite 데이터 수집

- 수집일: 2023-09-28, 2023-09-29
- 수집구간
    * (1구간) 고성 문암리 -> 원통 우체국
    * (2구간) 원통 우체국 -> 양구 성곡재 인근 
    * (3구간) 양구 성곡재 인근 -> 화천터미널
    * (4구간) 화천터미널 -> 47번 국도 합류점 
    * (5구간) 47번 국도 합류점 -> 의정부
    * (6구간) 의정부 -> 춘천 위도 인근
    * (7구간) 춘천 -> 가평 
    * (8구간) 가평 -> 의정부

- 수집결과 확인
> 측정값 
> - (시간) 'time'
> - (중력가속도) 'gFx', 'gFy', 'gFz'
> - (선형가속도) 'ax', 'ay', 'az'
> - (자이로스코프) 'wx', 'wy', 'wz'
> - (기압) 'p'
> - (자력) 'Bx', 'By', 'Bz'
> - (광도) 'I'
> - (방위각) 'Azimuth'
> - (고도) 'Pitch'
> - (횡전) 'Roll'
> - (위도) 'Latitude',
> - (경도) 'Longitude'
> - (속도) 'Speed (m/s)'

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

In [None]:
import os
os.listdir('./data')

In [None]:
# 2023년 9월 28일 수집한 데이터 - 양구 옛길
df1 = pd.read_csv('data/2023-09-2807.21.27.csv')
df2 = pd.read_csv('data/2023-09-2808.37.36.csv')
df3 = pd.read_csv('data/2023-09-2809.43.39.csv')
df4 = pd.read_csv('data/2023-09-2810.47.01.csv')
df5 = pd.read_csv('data/2023-09-2811.48.46.csv')

# 2023년 9월 29일 수집한 데이터 - 성묘길
df6 = pd.read_csv('data/2023-09-2907.36.24.csv')
df7 = pd.read_csv('data/2023-09-2911.38.17.csv')
df8 = pd.read_csv('data/2023-09-2912.38.09.csv')

In [None]:
# 9개의 데이터프레임을 리스트에 저장
dfs = [df1, df2, df3, df4, df5, df6, df7, df8]

# 모든 데이터프레임의 컬럼명 출력
for df in dfs:
    print(df.columns)

In [None]:
df7.tail(10)

In [None]:
df8.head(10)

In [None]:
# 모든 데이터프레임에서 'Unnamed: 21' 컬럼 삭제
for df in dfs:
    df.drop('Unnamed: 21', axis=1, inplace=True)

In [None]:
# 각 데이터프레임에 'course' 컬럼 추가 및 값 할당
for idx, df in enumerate(dfs, start=1):
    course_value = chr(64 + idx)  # 'A'부터 시작하여 각 데이터프레임에 대해 'A', 'B', 'C', ... 값을 할당
    df['course'] = course_value

In [None]:
# 각 데이터 프레임의 course 컬럼 값 확인
for df in dfs:
    print(df['course'].unique())

In [None]:
# 각 데이터프레임의 'time' 컬럼을 시계열 데이터로 변환
dfs1 = [df1, df2, df3, df4, df5] # '2023-09-28' 데이터
dfs2 = [df6, df7, df8]  # '2023-09-29' 데이터

for df in dfs1:
    df['time_ts'] = pd.to_datetime(df['time'], format='%H:%M:%S:%f')
    # 시계열 데이터를 2023-09-28으로 변경
    desired_date = pd.Timestamp('2023-09-28')
    df['time_ts'] = df['time_ts'].apply(lambda x: x.replace(year=desired_date.year, month=desired_date.month, day=desired_date.day))
    
    
for df in dfs2:
    df['time_ts'] = pd.to_datetime(df['time'], format='%H:%M:%S:%f')
    # 시계열 데이터를 2023-09-29으로 변경
    desired_date = pd.Timestamp('2023-09-29')
    df['time_ts'] = df['time_ts'].apply(lambda x: x.replace(year=desired_date.year, month=desired_date.month, day=desired_date.day))

In [None]:
df8.tail(10)

Pandas time 변환 참고 코드 

```python
import pandas as pd

# 예시 데이터프레임 생성
data = {'time': ['1900-01-01 14:14:35.655']}
df = pd.DataFrame(data)

# 'time' 컬럼을 시계열 데이터로 변환
df['time'] = pd.to_datetime(df['time'], format='%Y-%m-%d %H:%M:%S.%f')

# 시계열 데이터를 2023-09-29으로 변경
desired_date = pd.Timestamp('2023-09-29')
df['time'] = df['time'].apply(lambda x: x.replace(year=desired_date.year, month=desired_date.month, day=desired_date.day))

# 결과 확인
print(df)
```

**`참고문헌`**
- https://ellun.tistory.com/320
- https://pandas.pydata.org/docs/user_guide/timeseries.html
- https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html

In [None]:
# 데이터프레임을 하나로 결합
combined_df = pd.concat(dfs1, ignore_index=True)

# 결과 확인
print(combined_df.shape)
print(combined_df.head(6))

In [None]:
# 9월 29일 데이터도 하나의 데이터프레임으로 결합
combined_df2 = pd.concat(dfs2, ignore_index=True)

# 결과 확인
print(combined_df2.shape)
print(combined_df2.head(6))

In [None]:
# 'time_ts' 컬럼을 인덱스로 설정하고 time 컬럼을 drop하기
combined_df.set_index('time_ts', inplace=True)
combined_df.drop('time', axis=1, inplace=True)

combined_df2.set_index('time_ts', inplace=True)
combined_df2.drop('time', axis=1, inplace=True)

In [None]:
# 결과 확인
print(combined_df.head(6))
print("\n", "---" * 20, "\n")
print(combined_df2.head(6))

In [None]:
# 데이터 타입 확인하기
combined_df.info()
combined_df2.info()

## 데이터를 다른 형식으로 저장하기

In [None]:
# 1. parquet 형식으로 저장하기
import pyarrow as pa
import pyarrow.parquet as pq

In [None]:
# 데이터프레임을 Parquet 파일로 저장
table = pa.Table.from_pandas(df)
pq.write_table(table, 'example.parquet')

In [None]:
import pandas as pd
import pickle

# combined_df 데이터프레임을 pickle 파일로 저장
with open('combined_df.pkl', 'wb') as file:
    pickle.dump(combined_df, file)

# combined_df2 데이터프레임을 pickle 파일로 저장
with open('combined_df2.pkl', 'wb') as file:
    pickle.dump(combined_df2, file)

```python
import pickle

# pickle 파일 로드
with open('combined_df2.pkl', 'rb') as file2:
    loaded_df = pickle.load(file2)

# 로드된 데이터프레임 확인
print(loaded_df2)
```

## 데이터 시각화하기

### 1. Auto EDA 툴 활용

In [None]:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport

In [None]:
profile = ProfileReport(combined_df, title="Old Road through YangGu", minimal = True)

In [None]:
profile.to_file("ydata_report_2.html")

속도 변환 needs 확인

In [None]:
combined_df.columns