# Imports

In [1]:
import os 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# custom parameters
pd.set_option('display.max_columns', None)

# 데이터셋

| 데이터셋 이름 | 날짜 정보 | 내용 | 파일 명 |
| ---------- | ------- | ----- | ---- |
| 신규가입자 정보 | 월별/일별 | 가입 | 신규가입자정보(월별)_YYMM-MM.csv |
| 고장신고 내역 | 월별 | 고장 | 고장신고내역(일별)_YYMM-MM.csv |
| 대여이력 정보 | 일별 | 대여 | 대여이력정보(일별)_YYMM.csv |

# 데이터셋 2022년 하반기, 2023년 하반기 병합

병합용도 함수 만들기

In [38]:
def merge_files(read_path: str, save_path: str, date_col: str) -> str:
    broken_file_path = read_path
    broken_data_dir = os.listdir(broken_file_path)
    print(f'원래 파일 폴더: {broken_data_dir}\n')

    df22 = pd.DataFrame()
    df23 = pd.DataFrame()
    for file in broken_data_dir:
        print(f'병합 진행중인 파일: {file}\n')
        try:
            # try csv
            df = pd.read_csv(f'{broken_file_path}/{file}', encoding='cp949')
        except:
            # else excel
            df = pd.read_excel(f'{broken_file_path}/{file}')
        # convert to datetime
        df[date_col] = pd.to_datetime(df[date_col])
        
        # if year 2022
        df22_new = df.loc[(df[date_col].dt.month.isin([month for month in range(6, 13)])) & (df[date_col].dt.year == 2022)]
        df22 = pd.concat([df22, df22_new], axis=0)
        df22 = df22.sort_values(by=date_col)
        
        # if year 2023
        df23_new = df.loc[(df[date_col].dt.month.isin([month for month in range(6, 13)])) & (df[date_col].dt.year == 2023)]
        df23 = pd.concat([df23, df23_new], axis=0)
        df23 = df23.sort_values(by=date_col)
    
    # save files
    df22.to_csv(f'{save_path}2207-12.csv', index=False)
    df23.to_csv(f'{save_path}2307-12.csv', index=False)
        
    return f'모든 파일 병합 완료.'

## 고장신고내역 병합

원래 파일 폴더: ['고장신고내역(일별)_2311-12.csv', '고장신고내역(일별)_2207-12.csv', '고장신고내역(일별)_2307-10.csv']

위의 데이터를 다음과 같이 병합:  

2022년 하반기 -> 고장신고내역(일별)_2207-12.csv  
 
2023년 하반기 -> 고장신고내역(일별)_2307-12.csv

In [None]:
read_path = './data/원본/고장'
save_path = './data/원본/고장신고내역(일별)_'
date_col = '등록일시'

merge_files(read_path, save_path, date_col)

## 대여이력정보 병합

원래 파일 폴더: ['대여이력정보(일별)_2310.csv', '대여이력정보(일별)_2311.csv', '대여이력정보(일별)_2312.csv', '대여이력정보(일별)_2207.csv', '대여이력정보(일별)_2212.csv', '대여이력정보(일별)_2210.csv', '대여이력정보(일별)_2211.csv', '\x08대여이력정보(일별)_2307.csv', '대여이력정보(일별)_2208.csv', '대여이력정보(일별)_2209.csv', '대여이력정보(일별)_2308.csv', '대여이력정보(일별)_2309.csv']

위의 데이터를 다음과 같이 병합:

2022년 하반기 -> 대여이력정보(일별)_2207-12.csv

2023년 하반기 -> 대여이력정보(일별)_2307-12.csv

In [None]:
read_path = './data/원본/대여'
save_path = './data/원본/대여이력정보(일별)_'
date_col = '대여일시'

merge_files(read_path, save_path, date_col)

원래 파일 폴더: ['대여이력정보(일별)_2310.csv', '대여이력정보(일별)_2311.csv', '대여이력정보(일별)_2312.csv', '대여이력정보(일별)_2207.csv', '대여이력정보(일별)_2212.csv', '대여이력정보(일별)_2210.csv', '대여이력정보(일별)_2211.csv', '\x08대여이력정보(일별)_2307.csv', '대여이력정보(일별)_2208.csv', '대여이력정보(일별)_2209.csv', '대여이력정보(일별)_2308.csv', '대여이력정보(일별)_2309.csv']

병합 진행중인 파일: 대여이력정보(일별)_2310.csv

병합 진행중인 파일: 대여이력정보(일별)_2311.csv

병합 진행중인 파일: 대여이력정보(일별)_2312.csv

병합 진행중인 파일: 대여이력정보(일별)_2207.csv

병합 진행중인 파일: 대여이력정보(일별)_2212.csv

병합 진행중인 파일: 대여이력정보(일별)_2210.csv

병합 진행중인 파일: 대여이력정보(일별)_2211.csv

병합 진행중인 파일:대여이력정보(일별)_2307.csv

병합 진행중인 파일: 대여이력정보(일별)_2208.csv

병합 진행중인 파일: 대여이력정보(일별)_2209.csv

병합 진행중인 파일: 대여이력정보(일별)_2308.csv

병합 진행중인 파일: 대여이력정보(일별)_2309.csv



'모든 파일 병합 완료.'

## 신규가입정보 병합

위의 데이터를 다음과 같이 병합:

2022년 하반기 -> 신규가입자정보(일별)_2207-12.csv

2023년 하반기 -> 신규가입자정보(일별)_2307-12.csv

In [None]:
read_path = './data/원본/신규'
save_path = './data/원본/신규가입자정보(월별)_'
date_col = ''

merge_files(read_path, save_path, date_col)

Unnamed: 0,자전거번호,등록일시,고장구분
0,SPB-67589,2023-11-01 00:00:50,타이어
1,SPB-55524,2023-11-01 00:03:42,단말기
2,SPB-55524,2023-11-01 00:03:42,기타
3,SPB-34203,2023-11-01 00:04:17,단말기
4,SPB-31667,2023-11-01 00:12:11,타이어
...,...,...,...
67323,SPB-38802,2023-10-31 23:29:55,타이어
67324,SPB-35673,2023-10-31 23:34:17,타이어
67325,SPB-44079,2023-10-31 23:42:26,체인
67326,SPB-67068,2023-10-31 23:44:42,단말기


# 22년 23년 데이터 하나로 병합

In [None]:
# 신규가입자합산 정보
df_newb = pd.read_csv('./data/원본/신규가입자합산값.csv')

# 대여이력 정보
df_rental22 = pd.read_csv('./data/원본/대여이력정보(일별)_2207-12.csv')
df_rental23 = pd.read_csv('./data/원본/대여이력정보(일별)_2307-12.csv')

# 고장신고내역
df_broken22 = pd.read_csv('./data/원본/고장신고내역(일별)_2207-12.csv')
df_broken23 = pd.read_csv('./data/원본/고장신고내역(일별)_2307-12.csv')

# 대여이력 정보 병합
df_rental = pd.concat([df_rental22, df_rental23], axis=0)
# 대여이력 정보 병합
df_broken = pd.concat([df_broken22, df_broken23], axis=0)

In [None]:
# pip3 install pyarrow
# pip3 install fastparquet
df_newb.to_parquet('./data/원본/parquet/신규가입자정보.parquet', engine='pyarrow', index=False)
df_rental.to_parquet('./data/원본/parquet/대여이력정보.parquet', engine='pyarrow', index=False)
df_broken.to_parquet('./data/원본/parquet/고장신고내역.parquet', engine='pyarrow', index=False)

# 파일이 너무 커서 샘플링 및 팀원들에게 배포

In [None]:
df_newb = pd.read_csv('./data/원본/신규가입자합산값.csv')

df_rental22 = pd.read_csv('./data/원본/대여이력정보(일별)_2207-12.csv')
df_rental23 = pd.read_csv('./data/원본/대여이력정보(일별)_2307-12.csv')

df_broken22 = pd.read_csv('./data/원본/고장신고내역(일별)_2207-12.csv')
df_broken23 = pd.read_csv('./data/원본/고장신고내역(일별)_2307-12.csv')

In [None]:
df_rental22 = df_rental22[['자전거번호', '대여일시', '이용시간(분)', '생년', '성별', '대여대여소ID','반납대여소ID']]
df_rental23 = df_rental23[['자전거번호', '대여일시', '이용시간(분)', '생년', '성별', '대여대여소ID','반납대여소ID']]

df_rental22.to_csv('rental22_sample.csv', index=False)
df_rental23.to_csv('rental23_sample.csv', index=False)