### Обработка файлов с данными по годам - объединение в один файл
#### Обработка файлов с поездками
За годы были разные форматы файлов с разной периодичностью, поэтому обработка в разных годах может отличаться.

In [None]:
import os
import pandas as pd

#### 2014
 - Файл за 1-2 кварталы
- Файл за первый месяц третьего квартала
- Файл за последние два месяца третьего квартала
- Файл за 4 квартал

In [None]:
df = pd.read_csv("data/2014/Divvy_Trips_2014_Q1Q2.csv")
df = pd.concat(
    [
        df,
        pd.read_csv("data/2014/Divvy_Trips_2014-Q3-07.csv"),
        pd.read_csv("data/2014/Divvy_Trips_2014-Q3-0809.csv"),
        pd.read_csv("data/2014/Divvy_Trips_2014-Q4.csv"),
    ]
)

In [None]:
df.to_csv("data/2014/Divvy_Trips_2014_full.csv.gz", index=False, compression="gzip")

#### 2015
 - Файлы за 1, 2 и 4 квартал
- Файлы по месяцам за 3 квартал

In [None]:
df = pd.read_csv("data/2015/Divvy_Trips_2015-Q1.csv")
df = pd.concat(
    [
        df,
        pd.read_csv("data/2015/Divvy_Trips_2015-Q2.csv"),
        pd.read_csv("data/2015/Divvy_Trips_2015_07.csv"),
        pd.read_csv("data/2015/Divvy_Trips_2015_08.csv"),
        pd.read_csv("data/2015/Divvy_Trips_2015_09.csv"),
        pd.read_csv("data/2015/Divvy_Trips_2015_Q4.csv"),
    ]
)

In [None]:
df.to_csv("data/2015/Divvy_Trips_2015_full.csv.gz", index=False, compression="gzip")

#### 2016
 - Файлы за 1, 3 и 4 квартал
- Файлы по месяцам за 2 квартал

In [None]:
df = pd.read_csv("data/2016/Divvy_Trips_2016_Q1.csv")
df = pd.concat(
    [
        df,
        pd.read_csv("data/2016/Divvy_Trips_2016_04.csv"),
        pd.read_csv("data/2016/Divvy_Trips_2016_05.csv"),
        pd.read_csv("data/2016/Divvy_Trips_2016_06.csv"),
        pd.read_csv("data/2016/Divvy_Trips_2016_Q3.csv"),
        pd.read_csv("data/2016/Divvy_Trips_2016_Q4.csv"),
    ]
)

In [None]:
df.to_csv("data/2016/Divvy_Trips_2016_full.csv.gz", index=False, compression="gzip")

#### 2017 & 2018 & 2019
 - Только файлы по кварталам

In [None]:
for year in range(2017, 2020):
    df = pd.read_csv(f"data/{year}/Divvy_Trips_{year}_Q1.csv")
    for quartal in range(1, 5):
        df = pd.concat([df, pd.read_csv(f"data/2017/Divvy_Trips_2017_Q{quartal}.csv")])
    df.to_csv(
        f"data/{year}/Divvy_Trips_{year}_full.csv.gz", index=False, compression="gzip"
    )

#### 2020
- 1 Файл за первый квартал
- Много файлов по месяцам в формате 202004

In [None]:
df = pd.read_csv("data/2020/Divvy_Trips_2020_Q1.csv")
for month in range(4, 13):
    df = pd.concat([df, pd.read_csv(f"data/2020/2020{month:02}-divvy-tripdata.csv")])
df.to_csv("data/2020/Divvy_Trips_2020_full.csv.gz", index=False, compression="gzip")

#### 2021, 2022, 2023
- Только файлы по месяцам в формате 202101

In [None]:
for year in range(2021, 2024):
    df = pd.read_csv(f"data/{year}/{year}01-divvy-tripdata.csv")
    for month in range(2, 13):
        # Есть несколько вариантов названия файла
        path1 = f"data/{year}/{year}{month:02}-divvy-tripdata.csv"
        path2 = f"data/{year}/{year}{month:02}-divvy-publictripdata.csv"
        # Проверяем есть ли файл по пути, потому что в 2023 нет всех месяцев
        if os.path.exists(path1):
            df = pd.concat([df, pd.read_csv(path1)])
        elif os.path.exists(path2):
            df = pd.concat([df, pd.read_csv(path2)])
    df.to_csv(
        f"data/{year}/Divvy_Trips_{year}_full.csv.gz", index=False, compression="gzip"
    )

### Обработка файлов со станциями
- Информация о станциях есть только до 2017 года, поэтому обработка только для этих годов.
- В 2013 и 2015 годах уже есть только один файл, поэтому обработка не нужна.

#### 2014
- xlsx файл за 1-2 квартал
- csv файл за 3-4 квартал

In [None]:
df_q1_2 = pd.read_excel(
    "data/2014/Divvy_Stations_2014-Q1Q2.xlsx", parse_dates=["online date"]
)
df_q3_4 = pd.read_csv(
    "data/2014/Divvy_Stations_2014-Q3Q4.csv", parse_dates=["dateCreated"]
)

Оба файла содержат одинаковую информацию, но в файле за 3-4 квартал есть столбец *"date created"*, который отсутствует в первом файле, поэтому объединяем их в один файл не теряя колонки и данных.

In [None]:
df_q1_2 = df_q1_2.drop(columns=["name", "latitude", "longitude", "dpcapacity"])

In [None]:
result = df_q3_4.merge(df_q1_2, on="id", how="left")

In [None]:
# Сохраняем результат со стандартным названием
result.to_csv("data/2014/Divvy_Stations_2014.csv", index=False)


#### 2016
- Файл за 1-2 квартал
- Файл за 3 квартал
- Файл за 4 квартал

In [None]:
df = pd.read_csv("data/2016/Divvy_Stations_2016_Q1Q2.csv")

In [None]:
result = pd.concat(
    [
        df,
        pd.read_csv("data/2016/Divvy_Stations_2016_Q3.csv"),
        pd.read_csv("data/2016/Divvy_Stations_2016_Q4.csv"),
    ]
)

In [None]:
result.to_csv("data/2016/Divvy_Stations_2016.csv", index=False)

#### 2017
- Файл за 1-2 квартал
- Файл за 3-4 квартал

In [None]:
df = pd.read_csv("data/2017/Divvy_Stations_2017_Q1Q2.csv")

In [None]:
result = pd.concat([df, pd.read_csv("data/2017/Divvy_Stations_2017_Q3Q4.csv")])

In [None]:
result.to_csv("data/2017/Divvy_Stations_2017.csv", index=False)