# NYC Taxi Data Corona Correlation
Der erste Schritt ist die Auswahl der Daten, auf denen wir arbeiten müssen. Dafür haben wir im Internet nach aktuellen Daten von NYC Taxi Trips gesucht.
Wir haben monatliche Übersichten über alle Jahre gefunden.
Unser erster Gedanke war die Daten der letzten 2 Jahre zu nutzen. Dann haben wir uns überlegt, dass Corona wohl einen großen Einfluss auf die Daten haben könnte. Daher war unsere erste Analyse der Zusammenhang zwischen Taxifahrten und Coronazahlen. Dieses Notebook soll den Zusammenhang untersuchen und abhängig vom Ergebnis können wir dann unsere Datenbasis auswählen.

In [1]:
import dask.dataframe as dd 
import pandas as pd 
import pyarrow.parquet as pq 
import datetime
from dateutil.relativedelta import *
import time 
import numpy as np 
import matplotlib 
matplotlib.use('nbagg') 
import matplotlib.pylab as plt
import os 
import warnings
warnings.filterwarnings("ignore")

Übersicht über alle Parquet Files
## Dieses Skript macht nur Sinn, wenn alle Parquet Files von Januar 2019 bis 2022 vorhanden sind.
## Ansonsten einfach mit der nächsten weitermachen, dort wird die Übersicht direkt geladen

In [2]:
df_file_summary = pd.DataFrame() 
month = datetime.datetime(2019,1,1)

for filename in os.listdir('../data/raw/parquet/'): 
    if filename.endswith(".parquet"): 
        df_month_data = pq.read_table('../data/raw/parquet/' + os.path.join(filename), columns=[]) 
        size = str(round(os.stat('../data/raw/parquet/' + os.path.join(filename)).st_size / 1024 / 1024, 2)) + ' mb' 
        new_row = { 
            'file_name': [filename], 
            'file_size': [size], 
            'number_of_records': [df_month_data.num_rows],
            'month': [month]
        }
        month = month + relativedelta(months=+1)
        df_file_summary = pd.concat([df_file_summary, pd.DataFrame(data=new_row)]) 
# df_file_summary.to_csv('../data/filesummary.csv', index=False)
print(df_file_summary)

                         file_name  file_size  number_of_records      month
0  yellow_tripdata_2019-01.parquet  105.32 mb            7696617 2019-01-01
0  yellow_tripdata_2019-02.parquet   98.57 mb            7049370 2019-02-01
0  yellow_tripdata_2019-03.parquet  110.64 mb            7866620 2019-03-01
0  yellow_tripdata_2019-04.parquet  105.04 mb            7475949 2019-04-01
0  yellow_tripdata_2019-05.parquet  106.31 mb            7598445 2019-05-01
0  yellow_tripdata_2019-06.parquet   98.14 mb            6971560 2019-06-01
0  yellow_tripdata_2019-07.parquet   89.53 mb            6310419 2019-07-01
0  yellow_tripdata_2019-08.parquet   85.83 mb            6073357 2019-08-01
0  yellow_tripdata_2019-09.parquet   92.61 mb            6567788 2019-09-01
0  yellow_tripdata_2019-10.parquet  101.37 mb            7213891 2019-10-01
0  yellow_tripdata_2019-11.parquet    96.2 mb            6878111 2019-11-01
0  yellow_tripdata_2019-12.parquet   96.36 mb            6896317 2019-12-01


In [3]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

Entwicklung der Anzahl von Taxifahrten in Bezug zu weltweiten Coronafällen.
Dabei ist zu erkennen, dass ab März/April 2020 (als der erste Covid-19 Lockdown ausgerufen wurde) die Anzahl der Taxifahrten stark zurückgingen. Ein weiterer starker Anstieg der Covid-19 Fälle gegen Ende 2021 spiegelt sich ebenfalls in den Taxifahrten wieder, die in diesem Zeitraum einen erheblichen Rückgang zeigen.

Daher wurde für die Analyse ein Datensatz aus dem Jahr 2019 verwendet, um mit einer Datengrundlage zu arbeiten, welche nicht durch Covid-19 beeinflusst wurde. 

In [4]:
df = pd.read_csv('../data/filesummary.csv')
#fig = px.line(df, x='month', y='number_of_records', title='taxi rides')
#fig.show()

# Create figure with secondary y-axis
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
fig.add_trace(
    go.Scatter(x=df['month'], y=df['number_of_records'], name="Taxi Rides"),
    secondary_y=False,
)

covidCases=[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
            11893, 44173, 628777, 1862504, 2751419, 3731229, 5319980, 6234246, 6729720, 10079667, 14421326, 16017542,
            18781210, 15475434, 15864885, 18789697, 13988855, 11452790, 15027112, 18629415, 18410654, 20268036, 29615919,
            63633207, 43603642, 39436263, 25321515]

fig.add_trace(
    go.Scatter(x=df['month'], y=covidCases, name="Covid19 Cases"),
    secondary_y=True,
)

# Add figure title
fig.update_layout(
    title_text="Taxi Rides"
)

# Set x-axis title
fig.update_xaxes(title_text="Month")

# Set y-axes titles
fig.update_yaxes(title_text="<b>primary</b> Taxi Rides", secondary_y=False)
fig.update_yaxes(title_text="<b>secondary</b> Covid19 Cases", secondary_y=True)

fig.show()


FileNotFoundError: [Errno 2] No such file or directory: '../data/filesummary.csv'

Korrelationsmatrix bezüglich Taxifahrten und Coronafällen:
Die Korrelationsmatrix gibt an, inwiefern sich die Anzahl der Taxifahrten und die Anzahl der Covid-19 Fälle sich gegenseitig beeinflussen. Dieser gibt mit einem Wert von -0,4 an, dass eine erhöhte Anzahl an Covid-19 Fällen zu einer geringeren Anzahl an Taxifahrten führt. (Negative Korrelation)

In [None]:
import seaborn as sn
arr1 = df['number_of_records'].tolist()
arr2 = covidCases
arr3 = list(zip(arr1, arr2))

newdf = pd.DataFrame(arr3, columns=['Covid19 Cases', 'Taxi Rides'])
corrMatrix = newdf.corr()
plt.figure(figsize=(10, 3))
sn.heatmap(corrMatrix, annot=True, vmin=-1, vmax=1)
plt.show()