# Proyecto M2
### Jennifer Lilith Espinosa Hernández
## Objetivo
En este proyecto, el alumno aplicará las habilidades obtenidas en el curso para analizar y evaluar el transporte público de la CDMX, basado en datos y estadística básica

### Escenario
Eres un consultor privado y tienes como tarea explorar y analizar el uso del transporte público en la Ciudad de México a través del tiempo para todos sus distintos medios de transporte, así como evaluar posibles impactos que pueda tener el cierre de la línea 1 del metro.


### Librerías

In [2]:
import numpy as np
import pandas as pd
import datetime as dt

### Obtención de Datos

In [4]:
url = "https://datos.cdmx.gob.mx/dataset/da3fcf80-f15f-4478-9795-26eddaa6fe86/resource/5d33f9c7-e033-4676-a02d-9e2129017acf/download/afluencia-preliminar-en-transporte-publico.xlsx-afluencia_diaria.csv"
transporte = pd.read_csv(url, encoding='utf-8')
transporte


Unnamed: 0,id,organismo,linea_servicio,dia,fecha,afluencia_tarjeta,afluencia_boleto,afluencia_total_preliminar
0,1,Ecobici,,Domingo,2020-03-01,,,11238
1,2,Ecobici,,Lunes,2020-03-02,,,29475
2,3,Ecobici,,Martes,2020-03-03,,,31855
3,4,Ecobici,,Miércoles,2020-03-04,,,31477
4,5,Ecobici,,Jueves,2020-03-05,,,31493
...,...,...,...,...,...,...,...,...
18709,18710,Suburbano,L1,Lunes,2021-06-28,,,
18710,18711,Suburbano,L1,Martes,2021-06-29,,,
18711,18712,Suburbano,L1,Miércoles,2021-06-30,,,
18712,18713,Suburbano,L1,Jueves,2021-07-01,,,


### Análisis Exploratorio

In [5]:
transporte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18714 entries, 0 to 18713
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   id                          18714 non-null  int64 
 1   organismo                   18714 non-null  object
 2   linea_servicio              18225 non-null  object
 3   dia                         18714 non-null  object
 4   fecha                       18714 non-null  object
 5   afluencia_tarjeta           2687 non-null   object
 6   afluencia_boleto            3598 non-null   object
 7   afluencia_total_preliminar  18512 non-null  object
dtypes: int64(1), object(7)
memory usage: 1.1+ MB


Vemos que en  algunos casos se necesita tipo numérico o “date”, pero todos excepto la columna id son tipo object. Por ejemplo en la columna "fecha" tenemos tipo object pero debería ser de tipo date. Las columnas "afluencia_boleto", "afluencia_tarjeta" y "afluencia_total_preliminar" tambien son tipo object y estaría mejor que fueran algún tipo de dato numérico


In [6]:
# Dado ue todas las columnas son de tipo object prosigo a convertir la columna "dia" a tipo fecha y las columnas de afluencia
# en tipo float
transporte["fecha"] = pd.to_datetime(transporte["fecha"])
transporte[["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"]] = transporte[["afluencia_tarjeta","afluencia_boleto", "afluencia_total_preliminar"]].apply(lambda x: x.str.replace(",", ""))
transporte[["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"]] = transporte[["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"]].astype(float)

In [7]:
transporte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18714 entries, 0 to 18713
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   id                          18714 non-null  int64         
 1   organismo                   18714 non-null  object        
 2   linea_servicio              18225 non-null  object        
 3   dia                         18714 non-null  object        
 4   fecha                       18714 non-null  datetime64[ns]
 5   afluencia_tarjeta           2687 non-null   float64       
 6   afluencia_boleto            3598 non-null   float64       
 7   afluencia_total_preliminar  18512 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(1), object(3)
memory usage: 1.1+ MB


Procedemos a ver que tantos valores nulos tenemos

In [8]:
transporte.isnull().sum().sort_values(ascending=False)

afluencia_tarjeta             16027
afluencia_boleto              15116
linea_servicio                  489
afluencia_total_preliminar      202
fecha                             0
dia                               0
organismo                         0
id                                0
dtype: int64

La columna con más datos nulos es "afluencia_tarjeta" y las columnas sin datos nulos son "fecha", "dia", "organismo" y "id".

Ahora veamos los diferentes tipos de transporte público de la CDMX

In [9]:
transporte["organismo"].unique()

array(['Ecobici', 'Metrobús', 'RTP', 'STC', 'STE-Cablebús',
       'STE-Tren Ligero', 'STE-Trolebús', 'Suburbano'], dtype=object)

**¿Cuál es el organismo más utilizado?**


In [10]:
transporte.groupby("organismo")["afluencia_total_preliminar"].sum().sort_values(ascending = False)

organismo
STC                1.022922e+09
Metrobús           3.019027e+08
RTP                9.093083e+07
STE-Trolebús       4.424603e+07
Suburbano          3.260932e+07
STE-Tren Ligero    1.230674e+07
Ecobici            4.672818e+06
STE-Cablebús       3.850480e+05
Name: afluencia_total_preliminar, dtype: float64

El organismo más utilizado es el STC (Sistema de Transporte Colectivo)

**¿Cuál es la línea de servicio más utilizada?**

In [11]:
transporte.groupby(["organismo", "linea_servicio"])["afluencia_total_preliminar"].sum().sort_values(ascending = False).head(2)

organismo  linea_servicio
STC        L1                156984799.0
           L2                139362943.0
Name: afluencia_total_preliminar, dtype: float64

La línea más utilizada es la línea L1 del STC   

**¿Qué día de la semana tiene más uso de transporte público? ¿Por cuánto?**

Noté que si agrupaba por día hay Miércoles y Míercoles, entonces primero modifico los datos con día Míercoles y ahora sí puedo responder la pregunta.

In [12]:
transporte["dia"].unique()

array(['Domingo', 'Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes',
       'Sábado', 'Míercoles'], dtype=object)

In [13]:
# Unifico los datos que tengan "Miércoles" y "Míercoles" en uno solo
transporte.loc[transporte["dia"] ==  "Míercoles", "dia"] = "Miércoles"

# Ver qué dia tuvo más afluencia
transporte.groupby("dia")["afluencia_total_preliminar"].sum().sort_values(ascending = False)

dia
Miércoles    240544976.0
Martes       239477843.0
Jueves       238240944.0
Viernes      237182340.0
Lunes        228317986.0
Sábado       197344970.0
Domingo      128866694.0
Name: afluencia_total_preliminar, dtype: float64

In [14]:
transporte.groupby("dia")["afluencia_total_preliminar"].sum().sort_values(ascending = False)[0] - transporte.groupby("dia")["afluencia_total_preliminar"].sum().sort_values(ascending = False)[1]

1067133.0

Miércoles es el día con más afluencia ganándole al Martes por 1067133

Aunque si nos fijamos en el promedio de la columna "afluencia_total_preliminar" por día, nos da que despues del Miércoles le sigue el Viernes

In [15]:
transporte.groupby("dia")["afluencia_total_preliminar"].mean().sort_values(ascending=False)

dia
Miércoles    90464.451297
Viernes      90320.769231
Jueves       89936.181200
Martes       89792.967004
Lunes        85672.790244
Sábado       75466.527725
Domingo      48980.119346
Name: afluencia_total_preliminar, dtype: float64

### Visualizaciones

Primero Creamos un dataframe que muestre el porcentaje de datos nulos por columna

In [30]:
valores_nulos = transporte.isnull().sum()
valores_nulos = pd.DataFrame(((valores_nulos * 100)/ transporte.shape[0]) , columns = ["porcentaje_valores_nulos"])
valores_nulos = valores_nulos.reset_index().rename(columns={"index": "columnas"})
valores_nulos

Unnamed: 0,columnas,porcentaje_valores_nulos
0,id,0.0
1,organismo,0.0
2,linea_servicio,2.613017
3,dia,0.0
4,fecha,0.0
5,afluencia_tarjeta,85.641766
6,afluencia_boleto,80.773752
7,afluencia_total_preliminar,1.079406


**Creamos una gráfica de barras visualizando el porcentaje de datos nulos utilizando la librería plotly.**

In [52]:
import plotly.express as px
import plotly.io as pio
import plotly
from plotly.subplots import make_subplots
import plotly.graph_objects as go


In [56]:
pio.templates.default = "plotly_white"
fig = px.bar(valores_nulos, x = "columnas", y = "porcentaje_valores_nulos",  color = "columnas", color_discrete_sequence=px.colors.qualitative.Antique, opacity=0.8)
fig.update_layout(title = "Porcentaje de datos nulos en cada columna", showlegend=False, width = 700, height = 500, title_x=0.5)
fig.update_xaxes(showline=True, linewidth=2, linecolor='gray')#, mirror=True)
fig.update_yaxes(showline=True, linewidth=2, linecolor='gray',  gridwidth=1, gridcolor='LightGray')#, mirror=True)
fig.show()

Creamos una función que, dado un organismo, grafique la distribución de valores nulos cuando se tiene ése organismo, y pegamos la distribución de valores nulos para las demás columnas para el caso de Ecobici.


In [68]:
def dist_valores_nulos_columna(medio_trans):
    # Registros nulos por columna en un tipo de transporte especifico, en este caso, organismo = "medio_trans"
    nulos = transporte[transporte["organismo"] == medio_trans].isnull().sum()
    nulos = nulos.drop(labels = ["organismo"])
    
    # Totales de registros con organismo = "medio_trans"
    total = transporte[transporte["organismo"] == medio_trans].shape[0]
    
    #Porcentaje de registros nulos en cada columna asociados al organismo = "medio_trans"
    percentage =pd.DataFrame((nulos * 100)/total, columns = ["porcentaje"]).reset_index().sort_values(by = "porcentaje", ascending = False)
    
    #Ahora hacemos la gráfica
    fig = px.bar(percentage, x= "index", y = "porcentaje", labels ={"index": "Columnas", "porcentaje": "Porcentaje"}, color = "index", color_discrete_sequence=px.colors.qualitative.Antique, opacity = 0.8)
    fig.update_layout(title = f"Porcentaje de valores nulos por columna en {medio_trans}", title_x=0.5, width = 800, height = 500, showlegend=False) 
    fig.update_xaxes(showline=True, linewidth=2, linecolor='gray') #mirror=True)
    fig.update_yaxes(showline=True, linewidth=2, linecolor='gray',  gridwidth=1, gridcolor='LightGray')#, mirror=True)

    return fig

dist_valores_nulos_columna("Ecobici")

Hay varios valores nulos en nuestra tabla, esto puede deberse a que en algunos medios de transporte no se necesite boleto para ingresar como en el Metrobús.

Depende del análisis y del tipo de dato se puede o no quitar los registros que contengan datos nulos. Si hay datos nulos que no se les puede dar una justificación también sería bueno quitarlos. Pero en algunos casos quitar esos datos no sería conveniente, por ejemplo, si tenemos una columna en el dataframe que sea la suma de algo y lo tenemos como nulo tal vez sería mejor reemplazarlo con un cero. Considerando la columna de boletos no sería conveniente eliminarlos puesto que en algunos medios de transporte el boleto no es necesario.



Construimos ahora una función que nos grafiquea la distribución de los organismos, dada una columna es nula, por ejemplo, la columna de linea_servivio tiene 100% de valores nulos para el organismo de Ecobici. Esto se debe a que este organismo no está dividido en líneas como el STC o el Metrobús.


In [None]:
def datos_nulos_por_org(columna):
    # Array con todos los tipos de transporte
    medios = transporte.organismo.unique()
    
    # Registros con valores nulos en columna
    total_nulos = transporte[columna].isnull().sum()
    valores_nulos = {medio: [(transporte.loc[transporte["organismo"] == medio, columna].isnull().sum()* 100)/total_nulos] for medio in medios}
    valores_nulos = pd.DataFrame.from_dict(valores_nulos, orient='index').reset_index()
    valores_nulos = valores_nulos.rename(columns ={0:"porcentaje"}).sort_values(by = "porcentaje", ascending = False) 

#     Grafica
    fig = px.bar(valores_nulos, x = "index" ,y = "porcentaje", labels = {"index": "Organismo", "value":"Porcentaje"}, color = "index", color_discrete_sequence=px.colors.qualitative.Antique, opacity = 0.8) 
    fig.update_layout(title = f"Distribución de valores nulos de la columna {columna} a través de los diferentes organismos",title_x=0.5,showlegend=False, width = 850, height = 500)
    fig.update_xaxes(showline=True, linewidth=2, linecolor='gray')#, mirror=True)
    fig.update_yaxes(showline=True, linewidth=2, linecolor='gray', gridwidth=1, gridcolor='LightGray')#, mirror=True)

    return fig
datos_nulos_por_org("linea_servicio")

In [None]:
datos_nulos_por_org("afluencia_tarjeta")


Los promedios de cada una se concentra más en los valores bajos, es decir, el promedio está más hacia la izquierda. Podemos ver en las gráficas como del lado derecho hay una "cola".


Primero sacamos el promedio de las columnas afluencia_tarjeta, afluencia_boleto y afluencia_total_preliminar

In [1]:

transporte.describe().iloc[[1], [1,2,3]]


NameError: name 'transporte' is not defined

En la siguiente gráfica podemos ver la distribución de las tres columnas. Podemos notar que en los tres casos, el promedio se encuentra más hacia la izquierda.

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(rows=3, cols=1)
fig.append_trace(go.Histogram(x= transporte["afluencia_tarjeta"], name = "afluencia_tarjeta", nbinsx = 40), row = 1, col = 1)
fig.add_vline(x=transporte["afluencia_tarjeta"].mean(), line_width=3, annotation_text=f"promedio de afluencia_tarjeta", annotation_position="top right", row = 1, col = 1)
fig.update_layout(xaxis1 = dict( tickmode = 'linear',tick0 = 0,dtick = 500))

fig.append_trace(go.Histogram(x= transporte["afluencia_boleto"], name = "afluencia_boleto" , nbinsx = 40), row = 2, col = 1)
fig.add_vline(x=transporte["afluencia_boleto"].mean(), line_width=3, annotation_text="promedio de afluencia_boleto", annotation_position="top right", row = 2, col = 1)
fig.update_layout(xaxis2 = dict( tickmode = 'linear',tick0 = 0,dtick = 15000))

fig.append_trace(go.Histogram(x= transporte["afluencia_total_preliminar"], name = "afluencia_total_preliminar", nbinsx = 40), row = 3, col = 1)
fig.add_vline(x=transporte["afluencia_total_preliminar"].mean(), line_width=3, annotation_text="promedio de afluencia_total_preliminar", annotation_position="top right", row = 3, col = 1)
fig.update_layout(xaxis3 = dict( tickmode = 'linear',tick0 = 0,dtick = 50000))

fig.update_layout(title = "Distribución de las columnas afluencia_boleto, afluencia_tarjeta y afluencia_total_preliminar")
fig.show()

Ahora, para poder ver como se comportan cada una de las gráficas cuando el valor del eje x va aumentando, hacemos lo siguiente

In [None]:
for columna in ["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"]:
    fig = px.histogram(transporte, x = columna, nbins=40, log_y=True, opacity = 0.45, width = 600, height = 300, color_discrete_sequence= px.colors.qualitative.Antique)
    fig.add_vline(x=transporte[columna].mean(), line_width=3, line_color="rgb(115, 111, 76)", annotation_text=f"promedio de {columna}", annotation_position="top right")
    if columna == "afluencia_boleto":
        fig.update_layout(xaxis = dict( tickmode = 'linear',tick0 = 0,dtick = 10000))
    elif columna == "afluencia_total_preliminar":
        fig.update_layout(xaxis = dict( tickmode = 'linear',tick0 = 0,dtick = 50000))
    else:
        fig.update_layout(xaxis = dict( tickmode = 'linear',tick0 = 0,dtick = 1000))
    fig.show()
    

Ahora ponemos las tres distribuciones en una sola gráfica.

In [None]:
fig = px.histogram(transporte, x=["afluencia_tarjeta","afluencia_boleto", "afluencia_total_preliminar"], nbins=40)
fig.update_layout(title = "Distribución de las columnas afluencia_boleto, afluencia_tarjeta y afluencia_total_preliminar", barmode='stack')
fig.show()


En los siguientes boxplots hay que prestar atención puesto que no están en la misma escala. Si estuvieran en la misma escala el boxplot que está en el centro que es el boxplot de la columna "afluencia_tarjeta", sería mucho más chico que los otros dos.

De hecho, la mediana de la columna dd la columna "afluencia_tarjeta" es de tan solo 348, mientras que la mediana de la columna "afluencia_boleto" es de 8210.5 y la de la columna "afluencia_total_preliminar" es de 46 089. Aunque en todos los casos, la mediana se encuentra más hacia los valores bajos.

In [None]:
fig = make_subplots(rows=1, cols=3)
fig.append_trace(go.Box(y= transporte["afluencia_boleto"], name = "afluencia_boleto"), row = 1, col = 1)
fig.append_trace(go.Box(y= transporte["afluencia_tarjeta"], name = "afluencia_tarjeta"), row = 1, col = 2)
fig.append_trace(go.Box(y= transporte["afluencia_total_preliminar"], name = "afluencia_total_preliminar"), row = 1, col = 3)
fig.show()

En la siguiente gráfica podemos hacer mejor la comparación, pero dado que el boxplot de afluencia_tarjeta no se aprecia bien, decidí hacerlo también como en la gráfica de arriba.

In [None]:
fig = px.box(transporte, x=["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"])
fig.show()

Con la siguiente tabla podemos ver cuál es el día con más usuarios del transporte público. En este caso,  día con más usuarios es el miércoles

In [None]:
af = transporte.groupby("dia")[["afluencia_total_preliminar"]].sum().sort_values(by = "afluencia_total_preliminar", ascending = False)
af

Unnamed: 0_level_0,afluencia_total_preliminar
dia,Unnamed: 1_level_1
Miércoles,240544976.0
Martes,239477843.0
Jueves,238240944.0
Viernes,237182340.0
Lunes,228317986.0
Sábado,197344970.0
Domingo,128866694.0


El siguiente heatmap nos ayuda a visualizar la afluencia promedio por día en cada organismo. Podemos ver que el día Miércoles en el STC es el día con màs afluencia promedio.

In [2]:
df = transporte.groupby(["dia", "organismo"])["afluencia_total_preliminar"].sum().reset_index()
fig = px.density_heatmap(df, x="dia", y="organismo", z="afluencia_total_preliminar",  histfunc="sum", width = 850, height= 500)
fig.update_layout(title = "Afluencia promedio por día en cada organismo",title_x=0.4)
fig.show()

NameError: name 'transporte' is not defined

Con la siguiente gráfica podemos ver la combinación de organismo y línea de servicio con más usuarios. 

La línea L1 del STC con 156.9848 millones de afluencia total

In [None]:
df = transporte.groupby(["organismo", "linea_servicio"])[["afluencia_total_preliminar"]].sum().reset_index()
fig = px.density_heatmap(df, x="organismo", y="linea_servicio", z="afluencia_total_preliminar", histfunc="sum")
fig.update_layout(title = "Afluencia por línea y organismo",title_x=0.55)
fig.show()

A continuación construimos una tabla que nos muestre la línea de servicio más utlizada.
La línea más utilizada es la L1 del STC con un 10.42% de la afluencia total. Concluimos que en caso de que la línea 1 del STC se cerrara afectaría furtemente a los usuarios. 

In [None]:
df["porcentaje"] = 100 * df["afluencia_total_preliminar"]/df.afluencia_total_preliminar.sum()
df.sort_values("afluencia_total_preliminar", ascending = False).head()

Unnamed: 0,organismo,linea_servicio,afluencia_total_preliminar,porcentaje
22,STC,L1,156984799.0,10.428784
24,STC,L2,139362943.0,9.258133
25,STC,L3,130511082.0,8.670088
33,STC,LB,101715310.0,6.757132
0,Metrobús,L1,92624682.0,6.153225


### Sección 3
Elimina todos los registros / renglones que tengan al menos un valor nulo en alguna columna. Si hacemos esto, ¿qué porcentaje de datos limpios tendríamos con respecto al original?

Tendré 14.35% de datos con respecto al original


In [None]:
df = transporte.dropna(how = "any")
porcentaje = (df.shape[0] * 100)/ transporte.shape[0]
porcentaje

14.352890883830288

**¿Cuántos valores duplicados hay?**

No hay duplicados

In [None]:
transporte["linea_servicio"].fillna("No Aplica", inplace = True)
transporte

Unnamed: 0,id,organismo,linea_servicio,dia,fecha,afluencia_tarjeta,afluencia_boleto,afluencia_total_preliminar
0,1,Ecobici,No Aplica,Domingo,2020-03-01,,,11238.0
1,2,Ecobici,No Aplica,Lunes,2020-03-02,,,29475.0
2,3,Ecobici,No Aplica,Martes,2020-03-03,,,31855.0
3,4,Ecobici,No Aplica,Miércoles,2020-03-04,,,31477.0
4,5,Ecobici,No Aplica,Jueves,2020-03-05,,,31493.0
...,...,...,...,...,...,...,...,...
18709,18710,Suburbano,L1,Lunes,2021-06-28,,,
18710,18711,Suburbano,L1,Martes,2021-06-29,,,
18711,18712,Suburbano,L1,Miércoles,2021-06-30,,,
18712,18713,Suburbano,L1,Jueves,2021-07-01,,,


In [None]:
transporte[["organismo", "linea_servicio", "fecha"]].duplicated().sum()

0

**Cambia el formato de la columna “Fecha”.**

In [None]:
transporte["dia_de_la_semana"] = transporte["fecha"].dt.weekday
transporte["dia_del_mes"] = transporte["fecha"].dt.day
samp = transporte.sample(10)
samp

Unnamed: 0,id,organismo,linea_servicio,dia,fecha,afluencia_tarjeta,afluencia_boleto,afluencia_total_preliminar,dia_de_la_semana,dia_del_mes
2061,2062,Metrobús,L5,Domingo,2020-10-11,,,65920.0,6,11
4204,4205,RTP,Atenea,Lunes,2020-04-06,,6852.0,6852.0,0,6
11529,11530,STC,L9,Miércoles,2021-01-20,,,248064.0,2,20
16251,16252,STE-Trolebús,L1 Eje Central,Miércoles,2020-11-25,,,51196.0,2,25
17276,17277,STE-Trolebús,L3 Eje 7 Sur,Viernes,2021-03-26,,,9550.0,4,26
4455,4456,RTP,Expreso,Martes,2020-05-12,1104.0,44083.0,45187.0,1,12
10076,10077,STC,L8,Lunes,2020-09-21,,,224395.0,0,21
12618,12619,STC,L6,Miércoles,2021-04-21,,,64440.0,2,21
4458,4459,RTP,Nocturno,Martes,2020-05-12,6.0,257.0,263.0,1,12
12142,12143,STC,LA,Viernes,2021-03-12,,,202455.0,4,12


**Revisa en la celda de organismo cuáles renglones contienen la palabra "Metrobús"**

In [None]:
transporte.organismo.str.contains("Metrobús").value_counts()

False    15253
True      3461
Name: organismo, dtype: int64

In [None]:
transporte[transporte.organismo.str.contains("Metrobús")]["organismo"].unique()

array(['Metrobús'], dtype=object)

**Realiza el mismo ejercicio que anteriormente, pero con la palabra “Temporal”.**

In [None]:
transporte.linea_servicio.str.contains("Temporal").value_counts()

False    18559
True       155
Name: linea_servicio, dtype: int64

In [None]:
temp = transporte[transporte.linea_servicio.str.contains("Temporal")]
temp["linea_servicio"].nunique()


4

In [None]:
transporte.loc[transporte["linea_servicio"].str.contains("Temporal"),"linea_servicio"]="Temporal"
temp = transporte[transporte.linea_servicio.str.contains("Temporal")].head()
temp

Unnamed: 0,id,organismo,linea_servicio,dia,fecha,afluencia_tarjeta,afluencia_boleto,afluencia_total_preliminar,dia_de_la_semana,dia_del_mes
5882,5883,RTP,Temporal,Martes,2020-12-01,105.0,2461.0,2566.0,1,1
5890,5891,RTP,Temporal,Miércoles,2020-12-02,142.0,2733.0,2875.0,2,2
5898,5899,RTP,Temporal,Jueves,2020-12-03,165.0,2366.0,2531.0,3,3
5906,5907,RTP,Temporal,Viernes,2020-12-04,168.0,2280.0,2448.0,4,4
5914,5915,RTP,Temporal,Sábado,2020-12-05,114.0,3354.0,3468.0,5,5


**Agrupa por días, y suma la columna de afluencia_total_preliminar para todos los organismos y líneas de servicio.**

In [None]:
df= transporte.groupby("fecha")[["afluencia_total_preliminar"]].sum().reset_index()
df

Unnamed: 0,fecha,afluencia_total_preliminar
0,2020-03-01,3527802.0
1,2020-03-02,7120556.0
2,2020-03-03,7314161.0
3,2020-03-04,7361937.0
4,2020-03-05,7386438.0
...,...,...
484,2021-06-28,3670498.0
485,2021-06-29,3800277.0
486,2021-06-30,3595574.0
487,2021-07-01,2805590.0


In [None]:
fig = px.line(df, x ='fecha',  y="afluencia_total_preliminar", title ="Uso del transporte público a través del tiempo", template = "plotly_white")
fig.update_layout(title_x=0.5)
fig.show()

**¿Afectó el COVID-19 al uso del transporte público? ¿Sí o no? ¿Se puede notar algún incremento o decremento en el uso por la salida o introducción de las diferentes olas?**

El COVID-19 afectó el uno del transporte público. Como podemos ver en la gráfica, el uso del transporte público bajó bastante después de la primera ola de COVID. Después de esta ola poca gente volvió a utilizar el transporte público, sin embargo, después de la segunda ola, el uso disminuyó un poco y aumentó un poco luego de esta ola pero el uso del transporte público no ha alcanzado lo que se venía registrando antes de la pandemia.

También puede que después de la primera ola el decremento haya sido mayor porque se tomó la medida de que tanto los trabajos como las escuelas fueran de forma "online". Sin embargo, para la segunda ola de COVID las escuelas seguían de forma online y algunos trabajos también y por lo tanto ya no había forma de que disminuyera tanto el uso de transporte público.