## Librerías

In [2]:
import pandas as pd
import numpy as np
import plotly.express as px
import random

from pandas import DataFrame

## Variables Constantes

In [3]:
DATASET_PATH = "../dataset/afluencia-preliminar-en-transporte-publico.xlsx-afluencia_diaria.csv"
NUMERICAL_COLUMNS = ["afluencia_tarjeta", "afluencia_boleto", "afluencia_total_preliminar"]

SEED = 42

## Sección 1: Obtención de Datos

In [249]:
df = pd.read_csv(DATASET_PATH, encoding = 'utf-8')

## Sección 2: Análisis Exploratorio

### Apartado 2.1

In [165]:
# Visualización de 20 datos aleatorios contenidos en el `df`
df.sample(20, random_state=SEED)

Unnamed: 0,id,organismo,linea_servicio,dia,fecha,afluencia_tarjeta,afluencia_boleto,afluencia_total_preliminar
8037,8038,STC,L9,Sábado,2020-04-04,,,109633
13667,13668,STE-Tren Ligero,Xochimilco-Tasqueña,Lunes,2020-04-27,,,24109
13229,13230,STC,L5,Viernes,2021-06-11,,,155478
11746,11747,STC,LA,Domingo,2021-02-07,,,139227
15614,15615,STE-Trolebús,L4 Pto Aéreo-Rosario,Domingo,2020-09-06,,,5982
12273,12274,STC,L9,Martes,2021-03-23,,,195211
344,345,Ecobici,,Lunes,2021-02-08,,,10535
9492,9493,STC,L12,Lunes,2020-08-03,,,178911
17818,17819,STE-Trolebús,L4 Pto Aéreo-Rosario,Domingo,2021-05-23,,,11934
12823,12824,STC,L7,Sábado,2021-05-08,,,129724


In [166]:
# Visualizar tipos de datos en el dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18714 entries, 0 to 18713
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   id                          18714 non-null  int64 
 1   organismo                   18714 non-null  object
 2   linea_servicio              18225 non-null  object
 3   dia                         18714 non-null  object
 4   fecha                       18714 non-null  object
 5   afluencia_tarjeta           2687 non-null   object
 6   afluencia_boleto            3598 non-null   object
 7   afluencia_total_preliminar  18512 non-null  object
dtypes: int64(1), object(7)
memory usage: 1.1+ MB


### Apartado 2.2

#### Sección de preguntas

Respuesta 1: Columna con mayor cantidad de datos nulos: `afluencia_tarjeta`

In [167]:
df.isnull().sum()

id                                0
organismo                         0
linea_servicio                  489
dia                               0
fecha                             0
afluencia_tarjeta             16027
afluencia_boleto              15116
afluencia_total_preliminar      202
dtype: int64

Respuesta 2: Tipos de datos correctos para todas las columnas: 
* DateTime para `fecha`
* Int para `afluencia_tarjeta`, `afluencia_boleto` y `afluencia_total_preliminar`

Respuesta 3: Organismo más utilizado: `STC` que contiene 5,868 columnas

In [169]:
df["organismo"].value_counts()

STC                5868
STE-Trolebús       4126
RTP                3671
Metrobús           3461
Ecobici             489
STE-Tren Ligero     489
Suburbano           489
STE-Cablebús        121
Name: organismo, dtype: int64

Respuesta 4: Línea de servicio más usada: `L1` con 1,467 columnas

In [170]:
df["linea_servicio"].value_counts()

L1                                                   1467
L5                                                    978
L7                                                    978
L6                                                    978
L2                                                    978
L4                                                    978
L3                                                    978
L1 Eje Central                                        489
L6 Rosario-Chapultepec                                489
L12                                                   489
LB                                                    489
LA                                                    489
L9                                                    489
L8                                                    489
L4 Pto Aéreo-Rosario                                  489
L5 Sn Felipe-Hidalgo                                  489
Xochimilco-Tasqueña                                   489
Expreso Direct

Respuesta 5: Días de la semana con mayor uso de transporte público: `Martes`, `Jueves` y `Viernes` con 2,681 registros c/u

In [171]:
df["dia"].value_counts()

Martes       2681
Jueves       2681
Viernes      2681
Lunes        2679
Domingo      2674
Sábado       2638
Miércoles    2267
Míercoles     413
Name: dia, dtype: int64

#### Tipos de datos y modificación de valores en columnas numéricas

Función que remueve las "," de los números en las columnas `afluencia_boleto`, `afluencia_tarjeta` y `afluencia_total_preliminar`

In [38]:
def replace_chars(dataframe: DataFrame, categorical_var : str, char_1 : str, char_2 : str) -> DataFrame:
    dataframe[categorical_var] = dataframe[categorical_var].str.replace(char_1 , char_2) 
    return dataframe[categorical_var]

Remover las "," en un ``for`` y a su vez, convertir los datos en valores numéricos

In [174]:
for i in range(len(NUMERICAL_COLUMNS)):
    df[NUMERICAL_COLUMNS[i]] = replace_chars(df, NUMERICAL_COLUMNS[i], ",", "")
    df[NUMERICAL_COLUMNS[i]] = pd.to_numeric(df[NUMERICAL_COLUMNS[i]])

In [40]:
df.dtypes

id                                     int64
organismo                             object
linea_servicio                        object
dia                                   object
fecha                         datetime64[ns]
afluencia_tarjeta                    float64
afluencia_boleto                     float64
afluencia_total_preliminar           float64
dtype: object

#### Creación de DF que muestra % de datos nulos por columna

Las columnas `afluencia_tarjeta` y `afluencia_boleto` contienen la mayor cantidad de datos nulos, siendo estos 16,027 y 15,116, respectivamente.  

In [41]:
class DataFrameGenerator:
    def __init__(self):
        pass

    def create_dataframe(self, column : list, col_name : str) -> DataFrame:
        df_created = pd.DataFrame (
            column, 
            columns = ([col_name]),
        )
        return df_created

    def combine_dataframes(self, df_1 : DataFrame, df_2 : DataFrame) -> DataFrame:
        df_combined = pd.concat (
            [df_1, df_2],
            axis = 1, 
            join = "inner",
        )
        return df_combined

In [42]:
columns_names = list(df.columns.values)
percent_null_values = list(df.isnull().sum()/df.shape[0])

new_df = DataFrameGenerator()
df_columns = new_df.create_dataframe(columns_names, "columnas")
df_percent = new_df.create_dataframe(percent_null_values, "porcentaje")
df_percent_missing_data = new_df.combine_dataframes(df_columns, df_percent)
df_percent_missing_data

Unnamed: 0,columnas,porcentaje
0,id,0.0
1,organismo,0.0
2,linea_servicio,0.02613
3,dia,0.0
4,fecha,0.0
5,afluencia_tarjeta,0.856418
6,afluencia_boleto,0.807738
7,afluencia_total_preliminar,0.010794


In [43]:
df.isnull().sum()

id                                0
organismo                         0
linea_servicio                  489
dia                               0
fecha                             0
afluencia_tarjeta             16027
afluencia_boleto              15116
afluencia_total_preliminar      202
dtype: int64

Función que crea gráficos de barras simples

In [44]:
def basic_plotly_bars(df : DataFrame, x_label : str, y_label : str, plot_title : str):
    fig = px.bar (
    df, 
    x = x_label, 
    y = y_label,
    title = plot_title
    )
    fig.show()

Realizar una gráfica de barras de los datos nulos con la librería Plotly 

In [45]:
basic_plotly_bars (
    df_percent_missing_data, 
    'columnas', 
    'porcentaje', 
    "Porcentaje de distribución de valores nulos en todas las columnas"
)

*RESPUESTA:* La columna de los boletos contiene gran cantidad de valores nulos porque solo el organismo `RTP` contiene datos en esa columna. No es posible eliminar los registros con datos nulos, ya que contienen información de utilidad en el resto de las columnas

#### Agrupación de organismos en un DF, distribución de valores nulos para el organismo `Ecobici`

Función que grafica la distribución de valores nulos en las demás columnas con respecto a la columna organismos

In [46]:
def create_gruped_df(gruped_df: pd.DataFrame, column = str) -> DataFrame:
    gruped_df = gruped_df.groupby(by=[column])
    return pd.DataFrame(gruped_df)
 
def probability_values(df : pd.DataFrame, class_name : str) -> list:
    if class_name in list(df[0]):
        class_name_index = list(df[0]).index(class_name)
        probability_list = list(df[1][class_name_index].isnull().sum() / 
        df[1][class_name_index].shape[0])
        #probability_list = list(df[1][class_name_index].isnull().sum()/total_data)
    return probability_list

In [47]:
# Crear DF que agrupe las columnas respecto a los organismos
df_organismos = create_gruped_df(df, "organismo")
df_organismos

Unnamed: 0,0,1
0,Ecobici,id organismo linea_servicio dia ...
1,Metrobús,id organismo linea_servicio ...
2,RTP,id organismo linea_servicio ...
3,STC,id organismo linea_servicio dia...
4,STE-Cablebús,id organismo li...
5,STE-Tren Ligero,id organismo linea_serv...
6,STE-Trolebús,id organismo lin...
7,Suburbano,id organismo linea_servicio ...


Se ejemplifica la función anterior con el organismo `ecobici`

In [48]:
probability_null_ecobici = probability_values(df_organismos, "Ecobici")
df_ecobici = new_df.create_dataframe(probability_null_ecobici, "porcentaje")
df_null_ecobici_probability = new_df.combine_dataframes(df_columns, df_ecobici)
df_null_ecobici_probability

Unnamed: 0,columnas,porcentaje
0,id,0.0
1,organismo,0.0
2,linea_servicio,1.0
3,dia,0.0
4,fecha,0.0
5,afluencia_tarjeta,1.0
6,afluencia_boleto,1.0
7,afluencia_total_preliminar,0.002045


Graficamos la distribución de valores nulos del organismo `Ecobici`

In [49]:
basic_plotly_bars (
    df_null_ecobici_probability, 
    'columnas', 
    'porcentaje',
    "Porcentaje de distribución de valores nulos del organismo `Ecobici` en todas las columnas con respecto a los demás organismos"
)

#### RETO: Distribución de datos nulos en organismos respecto a las columnas de los boletos y tarjetas

*RETO:* Distribución de datos nulos en los organismos con respecto a la columna `afluencia_tarjeta`

In [50]:
def distribution_null_values(df: DataFrame, col_1, col_2) -> DataFrame:
    df_missing_data = new_df.combine_dataframes(df[col_1], df[col_2]) 
    grouped_df = pd.DataFrame(df_missing_data.groupby(by=[col_1]))

    percent_values = []
    for i in range(len(df[col_1].unique())):
        percent_values.append(grouped_df[1][i][col_2].isnull().sum() / 
        df[col_2].isnull().sum())

    created_column = new_df.create_dataframe(df[col_1].unique(), col_1)

    percent_column = new_df.create_dataframe(percent_values, "porcentaje")

    df_percent_missing_data = new_df.combine_dataframes (
        created_column, 
        percent_column,
    )
    return df_percent_missing_data

In [51]:
df_percent_missing_data_tarjeta = distribution_null_values (
    df,
    'organismo',
    'afluencia_tarjeta'
)
df_percent_missing_data_tarjeta

Unnamed: 0,organismo,porcentaje
0,Ecobici,0.030511
1,Metrobús,0.215948
2,RTP,0.061396
3,STC,0.366132
4,STE-Cablebús,0.00755
5,STE-Tren Ligero,0.030511
6,STE-Trolebús,0.257441
7,Suburbano,0.030511


In [52]:
basic_plotly_bars (
    df_percent_missing_data_tarjeta.sort_values(by=(["porcentaje"]),ascending=False),
    'organismo',
    'porcentaje',
    "Distribución de los valores nulos de la columna afluencia_tarjeta a través de los diferentes organismos",
)

*RETO:* Distribución de datos nulos en los organismos con respecto a la columna `afluencia_boleto`

In [77]:
df_percent_missing_data_boletos = distribution_null_values (
    df,
    'organismo',
    'afluencia_boleto'
)
df_percent_missing_data_boletos

Unnamed: 0,organismo,porcentaje
0,Ecobici,0.03235
1,Metrobús,0.228963
2,RTP,0.004829
3,STC,0.388198
4,STE-Cablebús,0.008005
5,STE-Tren Ligero,0.03235
6,STE-Trolebús,0.272956
7,Suburbano,0.03235


In [54]:
basic_plotly_bars (
    df_percent_missing_data_boletos.sort_values(by=(["porcentaje"]),ascending=False),
    'organismo',
    'porcentaje',
    "Distribución de los valores nulos de la columna afluencia_boleto a través de los diferentes organismos",
)

Al eliminar el organismo `Ecobici` que contiene valores nulos en la columna `linea_servicio`, se eliminan los considerados errores

In [172]:
filter = df['organismo'] != "Ecobici" 
df_filtered = df[filter]
df_filtered.isnull().sum()

id                                0
organismo                         0
linea_servicio                    0
dia                               0
fecha                             0
afluencia_tarjeta             15538
afluencia_boleto              14627
afluencia_total_preliminar      201
dtype: int64

*RETO:* Distribución de datos nulos en los organismos con respecto a la columna `afluencia_total_preliminar`

In [118]:
df_percent_missing_data_total_preliminar = distribution_null_values (
    df,
    'organismo',
    'afluencia_total_preliminar'
)
df_percent_missing_data_total_preliminar

Unnamed: 0,organismo,porcentaje
0,Ecobici,0.00495
1,Metrobús,0.089109
2,RTP,0.356436
3,STC,0.059406
4,STE-Cablebús,0.014851
5,STE-Tren Ligero,0.014851
6,STE-Trolebús,0.415842
7,Suburbano,0.044554


In [119]:
basic_plotly_bars (
    df_percent_missing_data_total_preliminar.sort_values(by=(["porcentaje"]),ascending=False),
    'organismo',
    'porcentaje',
    "Distribución de los valores nulos de la columna afluencia_total_preliminar a través de los diferentes organismos",
)

#### Combinación día y método de transporte con mas usuarios

Corrección de la columna días, habían datos escritos como `Míercoles`

In [175]:
df["dia"] = replace_chars(df, "dia", "Míercoles", "Miércoles")
df["dia"].value_counts()

Martes       2681
Jueves       2681
Viernes      2681
Miércoles    2680
Lunes        2679
Domingo      2674
Sábado       2638
Name: dia, dtype: int64

El día Miércoles es en el que más usuarios hay

In [176]:
fig = px.density_heatmap (
    df, 
    x="dia", 
    y="organismo", 
    z="afluencia_total_preliminar"
)
fig.show()

La línea de servicio `L1` es la más usada por el Sistema de Transporte Colectivo Metro (STC)

In [177]:
fig = px.density_heatmap (
    df, 
    x="organismo", 
    y="linea_servicio", 
    z="afluencia_total_preliminar"
)
fig.show()

Filtro para calcular el % de `L1` con respecto a las otras líneas de servicio utilizando la suma de la afluencia total preliminar, ya que es el total de personas que llegan a la línea

In [181]:
filter_L1 = df['linea_servicio'] == "L1"
df_filtered_L1 = df[filter_L1]
df_filtered_L1["afluencia_total_preliminar"].sum()

282218802.0

Constituye el 18.69% de los usuarios, por lo que si afectará fuertemente el cierre de esta línea

In [191]:
L1_percent = df_filtered_L1["afluencia_total_preliminar"].sum()/df["afluencia_total_preliminar"].sum()
print("{:0.4f}".format(L1_percent))

0.1869


## Sección 3: Transformación de Datos

#### Porcentaje de valores limpios con respecto al original

Al eliminar todo valor nulo, el porcentaje de datos limpios con respecto al original es de 14.35%

In [199]:
cleaned_df = df.dropna(how = "any")
percent_clean_df = cleaned_df.shape[0]/df.shape[0]
print("{:0.4f}".format(percent_clean_df))

0.1435


#### Valores duplicados

In [246]:
duplicated_data_df = df.duplicated(keep=False, subset = [
    "afluencia_tarjeta", 
    "afluencia_boleto", 
    "afluencia_total_preliminar"
])
duplicated_data_df

0        False
1        False
2        False
3        False
4        False
         ...  
18709     True
18710     True
18711     True
18712     True
18713     True
Length: 18714, dtype: bool

In [248]:
duplicated_data_df = df.drop_duplicates(subset = [
    "afluencia_tarjeta", 
    "afluencia_boleto", 
    "afluencia_total_preliminar"])

Cantidad de valores duplicados = 1,855

In [245]:
df.shape[0] - duplicated_data_df.shape[0]

1855

Porcentaje de valores duplicados = 9.91%

In [243]:
print("{:0.4f}".format((df.shape[0] - duplicated_data_df.shape[0]) / df.shape[0]))

0.0991


#### Cambiar formato de columna `fecha`

In [253]:
df["fecha"] = pd.to_datetime(df["fecha"], errors = "coerce")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18714 entries, 0 to 18713
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   id                          18714 non-null  int64         
 1   organismo                   18714 non-null  object        
 2   linea_servicio              18225 non-null  object        
 3   dia                         18714 non-null  object        
 4   fecha                       18714 non-null  datetime64[ns]
 5   afluencia_tarjeta           2687 non-null   object        
 6   afluencia_boleto            3598 non-null   object        
 7   afluencia_total_preliminar  18512 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(6)
memory usage: 1.1+ MB


In [259]:
df["fecha"].dt.day[0:8]

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
Name: fecha, dtype: int64

Lunes representa el 0, Domingo representa el 6

In [258]:
df["fecha"].dt.weekday[0:8]

0    6
1    0
2    1
3    2
4    3
5    4
6    5
7    6
Name: fecha, dtype: int64

#### Limpieza de palabras mal escritas en los organismos

In [265]:
df["linea_servicio"].value_counts()

L1                                                   1467
L5                                                    978
L7                                                    978
L6                                                    978
L2                                                    978
L4                                                    978
L3                                                    978
L1 Eje Central                                        489
L6 Rosario-Chapultepec                                489
L12                                                   489
LB                                                    489
LA                                                    489
L9                                                    489
L8                                                    489
L4 Pto Aéreo-Rosario                                  489
L5 Sn Felipe-Hidalgo                                  489
Xochimilco-Tasqueña                                   489
Expreso Direct

In [264]:
df["linea_servicio"].str.contains("Metrobús")

0          NaN
1          NaN
2          NaN
3          NaN
4          NaN
         ...  
18709    False
18710    False
18711    False
18712    False
18713    False
Name: linea_servicio, Length: 18714, dtype: object

In [266]:
df["organismo"].value_counts()

STC                5868
STE-Trolebús       4126
RTP                3671
Metrobús           3461
Ecobici             489
STE-Tren Ligero     489
Suburbano           489
STE-Cablebús        121
Name: organismo, dtype: int64

In [263]:
df["organismo"].str.contains("Metrobús")


0        False
1        False
2        False
3        False
4        False
         ...  
18709    False
18710    False
18711    False
18712    False
18713    False
Name: organismo, Length: 18714, dtype: bool