In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import pandas as pd

In [None]:
# Cargamos los datos
file_path = '/content/Transporte_Publico_Espana.csv'
data = pd.read_csv(file_path)

# Vemos las priemras filas para entender su estructura
data.head()

Unnamed: 0,ID_Viaje,Fecha,Ruta,Numero_Pasajeros,Duracion_Viaje_Minutos,Retraso_Minutos,Tipo_Transporte,Region,Dia_Semana
0,1,2023-01-01 00:00:00,Barcelona - Bilbao,,not_available,999,Tranvía,Sevilla,Sunday
1,2,2023-01-01 00:01:00,Malaga - Sevilla,99.0,192.0,58,Tren,Barcelona,Sunday
2,3,2023-01-01 00:02:00,Madrid - Zaragoza,10.0,94.0,119,Autobús,Madrid,Sunday
3,4,2023-01-01 00:03:00,Sevilla - Madrid,96.0,650.0,2,Metro,Malaga,Sunday
4,5,2023-01-01 00:04:00,Madrid - Malaga,22.0,335.0,51,Autobús,Sevilla,Sunday


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100100 entries, 0 to 100099
Data columns (total 9 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   ID_Viaje                100100 non-null  int64  
 1   Fecha                   100100 non-null  object 
 2   Ruta                    100100 non-null  object 
 3   Numero_Pasajeros        99099 non-null   float64
 4   Duracion_Viaje_Minutos  99767 non-null   object 
 5   Retraso_Minutos         100100 non-null  int64  
 6   Tipo_Transporte         100100 non-null  object 
 7   Region                  100100 non-null  object 
 8   Dia_Semana              100100 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 6.9+ MB


# Paso 1: Revisión de Duplicados

In [None]:
# Verificando duplicados
duplicados = data.duplicated().sum()
duplicados

100

In [None]:
# Eliminando los duplicados
data_sin_duplicados = data.drop_duplicates()

In [None]:
# Verificando cuántos duplicados quedan después de la eliminación
duplicados_finales = data_sin_duplicados.duplicated().sum()
print(f"Duplicados finales: {duplicados_finales}")

Duplicados finales: 0


In [None]:
data_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 9 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   ID_Viaje                100000 non-null  int64  
 1   Fecha                   100000 non-null  object 
 2   Ruta                    100000 non-null  object 
 3   Numero_Pasajeros        99000 non-null   float64
 4   Duracion_Viaje_Minutos  99667 non-null   object 
 5   Retraso_Minutos         100000 non-null  int64  
 6   Tipo_Transporte         100000 non-null  object 
 7   Region                  100000 non-null  object 
 8   Dia_Semana              100000 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 7.6+ MB


# Paso 2: Revisión de tipos de datos y datos faltantes

In [None]:
# tipos de datos
tipos_de_datos = data.dtypes
tipos_de_datos

ID_Viaje                    int64
Fecha                      object
Ruta                       object
Numero_Pasajeros          float64
Duracion_Viaje_Minutos     object
Retraso_Minutos             int64
Tipo_Transporte            object
Region                     object
Dia_Semana                 object
dtype: object

In [None]:
# Verificando valores faltantes
valores_faltantes = data.isnull().sum()
valores_faltantes

ID_Viaje                     0
Fecha                        0
Ruta                         0
Numero_Pasajeros          1001
Duracion_Viaje_Minutos     333
Retraso_Minutos              0
Tipo_Transporte              0
Region                       0
Dia_Semana                   0
dtype: int64

In [None]:
# Asegurando que la columna Duracion_Viaje_Minutos sea de tipo float
data_sin_duplicados.loc[:,'Duracion_Viaje_Minutos'] = pd.to_numeric(data_sin_duplicados['Duracion_Viaje_Minutos'], errors='coerce')

In [None]:
# Calculando la mediana de las columnas con valores faltantes
mediana_numero_pasajeros = data_sin_duplicados['Numero_Pasajeros'].median()
mediana_duracion_viaje_minutos = data_sin_duplicados['Duracion_Viaje_Minutos'].median()

In [None]:
# Rellenando los valores faltantes con la mediana
data_sin_duplicados.loc[:,'Numero_Pasajeros'] = data_sin_duplicados['Numero_Pasajeros'].fillna(mediana_numero_pasajeros)
data_sin_duplicados.loc[:,'Duracion_Viaje_Minutos'] = data_sin_duplicados['Duracion_Viaje_Minutos'].fillna(mediana_duracion_viaje_minutos)

In [None]:
# Verificar que no haya valores faltantes
valores_faltantes_despues = data_sin_duplicados.isnull().sum()
print(valores_faltantes_despues)

ID_Viaje                  0
Fecha                     0
Ruta                      0
Numero_Pasajeros          0
Duracion_Viaje_Minutos    0
Retraso_Minutos           0
Tipo_Transporte           0
Region                    0
Dia_Semana                0
dtype: int64


In [None]:
# Convertiendo fecha a datetime
data_sin_duplicados.loc[:,'Fecha'] = pd.to_datetime(data_sin_duplicados['Fecha'], format='%Y-%m-%d %H:%M:%S')

In [None]:
data_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 9 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   ID_Viaje                100000 non-null  int64         
 1   Fecha                   100000 non-null  datetime64[ns]
 2   Ruta                    100000 non-null  object        
 3   Numero_Pasajeros        100000 non-null  float64       
 4   Duracion_Viaje_Minutos  100000 non-null  float64       
 5   Retraso_Minutos         100000 non-null  int64         
 6   Tipo_Transporte         100000 non-null  object        
 7   Region                  100000 non-null  object        
 8   Dia_Semana              100000 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 7.6+ MB


# Paso 3: Filtramos Tipo de Transporte Inviables

In [None]:
# Filtrando los tipos de transporte inviables ('Tranvía' y 'Metro')
transportes_inviables = ['Tranvía', 'Metro']
data_filtrada = data_sin_duplicados[~data_sin_duplicados['Tipo_Transporte'].isin(transportes_inviables)]

In [None]:
# Mostrando un resumen de los datos filtrados para verificar
resumen_transporte = data_filtrada['Tipo_Transporte'].value_counts()
print(resumen_transporte)

Tipo_Transporte
Autobús    25050
Tren       24954
Name: count, dtype: int64


In [None]:
data_filtrada.info()

<class 'pandas.core.frame.DataFrame'>
Index: 50004 entries, 1 to 99997
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ID_Viaje                50004 non-null  int64         
 1   Fecha                   50004 non-null  datetime64[ns]
 2   Ruta                    50004 non-null  object        
 3   Numero_Pasajeros        50004 non-null  float64       
 4   Duracion_Viaje_Minutos  50004 non-null  float64       
 5   Retraso_Minutos         50004 non-null  int64         
 6   Tipo_Transporte         50004 non-null  object        
 7   Region                  50004 non-null  object        
 8   Dia_Semana              50004 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 3.8+ MB


In [None]:
# Guardando el DataFrame en un archivo CSV
file_path = '/content/Datos_Filtrados.csv'
data_filtrada.to_csv(file_path, index=False)