In [1]:
import pandas as pd

#### Importamos los datos desde el .csv elaborado en el paquete data-preprocessing para estudiar los datos.

In [2]:
path = "../../../data-preprocessing/src/data_preprocessing/data/final_data.csv"
data = pd.read_csv(filepath_or_buffer=path, index_col=0)
data

Unnamed: 0,id,fecha,tipo_elem,intensidad,ocupacion,carga,vmed,error,periodo_integracion,hora,distrito,prec
0,1001,2021-12-01,M30,3660,11.0,0,59.0,N,5,00:00:00,10.0,24
1,1001,2021-12-01,M30,3660,11.0,0,59.0,N,5,00:15:00,10.0,24
2,1001,2021-12-01,M30,3660,11.0,0,59.0,N,5,00:30:00,10.0,24
3,1001,2021-12-01,M30,3660,11.0,0,59.0,N,5,00:45:00,10.0,24
4,1001,2021-12-01,M30,3660,11.0,0,59.0,N,5,01:00:00,10.0,24
...,...,...,...,...,...,...,...,...,...,...,...,...
51012041,11388,2024-12-31,M30,339,1.0,11,64.0,N,15,22:45:00,5.0,00
51012042,11388,2024-12-31,M30,288,2.0,10,61.0,N,15,23:00:00,5.0,00
51012043,11388,2024-12-31,M30,308,2.0,11,60.0,N,15,23:15:00,5.0,00
51012044,11388,2024-12-31,M30,257,0.0,8,56.0,N,15,23:30:00,5.0,00


#### Estudiamos la presencia de valores nulos

In [3]:
data.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Index: 51012046 entries, 0 to 51012045
Data columns (total 12 columns):
 #   Column               Non-Null Count     Dtype  
---  ------               --------------     -----  
 0   id                   51012046 non-null  int64  
 1   fecha                51012046 non-null  object 
 2   tipo_elem            51012046 non-null  object 
 3   intensidad           51012046 non-null  int64  
 4   ocupacion            50965393 non-null  float64
 5   carga                51012046 non-null  int64  
 6   vmed                 50972438 non-null  float64
 7   error                50923283 non-null  object 
 8   periodo_integracion  51012046 non-null  int64  
 9   hora                 51012046 non-null  object 
 10  distrito             51012046 non-null  float64
 11  prec                 51012046 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 4.9+ GB


#### Como se puede observar, las columnas ocupacion, vmed y error presentan valores nulos. Veamos cuántos valores nulos presenta cada columna.

In [4]:
null_values_ocupacion = data['ocupacion'].isnull().sum()
print(f"La columna null_values_ocupacion presenta {null_values_ocupacion} valores nulos")
null_values_vmed = data['vmed'].isnull().sum()
print(f"La columna null_values_vmed presenta {null_values_vmed} valores nulos")
null_values_error = data['error'].isnull().sum()
print(f"La columna null_values_error presenta {null_values_error} valores nulos")

La columna null_values_ocupacion presenta 46653 valores nulos
La columna null_values_vmed presenta 39608 valores nulos
La columna null_values_error presenta 88763 valores nulos


#### Comprobamos qué porcenaje del total de los datos representan los valores nulos. Para ello dividimos el total de valores nulos entre el número de total de filas.

In [5]:
total_null_values = null_values_error + null_values_ocupacion + null_values_vmed
percentage_null_values = total_null_values/data.shape[0]*100
print(f"Los valores nulos representan un {percentage_null_values:.2f}% del total")

Los valores nulos representan un 0.34% del total


#### En el peor de los casos, no hay ninguna fila que tenga más de un valor null, por lo que los valores nulos representarían aproximadamente el 0.34% del total de los registros, de manera que procedemos a su eliminación

In [8]:
len_data_with_null_values = data.shape[0]
print(f"El dataframe con valores nulos tiene {len_data_with_null_values} filas")
data_with_no_null_values = data.dropna(axis=0, how='any').copy()
len_data_with_no_null_values = data_with_no_null_values.shape[0]
print(f"El dataframe sin valores nulos tiene {len_data_with_no_null_values} filas")
removed_rows = len_data_with_null_values - len_data_with_no_null_values
print(f"Se han eliminado {removed_rows} filas")

El dataframe con valores nulos tiene 51012046 filas
El dataframe sin valores nulos tiene 50837247 filas
Se han eliminado 174799 filas


#### A partir de la columna fecha vamos a obtener otras columnas: year, month, day, name_of_day, is_weekend.
#### Esto nos permitirá posteriormente saber en qué días se ha producido mayor congestión según el año.

In [17]:
data_with_no_null_values['fecha'] = pd.to_datetime(data_with_no_null_values['fecha'])

data_with_no_null_values['year'] = data_with_no_null_values['fecha'].dt.year
data_with_no_null_values['month'] = data_with_no_null_values['fecha'].dt.month
data_with_no_null_values['day'] = data_with_no_null_values['fecha'].dt.day
data_with_no_null_values['day_of_the_week'] = data_with_no_null_values['fecha'].dt.weekday
data_with_no_null_values['is_weekend'] = data_with_no_null_values['day_of_the_week'].isin([5,6]).astype(int)

data_with_no_null_values.drop(columns='fecha', inplace=True)
data_with_no_null_values

Unnamed: 0,id,tipo_elem,intensidad,ocupacion,carga,vmed,error,periodo_integracion,hora,distrito,prec,year,month,day,day_name,day_of_the_week,is_weekend
0,1001,M30,3660,11.0,0,59.0,N,5,00:00:00,10.0,24,2021,12,1,Wednesday,2,0
1,1001,M30,3660,11.0,0,59.0,N,5,00:15:00,10.0,24,2021,12,1,Wednesday,2,0
2,1001,M30,3660,11.0,0,59.0,N,5,00:30:00,10.0,24,2021,12,1,Wednesday,2,0
3,1001,M30,3660,11.0,0,59.0,N,5,00:45:00,10.0,24,2021,12,1,Wednesday,2,0
4,1001,M30,3660,11.0,0,59.0,N,5,01:00:00,10.0,24,2021,12,1,Wednesday,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51012041,11388,M30,339,1.0,11,64.0,N,15,22:45:00,5.0,00,2024,12,31,Tuesday,1,0
51012042,11388,M30,288,2.0,10,61.0,N,15,23:00:00,5.0,00,2024,12,31,Tuesday,1,0
51012043,11388,M30,308,2.0,11,60.0,N,15,23:15:00,5.0,00,2024,12,31,Tuesday,1,0
51012044,11388,M30,257,0.0,8,56.0,N,15,23:30:00,5.0,00,2024,12,31,Tuesday,1,0


#### Necesitamos hacer ciertas comprobaciones respecto a algunas columnas, como por ejemplo vmed y carga ya que, como se especifica en la descripción del conjunto de datos en la página web del Ayuntamiento de Madrid, solo se recogen datos de vmed si tipo_elem es M30, por lo que tendremos muchos valores 0 para los valores de tipo_elem distintos de M30. 
#### Calculamos primero el número de registros de vmed == 0 para tipo_elem == 'M30'

In [None]:
data.loc[
    (data['tipo_elem'] == 'M30')
    & (data['vmed'] == 0),
    ['tipo_elem', 'vmed']].shape[0]

18709

#### La intuición nos dice que si vmed == 0 es porque o bien hay congestión y, por tanto, un atasco o bien todo lo contrario, es decir, no hay coches. 
#### Veamos cuántos registros hay para el primer caso -> Carga == 0

In [None]:
data.loc[
    (data['tipo_elem'] == 'M30')
    & (data['vmed'] == 0)
    & (data['carga'] == 0),
    ['tipo_elem', 'vmed', 'intensidad', 'carga']]

Unnamed: 0,tipo_elem,vmed,intensidad,carga
978,M30,0.0,0,0
2223,M30,0.0,0,0
3953,M30,0.0,0,0
4911,M30,0.0,0,0
5584,M30,0.0,0,0
...,...,...,...,...
21695943,M30,0.0,0,0
35016973,M30,0.0,13,0
35016979,M30,0.0,12,0
35017145,M30,0.0,12,0


#### Veamos cuántos registros hay para el segundo caso -> Carga != 0

In [None]:
data.loc[
    (data['tipo_elem'] == 'M30')
    & (data['vmed'] == 0)
    & (data['carga'] != 0),
    ['tipo_elem', 'vmed', 'intensidad', 'carga']]

Unnamed: 0,tipo_elem,vmed,intensidad,carga
38116953,M30,0.0,4,1
25072316,M30,0.0,56,44
25099135,M30,0.0,8,11
521753,M30,0.0,4,3
25109272,M30,0.0,77,9
...,...,...,...,...
48176375,M30,0.0,27,1
48176559,M30,0.0,119,4
22647933,M30,0.0,8,85
49302057,M30,0.0,5,1


#### Calculamos ahora el número de registros de vmed != 0 para tipo_elem == 'M30'


In [None]:
data.loc[
    (data['tipo_elem'] == 'M30')
    & (data['vmed'] != 0)
    & (data['carga'] == 0),
    ['tipo_elem', 'vmed', 'intensidad', 'carga']]

Unnamed: 0,tipo_elem,vmed,intensidad,carga
0,M30,59.0,3660,0
1,M30,59.0,3660,0
2,M30,59.0,3660,0
3,M30,59.0,3660,0
4,M30,59.0,3660,0
...,...,...,...,...
49303853,M30,5.0,5,0
49303854,M30,26.0,21,0
50990072,M30,10.0,12,0
51006265,M30,3.0,4,0


In [None]:
data.loc[
    (data['tipo_elem'] == 'M30')
    & (data['vmed'] != 0)
    & (data['carga'] != 0),
    ['tipo_elem', 'vmed', 'intensidad', 'carga']]

Unnamed: 0,tipo_elem,vmed,intensidad,carga
381133,M30,91.0,1032,24
381134,M30,91.0,1101,26
381135,M30,90.0,1024,25
381136,M30,89.0,764,17
381137,M30,89.0,581,13
...,...,...,...,...
51012041,M30,64.0,339,11
51012042,M30,61.0,288,10
51012043,M30,60.0,308,11
51012044,M30,56.0,257,8


#### Por tanto, para valores de tipo_elem != 'M30'

In [None]:
data.loc[data['tipo_elem'] != 'M30'].shape[0]

47295726

In [None]:
mean_vmed_M30 = data.loc[(data['tipo_elem'] == 'M30')].mean()