02 - Limpieza y Validación de Datos del Dataset - 'TERMINALES_ALMACENAMIENTO_MEX' para los Tanques de Alamacenamiento.

Objetivo: Preparar el Dataset para su posterior análisis e indagar y tratar los posibles valores faltantes o nulos.

IMPORTACIÓN LIBRERÍAS

In [162]:
import numpy as np
import pandas as pd
import pyprojroot
import os
from pathlib import Path
pd.set_option("display.float_format", "{:,.0f}".format)

Verificación de ruta para la importación de archivos

In [163]:
root = pyprojroot.here()
data_raw = root/'data'/'raw'
print(data_raw)

/mnt/d/CURSOS/IA_DATA_SCIENCE/PROYECTOS_CIENCIA_DATOS/PROYECTOS/TERMINALES_ALMACENAMIENTO_MEX/data/raw


CARGA DATOS

In [164]:
df_tanques_terminales = (
    pd.read_excel(data_raw/'Terminales_Almacenamiento_México.xlsx'
                  , sheet_name='Tanques_Terminales')
)

EXPLORACIÓN INICIAL

Mostrar las primeras 5 filas

In [165]:
df_tanques_terminales.head()

Unnamed: 0,ID_Terminal,ID_Tanque_Local,Tipo_Tanque,Subtipo_Tanque,Capacidad_Tanque_barriles,Cantidad_Tanques
0,TAR_ACG_GRO,TV_006,Cilíndrico Vertical Atmosférico,Membrana Flotante,30000,1
1,TAR_ACG_GRO,TV_011,Cilíndrico Vertical Atmosférico,Membrana Flotante,55000,1
2,TAR_ACG_GRO,TV_260,Cilíndrico Vertical Atmosférico,Membrana Flotante,10000,1
3,TAR_ACG_GRO,TV_261,Cilíndrico Vertical Atmosférico,Membrana Flotante,10000,1
4,TAR_ACG_GRO,TV_386,Cilíndrico Vertical Atmosférico,Membrana Flotante,30000,1


Mostras el tipo de dato de las variables/columnas

In [166]:
df_tanques_terminales.dtypes

ID_Terminal                  object
ID_Tanque_Local              object
Tipo_Tanque                  object
Subtipo_Tanque               object
Capacidad_Tanque_barriles     int64
Cantidad_Tanques              int64
dtype: object

Estadísticas básicas de inicio rápido

In [167]:
df_tanques_terminales.describe()

Unnamed: 0,Capacidad_Tanque_barriles,Cantidad_Tanques
count,731,731
mean,44030,1
std,54915,0
min,500,1
25%,10000,1
50%,20000,1
75%,55000,1
max,560000,2


Mostrar valores faltantes

In [168]:
df_tanques_terminales.isnull().sum()

ID_Terminal                   0
ID_Tanque_Local               0
Tipo_Tanque                   0
Subtipo_Tanque               70
Capacidad_Tanque_barriles     0
Cantidad_Tanques              0
dtype: int64

TRATAMIENTO DE VALORES NULOS

Creación de la copia del df_tanques_terminales para su limpieza y validación

In [169]:
df_tanques_terminales_copy = df_tanques_terminales.copy()

Verificar que tipo de filas/observaciones tienen valores faltantes en relación a la columna "Subtipo_Tanque"

In [170]:
df_tanques_terminales_copy[df_tanques_terminales_copy['Subtipo_Tanque'].isna()]

Unnamed: 0,ID_Terminal,ID_Tanque_Local,Tipo_Tanque,Subtipo_Tanque,Capacidad_Tanque_barriles,Cantidad_Tanques
49,TAR_BLP_VER,TE_1,Esférico,,10000,1
95,TAR_CLP_CHS,TE_1,Esférico,,10000,1
96,TAR_CLP_CHS,TE_2,Esférico,,10000,1
97,TAR_CLP_CHS,TE_3,Esférico,,10000,1
98,TAR_CLP_CHS,TE_4,Esférico,,10000,1
...,...,...,...,...,...,...
609,TAR_TLP_SIN,TC_1,Criogénico,,200000,1
687,TAR_VER_VER,TH_1,Horizontal,,500,1
688,TAR_VER_VER,TH_2,Horizontal,,500,1
695,TAR_VIC_TAM,TV_6,Cilíndrico Vertical Atmosférico,,30000,1


Ver la cantidad de datos de la columna "Tipo_Tanque" en relación a los valores faltantes

In [171]:
null_values_tanques_terminales = (
    df_tanques_terminales_copy[df_tanques_terminales_copy['Subtipo_Tanque']
                               .isin(['NA', 'NaN'])
                               | df_tanques_terminales_copy['Subtipo_Tanque']
                               .isnull()]
)

count_types_null_values = (
    null_values_tanques_terminales['Tipo_Tanque']
    .value_counts()
)

count_types_null_values

Tipo_Tanque
Vertical                             25
Esférico                             15
Horizontal                           11
Cilíndrico Horizontal Atmosférico     7
Cilíndrico Vertical Atmosférico       7
Vertical Criogénico                   4
Criogénico                            1
Name: count, dtype: int64

Proporción

In [172]:
proportion_null_values = (
    (count_types_null_values /len(null_values_tanques_terminales)) * 100

)
proportion_null_values

Tipo_Tanque
Vertical                            36
Esférico                            21
Horizontal                          16
Cilíndrico Horizontal Atmosférico   10
Cilíndrico Vertical Atmosférico     10
Vertical Criogénico                  6
Criogénico                           1
Name: count, dtype: float64

Comparación de resultados finales faltantes

In [173]:
null_values_result = pd.DataFrame({
    'Cantidad_faltante(s)': count_types_null_values,
    'Proporción (%)': proportion_null_values.round(2)
})
null_values_result

Unnamed: 0_level_0,Cantidad_faltante(s),Proporción (%)
Tipo_Tanque,Unnamed: 1_level_1,Unnamed: 2_level_1
Vertical,25,36
Esférico,15,21
Horizontal,11,16
Cilíndrico Horizontal Atmosférico,7,10
Cilíndrico Vertical Atmosférico,7,10
Vertical Criogénico,4,6
Criogénico,1,1


Conteo de valores completos y nulos por tipo de columna/variable

In [174]:
non_null_counts = df_tanques_terminales_copy.notnull().sum()
null_counts = df_tanques_terminales_copy.isnull().sum()


Proporción de valores nulos y valores completos

In [175]:
non_null_percent = (
    (non_null_counts/len(df_tanques_terminales_copy))*100
)

null_counts_percent = (
    (null_counts/len(df_tanques_terminales_copy))*100
)

Comparación de valores completos y nulos por tipo de columa/variable 

In [176]:
missing_comparasion_values = pd.DataFrame({
    'Valores_completos': non_null_counts,
    'Valores_nulos': null_counts,
    'Proporción_valores_completos (%)': non_null_percent,
    'Proporción_valores_nulos (%)': non_null_percent,
}).sort_values(by='Proporción_valores_nulos (%)', ascending=False)

missing_comparasion_values

Unnamed: 0,Valores_completos,Valores_nulos,Proporción_valores_completos (%),Proporción_valores_nulos (%)
ID_Terminal,731,0,100,100
ID_Tanque_Local,731,0,100,100
Tipo_Tanque,731,0,100,100
Capacidad_Tanque_barriles,731,0,100,100
Cantidad_Tanques,731,0,100,100
Subtipo_Tanque,661,70,90,90


Si bien se podría eliminar los valores faltantes en la columna/variable "Subtipo_Tanque" debido a que solo representa el 10% del total, se procede a imputarlos para una mejor optimización.

In [177]:
df_tanques_terminales_copy['Subtipo_Tanque'] = (
    df_tanques_terminales_copy['Subtipo_Tanque']
    .fillna('No especificado')
)

VALIDACIONES_FINALES

Verificación de valores nulos para el df_tanques_terminales_copy

In [178]:
df_tanques_terminales_copy_clean = df_tanques_terminales_copy
df_tanques_terminales_copy_clean.isnull().sum()

ID_Terminal                  0
ID_Tanque_Local              0
Tipo_Tanque                  0
Subtipo_Tanque               0
Capacidad_Tanque_barriles    0
Cantidad_Tanques             0
dtype: int64

EXPORTACIÓN A CSV

In [179]:
df_tanques_terminales_clean = (
    df_tanques_terminales_copy_clean.to_csv('../data/processed/tanques_terminales_clean.csv',
                                            index=False, encoding="utf-8")
)