01 - Limpieza y Validación de Datos del Dataset - 'TERMINALES_ALMACENAMIENTO_MEX' para las Terminales de México.

Objetivo: Preparar el Dataset para su posterior análisis e indagar y tratar los posibles valores faltantes o nulos.

IMPORTACIÓN DE LIBRERÍAS

In [10]:
import pandas as pd
import pyprojroot
from pathlib import Path
import os
pd.set_option("display.float_format", "{:,.0f}".format)

Verificación de ruta para la importación de archivos

In [11]:
root = pyprojroot.here()
data_raw = root/'data'/'raw'
print(data_raw)

/mnt/d/CURSOS/IA_DATA_SCIENCE/PROYECTOS_CIENCIA_DATOS/PROYECTOS/TERMINALES_ALMACENAMIENTO_MEX/data/raw


CARGA DE DATOS

In [12]:
df_terminales_mexico = pd.read_excel(data_raw / 'Terminales_Almacenamiento_México.xlsx')

EXPLORACIÓN INICIAL

Mostrar las primeras 5 filas/observaciones

In [13]:
df_terminales_mexico.head()

Unnamed: 0,ID_Terminal,Nombre_Terminal,Tipo_Terminal,Región,Estado,Tipos_Productos_Almacenar,Año,Capacidad_Diseño_barriles,Capacidad_Operativa_barriles
0,TAR_ACG_GRO,Acapulco,Terrestre,Sur,Guerrero,Gasolina;Diésel,2015,235000,145262
1,TAR_AGS_AGS,Aguascalientes,Terrestre,Occidente,Aguascalientes,Gasolina;Diésel,2015,105000,68241
2,TAR_AÑL_CDM,Añil,Terrestre,Centro,Ciudad de México,Gasolina;Diésel,2015,235000,158343
3,TAR_AZC_CDM,Azcapotzalco,Terrestre,Centro,Ciudad de México,Gasolina;Diésel;Turbosina,2015,1510000,1107981
4,TAR_BDM_CDM,Barranca del Muerto,Terrestre,Centro,Ciudad de México,Gasolina;Diésel,2015,125000,91526


Mostrar el tipo de dato para cada variable/columna

In [14]:
df_terminales_mexico.dtypes

ID_Terminal                      object
Nombre_Terminal                  object
Tipo_Terminal                    object
Región                           object
Estado                           object
Tipos_Productos_Almacenar        object
Año                               int64
Capacidad_Diseño_barriles         int64
Capacidad_Operativa_barriles    float64
dtype: object

Mostrar estadísticas básicas de inicio rápido

In [16]:
df_terminales_mexico.describe()

Unnamed: 0,Año,Capacidad_Diseño_barriles,Capacidad_Operativa_barriles
count,89,89,79
mean,2015,365758,305811
std,0,696145,633770
min,2015,4000,5926
25%,2015,60000,58443
50%,2015,135000,112462
75%,2015,328500,258918
max,2015,4805000,4370333


Mostrar valores nulos

In [17]:
df_terminales_mexico.isnull().sum()

ID_Terminal                      0
Nombre_Terminal                  0
Tipo_Terminal                    0
Región                           0
Estado                           0
Tipos_Productos_Almacenar        0
Año                              0
Capacidad_Diseño_barriles        0
Capacidad_Operativa_barriles    10
dtype: int64

TRATAMIENTO DE VALORES NULOS

Creación de copia del df_terminales_mexico para sus modificaciones correspondientes

In [18]:
df_terminales_mexico_copy = df_terminales_mexico.copy()

Verificar que filas/observaciones tienen valores faltantes/nulos basadas en la columna analizada ("Capacidad_Operativa_barriles")

In [21]:
df_terminales_mexico_copy[df_terminales_mexico_copy['Capacidad_Operativa_barriles'].isna()]

Unnamed: 0,ID_Terminal,Nombre_Terminal,Tipo_Terminal,Región,Estado,Tipos_Productos_Almacenar,Año,Capacidad_Diseño_barriles,Capacidad_Operativa_barriles
5,TAR_CLP_CHS,Cactus GLP,Gas LP,Sur,Chiapas,Gas Licuado de Petróleo,2015,40000,
30,TAR_MLP_TAM,Madero GLP,Gas LP,Noreste,Tamaulipas,Gas Licuado de Petróleo,2015,15000,
47,TAR_PLP_VER,Pajaritos GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,770464,
56,TAR_PLP_PUE,Puebla GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000,
60,TAR_RLP_BJ,Rosarito GLP,Gas LP,Noroeste,Baja California,Gas Licuado de Petróleo,2015,40000,
64,TAR_OLP_OAX,Salina Cruz Oaxaca GLP,Gas LP,Sur,Oaxaca,Gas Licuado de Petróleo,2015,4000,
68,TAR_SMT_PUE,San Martín Texmelucan GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000,
74,TAR_BLP_VER,Tierra Blanca GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,10000,
77,TAR_TLP_SIN,Topolobampo GLP,Gas LP,Noroeste,Sinaloa,Gas Licuado de Petróleo,2015,200000,
78,TAR_TLP_HGO,Tula GLP,Gas LP,Centro,Hidalgo,Gas Licuado de Petróleo,2015,60000,


Debido a que la columna "Tipo_Terminal" con el dato de Gas LP, son la que tiene los valores faltantes, se procede a eliminarla y almacenarla en un DataFrame por separado

In [24]:
df_terminales_gas_lp = df_terminales_mexico_copy[
    df_terminales_mexico_copy['Tipo_Terminal'] == 'Gas LP']
df_terminales_gas_lp

Unnamed: 0,ID_Terminal,Nombre_Terminal,Tipo_Terminal,Región,Estado,Tipos_Productos_Almacenar,Año,Capacidad_Diseño_barriles,Capacidad_Operativa_barriles
5,TAR_CLP_CHS,Cactus GLP,Gas LP,Sur,Chiapas,Gas Licuado de Petróleo,2015,40000,
30,TAR_MLP_TAM,Madero GLP,Gas LP,Noreste,Tamaulipas,Gas Licuado de Petróleo,2015,15000,
47,TAR_PLP_VER,Pajaritos GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,770464,
56,TAR_PLP_PUE,Puebla GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000,
60,TAR_RLP_BJ,Rosarito GLP,Gas LP,Noroeste,Baja California,Gas Licuado de Petróleo,2015,40000,
64,TAR_OLP_OAX,Salina Cruz Oaxaca GLP,Gas LP,Sur,Oaxaca,Gas Licuado de Petróleo,2015,4000,
68,TAR_SMT_PUE,San Martín Texmelucan GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000,
74,TAR_BLP_VER,Tierra Blanca GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,10000,
77,TAR_TLP_SIN,Topolobampo GLP,Gas LP,Noroeste,Sinaloa,Gas Licuado de Petróleo,2015,200000,
78,TAR_TLP_HGO,Tula GLP,Gas LP,Centro,Hidalgo,Gas Licuado de Petróleo,2015,60000,


Creación de la copia del df_terminales_gas_lp para su tratamiento de limpieza

In [25]:
df_terminales_gas_lp_copy = df_terminales_gas_lp.copy()

Se procede a eliminar la columna "Capacidad_Operativa_barriles" del df_terminales_gas_lp_copy, debido a que no hay información suficiente o dato para poder imputar los valores faltantes

In [26]:
df_terminales_gas_lp_copy_clean = df_terminales_gas_lp_copy.drop(columns=['Capacidad_Operativa_barriles'])
df_terminales_gas_lp_copy_clean

Unnamed: 0,ID_Terminal,Nombre_Terminal,Tipo_Terminal,Región,Estado,Tipos_Productos_Almacenar,Año,Capacidad_Diseño_barriles
5,TAR_CLP_CHS,Cactus GLP,Gas LP,Sur,Chiapas,Gas Licuado de Petróleo,2015,40000
30,TAR_MLP_TAM,Madero GLP,Gas LP,Noreste,Tamaulipas,Gas Licuado de Petróleo,2015,15000
47,TAR_PLP_VER,Pajaritos GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,770464
56,TAR_PLP_PUE,Puebla GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000
60,TAR_RLP_BJ,Rosarito GLP,Gas LP,Noroeste,Baja California,Gas Licuado de Petróleo,2015,40000
64,TAR_OLP_OAX,Salina Cruz Oaxaca GLP,Gas LP,Sur,Oaxaca,Gas Licuado de Petróleo,2015,4000
68,TAR_SMT_PUE,San Martín Texmelucan GLP,Gas LP,Centro,Puebla,Gas Licuado de Petróleo,2015,20000
74,TAR_BLP_VER,Tierra Blanca GLP,Gas LP,Golfo,Veracruz,Gas Licuado de Petróleo,2015,10000
77,TAR_TLP_SIN,Topolobampo GLP,Gas LP,Noroeste,Sinaloa,Gas Licuado de Petróleo,2015,200000
78,TAR_TLP_HGO,Tula GLP,Gas LP,Centro,Hidalgo,Gas Licuado de Petróleo,2015,60000


Verificación de valores nulos para el df_terminales_gas_lp_copy_clean

In [27]:
df_terminales_gas_lp_copy_clean.isnull().sum()

ID_Terminal                  0
Nombre_Terminal              0
Tipo_Terminal                0
Región                       0
Estado                       0
Tipos_Productos_Almacenar    0
Año                          0
Capacidad_Diseño_barriles    0
dtype: int64

Se procede a eliminar los valores faltantes junto con las observaciones/filas del df_terminales_mexico_copy

In [28]:
df_terminales_mexico_copy_clean = df_terminales_mexico_copy.dropna(
    subset=['Capacidad_Operativa_barriles'],
    how='any'
)

VALIDACIONES FINALES

Verificación de valores nulos para el df_terminales_mexico_copy_clean

In [29]:
df_terminales_mexico_copy_clean.isnull().sum()

ID_Terminal                     0
Nombre_Terminal                 0
Tipo_Terminal                   0
Región                          0
Estado                          0
Tipos_Productos_Almacenar       0
Año                             0
Capacidad_Diseño_barriles       0
Capacidad_Operativa_barriles    0
dtype: int64

Convertir el tipo de data de la columna "Capacidad_Operativa_barriles" de float64 a int64 para una mejor optimización

In [36]:
df_terminales_mexico_copy_clean['Capacidad_Operativa_barriles'] = df_terminales_mexico_copy_clean[
    'Capacidad_Operativa_barriles'].astype(int)
df_terminales_mexico_copy_clean.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_terminales_mexico_copy_clean['Capacidad_Operativa_barriles'] = df_terminales_mexico_copy_clean[


ID_Terminal                     object
Nombre_Terminal                 object
Tipo_Terminal                   object
Región                          object
Estado                          object
Tipos_Productos_Almacenar       object
Año                              int64
Capacidad_Diseño_barriles        int64
Capacidad_Operativa_barriles     int64
dtype: object

EXPORTACIÓN A CSV

In [39]:
df_terminales_mexico_clean = df_terminales_mexico_copy_clean.to_csv('../data/processed/terminales_méxico_clean.csv',
                                                                    index='False', encoding="utf-8")
df_terminales_gas_lp_clean = df_terminales_gas_lp_copy_clean.to_csv('../data/processed/terminales_gaslp_clean.csv',
                                                                    index='False', encoding='utf-8')