## ***Limpieza y procesamiento de datos***

In [63]:
# Cargar las librerias necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [64]:
# Cargar el dataset 
df_siem = pd.read_csv('../data/raw/datosgob_2024.csv')
df_siem.head()

Unnamed: 0,razon_social,estado,municipio,domicilio,colonia,cp,telefono,e_mail,giro,scian,rango_de_empleados,registrado_por,fn_razon_social,fn_telefono,fn_e_mail,fn_giro,estado_etq
0,KINAM,México,Texcoco,Avenida HIDALGO 703 int 101-1,Colonia SAN SEBASTIAN,56130,5949565441,miguel.duran@kinamtrailers.com.mx,autotanques de acero al carbon,339999,11 a 50,CAMARA NACIONAL DE LA INDUSTRIA DE TRANSFORMACION,,5949565000.0,,,Estado de México
1,SANBORNS SUC PLAZA SAN PABLO TEXCOCO,México,Texcoco,Avenida JUÁREZ NTE 413 int -,Colonia CENTRO,56100,5553259900,,RESTAURANTE,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...,,5553260000.0,,,Estado de México
2,BURGER KING TEXCOCO,México,Texcoco,Avenida JUAREZ SUR 340 int -,Colonia SAN PEDRO,56189,5575832000,,RESTAURANTE,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...,,5575832000.0,,,Estado de México
3,ITALIANNIS,México,Texcoco,Calle MOLINO DE LAS FLORES S/N int -,Colonia SANTA CRUZ DE ARRIBA,56151,5575832000,fernando.trueba@alsea.com.mx,RESTAURANTE,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...,,5575832000.0,,,Estado de México
4,BURGER KING PUERTA TEXCOCO,México,Texcoco,Carretera MEXICO-TEXCOCO KM 30.5 int -,Colonia SANTIAGO CUAUTLALPAN,56101,5575832000,,RESTAURANTE,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...,,5575832000.0,,,Estado de México


#### **Verificar la cantidad de filas y columnas antes de la limpieza y procesamiento**

In [65]:
filas, columnas = df_siem.shape
print(f'{"Filas":<10}{"Columnas"}')
print(f'{filas:<10}{columnas:>7}')

Filas     Columnas
147851         17


##### **Eliminar Columnas innecesarios para el análisis**

In [66]:
columnas_eliminar = ['cp','telefono', 'e_mail', 'fn_telefono', 'fn_e_mail', 'fn_razon_social', 'fn_giro', 'estado_etq']
n = 1

print('Columnas antes de eliminar')
for nombre_columnas in df_siem.columns:
    print(f'{n}.-{nombre_columnas}')
    n += 1

df_siem.drop(columnas_eliminar, axis=1, inplace=True)

print('\nColumnas después de eliminar')
i = 1 
for columna_nmombre in df_siem.columns:
    print(f'{i}.-{columna_nmombre}')
    i += 1


Columnas antes de eliminar
1.-razon_social
2.-estado
3.-municipio
4.-domicilio
5.-colonia
6.-cp
7.-telefono
8.-e_mail
9.-giro
10.-scian
11.-rango_de_empleados
12.-registrado_por
13.-fn_razon_social
14.-fn_telefono
15.-fn_e_mail
16.-fn_giro
17.-estado_etq

Columnas después de eliminar
1.-razon_social
2.-estado
3.-municipio
4.-domicilio
5.-colonia
6.-giro
7.-scian
8.-rango_de_empleados
9.-registrado_por


***Se eliminaron 8 columnas***

##### **Eliminar valores nulos**

In [67]:
valores_nulos = df_siem.isnull().sum()
print(f'{"Columnas":<10}{"Cant. Nulos":>20}')
print(valores_nulos)

Columnas           Cant. Nulos
razon_social           71
estado                  0
municipio               0
domicilio               0
colonia                 0
giro                  257
scian                   0
rango_de_empleados      0
registrado_por          0
dtype: int64


In [68]:
print('Filas antes de eliminar valores nulos')
print(f'Filas: {filas}')


print('\nFilas después de eliminar valores nulos')
df_siem_sin_nulos = df_siem.dropna()
filas_n, columnas_n = df_siem_sin_nulos.shape
print(f'Filas: {filas_n}')


Filas antes de eliminar valores nulos
Filas: 147851

Filas después de eliminar valores nulos
Filas: 147523


In [69]:
valores_nulos = df_siem_sin_nulos.isnull().sum()
print(f'{"Columnas":<10}{"Cant. Nulos":>20}')
print(valores_nulos)

Columnas           Cant. Nulos
razon_social          0
estado                0
municipio             0
domicilio             0
colonia               0
giro                  0
scian                 0
rango_de_empleados    0
registrado_por        0
dtype: int64


##### ***Duplicados***

In [70]:
print(f'{"Columas":<20}{"Cant. Duplicados"}')
for columna_nombre in df_siem_sin_nulos.columns:
    valores_duplicados = df_siem_sin_nulos[columna_nombre].duplicated().sum()
    print(f'{columna_nombre:<20}{valores_duplicados:>15}')

Columas             Cant. Duplicados
razon_social                  33695
estado                       147491
municipio                    146385
domicilio                     10718
colonia                      117548
giro                         115876
scian                        146843
rango_de_empleados           147519
registrado_por               147375


In [71]:
filas_duplicadas = df_siem_sin_nulos.duplicated().sum()
filas_duplicadas_mask = df_siem_sin_nulos.duplicated()


print(f'Numero total de duplicados: {filas_duplicadas}')

df_siem_sin_nulos_duplicados = df_siem_sin_nulos[filas_duplicadas_mask]
df_siem_sin_nulos_duplicados.head(5)

Numero total de duplicados: 497


Unnamed: 0,razon_social,estado,municipio,domicilio,colonia,giro,scian,rango_de_empleados,registrado_por
1180,NUEVA WALMART DE MEXICO S DE RL DE CV,México,Tlalnepantla de Baz,Avenida HIDALGO S/N int NA,Colonia INDUSTRIAL TLAXCOLPAN,TIENDA DE CONVENIENCIA,462111,11 a 50,CANACO SERVYTUR TLALNEPANTLA
4450,TESILLO,México,Zumpango,Calle MINA 56 int SN,Barrio SAN JUAN,PAPELERIA,465311,0 a 10,CANACO SERVYTUR CUAUTITLAN ZUMPANGO
4710,hules angel,México,Cuautitlán Izcalli,Privada rio concepcion sn int sn,Colonia colinas del lago,hule automotriz e industrial,468211,0 a 10,CANACO SERVYTUR CUAUTITLAN ZUMPANGO
5260,JIMENEZ,Michoacán de Ocampo,Contepec,Calle N/A N/A int NA,Colonia N/A,COMERCIO,461110,0 a 10,CANACO SERVYTUR MORELIA
5673,AGUILAR,Michoacán de Ocampo,Maravatío,Calle San Francisco N/A int N/A,Colonia N/A,ABARROTES,431110,0 a 10,CANACO SERVYTUR MORELIA


In [78]:
print('Filas antes de eliminar duplicados')
print(f'Filas: {filas_n}')


print('\nFilas después de eliminar duplicados')
df_siem_sin_nulos_sin_duplicados = df_siem_sin_nulos.drop_duplicates()
filas_n_d,columnas_n_d = df_siem_sin_nulos_sin_duplicados.shape
print(f'Filas: {filas_n_d}')

# Verificar la filas duplicadas
filas_dupli = df_siem_sin_nulos_sin_duplicados.duplicated().sum()
print(f'\nFilas duplicadas: {filas_dupli}')

Filas antes de eliminar duplicados
Filas: 147523

Filas después de eliminar duplicados
Filas: 147026

Filas duplicadas: 0
