# Transformación y limpieza de datos

In [217]:
# Cargar librerías necesarias
import pandas as pd
import datetime as dt

In [218]:
# Abrimos los archivos
df_agricultura = pd.read_csv("data/df_agricultura.csv")
df_ganaderia = pd.read_csv("data/df_pecuaria.csv")
df_pesca = pd.read_csv("data/df_pesca.csv")
df_imss = pd.read_csv("data/df_imss.csv")

## 1. Tipo de datos

### 1.1 Agricultura

In [219]:
# Exploramos el DataFrame
df_agricultura.head()

Unnamed: 0.1,Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,...,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,0,2018,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,44,Rye grass en verde,...,0.0,0.0,0.0,0.0,,0.0,,,,
1,1,2018,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,52,Sahuaripa,46,Sorgo forrajero en verde,...,962.0,0.0,23275.2,24.19,840.0,19551.17,,,,
2,2,2018,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,50,Trigo forrajero en verde,...,0.0,0.0,0.0,0.0,,0.0,,,,
3,3,2018,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,69,YECORA,62,Litchi,...,0.0,0.0,0.0,0.0,,0.0,,,,
4,4,2018,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,69,Yécora,4,Avena forrajera en verde,...,8.0,0.0,56.8,7.1,870.0,49.42,,,,


In [220]:
df_agricultura = df_agricultura.drop(columns=['Unnamed: 0'])
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5880 entries, 0 to 5879
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ANO          5880 non-null   int64  
 1   CIERREYAVAN  5880 non-null   object 
 2   CICLO        5880 non-null   int64  
 3   CDDR         5880 non-null   int64  
 4   NDDR         5880 non-null   object 
 5   CMUN         5880 non-null   int64  
 6   NMUN         5880 non-null   object 
 7   CVECUL       5880 non-null   int64  
 8   CULTIVO      5880 non-null   object 
 9   SUPSEM       5880 non-null   float64
 10  SUPCOSE      5880 non-null   float64
 11  SUPSINI      5880 non-null   float64
 12  PRODTON      5880 non-null   float64
 13  RENDMNTO     5865 non-null   float64
 14  PMR          5713 non-null   float64
 15  VALPROD      5880 non-null   float64
 16  CVMES        115 non-null    float64
 17  NMES         115 non-null    object 
 18  CVEVAR       9 non-null      float64
 19  DESVAR

In [221]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CVECUL", "CVMES"]
columnas_numericas_float = ["SUPSEM", "SUPCOSE", "SUPSINI", "PRODTON", "RENDMNTO", "PMR", "VALPROD"]
columnas_categoricas = ["CIERREYAVAN", "NDDR", "CDDR", "CMUN", "NMUN", "CVECUL", "CULTIVO", "NMES", "CVEVAR", "DESVAR"]

# Convertimos las variables al tipo adecuado
df_agricultura[columnas_numericas_int] = df_agricultura[columnas_numericas_int].astype(int, errors = 'ignore')
df_agricultura[columnas_numericas_float] = df_agricultura[columnas_numericas_float].astype(float)
df_agricultura[columnas_categoricas] = df_agricultura[columnas_categoricas].astype("category")
df_agricultura['ANO'] = pd.to_datetime(df_agricultura['ANO'], format='%Y')

In [222]:
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5880 entries, 0 to 5879
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   ANO          5880 non-null   datetime64[ns]
 1   CIERREYAVAN  5880 non-null   category      
 2   CICLO        5880 non-null   int64         
 3   CDDR         5880 non-null   category      
 4   NDDR         5880 non-null   category      
 5   CMUN         5880 non-null   category      
 6   NMUN         5880 non-null   category      
 7   CVECUL       5880 non-null   category      
 8   CULTIVO      5880 non-null   category      
 9   SUPSEM       5880 non-null   float64       
 10  SUPCOSE      5880 non-null   float64       
 11  SUPSINI      5880 non-null   float64       
 12  PRODTON      5880 non-null   float64       
 13  RENDMNTO     5865 non-null   float64       
 14  PMR          5713 non-null   float64       
 15  VALPROD      5880 non-null   float64       
 16  CVMES 

In [223]:
df_agricultura.head()

Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,SUPSEM,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,44,Rye grass en verde,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
1,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,52,Sahuaripa,46,Sorgo forrajero en verde,962.0,962.0,0.0,23275.2,24.19,840.0,19551.17,,,,
2,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,50,Trigo forrajero en verde,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
3,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,69,YECORA,62,Litchi,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
4,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,69,Yécora,4,Avena forrajera en verde,8.0,8.0,0.0,56.8,7.1,870.0,49.42,,,,


### 1.2 Ganadería

In [224]:
# Exploramos el DataFrame
df_ganaderia.head()

Unnamed: 0.1,Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,0,2022,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,1,BOVINO,CARNE,TONELADAS,287.538,25969.2
1,1,2022,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,2,BOVINO,LECHE,MILES DE LITROS,503.255,3908.58
2,2,2022,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,3,PORCINO,CARNE,TONELADAS,372.092,15013.1
3,3,2022,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,6,OVINO,CARNE,TONELADAS,1.091,77.795
4,4,2022,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,9,ABEJA,MIEL,TONELADAS,1.27,67.11


In [225]:
# Verificamos los tipos de variables
df_ganaderia = df_ganaderia.drop(columns=["Unnamed: 0"])
df_ganaderia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1610 entries, 0 to 1609
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ANO        1610 non-null   int64  
 1   CIERYAVAN  1610 non-null   object 
 2   CDDR       1610 non-null   int64  
 3   NDDR       1610 non-null   object 
 4   CMUN       1610 non-null   int64  
 5   NMUN       1610 non-null   object 
 6   CVEMES     1610 non-null   int64  
 7   NMES       1610 non-null   object 
 8   CVESPE     1610 non-null   int64  
 9   ESPECIE    1610 non-null   object 
 10  PRODUC     1610 non-null   object 
 11  UMED       1610 non-null   object 
 12  VOLTON     1610 non-null   float64
 13  VALPROD    1610 non-null   float64
dtypes: float64(2), int64(5), object(7)
memory usage: 176.2+ KB


In [226]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CDDR", "CMUN", "CVEMES", "CVESPE"]
columnas_numericas_float = ["VOLTON", "VALPROD"]
columnas_categoricas = ["CIERYAVAN", "NDDR", "NMUN", "ESPECIE", "PRODUC", "UMED"]

# Convertimos las variables al tipo adecuado
df_ganaderia[columnas_numericas_int] = df_ganaderia[columnas_numericas_int].astype(int)
df_ganaderia[columnas_numericas_float] = df_ganaderia[columnas_numericas_float].astype(float)
df_ganaderia[columnas_categoricas] = df_ganaderia[columnas_categoricas].astype("category")
df_ganaderia['ANO'] = pd.to_datetime(df_ganaderia['ANO'], format='%Y')

In [227]:
df_ganaderia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1610 entries, 0 to 1609
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   ANO        1610 non-null   datetime64[ns]
 1   CIERYAVAN  1610 non-null   category      
 2   CDDR       1610 non-null   int64         
 3   NDDR       1610 non-null   category      
 4   CMUN       1610 non-null   int64         
 5   NMUN       1610 non-null   category      
 6   CVEMES     1610 non-null   int64         
 7   NMES       1610 non-null   object        
 8   CVESPE     1610 non-null   int64         
 9   ESPECIE    1610 non-null   category      
 10  PRODUC     1610 non-null   category      
 11  UMED       1610 non-null   category      
 12  VOLTON     1610 non-null   float64       
 13  VALPROD    1610 non-null   float64       
dtypes: category(6), datetime64[ns](1), float64(2), int64(4), object(1)
memory usage: 114.1+ KB


In [228]:
df_ganaderia.head()

Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,1,BOVINO,CARNE,TONELADAS,287.538,25969.2
1,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,2,BOVINO,LECHE,MILES DE LITROS,503.255,3908.58
2,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,3,PORCINO,CARNE,TONELADAS,372.092,15013.1
3,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,6,OVINO,CARNE,TONELADAS,1.091,77.795
4,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,9,ABEJA,MIEL,TONELADAS,1.27,67.11


### 1.3 Pesca

In [229]:
# Exploramos el DataFrame
df_pesca.head()

Unnamed: 0.1,Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,0,2022,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,42,OTRAS,68,ABULÓN,2,COSECHA,0,0,0
1,1,2022,144,DDR 144 HERMOSILLO,30,2613,HERMOSILLO,42,OTRAS,68,ABULÓN,2,COSECHA,0,0,0
2,2,2022,139,DDR 139 CABORCA,48,2607,PUERTO PEÑASCO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,588271,588271,1769613
3,3,2022,139,DDR 139 CABORCA,48,2612,PUERTO LIBERTAD,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0,0,0
4,4,2022,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0,0,0


In [230]:
# Verificamos los tipos de variables
df_pesca = df_pesca.drop(columns=["Unnamed: 0"])
df_pesca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1244 entries, 0 to 1243
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ANO         1244 non-null   int64 
 1   CDDR        1244 non-null   int64 
 2   NDDR        1244 non-null   object
 3   CMUN        1244 non-null   int64 
 4   CVEOF       1244 non-null   int64 
 5   NOFICINA    1244 non-null   object
 6   CVOTRAS     1244 non-null   int64 
 7   DOTRAS      1244 non-null   object
 8   CESPE       1244 non-null   int64 
 9   ESPECIE     1244 non-null   object
 10  CVORIGEN    1244 non-null   int64 
 11  ORIGEN      1244 non-null   object
 12  PESODESEMB  1244 non-null   int64 
 13  PVIVO       1244 non-null   int64 
 14  VALOR       1244 non-null   int64 
dtypes: int64(10), object(5)
memory usage: 145.9+ KB


In [231]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CDDR", "CMUN", "CVEOF", "CVOTRAS", "CESPE", "CVORIGEN"]
columnas_numericas_float = ["PESODESEMB", "PVIVO", "VALOR"]
columnas_categoricas = ["NDDR", "NOFICINA", "DOTRAS", "ESPECIE", "ORIGEN"]

# Convertimos las variables al tipo adecuado
df_pesca[columnas_numericas_int] = df_pesca[columnas_numericas_int].astype(int)
df_pesca[columnas_numericas_float] = df_pesca[columnas_numericas_float].astype(float)
df_pesca[columnas_categoricas] = df_pesca[columnas_categoricas].astype("category")
df_pesca['ANO'] = pd.to_datetime(df_pesca['ANO'], format='%Y')

In [232]:
df_pesca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1244 entries, 0 to 1243
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ANO         1244 non-null   datetime64[ns]
 1   CDDR        1244 non-null   int64         
 2   NDDR        1244 non-null   category      
 3   CMUN        1244 non-null   int64         
 4   CVEOF       1244 non-null   int64         
 5   NOFICINA    1244 non-null   category      
 6   CVOTRAS     1244 non-null   int64         
 7   DOTRAS      1244 non-null   category      
 8   CESPE       1244 non-null   int64         
 9   ESPECIE     1244 non-null   category      
 10  CVORIGEN    1244 non-null   int64         
 11  ORIGEN      1244 non-null   category      
 12  PESODESEMB  1244 non-null   float64       
 13  PVIVO       1244 non-null   float64       
 14  VALOR       1244 non-null   float64       
dtypes: category(5), datetime64[ns](1), float64(3), int64(6)
memory usage: 10

In [233]:
df_pesca.head()

Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,2022-01-01,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,42,OTRAS,68,ABULÓN,2,COSECHA,0.0,0.0,0.0
1,2022-01-01,144,DDR 144 HERMOSILLO,30,2613,HERMOSILLO,42,OTRAS,68,ABULÓN,2,COSECHA,0.0,0.0,0.0
2,2022-01-01,139,DDR 139 CABORCA,48,2607,PUERTO PEÑASCO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,588271.0,588271.0,1769613.0
3,2022-01-01,139,DDR 139 CABORCA,48,2612,PUERTO LIBERTAD,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0.0,0.0,0.0
4,2022-01-01,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0.0,0.0,0.0


### 1.4 Empleos IMSS

In [234]:
df_imss

Unnamed: 0.1,Unnamed: 0,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes
0,168377,2,4,26,E71,0.0,1.0,101.0,S1,1,E10,W2,4,0,2018,1
1,168378,2,4,26,E71,0.0,1.0,101.0,S1,1,E11,W2,4,0,2018,1
2,168379,2,4,26,E71,0.0,1.0,101.0,S1,1,E11,W7,1,0,2018,1
3,168380,2,4,26,E71,0.0,1.0,101.0,S1,1,E12,W2,3,0,2018,1
4,168381,2,4,26,E71,0.0,1.0,101.0,S1,1,E13,W14,1,0,2018,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,3811300,27,70,26,Y96,0.0,4.0,403.0,S3,1,E9,W9,1,0,2022,12
629635,3811301,27,70,26,Y96,0.0,4.0,403.0,S3,2,E4,W4,1,0,2022,12
629636,3811302,27,70,26,Y96,0.0,4.0,403.0,S3,2,E5,W3,1,0,2022,12
629637,3811303,27,70,26,Y96,0.0,4.0,403.0,S3,2,E6,W2,1,0,2022,12


In [235]:
# Verificamos los tipos de variables
df_imss = df_imss.drop(columns=["Unnamed: 0"])
df_imss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629639 entries, 0 to 629638
Data columns (total 15 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   cve_delegacion      629639 non-null  int64  
 1   cve_subdelegacion   629639 non-null  int64  
 2   cve_entidad         629639 non-null  int64  
 3   cve_municipio       629639 non-null  object 
 4   sector_economico_1  629639 non-null  float64
 5   sector_economico_2  629639 non-null  float64
 6   sector_economico_4  629639 non-null  float64
 7   tamaño_patron       628822 non-null  object 
 8   sexo                629639 non-null  int64  
 9   rango_edad          629639 non-null  object 
 10  rango_salarial      628979 non-null  object 
 11  asegurados          629639 non-null  int64  
 12  no_trabajadores     629639 non-null  int64  
 13  año                 629639 non-null  int64  
 14  mes                 629639 non-null  int64  
dtypes: float64(3), int64(8), object(4)

In [236]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["cve_delegacion", "cve_subdelegacion", "sector_economico_1", "sector_economico_2", "sector_economico_4", "sexo", "asegurados", "no_trabajadores", "año", "mes"]
columnas_categoricas = ["tamaño_patron", "rango_edad", "rango_salarial", "cve_municipio"]

# Convertimos las variables al tipo adecuado
df_imss[columnas_numericas_int] = df_imss[columnas_numericas_int].astype(int)
df_imss[columnas_categoricas] = df_imss[columnas_categoricas].astype("category")


# Crea la columna 'fecha' combinando 'año' y 'mes'
df_imss['fecha'] = pd.to_datetime(df_imss['año'].astype(str) + '-' + df_imss['mes'].astype(str) + '-01')
df_imss['fecha'] = pd.to_datetime(df_imss['fecha'], format='%Y-%m-%d')

In [237]:
df_imss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629639 entries, 0 to 629638
Data columns (total 16 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   cve_delegacion      629639 non-null  int64         
 1   cve_subdelegacion   629639 non-null  int64         
 2   cve_entidad         629639 non-null  int64         
 3   cve_municipio       629639 non-null  category      
 4   sector_economico_1  629639 non-null  int64         
 5   sector_economico_2  629639 non-null  int64         
 6   sector_economico_4  629639 non-null  int64         
 7   tamaño_patron       628822 non-null  category      
 8   sexo                629639 non-null  int64         
 9   rango_edad          629639 non-null  category      
 10  rango_salarial      628979 non-null  category      
 11  asegurados          629639 non-null  int64         
 12  no_trabajadores     629639 non-null  int64         
 13  año                 629639 no

In [238]:
df_imss.head()

Unnamed: 0,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,2,4,26,E71,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01
1,2,4,26,E71,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01
2,2,4,26,E71,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01
3,2,4,26,E71,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01
4,2,4,26,E71,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01


## 2. Seleccion de variables y generación de una sola tabla para producción agropecuaria y pesquera de SAGARHPA

### 2.1 Agricultura

In [239]:
df_agricultura.head()

Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,SUPSEM,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,44,Rye grass en verde,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
1,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,52,Sahuaripa,46,Sorgo forrajero en verde,962.0,962.0,0.0,23275.2,24.19,840.0,19551.17,,,,
2,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,52,Sahuaripa,50,Trigo forrajero en verde,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
3,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,1,146,DDR 146 SAHUARIPA,69,YECORA,62,Litchi,0.0,0.0,0.0,0.0,0.0,,0.0,,,,
4,2018-01-01,CIERRE DE PRODUCCION AGRICOLA 2018,2,146,DDR 146 SAHUARIPA,69,Yécora,4,Avena forrajera en verde,8.0,8.0,0.0,56.8,7.1,870.0,49.42,,,,


In [240]:
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5880 entries, 0 to 5879
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   ANO          5880 non-null   datetime64[ns]
 1   CIERREYAVAN  5880 non-null   category      
 2   CICLO        5880 non-null   int64         
 3   CDDR         5880 non-null   category      
 4   NDDR         5880 non-null   category      
 5   CMUN         5880 non-null   category      
 6   NMUN         5880 non-null   category      
 7   CVECUL       5880 non-null   category      
 8   CULTIVO      5880 non-null   category      
 9   SUPSEM       5880 non-null   float64       
 10  SUPCOSE      5880 non-null   float64       
 11  SUPSINI      5880 non-null   float64       
 12  PRODTON      5880 non-null   float64       
 13  RENDMNTO     5865 non-null   float64       
 14  PMR          5713 non-null   float64       
 15  VALPROD      5880 non-null   float64       
 16  CVMES 

Vemos que las variables de mes y variedad de cultivo tienen más del 90% de datos faltantes, por lo que hemos decidido prescindir de estas variables. Además, como queremos generar un solo DataFrame con los tres DataFrames de agricultura, ganadería y pesca, necesitamos seleccionar las variables que de alguna manera son correspondientes y que nos permitirán contrastar produccion con trabajos generados.

In [241]:
# Seleccionamos las columnas de agricultura que conservaremos
columnas_agricultura =["ANO", "CDDR", "CMUN", "CVECUL", "PRODTON", "VALPROD"]
df_agricultura_seleccion = df_agricultura[columnas_agricultura]
df_agricultura_seleccion["SECTOR"] = "Agricultura"
df_agricultura_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_agricultura_seleccion["SECTOR"] = "Agricultura"


Unnamed: 0,ANO,CDDR,CMUN,CVECUL,PRODTON,VALPROD,SECTOR
0,2018-01-01,146,52,44,0.0,0.00,Agricultura
1,2018-01-01,146,52,46,23275.2,19551.17,Agricultura
2,2018-01-01,146,52,50,0.0,0.00,Agricultura
3,2018-01-01,146,69,62,0.0,0.00,Agricultura
4,2018-01-01,146,69,4,56.8,49.42,Agricultura
...,...,...,...,...,...,...,...
5875,2022-01-01,139,17,51,3700.0,33869.50,Agricultura
5876,2022-01-01,139,17,929,330.0,1270.50,Agricultura
5877,2022-01-01,139,17,930,77380.0,2473207.95,Agricultura
5878,2022-01-01,139,17,932,17100.0,306491.00,Agricultura


Abrimos el catálogo de agricultura

In [242]:
# Especificamos la ruta del archivo Excel
archivo_excel = "data/cat_agricultura.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

ClasificaciónCultivos
CiclosCultivos
Distritos
Municipios
Regiones


In [243]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_cultivo = "ClasificaciónCultivos"
cat_distritos = "Distritos"
cat_municipios = "Municipios"
cat_regiones = "Regiones"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_clasificacion_cultivo = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_cultivo)
df_cat_distritos = pd.read_excel(archivo_excel, sheet_name=cat_distritos)
df_cat_municipios = pd.read_excel(archivo_excel, sheet_name=cat_municipios)
df_cat_regiones = pd.read_excel(archivo_excel, sheet_name=cat_regiones)


In [244]:
# Haremos merge para agregar las categorias que deseamos

# Cultivos
# Limpiamos el catálogo
df_cat_clasificacion_cultivo["DESCRIP"] = df_cat_clasificacion_cultivo["DESCRIP"].astype(str).str.capitalize().str.strip()
df_cat_clasificacion_cultivo["FOTOS"] = df_cat_clasificacion_cultivo["FOTOS"].astype(str).str.capitalize().str.strip()
df_cat_clasificacion_cultivo = df_cat_clasificacion_cultivo.drop(columns = ["CCILO", "TIPO"]).drop_duplicates()

# Hacemos left merge
df_agricultura_seleccion = pd.merge(df_agricultura_seleccion, df_cat_clasificacion_cultivo, left_on='CVECUL', right_on='CULTIVO', how='left')

# Seleccionamos las columnas que utilizaremos
df_agricultura_seleccion = df_agricultura_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "DESCRIP", "FOTOS", "PRODTON", "VALPROD"]]
df_agricultura_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

In [245]:
df_agricultura_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2018-01-01,Agricultura,146,52,Rye grass en verde,Plantas forrajeras,0.0,0.00
1,2018-01-01,Agricultura,146,52,Sorgo forrajero en verde,Plantas forrajeras,23275.2,19551.17
2,2018-01-01,Agricultura,146,52,Trigo forrajero verde,Plantas forrajeras,0.0,0.00
3,2018-01-01,Agricultura,146,69,Litchi,Frutales,0.0,0.00
4,2018-01-01,Agricultura,146,69,Avena forrajera en verde,Plantas forrajeras,56.8,49.42
...,...,...,...,...,...,...,...,...
5875,2022-01-01,Agricultura,139,17,Trigo grano,Cereales,3700.0,33869.50
5876,2022-01-01,Agricultura,139,17,Uva industrial,Frutales,330.0,1270.50
5877,2022-01-01,Agricultura,139,17,Uva mesa,Frutales,77380.0,2473207.95
5878,2022-01-01,Agricultura,139,17,Uva pasa,Frutales,17100.0,306491.00


### 2.2 Ganadería

In [246]:
df_ganaderia.head()

Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,1,BOVINO,CARNE,TONELADAS,287.538,25969.2
1,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,2,BOVINO,LECHE,MILES DE LITROS,503.255,3908.58
2,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,3,PORCINO,CARNE,TONELADAS,372.092,15013.1
3,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,6,OVINO,CARNE,TONELADAS,1.091,77.795
4,2022-01-01,CIERRE DE PRODUCCIÓN PECUARIA 2022,142,URES,1,ACONCHI,1,ENERO,9,ABEJA,MIEL,TONELADAS,1.27,67.11


In [247]:
# Seleccionamos las columnas de ganaderia que conservaremos
columnas_ganaderia =["ANO", "CDDR", "CMUN", "CVESPE", "PRODUC", "VOLTON", "VALPROD"]
df_ganaderia_seleccion = df_ganaderia[columnas_ganaderia]
df_ganaderia_seleccion['SECTOR']="Ganadería"
df_ganaderia_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ganaderia_seleccion['SECTOR']="Ganadería"


Unnamed: 0,ANO,CDDR,CMUN,CVESPE,PRODUC,VOLTON,VALPROD,SECTOR
0,2022-01-01,142,1,1,CARNE,287.538,25969.200,Ganadería
1,2022-01-01,142,1,2,LECHE,503.255,3908.580,Ganadería
2,2022-01-01,142,1,3,CARNE,372.092,15013.100,Ganadería
3,2022-01-01,142,1,6,CARNE,1.091,77.795,Ganadería
4,2022-01-01,142,1,9,MIEL,1.270,67.110,Ganadería
...,...,...,...,...,...,...,...,...
1605,2021-01-01,193,55,6,CARNE,12.450,923.110,Ganadería
1606,2021-01-01,193,55,3,CARNE,66.670,2699.250,Ganadería
1607,2021-01-01,142,1,9,MIEL,1.160,59.420,Ganadería
1608,2021-01-01,142,1,1,CARNE,288.320,26889.529,Ganadería


**Carga de catálogo**

In [248]:
# Especificamos la ruta del archivo Excel
archivo_excel = "data/cat_ganaderia.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

Catálogo_Ganadería
Distritos
Municipios
Regiones


In [249]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_ganaderia = "Catálogo_Ganadería"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_ganaderia = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_ganaderia)
df_cat_ganaderia

Unnamed: 0,cvespe,espe,produc,umedida
0,1,BOVINO,CARNE,TONELADAS
1,2,BOVINO,LECHE,MILES DE LITROS
2,3,PORCINO,CARNE,TONELADAS
3,4,CAPRINO,CARNE,TONELADAS
4,5,CAPRINO,LECHE,MILES DE LITROS
5,6,OVINO,CARNE,TONELADAS
6,7,AVE,HUEVO,TONELADAS
7,8,AVE,CARNE,TONELADAS
8,9,ABEJA,MIEL,TONELADAS
9,10,GUAJOLOTE,CARNE,TONELADAS


In [250]:
# Haremos merge para agregar las categorias que deseamos

# Ganadería
# Limpiamos el catálogo
df_cat_ganaderia["espe"] = df_cat_ganaderia["espe"].astype(str).str.capitalize().str.strip()
df_cat_ganaderia["produc"] = df_cat_ganaderia["produc"].astype(str).str.capitalize().str.strip()
df_cat_ganaderia = df_cat_ganaderia.drop(columns = ["umedida"]).drop_duplicates()

# Hacemos left merge
df_ganaderia_seleccion = pd.merge(df_ganaderia_seleccion, df_cat_ganaderia, left_on='CVESPE', right_on='cvespe', how='left')

# Seleccionamos las columnas que utilizaremos
df_ganaderia_seleccion = df_ganaderia_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "espe", "produc", "VOLTON", "VALPROD"]]
df_ganaderia_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

In [251]:
df_ganaderia_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2022-01-01,Ganadería,142,1,Bovino,Carne,287.538,25969.200
1,2022-01-01,Ganadería,142,1,Bovino,Leche,503.255,3908.580
2,2022-01-01,Ganadería,142,1,Porcino,Carne,372.092,15013.100
3,2022-01-01,Ganadería,142,1,Ovino,Carne,1.091,77.795
4,2022-01-01,Ganadería,142,1,Abeja,Miel,1.270,67.110
...,...,...,...,...,...,...,...,...
1605,2021-01-01,Ganadería,193,55,Ovino,Carne,12.450,923.110
1606,2021-01-01,Ganadería,193,55,Porcino,Carne,66.670,2699.250
1607,2021-01-01,Ganadería,142,1,Abeja,Miel,1.160,59.420
1608,2021-01-01,Ganadería,142,1,Bovino,Carne,288.320,26889.529


### 2.3 Pesca

In [252]:
df_pesca.head()

Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,2022-01-01,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,42,OTRAS,68,ABULÓN,2,COSECHA,0.0,0.0,0.0
1,2022-01-01,144,DDR 144 HERMOSILLO,30,2613,HERMOSILLO,42,OTRAS,68,ABULÓN,2,COSECHA,0.0,0.0,0.0
2,2022-01-01,139,DDR 139 CABORCA,48,2607,PUERTO PEÑASCO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,588271.0,588271.0,1769613.0
3,2022-01-01,139,DDR 139 CABORCA,48,2612,PUERTO LIBERTAD,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0.0,0.0,0.0
4,2022-01-01,144,DDR 144 HERMOSILLO,30,2611,BAHIA KINO,67,AGUA MALA,67,AGUA MALA,1,CAPTURA,0.0,0.0,0.0


PESO DESEMBARCADO. Peso que, al desembarque, conserva el producto en sus distintas modalidades: descabezado, fileteado, eviscerado, en pulpa, rebanado u otras.

PESO VIVO. Peso total del producto en el momento de su captura. Se estima mediante factores de conversión aplicados al peso desembarcado, conforme a la metodología empleada por la FAO; tales factores son establecidos por el Instituto Nacional de la Pesca.

In [253]:
# Seleccionamos las columnas de pesca que conservaremos
columnas_pesca =["ANO", "CDDR", "CMUN", "CESPE", "ORIGEN", "PESODESEMB", "VALOR"]
df_pesca_seleccion = df_pesca[columnas_pesca]
df_pesca_seleccion['SECTOR']="Pesca"
df_pesca_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pesca_seleccion['SECTOR']="Pesca"


Unnamed: 0,ANO,CDDR,CMUN,CESPE,ORIGEN,PESODESEMB,VALOR,SECTOR
0,2022-01-01,144,30,68,COSECHA,0.0,0.0,Pesca
1,2022-01-01,144,30,68,COSECHA,0.0,0.0,Pesca
2,2022-01-01,139,48,67,CAPTURA,588271.0,1769613.0,Pesca
3,2022-01-01,139,48,67,CAPTURA,0.0,0.0,Pesca
4,2022-01-01,144,30,67,CAPTURA,0.0,0.0,Pesca
...,...,...,...,...,...,...,...,...
1239,2021-01-01,193,48,21,CAPTURA,520.0,2600.0,Pesca
1240,2021-01-01,193,55,31,CAPTURA,700.0,14000.0,Pesca
1241,2021-01-01,193,55,53,CAPTURA,77837.0,221835.0,Pesca
1242,2021-01-01,147,29,6,CAPTURA,7000.0,140000.0,Pesca


**Carga de catálogo**

In [254]:
# Especificamos la ruta del archivo Excel
archivo_excel = "data/cat_pesca.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

Especie_Pesca
Distritos
Municipios
Regiones


In [255]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_pesca = "Especie_Pesca"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_pesca = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_pesca)
df_cat_pesca

Unnamed: 0,CVESPE,ESPECIE
0,1,Almeja
1,2,Almeja
2,3,Anchoveta
3,4,Atún
4,6,Bagre
...,...,...
63,68,Abulón
64,69,Caracol
65,71,Almeja
66,72,Peto


In [256]:
# Haremos merge para agregar las categorias que deseamos

# Pesca
# Limpiamos el catálogo
df_cat_pesca["ESPECIE"] = df_cat_pesca["ESPECIE"].astype(str).str.capitalize().str.strip()
df_cat_pesca = df_cat_pesca.drop_duplicates()

# Hacemos left merge
df_pesca_seleccion = pd.merge(df_pesca_seleccion, df_cat_pesca, left_on='CESPE', right_on='CVESPE', how='left')

# Limpiamos la columna origen
df_pesca_seleccion["ORIGEN"] = df_pesca_seleccion["ORIGEN"].astype(str).str.capitalize().str.strip()

# Seleccionamos las columnas que utilizaremos
df_pesca_seleccion = df_pesca_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "ESPECIE", "ORIGEN", "PESODESEMB", "VALOR"]]
df_pesca_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

# Adecuamos lel valor producido ya que agricultura y ganaderia maneja miles de pesos mientras que pesca tiene valores en pesos MXN
df_pesca_seleccion["VALPROD"]= df_pesca_seleccion["VALPROD"]/1000

In [257]:
df_pesca_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2022-01-01,Pesca,144,30,Abulón,Cosecha,0.0,0.000
1,2022-01-01,Pesca,144,30,Abulón,Cosecha,0.0,0.000
2,2022-01-01,Pesca,139,48,Agua mala,Captura,588271.0,1769.613
3,2022-01-01,Pesca,139,48,Agua mala,Captura,0.0,0.000
4,2022-01-01,Pesca,144,30,Agua mala,Captura,0.0,0.000
...,...,...,...,...,...,...,...,...
1239,2021-01-01,Pesca,193,48,Cintilla,Captura,520.0,2.600
1240,2021-01-01,Pesca,193,55,Lenguado,Captura,700.0,14.000
1241,2021-01-01,Pesca,193,55,Sardina,Captura,77837.0,221.835
1242,2021-01-01,Pesca,147,29,Bagre,Captura,7000.0,140.000


### 2.4 Juntar en tabla general de agropecuario y pesquero (AGP, Agricultura-Ganadería-Pesca)

In [258]:
df_agp = pd.concat([df_agricultura_seleccion, df_ganaderia_seleccion, df_pesca_seleccion], axis=0)
df_agp = df_agp.reset_index(drop=True)
df_agp

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2018-01-01,Agricultura,146,52,Rye grass en verde,Plantas forrajeras,0.0,0.000
1,2018-01-01,Agricultura,146,52,Sorgo forrajero en verde,Plantas forrajeras,23275.2,19551.170
2,2018-01-01,Agricultura,146,52,Trigo forrajero verde,Plantas forrajeras,0.0,0.000
3,2018-01-01,Agricultura,146,69,Litchi,Frutales,0.0,0.000
4,2018-01-01,Agricultura,146,69,Avena forrajera en verde,Plantas forrajeras,56.8,49.420
...,...,...,...,...,...,...,...,...
8729,2021-01-01,Pesca,193,48,Cintilla,Captura,520.0,2.600
8730,2021-01-01,Pesca,193,55,Lenguado,Captura,700.0,14.000
8731,2021-01-01,Pesca,193,55,Sardina,Captura,77837.0,221.835
8732,2021-01-01,Pesca,147,29,Bagre,Captura,7000.0,140.000


In [259]:
columnas_categoricas = ["SECTOR", "ESPECIE_CULTIVO", "TIPO"]
df_agp[columnas_categoricas] = df_agp[columnas_categoricas].astype("category")
df_agp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8734 entries, 0 to 8733
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ANO              8734 non-null   datetime64[ns]
 1   SECTOR           8734 non-null   category      
 2   CVE_DDR          8734 non-null   int64         
 3   CVE_MUN          8734 non-null   int64         
 4   ESPECIE_CULTIVO  8734 non-null   category      
 5   TIPO             8734 non-null   category      
 6   PRODTON          8734 non-null   float64       
 7   VALPROD          8734 non-null   float64       
dtypes: category(3), datetime64[ns](1), float64(2), int64(2)
memory usage: 381.6 KB


## 3. Seleccion de variables y generación de tabla tidy de IMSS

In [260]:
df_imss

Unnamed: 0,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,2,4,26,E71,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01
1,2,4,26,E71,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01
2,2,4,26,E71,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01
3,2,4,26,E71,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01
4,2,4,26,E71,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,27,70,26,Y96,0,4,403,S3,1,E9,W9,1,0,2022,12,2022-12-01
629635,27,70,26,Y96,0,4,403,S3,2,E4,W4,1,0,2022,12,2022-12-01
629636,27,70,26,Y96,0,4,403,S3,2,E5,W3,1,0,2022,12,2022-12-01
629637,27,70,26,Y96,0,4,403,S3,2,E6,W2,1,0,2022,12,2022-12-01


Vemos que varias columnas del dataframe se encuentran codificadas, por lo que tendremos que hacer uso de los catálogos para decodificarlas.

Además, para tener el mismo nivel de granularidad geográfica y ser consistente con los datos de SAGARHPA nos quedaremos hasta el nivel municipio, por lo que podemos deshacernos de las columnas de delegación y subdelegación.

In [261]:
# Nos deshacemos de las columnas delegacion y subdelegacion
df_imss_seleccion = df_imss.drop(columns = ["cve_delegacion", "cve_subdelegacion"])
df_imss_seleccion.head()

Unnamed: 0,cve_entidad,cve_municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,26,E71,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01
1,26,E71,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01
2,26,E71,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01
3,26,E71,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01
4,26,E71,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01


In [262]:
# Abrimos catálogos que utilizaremos 
df_cat_entidad_municipio_imss = pd.read_csv("data/imss_entidad-municipio.csv")
df_cat_sector_1_imss = pd.read_csv("data/imss_sector_1.csv")
df_cat_sector_2_imss = pd.read_csv("data/imss_sector_2.csv")
df_cat_sector_4_imss = pd.read_csv("data/imss_sector_4.csv")
df_cat_tamaño_patron_imss = pd.read_csv("data/imss_Tamaño_de_registro_patronal.csv")
df_cat_sexo_imss = pd.read_csv("data/imss_sexo.csv")
df_cat_edad_imss = pd.read_csv("data/imss_Rango_edad.csv")
df_cat_salario_imss = pd.read_csv("data/imss_Rango_salario.csv")

In [263]:
# Limpieza de catalogo de municipios
df_cat_entidad_municipio_imss.columns = df_cat_entidad_municipio_imss.iloc[0,]
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss.iloc[1:,].reset_index(drop=True)
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss.loc[df_cat_entidad_municipio_imss["cve_entidad"]=="26"]
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss[["cve_municipio", "descripción municipio"]]
df_cat_entidad_municipio_imss.columns = ["cve_municipio", "municipio"]
# Creamos columna de nombre de municipios en mayusculas ya que la clave no coincide con la que manejamos en SAGARHPA
df_cat_entidad_municipio_imss["municipio_mayuscula"] = df_cat_entidad_municipio_imss["municipio"].str.upper()
df_cat_entidad_municipio_imss.head()

# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_entidad_municipio_imss, left_on='cve_municipio', right_on='cve_municipio', how='left')

# Eliminamos columnas innecesarias
df_imss_seleccion = df_imss_seleccion.drop(columns=["cve_entidad", "cve_municipio", "municipio"])
df_imss_seleccion.head()

Unnamed: 0,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula
0,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO
1,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO
2,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO
3,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO
4,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO


In [264]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_1_imss.columns  = df_cat_sector_1_imss.iloc[0,]
df_cat_sector_1_imss = df_cat_sector_1_imss.iloc[1:,]
df_cat_sector_1_imss = pd.concat([df_cat_sector_1_imss, df_cat_sector_1_imss.iloc[2:3,:]], axis=0, ignore_index=True)
df_cat_sector_1_imss.loc[2,"sector_economico_1"] = 2
df_cat_sector_1_imss.loc[9,"sector_economico_1"] = 3
df_cat_sector_1_imss["sector_economico_1"] = pd.to_numeric(df_cat_sector_1_imss["sector_economico_1"])
df_cat_sector_1_imss

Unnamed: 0,0,sector_economico_1,descripción sector_economico_1
0,1,0,"Agricultura, ganadería, silvicultura, pesca y ..."
1,2,1,Industrias extractivas
2,3,2,Industrias de transformación
3,4,4,Industria de la construcción
4,5,5,"Industria eléctrica, y captación y suministro ..."
5,6,6,Comercio
6,7,7,Transportes y comunicaciones
7,8,8,"Servicios para empresas, personas y el hogar"
8,9,9,Servicios sociales y comunales
9,3,3,Industrias de transformación


In [265]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sector_1_imss, left_on='sector_economico_1', right_on='sector_economico_1', how='left')
df_imss_seleccion

Unnamed: 0,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,0,descripción sector_economico_1
0,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
1,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
2,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
3,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
4,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,0,4,403,S3,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
629635,0,4,403,S3,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
629636,0,4,403,S3,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ..."
629637,0,4,403,S3,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ..."


In [266]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_2_imss.columns  = df_cat_sector_2_imss.iloc[0,]
df_cat_sector_2_imss = df_cat_sector_2_imss.iloc[1:,]
df_cat_sector_2_imss["sector_economico_2"] = pd.to_numeric(df_cat_sector_2_imss["sector_economico_2"])
df_cat_sector_2_imss["sector_economico_2_2pos"] = pd.to_numeric(df_cat_sector_2_imss["sector_economico_2_2pos"])
df_cat_sector_2_imss = df_cat_sector_2_imss[["sector_economico_2_2pos", "descripción sector_economico_2"]]
df_cat_sector_2_imss

Unnamed: 0,sector_economico_2_2pos,descripción sector_economico_2
1,1,Agricultura
2,2,Ganadería
3,3,Silvicultura
4,4,Pesca
5,5,Caza
...,...,...
58,91,"Servicios de enseñanza, investigación científi..."
59,92,"Servicios médicos, asistencia social y veterin..."
60,93,"Agrupaciones mercantiles, profesionales, cívic..."
61,94,Servicios de administración pública y segurida...


In [267]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sector_2_imss, left_on='sector_economico_2', right_on="sector_economico_2_2pos", how='left')
df_imss_seleccion

Unnamed: 0,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,0,descripción sector_economico_1,sector_economico_2_2pos,descripción sector_economico_2
0,0,1,101,S1,1,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ...",1,Agricultura
1,0,1,101,S1,1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ...",1,Agricultura
2,0,1,101,S1,1,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ...",1,Agricultura
3,0,1,101,S1,1,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ...",1,Agricultura
4,0,1,101,S1,1,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,1,"Agricultura, ganadería, silvicultura, pesca y ...",1,Agricultura
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,0,4,403,S3,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ...",4,Pesca
629635,0,4,403,S3,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ...",4,Pesca
629636,0,4,403,S3,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ...",4,Pesca
629637,0,4,403,S3,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,1,"Agricultura, ganadería, silvicultura, pesca y ...",4,Pesca


In [268]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_4_imss.columns  = df_cat_sector_4_imss.iloc[0,]
df_cat_sector_4_imss = df_cat_sector_4_imss.iloc[1:,]
df_cat_sector_4_imss = df_cat_sector_4_imss.loc[df_cat_sector_4_imss["sector_economico_1"]=="0"]
df_cat_sector_4_imss["sector_economico_4"] = pd.to_numeric(df_cat_sector_4_imss["sector_economico_4_4_pos"])
df_cat_sector_4_imss["sector_economico_2"] = pd.to_numeric(df_cat_sector_4_imss["sector_economico_2"])
df_cat_sector_4_imss = df_cat_sector_4_imss[["sector_economico_4", "descripción sector_economico_4"]]
df_cat_sector_4_imss

Unnamed: 0,sector_economico_4,descripción sector_economico_4
1,101,Agricultura
2,201,Cría y explotación de ganado y otras clases de...
3,301,Explotación de bosques madereros; extracción d...
4,401,Pesca de altura y costera
5,402,Pesca en aguas interiores
6,403,Acuicultura
7,404,Trabajos de buceo
8,500,Caza


In [269]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sector_4_imss, left_on=['sector_economico_4'], right_on=['sector_economico_4'], how='left')

# Seleccionamos columnas
df_imss_seleccion = df_imss_seleccion.drop(columns=["sector_economico_1", "sector_economico_2", "sector_economico_4", "sector_economico_2_2pos", 0])
# Exploramos el dataframe
df_imss_seleccion

Unnamed: 0,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_1,descripción sector_economico_2,descripción sector_economico_4
0,S1,1,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura
1,S1,1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura
2,S1,1,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura
3,S1,1,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura
4,S1,1,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura
...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,S3,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura
629635,S3,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura
629636,S3,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura
629637,S3,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura


In [270]:
# # Limpieza de catalogos de tamaño patronal
df_cat_tamaño_patron_imss.columns  = df_cat_tamaño_patron_imss.iloc[0,]
df_cat_tamaño_patron_imss = df_cat_tamaño_patron_imss.iloc[1:,]
df_cat_tamaño_patron_imss = df_cat_tamaño_patron_imss.drop(columns = [0])
df_cat_tamaño_patron_imss["tamaño_patron"] = df_cat_tamaño_patron_imss["tamaño_patron"].str.upper()
df_cat_tamaño_patron_imss

Unnamed: 0,tamaño_patron,descripción
1,S1,Con un puesto de trabajo
2,S2,con 2 y hasta 5 puestos de trabajo
3,S3,con 6 y hasta 50 puestos de trabajo
4,S4,con 51 y hasta 250 puestos de trabajo
5,S5,con 251 y hasta 500 puestos de trabajo
6,S6,"con 501 y hasta 1,000 puestos de trabajo"
7,S7,"con más de 1,000 puestos de trabajo"
8,,No aplica


In [271]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_tamaño_patron_imss, left_on=['tamaño_patron'], right_on=['tamaño_patron'], how='left')

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'tamaño_patronal'}, inplace=True)

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["tamaño_patron"])

df_imss_seleccion

Unnamed: 0,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_1,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal
0,1,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo
1,1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo
2,1,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo
3,1,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo
4,1,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
629634,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
629635,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
629636,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
629637,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,"Agricultura, ganadería, silvicultura, pesca y ...",Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo


In [272]:
df_cat_sexo_imss.columns  = df_cat_sexo_imss.iloc[0,]
df_cat_sexo_imss = df_cat_sexo_imss.iloc[1:,]
df_cat_sexo_imss = df_cat_sexo_imss.drop(columns = [0])
df_cat_sexo_imss["sexo"] = pd.to_numeric(df_cat_sexo_imss["sexo"])
df_cat_sexo_imss

Unnamed: 0,sexo,descripción
1,1,Hombre
2,2,Mujer


In [273]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sexo_imss, left_on=['sexo'], right_on=['sexo'], how='left')

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["sexo"])

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'sexo'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_1,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal,sexo
0,E10,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre
1,E11,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre
2,E11,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre
3,E12,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre
4,E13,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre


In [274]:
# Limpieza del catálogo edad
df_cat_edad_imss
df_cat_edad_imss.columns  = df_cat_edad_imss.iloc[0,]
df_cat_edad_imss = df_cat_edad_imss.iloc[1:,]
df_cat_edad_imss = df_cat_edad_imss.drop(columns = [0])
df_cat_edad_imss

Unnamed: 0,rango_edad,descripción
1,E1,Menores de 15 años de edad
2,E2,Mayor o igual a 15 y menor a 20 años de edad
3,E3,Mayor o igual a 20 y menor a 25 años de edad
4,E4,Mayor o igual a 25 y menor a 30 años de edad
5,E5,Mayor o igual a 30 y menor a 35 años de edad
6,E6,Mayor o igual a 35 y menor a 40 años de edad
7,E7,Mayor o igual a 40 y menor a 45 años de edad
8,E8,Mayor o igual a 45 y menor a 50 años de edad
9,E9,Mayor o igual a 50 y menor a 55 años de edad
10,E10,Mayor o igual a 55 y menor a 60 años de edad


In [275]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_edad_imss, left_on=['rango_edad'], right_on=['rango_edad'], how='left')

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["rango_edad"])

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'rango_edad'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_1,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal,sexo,rango_edad
0,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 55 y menor a 60 años de edad
1,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad
2,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad
3,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 65 y menor a 70 años de edad
4,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 70 y menor a 75 años de edad


In [276]:
# Limpieza del catalogo de salario
df_cat_salario_imss
df_cat_salario_imss.columns  = df_cat_salario_imss.iloc[0,]
df_cat_salario_imss = df_cat_salario_imss.iloc[1:,]
df_cat_salario_imss = df_cat_salario_imss.drop(columns = [0])
df_cat_salario_imss

Unnamed: 0,rango_salarial,descripción
1,W1,Hasta 1 vez el salario mínimo
2,W2,mayor a 1 y hasta 2 veces el salario mínimo
3,W3,mayor a 2 y hasta 3 veces el salario mínimo
4,W4,mayor a 3 y hasta 4 veces el salario mínimo
5,W5,mayor a 4 y hasta 5 veces el salario mínimo
6,W6,mayor a 5 y hasta 6 veces el salario mínimo
7,W7,mayor a 6 y hasta 7 veces el salario mínimo
8,W8,mayor a 7 y hasta 8 veces el salario mínimo
9,W9,mayor a 8 y hasta 9 veces el salario mínimo
10,W10,mayor a 9 y hasta 10 veces el salario mínimo


In [277]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_salario_imss, left_on=['rango_salarial'], right_on=['rango_salarial'], how='left')

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'rango_salarial_descripcion', 
                                  'municipio_mayuscula': 'municipio',
                                  'descripción sector_economico_1' : 'sector_economico_1',
                                  'descripción sector_economico_2' : 'sector_economico_2',
                                  'descripción sector_economico_4' : 'sector_economico_4'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patronal,sexo,rango_edad,rango_salarial_descripcion
0,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 55 y menor a 60 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
1,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
2,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad,mayor a 6 y hasta 7 veces el salario mínimo
3,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 65 y menor a 70 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
4,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 70 y menor a 75 años de edad,mayor a 13 y hasta 14 veces el salario mínimo


In [278]:
# Conversión de las características de acuerdo a su tipo
columnas_categoricas = ["rango_salarial", "municipio", "sector_economico_1", "sector_economico_2", "sector_economico_4", "tamaño_patronal", "sexo", "rango_edad", "rango_salarial_descripcion"]
df_imss_seleccion[columnas_categoricas] = df_imss_seleccion[columnas_categoricas].astype("category")
df_imss_seleccion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629639 entries, 0 to 629638
Data columns (total 14 columns):
 #   Column                      Non-Null Count   Dtype         
---  ------                      --------------   -----         
 0   rango_salarial              628979 non-null  category      
 1   asegurados                  629639 non-null  int64         
 2   no_trabajadores             629639 non-null  int64         
 3   año                         629639 non-null  int64         
 4   mes                         629639 non-null  int64         
 5   fecha                       629639 non-null  datetime64[ns]
 6   municipio                   629639 non-null  category      
 7   sector_economico_1          629639 non-null  category      
 8   sector_economico_2          629639 non-null  category      
 9   sector_economico_4          629639 non-null  category      
 10  tamaño_patronal             629639 non-null  category      
 11  sexo                        629639 non-

## 3. Guardamos tablas tidy

In [279]:
path_archivo_agp = 'data/tidy_agricultura_ganaderia_pesca.csv'
df_agp.to_csv(path_archivo_agp, index=False)

path_archivo_imss = 'data/tidy_imss.csv'
df_imss_seleccion.to_csv(path_archivo_imss, index=False)

## 4. Diccionarios

### 4.1 Tabla tidy: IMSS

In [280]:
# Obtener información del DataFrame y almacenarla en un nuevo DataFrame llamado info_df
info_df = pd.DataFrame(df_imss_seleccion.dtypes, columns=['Tipo de Dato'])
info_df['Nombre de Columna'] = info_df.index

In [281]:
# Creamos el diccionario
metadatos = pd.DataFrame()
metadatos["Nombre"] = df_imss_seleccion.columns
metadatos["Tipo de valor"] = [df_imss_seleccion[col].dtype for col in df_imss_seleccion.columns]
metadatos["Valores"] = [df_imss_seleccion[col].unique() for col in df_imss_seleccion.columns]
metadatos["Valores"].iloc[5]="Fecha en formato AAAA-MM-DD"
metadatos["Descripción de la variable"] = ["Clave del rango salarial",
                                           "Se refiere a las personas que están aseguradas en el IMSS de manera directa como titulares. Incluye todas las modalidades de aseguramiento, tanto las relacionadas con puestos de trabajo afiliados al IMSS (empleos asegurados o asegurados asociados a un empleo), como las afiliaciones de asegurados sin un empleo asociado (o cotizantes sin un puesto de trabajo asociado) en las modalidades 32 (seguro facultativo), 33 (seguro de salud para la familia) y 40 (continuación voluntaria al régimen obligatorio). No considera a pensionados o jubilados, ni a los beneficiarios de asegurados, pensionados o jubilados. Debido a que un asegurado puede registrarse en el Instituto en más de un tipo de afiliación, la cifra de asegurados contabiliza a estos asegurados tantas veces como tipos de afiliación mantengan. La descripción de las modalidades de aseguramiento en el IMSS se detalla en el apartado de asegurados por modalidad y tipo de afiliación. ",
                                           "Asegurados sin un empleo asociado",
                                           "Año del registro.",
                                           "Mes del registro.",
                                           "Fecha del registro.",
                                           "Se refiere al municipio asociado a la ubicación del patrón asegurado ante el IMSS. La delegación de adscripción al IMSS y la entidad federativa no abarcan la misma circunscripción ya que algunas entidades están asociadas a más de una delegación. Por ejemplo, el municipio de Chinicuila en el estado de Michoacán está asociado a la delegación de adscripción de Colima.",
                                           "Identificador de sector económico a 1 posición (división, catálogo IMSS). Es la clasificación de la actividad económica de los patrones afiliados al IMSS, de acuerdo con el artículo 196 del Reglamento de la Ley del Seguro Social en Materia de Afiliación, Clasificación de Empresas, Recaudación y Fiscalización. Este reglamento se puede consultar en: http://datos.imss.gob.mx/sites/default/files/Cat%C3%A1logo%20de%20archivos.pdf. ",
                                           "Identificador de sector económico a 2 posiciones (grupo, catálogo IMSS). Es la clasificación de la actividad económica de los patrones afiliados al IMSS, de acuerdo con el artículo 196 del Reglamento de la Ley del Seguro Social en Materia de Afiliación, Clasificación de Empresas, Recaudación y Fiscalización. Este reglamento se puede consultar en: http://datos.imss.gob.mx/sites/default/files/Cat%C3%A1logo%20de%20archivos.pdf. ",
                                           "Identificador de sector económico a 4 posiciones (fracción, catálogo IMSS). Es la clasificación de la actividad económica de los patrones afiliados al IMSS, de acuerdo con el artículo 196 del Reglamento de la Ley del Seguro Social en Materia de Afiliación, Clasificación de Empresas, Recaudación y Fiscalización. Este reglamento se puede consultar en: http://datos.imss.gob.mx/sites/default/files/Cat%C3%A1logo%20de%20archivos.pdf. ",
                                           "Se refiere al tamaño del patrón determinado con base en el número de asegurados vigentes que registra ante el IMSS. Este rango no aplica a registros patronales asociados a las modalidades de aseguramiento 32 (seguro facultativo, familiares del personal del IMSS y de la CFE), 33 (seguro de salud para la familia) y 40 (continuación voluntaria al régimen obligatorio). Tampoco aplica a registros convencionales que no están asociados a empresas o establecimientos, a asegurados del programa piloto de personas trabajadoras del hogar (modalidad 34), a asegurados en incorporación voluntaria del campo al Régimen Obligatorio (modalidad 43) y a trabajadores independientes (modalidad 44)",
                                           "Se refiere a la clasificación del asegurado entre hombre y mujer",
                                           "Se refiere al rango de edad asociado al asegurado",
                                           "Se refiere al rango salarial, en número de veces el salario mínimo de la Ciudad de México. La tabla de salarios mínimos generales y profesionales por áreas geográficas publicada por la Comisión de Salarios Mínimos (CONASAMI) se puede consultar en la liga http://www.conasami.gob.mx/t_sal_mini_prof.html. El rango W1 incluye a los asegurados con ingreso de hasta 1 salario mínimo, W2 de más de 1 y hasta 2 veces el salario mínimo, y así sucesivamente. "]
metadatos

Unnamed: 0,Nombre,Tipo de valor,Valores,Descripción de la variable
0,rango_salarial,category,"['W2', 'W7', 'W14', 'W3', 'W1', ..., 'W11', 'W...",Clave del rango salarial
1,asegurados,int64,"[4, 1, 3, 2, 6, 7, 8, 5, 12, 11, 15, 18, 17, 1...",Se refiere a las personas que están aseguradas...
2,no_trabajadores,int64,[0],Asegurados sin un empleo asociado
3,año,int64,"[2018, 2019, 2020, 2021, 2022]",Año del registro.
4,mes,int64,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]",Mes del registro.
5,fecha,datetime64[ns],Fecha en formato AAAA-MM-DD,Fecha del registro.
6,municipio,category,"['SAN LUIS RÍO COLORADO', 'HERMOSILLO', 'URES'...",Se refiere al municipio asociado a la ubicació...
7,sector_economico_1,category,"['Agricultura, ganadería, silvicultura, pesca ...",Identificador de sector económico a 1 posición...
8,sector_economico_2,category,"['Agricultura', 'Ganadería', 'Pesca'] Categori...",Identificador de sector económico a 2 posicion...
9,sector_economico_4,category,"['Agricultura', 'Cría y explotación de ganado ...",Identificador de sector económico a 4 posicion...


In [282]:
# Guardamos el diccionario
path_archivo_imss = 'data/diccionario_tidy_IMSS.csv'
df_imss_seleccion.to_csv(path_archivo_imss, index=False)