# Método de reducción de características

In [6]:
#!pip install numpy
#!pip install pandas
#!pip install matplotlib
#!pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.3.2-cp39-cp39-macosx_10_9_x86_64.whl.metadata (11 kB)
Collecting scipy>=1.5.0 (from scikit-learn)
  Downloading scipy-1.11.3-cp39-cp39-macosx_10_9_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.4/60.4 kB[0m [31m524.4 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting joblib>=1.1.1 (from scikit-learn)
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=2.0.0 (from scikit-learn)
  Downloading threadpoolctl-3.2.0-py3-none-any.whl.metadata (10.0 kB)
Downloading scikit_learn-1.3.2-cp39-cp39-macosx_10_9_x86_64.whl (10.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[?25hDownloading joblib-1.3.2-py3-none-any.whl (302 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.2/302.2 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:0

In [7]:
# Cargamos las librerías a utilizar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

In [21]:
# Cargamos los datos
agp_df = pd.read_csv("data/tidy_agricultura_ganaderia_pesca.csv", parse_dates=['ANO'])
imss_df = pd.read_csv("data/tidy_imss.csv", parse_dates=['fecha'])

In [22]:
# Exploramos el dataframe para verificar que todo se encuentra en orden
agp_df.head()

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2018-01-01,Agricultura,146,52,Rye grass en verde,Plantas forrajeras,0.0,0.0
1,2018-01-01,Agricultura,146,52,Sorgo forrajero en verde,Plantas forrajeras,23275.2,19551.17
2,2018-01-01,Agricultura,146,52,Trigo forrajero verde,Plantas forrajeras,0.0,0.0
3,2018-01-01,Agricultura,146,69,Litchi,Frutales,0.0,0.0
4,2018-01-01,Agricultura,146,69,Avena forrajera en verde,Plantas forrajeras,56.8,49.42


In [26]:
# Vemos que las características estén en tipo de dato adecuado
agp_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8734 entries, 0 to 8733
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ANO              8734 non-null   datetime64[ns]
 1   SECTOR           8734 non-null   object        
 2   CVE_DDR          8734 non-null   int64         
 3   CVE_MUN          8734 non-null   int64         
 4   ESPECIE_CULTIVO  8734 non-null   object        
 5   TIPO             8734 non-null   object        
 6   PRODTON          8734 non-null   float64       
 7   VALPROD          8734 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(3)
memory usage: 546.0+ KB


In [24]:
# Exploramos el dataframe de imss
imss_df.head()

Unnamed: 0,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio,sector_economico_1,sector_economico_2,sector_economico_4,tamaño_patronal,sexo,rango_edad,rango_salarial_descripcion
0,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 55 y menor a 60 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
1,W2,4,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
2,W7,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad,mayor a 6 y hasta 7 veces el salario mínimo
3,W2,3,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 65 y menor a 70 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
4,W14,1,0,2018,1,2018-01-01,SAN LUIS RÍO COLORADO,"Agricultura, ganadería, silvicultura, pesca y ...",Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 70 y menor a 75 años de edad,mayor a 13 y hasta 14 veces el salario mínimo


In [27]:
# Verificamos tipos de variables
imss_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629639 entries, 0 to 629638
Data columns (total 14 columns):
 #   Column                      Non-Null Count   Dtype         
---  ------                      --------------   -----         
 0   rango_salarial              628979 non-null  object        
 1   asegurados                  629639 non-null  int64         
 2   no_trabajadores             629639 non-null  int64         
 3   año                         629639 non-null  int64         
 4   mes                         629639 non-null  int64         
 5   fecha                       629639 non-null  datetime64[ns]
 6   municipio                   629639 non-null  object        
 7   sector_economico_1          629639 non-null  object        
 8   sector_economico_2          629639 non-null  object        
 9   sector_economico_4          629639 non-null  object        
 10  tamaño_patronal             629639 non-null  object        
 11  sexo                        629639 non-