<a href="https://colab.research.google.com/github/osirisizs/Proyecto-Ingenieria-de-Caracteristicas/blob/main/Proyecto1_Descargando_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Proyecto 1. *Descargando datos de la Web*


<p> Osiris Alejandro Izaguirre </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="150">
</p>


<a target="_blank" href="https://colab.research.google.com/github/osirisizs/Proyecto-Ingenieria-de-Caracteristicas/blob/main/Proyecto1_Descargando_Datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# Objetivo

Debido a la situación actual en términos de inseguridad en el estado de Sonora, así como en el resto del país, se plantea la extracción de datos públicos para el conocimiento y entendimiento de la forma en la que se presenta en los diferentes municipios y como se ven relacionadoa estos datos con el tema de **Crimen Organizado** y **Narcomenudeo** 

Para este proposito se utilizarán datos encontrados en la página oficial del [*Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública*](https://www.gob.mx/sesnsp) sobre los casos por tipo de delito por municipio. 

Se consideran además datos sobre la percepción sobre seguridad publica en cada municipio de la *Encuesta Nacional de Victimización y Percepción sobre la Seguridad Pública (ENVIPE)* recabados por el [INEGI](https://www.inegi.org.mx/default.html). 

# Importación de librerias

Comenzamos con la importación de las librerias a utilizar a lo largo del proyecto:

In [1]:
import os             # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
import datetime       # Fecha de descarga
import pandas as pd   # Solo para ver el archivo descargado
import zipfile        # Descompresión de archivos
import gdown          # Para descargar archivos grandes desde Google Drive
import numpy as np

# Definiendo las rutas de los Datos a Utilizar

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [2]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
delitos_url = "https://drive.google.com/u/0/uc?id=10fm7xF4F6X1uGDRNw5aEMOJo_GsFIeTR&export=download"
delitos_archivo = "delitos.csv"
delitos_diccionario_url = "https://drive.google.com/u/0/uc?id=1rfvgcAcEzLR1Q44wwjZhjBvBFjtGSmX3&export=download"
delitos_diccionario_archivo = "delitos_diccionario.xlsx"

#  Los datos de encuestas de percepción sobre la seguridad pública se encuentran publicados por año 
#  por lo que se crean estos pedazos de URL para iterar utilizando una variable "año" al descargar
percepcion_base_url = "https://www.inegi.org.mx/contenidos/programas/envipe/"
percepcion_datosurl = "/datosabiertos/conjunto_de_datos_ENVIPE"
percepcion_datos_url = "/datosabiertos/conjunto_de_datos_ENVIPE_"
percepciondatosurl = "/datosabiertos/ENVIPE_"
percepcion_final_url = "_csv.zip"
percepcion_archivo = "_percepción.zip"

subdir = "./data/"


/content


# Descargando y extrayendo los Datos

Debido a que las bases de datos del INEGI desde donde se van a descargar los datos complementarios sobre percepción de la seguridad pública no se encuentran completamente estandarizadas en sus URL se realizan condiciones especiales para la descarga de cada año.

In [3]:
if not os.path.exists(delitos_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    gdown.download(delitos_url, subdir + delitos_archivo)    
    gdown.download(delitos_diccionario_url, subdir + delitos_diccionario_archivo)   

    # Se encontraron algunas pequeñas variaciones en los URL de descarga de los diferentes años:
    for year in range(2017, 2023):

      if(year == 2018 or year == 2019 or year == 2020):
        gdown.download(percepcion_base_url + str(year) + percepcion_datosurl + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir)   

      elif(year == 2017):
        gdown.download(percepcion_base_url + str(year) + percepciondatosurl + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir) 

      else:
        gdown.download(percepcion_base_url + str(year) + percepcion_datos_url + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir) 

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre delincuencia en Sonora\n")
        info = """
        Datos sobre los delitos denunciados oficialmente en la página del Secretariado Ejecutivo del Sistema Nacional 
        de Seguridad Pública, complementados con datos del INEGI sobre la percepción sobre seguridad pública en Sonora.             

        Los datos se obtuvieron del SESNSP con fecha de 20 de septiembre de 2022 (la base de datos se actualiza constantemente) 

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + delitos_url + "\n")
        f.write("Nombre: " + delitos_archivo + "\n")
        
        for year in range(2017, 2023):
          
          if(year == 2018 or year == 2019 or year == 2020):
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepcion_datosurl + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")

          elif(year == 2017):
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepciondatosurl + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")
          
          else:
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepcion_datos_url + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")


Downloading...
From: https://drive.google.com/u/0/uc?id=10fm7xF4F6X1uGDRNw5aEMOJo_GsFIeTR&export=download
To: /content/data/delitos.csv
100%|██████████| 270M/270M [00:02<00:00, 130MB/s]
Downloading...
From: https://drive.google.com/u/0/uc?id=1rfvgcAcEzLR1Q44wwjZhjBvBFjtGSmX3&export=download
To: /content/data/delitos_diccionario.xlsx
100%|██████████| 26.4k/26.4k [00:00<00:00, 32.7MB/s]
Downloading...
From: https://www.inegi.org.mx/contenidos/programas/envipe/2017/datosabiertos/ENVIPE_2017_csv.zip
To: /content/data/2017_percepción.zip
100%|██████████| 24.8M/24.8M [00:12<00:00, 2.02MB/s]
Downloading...
From: https://www.inegi.org.mx/contenidos/programas/envipe/2018/datosabiertos/conjunto_de_datos_ENVIPE2018_csv.zip
To: /content/data/2018_percepción.zip
100%|██████████| 24.3M/24.3M [00:12<00:00, 1.98MB/s]
Downloading...
From: https://www.inegi.org.mx/contenidos/programas/envipe/2019/datosabiertos/conjunto_de_datos_ENVIPE2019_csv.zip
To: /content/data/2019_percepción.zip
100%|██████████| 19

# Leyendo los archivos .csv en Data Frames de Pandas

Es necesario leer los archivos .csv e importarlos como un data frame utilizable con las librerias de pandas y otras en python para su procesamiento. 

In [47]:
# Archivo sobre Delitos
delitos_df = pd.read_csv(subdir + delitos_archivo, encoding = 'latin-1')

# Se importaran los DataFrames de manera individual devido a la falta de estandarización del INEGI

# Algunos de los archivos no se pudieron leer con codificación utf-8 por lo que fue necesario especificar 
# el tipo de codificación 'latin-1'

# Archivo sobre Percepción de Seguridad Pública 2017
percepcion2017_df = pd.read_csv(subdir + 'tper_vic1_envipe2017/conjunto_de_datos/tper_vic1.csv',
                                encoding = 'latin-1')

# Archivo sobre Percepción de Seguridad Pública 2018
percepcion2018_df = pd.read_csv(subdir + 'conjunto_de_datos_tper_vic1_envipe_2018/conjunto_de_datos/conjunto_de_datos_tper_vic1_envipe_2018.csv')

# Archivo sobre Percepción de Seguridad Pública 2019
percepcion2019_df = pd.read_csv(subdir + 'conjunto_de_datos_TPer_Vic1_ENVIPE_2019/conjunto_de_datos/conjunto_de_datos_TPer_Vic1_ENVIPE_2019.csv')

# Archivo sobre Percepción de Seguridad Pública 2020
percepcion2020_df = pd.read_csv(subdir + 'conjunto_de_datos_TPer_Vic1_ENVIPE_2020/conjunto_de_datos/conjunto_de_datos_TPer_Vic1_ENVIPE_2020.csv', 
                                encoding = 'latin-1')

# Archivo sobre Percepción de Seguridad Pública 2021
percepcion2021_df = pd.read_csv(subdir + 'conjunto_de_datos_TPer_Vic1_ENVIPE_2021/conjunto_de_datos/conjunto_de_datos_TPer_Vic1_ENVIPE_2021.csv', 
                                encoding = 'latin-1')

#Archivo sobre Percepción de Seguridad Pública 2022
percepcion2022_df = pd.read_csv(subdir + 'conjunto_de_datos_TPer_Vic1_ENVIPE_2022/conjunto_de_datos/conjunto_de_datos_TPer_Vic1_ENVIPE_2022.csv', 
                                encoding = 'latin-1')


# Generando los diccionarios de datos como archivos .csv

Se leen de las diferentes fuentes los dos diccinarios de datos de las tablas a utilizar. De la previsualización se encontró que el primer archivo sobre los datos del SESNSP sobre delitos se encuentra capturado en un archivo .xlsx con diferentes pestañas (sobre diferentes datos que no se utilizan en este analisis) además de encabezados con descripciones y/o nombres de las tablas que no son utiles y no se pueden leer como Data Frame de pandas, por lo que se tiene que leer de manera especial. 

Para los datos del INEGI sobre percepción de la seguridad pública se cuenta con un diccionario por cada conjunto de datos, todos estos continen la misma información al ser una encuesta estandarizada, se decidió utilizar el diccionario de datos del año 2020 por tener el mayor numero de entradas. Al visualizarlas se encontraron muchas entradas repetidas por lo que es necesario realizar una limpieza de los datos.

In [48]:
delitos_diccionario_df = pd.read_excel(subdir + delitos_diccionario_archivo, sheet_name='IDM_NM', header=1)

# Todos los archivos del INEGI vienen con sus respectivos diccionarios de datos, 
# se utilizara solamente el del año 2020 ya que todos tienen la misma información
# pero este es le año con mayor numero de entradas.
percepcion_diccionario_df = pd.read_csv(subdir + 'conjunto_de_datos_TPer_Vic1_ENVIPE_2020/diccionario_de_datos/diccionario_de_datos_TPer_Vic1_ENVIPE_2020.csv', 
                                 encoding = 'latin-1')

# Limpieza de observaciones duplicadas.
percepcion_diccionario_df.drop_duplicates(subset=["NOMBRE_CAMPO"], keep='first', inplace=True)

percepcion_diccionario_df['RANGO_CLAVES'] = percepcion_diccionario_df['RANGO_CLAVES'].str.strip()

delitos_diccionario_df.to_csv(subdir + 'delitos_diccionario.csv', index = False, encoding = 'utf-8')
percepcion_diccionario_df.to_csv(subdir + 'percepción_diccionario.csv', index = False, encoding = 'utf-8')

In [49]:
# Visualizado los datos
delitos_diccionario_df

Unnamed: 0,Campo,Descripción
0,Año,Año de registro de las averiguaciones previas ...
1,Clave_Ent,"Clave de la entidad, según el Marco Geoestadís..."
2,Entidad,Entidad federativa de registro de las averigua...
3,Cve. Municipio,"Clave del municipio, según el Marco Geoestadís..."
4,Municipio,Municipio de registro de las averiguaciones pr...
5,Bien jurídico afectado,Primera clasificación de los delitos en las av...
6,Tipo de delito,Segunda clasificación de los delitos.
7,Subtipo de delito,Tercera clasificación de los delitos.
8,Modalidad,Cuarta clasificación de los delitos.
9,Enero - diciembre,Mes de registro de las averiguaciones previas ...


In [50]:
percepcion_diccionario_df

Unnamed: 0,NOMBRE_CAMPO,NEMONICO,TIPO,LONGITUD,RANGO_CLAVES
0,Identificador de vivienda seleccionada,ID_VIV,Alfanumérico,10,0100001.013299999.99
1,Identificador del hogar seleccionado,ID_HOG,Alfanumérico,13,0100001.01.013299999.99.99
2,Identificador del informante seleccionado,ID_PER,Alfanumérico,16,0100001.01.01.013299999.99.99.30
3,Control de vivienda (UPM),UPM,Numérico,7,01000013299999
4,Vivienda seleccionada,VIV_SEL,Numérico,2,0199
...,...,...,...,...,...
708,Factor de personas elegidas del área metropoli...,FAC_ELE_AM,Numérico,6,000001 999999
709,Dominio u ámbito,DOMINIO,Alfanumérico,1,U
712,Estrato sociodemográfico,ESTRATO,Numérico,1,1
716,Estrato de diseño muestral,EST_DIS,Numérico,3,001 303


# Revisando los datos sobre Delitos del SESNSP

Comenzamos a revisar los datos del DataFrame `delitos_df` para identificar el tipo de datos de cada columna y diferentes features significativos para hacer su limpieza respectiva y seleccionar las caracteristicas significativas para este estudio.

In [51]:
delitos_df.info()
print('\n')
delitos_df.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832404 entries, 0 to 1832403
Data columns (total 21 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   Año                     int64  
 1   Clave_Ent               int64  
 2   Entidad                 object 
 3   Cve. Municipio          int64  
 4   Municipio               object 
 5   Bien jurídico afectado  object 
 6   Tipo de delito          object 
 7   Subtipo de delito       object 
 8   Modalidad               object 
 9   Enero                   int64  
 10  Febrero                 int64  
 11  Marzo                   int64  
 12  Abril                   int64  
 13  Mayo                    int64  
 14  Junio                   int64  
 15  Julio                   int64  
 16  Agosto                  int64  
 17  Septiembre              float64
 18  Octubre                 float64
 19  Noviembre               float64
 20  Diciembre               float64
dtypes: float64(4), int64(11), objec

Año                            0
Clave_Ent                      0
Entidad                        0
Cve. Municipio                 0
Municipio                      0
Bien jurídico afectado         0
Tipo de delito                 0
Subtipo de delito              0
Modalidad                      0
Enero                          0
Febrero                        0
Marzo                          0
Abril                          0
Mayo                           0
Junio                          0
Julio                          0
Agosto                         0
Septiembre                242942
Octubre                   242942
Noviembre                 242942
Diciembre                 242942
dtype: int64

In [52]:
# Convertimos todas las columnas con variables categoricas a formato str
delitos_df['Entidad'] = delitos_df['Entidad'].astype('string')
delitos_df['Municipio'] = delitos_df['Municipio'].astype('string')
delitos_df['Bien jurídico afectado'] = delitos_df['Bien jurídico afectado'].astype('string')
delitos_df['Tipo de delito'] = delitos_df['Tipo de delito'].astype('string')
delitos_df['Subtipo de delito'] = delitos_df['Subtipo de delito'].astype('string')
delitos_df['Modalidad'] = delitos_df['Modalidad'].astype('string')

# Convertimos los datos faltantes en 0
delitos_df['Septiembre'] = delitos_df['Septiembre'].fillna(0)
delitos_df['Octubre'] = delitos_df['Octubre'].fillna(0)
delitos_df['Noviembre'] = delitos_df['Noviembre'].fillna(0)
delitos_df['Diciembre'] = delitos_df['Diciembre'].fillna(0)

# Convertimos todas las columnas con variables de tipo flotante a enteros (ya que no 
# tiene sentido físico el tener una carpeta de investigación o denuncia fraccionada)
delitos_df['Septiembre'] = delitos_df['Septiembre'].astype(int)
delitos_df['Octubre'] = delitos_df['Octubre'].astype(int)
delitos_df['Noviembre'] = delitos_df['Noviembre'].astype(int)
delitos_df['Diciembre'] = delitos_df['Diciembre'].astype(int)

#delitos_df
delitos_df.dtypes

Año                        int64
Clave_Ent                  int64
Entidad                   string
Cve. Municipio             int64
Municipio                 string
Bien jurídico afectado    string
Tipo de delito            string
Subtipo de delito         string
Modalidad                 string
Enero                      int64
Febrero                    int64
Marzo                      int64
Abril                      int64
Mayo                       int64
Junio                      int64
Julio                      int64
Agosto                     int64
Septiembre                 int64
Octubre                    int64
Noviembre                  int64
Diciembre                  int64
dtype: object

In [53]:
# Filtramos solo los valores pertenecientes al estado de Sonora.
delitos_df = delitos_df.loc[delitos_df['Entidad'] == 'Sonora']
delitos_df = delitos_df.loc[delitos_df['Año'] >= 2017]

# Borramos las caracteristicas inecesarias para este caso de estudio

# Se borraran las columnas 'Clave_Ent' y 'Entidad' ya que solo tenemos observaciones del estado de Sonora
del delitos_df['Clave_Ent']
del delitos_df['Entidad']

# Se borraran las columnas 'Bien jurídico afectado', 'Subtipo de delito' y 'Modalidad' ya que para el caso
# de estudio nos interesa solamente el tipo de delito cometido.
del delitos_df['Bien jurídico afectado']
del delitos_df['Subtipo de delito']
del delitos_df['Modalidad']

# Agregamos la columa 'Total' para sumarizar los casos denunciados por año 
delitos_df['Total'] = (delitos_df['Enero'] + delitos_df['Febrero'] + delitos_df['Marzo'] +
                       delitos_df['Abril'] + delitos_df['Mayo'] + delitos_df['Junio'] + 
                       delitos_df['Julio'] + delitos_df['Agosto'] + delitos_df['Septiembre'] +
                       delitos_df['Octubre'] + delitos_df['Noviembre'] + delitos_df['Diciembre']) 

delitos_df

Unnamed: 0,Año,Cve. Municipio,Municipio,Tipo de delito,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,Total
564088,2017,26001,Aconchi,Homicidio,0,0,0,0,0,0,0,0,0,0,0,0,0
564089,2017,26001,Aconchi,Homicidio,0,0,0,0,0,0,0,0,0,0,0,0,0
564090,2017,26001,Aconchi,Homicidio,0,0,0,0,0,0,0,0,0,0,0,0,0
564091,2017,26001,Aconchi,Homicidio,0,0,0,0,0,0,0,0,0,0,0,0,0
564092,2017,26001,Aconchi,Homicidio,0,0,0,0,1,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1783595,2022,26999,Otros Municipios,Falsificación,0,0,0,0,0,0,0,0,0,0,0,0,0
1783596,2022,26999,Otros Municipios,Contra el medio ambiente,0,0,0,0,0,0,0,0,0,0,0,0,0
1783597,2022,26999,Otros Municipios,Delitos cometidos por servidores públicos,0,0,0,0,0,0,0,0,0,0,0,0,0
1783598,2022,26999,Otros Municipios,Electorales,0,0,0,0,0,0,0,0,0,0,0,0,0




In [54]:
# Guardamos el Data Frame 'delitos_df' de pandas como .parquet
delitos_df.to_parquet(subdir + 'delitos_df.parquet')

# Revisando los datos sobre Percepción de la Seguridad Pública del INEGI

Comenzamos a revisar los datos de los DataFrame `percepcionXXXX_df` y concatenar todos los datos en un solo DataFrame agrupados por la variable 'Año' para poderlo relacionar con el DataFrame `delitos_df`. Además, identificar el tipo de datos de cada columna y diferentes features significativos para hacer su limpieza respectiva y seleccionar las caracteristicas significativas para este estudio. 

In [55]:
percepcion2017_df.info()
print('\n')
percepcion2018_df.info()
print('\n')
percepcion2019_df.info()
print('\n')
percepcion2020_df.info()
print('\n')
percepcion2021_df.info()
print('\n')
percepcion2022_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92551 entries, 0 to 92550
Columns: 186 entries, ID_VIV to UPM_DIS
dtypes: float64(1), int64(125), object(60)
memory usage: 131.3+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91541 entries, 0 to 91540
Columns: 187 entries, ID_VIV to llave
dtypes: float64(2), int64(125), object(60)
memory usage: 130.6+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91896 entries, 0 to 91895
Columns: 186 entries, ID_VIV to UPM_DIS
dtypes: float64(1), int64(125), object(60)
memory usage: 130.4+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90571 entries, 0 to 90570
Columns: 184 entries, ID_VIV to UPM_DIS
dtypes: float64(1), int64(130), object(53)
memory usage: 127.1+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92051 entries, 0 to 92050
Columns: 180 entries, ID_VIV to UPM_DIS
dtypes: float64(1), int64(130), object(49)
memory usage: 126.4+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92103 entries, 0 to 92102
C

In [56]:
# Agregamos la columna 'Año' en cada DataFrame para poderlos concatenar y comparar contra el de delitos
percepcion2017_df.insert(0, 'Año', 2017, False)
percepcion2018_df.insert(0, 'Año', 2018, False)
percepcion2019_df.insert(0, 'Año', 2019, False)
percepcion2020_df.insert(0, 'Año', 2020, False)
percepcion2021_df.insert(0, 'Año', 2021, False)
percepcion2022_df.insert(0, 'Año', 2022, False)

# Concatenamos todos los DataFrames anuales en uno solo
percepcion_df = pd.concat([percepcion2017_df, percepcion2018_df,
                           percepcion2019_df, percepcion2020_df,
                           percepcion2021_df, percepcion2022_df], axis=0, ignore_index = True)

percepcion_df

Unnamed: 0,Año,ID_VIV,ID_HOG,ID_PER,UPM,VIV_SEL,HOGAR,RESUL_H,R_SEL,SEXO,...,llave,AP4_2_13,AP4_5_17,AP4_5_18,AP4_10_16,AP5_3_11,AP5_4_11,AP5_5_11,AP5_6_11,AP4_4_A
0,2017,100008.01,0100008.01.01\r,0100008.01.01.01\r,100008,1,1,B\r,1,1,...,,,,,,,,,,
1,2017,100008.02,0100008.02.01\r,0100008.02.01.02\r,100008,2,1,B\r,2,2,...,,,,,,,,,,
2,2017,100008.04,0100008.04.01\r,0100008.04.01.01\r,100008,4,1,B\r,1,1,...,,,,,,,,,,
3,2017,100008.05,0100008.05.01\r,0100008.05.01.01\r,100008,5,1,A\r,1,1,...,,,,,,,,,,
4,2017,100022.01,0100022.01.01\r,0100022.01.01.03\r,100022,1,1,A\r,3,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
550708,2022,3260721.11,3260721.11.01\r,3260721.11.01.03\r,3260721,11,1,B\r,3,1,...,,0.0,0.0,1.0,2.0,,,,,2.0
550709,2022,3260721.12,3260721.12.01\r,3260721.12.01.01\r,3260721,12,1,B\r,1,1,...,,0.0,0.0,1.0,3.0,,,,,3.0
550710,2022,3260721.13,3260721.13.01\r,3260721.13.01.02\r,3260721,13,1,B\r,2,2,...,,0.0,0.0,1.0,2.0,,,,,4.0
550711,2022,3260721.14,3260721.14.01\r,3260721.14.01.02\r,3260721,14,1,B\r,2,2,...,,0.0,0.0,1.0,2.0,,,,,3.0


In [57]:
for col in percepcion_df.columns:
  # Convertimos todos las columnas de tipo object a string y limpiamos errores de lectura como '\r'
  if(percepcion_df[col].dtypes == 'object'): 
    percepcion_df[col] = percepcion_df[col].str.strip().astype('string')

  # Convertimos observaciones faltantes NaN a 0 y cambiamos el tipo de datos a int
  if(percepcion_df[col].dtypes == 'float64'):
    percepcion_df[col] = percepcion_df[col].fillna(0)
    percepcion_df[col] = percepcion_df[col].astype(int)

percepcion_df.dtypes

Año          int64
ID_VIV       int64
ID_HOG      string
ID_PER      string
UPM          int64
             ...  
AP5_3_11     int64
AP5_4_11    string
AP5_5_11    string
AP5_6_11    string
AP4_4_A      int64
Length: 197, dtype: object

In [58]:
# Filtramos solo los valores pertenecientes al estado de Sonora.
percepcion_df = percepcion_df.loc[percepcion_df['NOM_ENT'] == 'Sonora']

# Borramos las caracteristicas inecesarias para este caso de estudio

# Se borraran las columnas 'CVE_ENT' y 'NOM_ENT' ya que solo tenemos observaciones del estado de Sonora
del percepcion_df['NOM_ENT']
del percepcion_df['CVE_ENT']

# Se borraran las columnas inecesarias 
del percepcion_df['ID_VIV']
del percepcion_df['ID_HOG']
del percepcion_df['ID_PER']
del percepcion_df['UPM']
del percepcion_df['VIV_SEL']
del percepcion_df['HOGAR']
del percepcion_df['RESUL_H']
del percepcion_df['R_SEL']
del percepcion_df['AREAM']
del percepcion_df['FAC_HOG']
del percepcion_df['FAC_ELE']
del percepcion_df['FAC_HOG_AM']
del percepcion_df['FAC_ELE_AM']
del percepcion_df['DOMINIO']
del percepcion_df['EST_DIS']
del percepcion_df['UPM_DIS']
del percepcion_df['llave']

percepcion_df

Unnamed: 0,Año,SEXO,EDAD,CVE_MUN,NOM_MUN,AP4_1,AP4_2_01,AP4_2_02,AP4_2_03,AP4_2_04,...,ESTRATO,AP4_2_13,AP4_5_17,AP4_5_18,AP4_10_16,AP5_3_11,AP5_4_11,AP5_5_11,AP5_6_11,AP4_4_A
72941,2017,2,25,18,Cajeme,3,1,0,0,0,...,3,0,0,0,0,0,,,,0
72942,2017,1,43,18,Cajeme,3,0,0,0,0,...,3,0,0,0,0,0,,,,0
72943,2017,2,51,18,Cajeme,3,0,1,0,0,...,3,0,0,0,0,0,,,,0
72944,2017,1,30,18,Cajeme,3,0,0,0,0,...,3,0,0,0,0,0,,,,0
72945,2017,2,81,18,Cajeme,3,1,0,0,0,...,2,0,0,0,0,0,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
532747,2022,1,80,69,Yécora,3,1,1,1,0,...,1,0,0,0,2,0,,,,5
532748,2022,1,62,69,Yécora,3,1,0,0,0,...,1,0,0,0,2,0,,,,1
532749,2022,2,53,69,Yécora,3,0,0,1,0,...,1,0,0,0,1,0,,,,5
532750,2022,2,53,69,Yécora,3,0,1,0,0,...,1,0,0,0,2,0,,,,3




In [59]:
# Guardamos el Data Frame 'percepcion_df' de pandas como .parquet
percepcion_df.to_parquet(subdir + 'percepcion_df.parquet')