<a href="https://colab.research.google.com/github/osirisizs/Proyecto-Ingenieria-de-Caracteristicas/blob/main/Descarga_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Proyecto 1. *Descargando datos de la Web*


<p> Osiris Alejandro Izaguirre </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="150">
</p>


<a target="_blank" href="https://colab.research.google.com/drive/1Rkf4n6BfEigAZ1gol6cuh_WjYZ9lYKGg"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# Objetivo

Debido a la situación actual en términos de inseguridad en el estado de Sonora, así como en el resto del país, se plantea la extracción de datos públicos para el conocimiento y entendimiento de la forma en la que se presenta en los diferentes municipios y como se ven relacionadoa estos datos con el tema de **Crimen Organizado** y **Narcomenudeo** 

Para este proposito se utilizarán datos encontrados en la página oficial del [*Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública*](https://www.gob.mx/sesnsp) sobre los casos por tipo de delito por municipio. 

Se consideran además datos sobre la percepción sobre seguridad publica en cada municipio de la *Encuesta Nacional de Victimización y Percepción sobre la Seguridad Pública (ENVIPE)* recabados por el [INEGI](https://www.inegi.org.mx/default.html). 

# Importación de librerias

Comenzamos con la importación de las librerias a utilizar a lo largo del proyecto:

In [2]:
import os             # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests     # Otra forma no de las librerías de uso comun

import datetime       # Fecha de descarga
import pandas as pd   # Solo para ver el archivo descargado
import zipfile        # Descompresión de archivos

# Definiendo las rutas de los Datos a Utilizar

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [3]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
delitos_url = "https://drive.google.com/u/0/uc?id=10fm7xF4F6X1uGDRNw5aEMOJo_GsFIeTR&export=download"
delitos_archivo = "delitos.csv"

#  Los datos de encuestas de percepción sobre la seguridad pública se encuentran publicados por año 
#  por lo que se crean estos pedazos de URL para iterar utilizando una variable "año" al descargar
percepcion_base_url = "https://www.inegi.org.mx/contenidos/programas/envipe/"
percepcion_datosurl = "/datosabiertos/conjunto_de_datos_ENVIPE"
percepcion_datos_url = "/datosabiertos/conjunto_de_datos_ENVIPE_"
percepciondatosurl = "/datosabiertos/ENVIPE_"
percepcion_final_url = "_csv.zip"
percepcion_archivo = "_percepción.zip"

subdir = "./data/"


/content


# Descargando y extrayendo los Datos

Debido a que las bases de datos del INEGI desde donde se van a descargar los datos complementarios sobre percepción de la seguridad pública no se encuentran completamente estandarizadas en sus URL se realizan condiciones especiales para la descarga de cada año.

In [4]:
if not os.path.exists(delitos_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(delitos_url, subdir + delitos_archivo)      

    # Se encontraron algunas pequeñas variaciones en los URL de descarga de los diferentes años:
    for year in range(2015, 2023):

      if(year == 2015 or year == 2018 or year == 2019 or year == 2020):
        urllib.request.urlretrieve(percepcion_base_url + str(year) + percepcion_datosurl + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir)   

      elif(year == 2016 or year == 2017):
        urllib.request.urlretrieve(percepcion_base_url + str(year) + percepciondatosurl + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir) 

      else:
        urllib.request.urlretrieve(percepcion_base_url + str(year) + percepcion_datos_url + str(year) + percepcion_final_url, 
                                 subdir + str(year) + percepcion_archivo)
        with zipfile.ZipFile(subdir + str(year) + percepcion_archivo, "r") as zip_ref:
          zip_ref.extractall(subdir) 

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre delincuencia en Sonora\n")
        info = """
        Datos sobre los delitos denunciados oficialmente en la página del Secretariado Ejecutivo del Sistema Nacional 
        de Seguridad Pública, complementados con datos del INEGI sobre la percepción sobre seguridad pública en Sonora.             

        Los datos se obtuvieron del SESNSP con fecha de 20 de septiembre de 2022 (la base de datos se actualiza constantemente) 

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + delitos_url + "\n")
        f.write("Nombre: " + delitos_archivo + "\n")
        
        for year in range(2015, 2023):
          
          if(year == 2015 or year == 2018 or year == 2019 or year == 2020):
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepcion_datosurl + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")

          elif(year == 2016 or year == 2017):
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepciondatosurl + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")
          
          else:
            f.write("Agregados sobre percepción nacional descargados desde: " + percepcion_base_url + str(year) + percepcion_datos_url + str(year) + percepcion_final_url + "\n")
            f.write("Nombre: " + str(year) + percepcion_archivo + "\n")

    with open(subdir + "Diccionario_de_Datos.txt", 'w') as f:
        f.write("Diccionario de datos: \n")
        info = """
        Datos del SESNSP:

        Año                      | Año de registro de las averiguaciones previas y/o carpetas de investigación.
        Calve_Ent                | Clave de la entidad, según el Marco Geoestadístico Nacional (MGN), del Instituto Nacionnal de 
                                 | Geografía y Estadística (INEGI).
        Entidad                  | Entidad federativa de regitro de las averiguaciones previas y/o carpetas de investigación.
        Bien juridico afectado   | Primera clasificación de los delitos en las averiguaciones previas y/o carpetas de investigación.
        Tipo de delito           | Segunda clasificación de los delitos.
        Subtipo de delito        | Tercera clasificación de los delitos.
        Modalidad                | Cuarta clasificación de los delitos.
        Enero - Diciembre        | Mes del registro de las averiguaciones previas y/o carpeta de investigación.

        Datos del INEGI (ENVIPE):

        ...

        """ 
        f.write(info + '\n')


# Leyendo los archivos .csv en Data Frames de Pandas

Es necesario leer los archivos .csv e importarlos como un data frame utilizable con las librerias de pandas y otras en python para su procesamiento. 

In [29]:
percepcion_2022_df = pd.read_csv(subdir + )

percepcion_2022_df


UnicodeDecodeError: ignored