## Incidencia delictiva

Para descargar los datos utilizaremos un pequeño `script` de Python que utiliza la libería Beautiful Soup para obtener el enlace del excel de los datos. Esto para obtener los datos más actualizados cada vez que se quiera trabajar con ellos.

In [2]:
import os
from datetime import datetime
import requests
from pathlib import Path

from bs4 import BeautifulSoup as bs
import gdown

## 1. Establecer rutas base

In [3]:
# Definamos el path base donde almacenaremos nuestros datos
print(f"Directorio actual:\n{os.getcwd()}")
datos_path = Path(r"./data/") # Carpeta data desde el dir actual

# El nombre con el que se almacenarán los datos
nombre_csv_delitos = "data_delitos.csv"

url_incidencia = r"https://www.gob.mx/sesnsp/acciones-y-programas/datos-abiertos-de-incidencia-delictiva"

Directorio actual:
c:\Users\guill\OneDrive - Universidad de Sonora\Maestria\Ingenieria de Caracteristicas\Proyectos\semaforo-delictivo\ETL


## 2. Descarga de los datos

In [4]:
page = requests.get(url_incidencia)
soup = bs(page.content, 'html.parser')
div = soup.find_all('div', class_='article-body')
links = div[0].find_all("a")
url_delitos = links[1]["href"]

In [5]:
#Una vez obtenido el enlace, descargar archivo con gdown
if os.path.exists(datos_path / nombre_csv_delitos):
    print(f"Ya existe el archivo {nombre_csv_delitos} en la ruta de datos {datos_path}")
else:
    gdown.download(url_delitos, str(datos_path / nombre_csv_delitos), fuzzy=True)

    # Creamos un pequeño archivo .txt para dar detalles de la descarga
    with open(datos_path / "info_03_incidencia.txt", 'w') as f:

        lista_archivos = [
            "info_incidencia.txt"
        ]

        fecha_hoy = datetime.now()
        fecha_hoy_str = fecha_hoy.strftime("%Y-%m-%d %H:%M:%S")

        f.write("Datos Abiertos de Incidencia Delictiva\n")
        info = """
Reportes de incidencia delictiva al mes de julio 2023 (Nueva metodología).
En esta página podrás encontrar los archivos de datos abiertos referentes
a incidencia delictiva, así como sus diccionarios de datos.
    """
        f.write(info + '\n')
        f.write(f"Descargado el {fecha_hoy_str} \n")
        f.write(f"Desde: {url_incidencia}\n")
        f.write(f"Url del csv: {url_delitos} \n")
        f.write("Archivos descargados:\n")
        for i, a in enumerate(lista_archivos, start=1):
            f.write(f"\t{i}. {a}")

Downloading...
From (uriginal): https://drive.google.com/uc?id=1r_D3qmptB6uuUJoVKEHfsDDdkp6HRRPz
From (redirected): https://drive.google.com/uc?id=1r_D3qmptB6uuUJoVKEHfsDDdkp6HRRPz&confirm=t&uuid=14015f62-8c8f-4c31-872f-cf0a20851fc1
To: c:\Users\guill\OneDrive - Universidad de Sonora\Maestria\Ingenieria de Caracteristicas\Proyectos\semaforo-delictivo\ETL\data\data_delitos.csv
100%|██████████| 306M/306M [02:16<00:00, 2.23MB/s] 


## 3. Comprobar descarga
Comprobar que se han almacenado los datos

In [6]:
print(f"Archivos en la ruta {datos_path}:")
for i, f in enumerate(os.listdir(datos_path), start=1):
    print(f"{i}. {f}")

Archivos en la ruta data:
1. 0_Pob_Inicio_1950_2070.xlsx
2. conjunto_de_datos
3. data_delitos.csv
4. data_mapa_mexico.zip
5. datos_proyecciones.zip
6. info_incidencia.txt
7. info_mapa.txt
8. info_proyecciones.txt
9. percepcion
