# Preparación de datos: Accidentes de Tránsito (ATUS - INEGI)

## 1. Descripción general

Esta notebook forma parte del proyecto [**Relacion Baches Accidentes HMO**](https://github.com/Ingenieria-de-Caracteristicas-MCD/Relacion_Baches_Accidentes_HMO). 

En esta etapa se trabaja con el conjunto de datos **Accidentes de Tránsito Terrestre en Zonas Urbanas y Suburbanas (ATUS)**, publicado por el **INEGI**, disponible públicamente en:

🔗 [https://www.inegi.org.mx/programas/accidentes/](https://www.inegi.org.mx/programas/accidentes/)


El conjunto contiene información geoespacial y tabular sobre los accidentes registrados en zonas urbanas y suburbanas de México. Incluye atributos como:
- Fecha y hora del accidente  
- Tipo de vehículo involucrado  
- Causas probables  
- Coordenadas geográficas (X, Y)  
- Entidad y municipio

### 1.1 Objetivo de esta notebook

En esta notebook se documenta el proceso automatizado de:
1. **Descargar** los archivos comprimidos (ZIP) de ATUS para los años 2021–2023.  
2. **Extraer y filtrar** los datos correspondientes al municipio de **Hermosillo, Sonora (CVE_ENT = 26, CVE_MUN = 30)**.  
3. **Guardar** los archivos procesados en la estructura de carpetas del proyecto (`data/raw/` y `data/interim/`).

El flujo completo combina la ejecución de dos scripts principales:
- `src/download_atus.py`  
- `src/extract_atus.py`

## 2. Configuración del entorno

A continuación se importan las funciones y rutas necesarias para ejecutar el flujo completo de prepraración de los datos ATUS. 

El archivo `src/config.py` define las rutas base del proyecto, mientas que los módulos `src/download_atus.py` y `src/extract_atus.py` contienen la lógica de descarga y extracción, respectivamente. 


In [13]:
import sys
from pathlib import Path

import pandas as pd
import geopandas as gpd

In [6]:
SRC_DIR = Path().resolve().parent / "src"

if str(SRC_DIR) not in sys.path: 
    sys.path.insert(0, str(SRC_DIR))

# for x in sys.path: print(x)

In [9]:
from config import ROOT_DIR, RAW_DIR, INTERIM_DIR
from download_atus import download_atus
from extract_atus import process_extraction_atus_hmo

# Verificación de rutas
print("Raw data directory:", RAW_DIR.relative_to(ROOT_DIR), RAW_DIR.exists(), RAW_DIR.is_dir())
print("Interim data directory:", INTERIM_DIR.relative_to(ROOT_DIR), INTERIM_DIR.exists(), INTERIM_DIR.is_dir())


Raw data directory: data\raw True True
Interim data directory: data\interim True True


## 3. Descarga de datos ATUS

El script `download_atus.py` descarga en paralelo los archivos ZIP publicados por el INEGI para los años 2021, 2022 y 2023.  

Cada archivo se guarda en `data/raw/atus` y se valida su integridad antes de continuar. 

In [11]:
# Descarga de archivos ZIP (2021–2023)
atus_zips = download_atus()

[32m2025-10-13 12:22:38,471 - INFO - download_atus.py - Inicia proceso de descarga (ATUS): 
[0m
Descargando atus_2021_shp.zip:   0%|          | 0.00/21.0M [00:00<?, ?B/s]
[A
[A
Descargando atus_2021_shp.zip:   5%|4         | 1.05M/21.0M [00:02<00:39, 501kB/s]
[A
Descargando atus_2021_shp.zip:  10%|9         | 2.10M/21.0M [00:05<00:48, 393kB/s]
[A
Descargando atus_2021_shp.zip:  15%|#4        | 3.15M/21.0M [00:08<00:49, 364kB/s]
Descargando atus_2021_shp.zip:  20%|#9        | 4.19M/21.0M [00:10<00:39, 426kB/s]
Descargando atus_2021_shp.zip:  25%|##4       | 5.24M/21.0M [00:12<00:38, 414kB/s]
Descargando atus_2021_shp.zip:  35%|###4      | 7.34M/21.0M [00:17<00:32, 418kB/s]
[A
[A
Descargando atus_2021_shp.zip:  40%|###9      | 8.39M/21.0M [00:20<00:32, 389kB/s]
Descargando atus_2021_shp.zip:  45%|####4     | 9.44M/21.0M [00:23<00:31, 372kB/s]
Descargando atus_2021_shp.zip:  50%|####9     | 10.5M/21.0M [00:26<00:27, 385kB/s]
Descargando atus_2021_shp.zip:  55%|#####4    | 11.5M/21


 - data\raw\atus\atus_2021_shp.zip
 - data\raw\atus\atus_2022_shp.zip
 - data\raw\atus\atus_2023_shp.zip



## 4. Extracción y filtrado de Hermosillo

El script `src/extract_atus.py` realiza las siguientes operaciones: 

1. Extrae todos los archivos ZIP descargados en `data/raw/atus`. 
2. Busca todos los archivos CSV generados durante la extracción. 
3. Filtra únicamente los regostros correspondientes al municipio de Hermosillo: 
    - `EDO` = 26 (Sonora)
    - `MPIO` = 30 (Hermosillo)
4. Guarda los resultados en `data/interim/atus`

* **Nota**: Si se ejecuta con el parámetro `clean=True`, se eliminarán ZIP originales una vez finalizado el proceso. 

In [12]:
# Extracción y filtrado de Hermosillo
atus_filtered = process_extraction_atus_hmo(clean=False)

[32m2025-10-13 12:37:37,800 - INFO - extract_atus.py - Inicia proceso de exrtacción:
[0m
[32m2025-10-13 12:37:39,385 - INFO - utils.py - ZIP atus_2021_shp.zip extraído -> data\raw\atus\atus_2021_shp[0m
[32m2025-10-13 12:37:41,498 - INFO - utils.py - ZIP atus_2022_shp.zip extraído -> data\raw\atus\atus_2022_shp[0m
[32m2025-10-13 12:37:43,657 - INFO - utils.py - ZIP atus_2023_shp.zip extraído -> data\raw\atus\atus_2023_shp[0m





[32m2025-10-13 12:37:45,045 - INFO - extract_atus.py - Archivo data\raw\atus\atus_2021_shp\ATUS_2021\conjunto_de_datos\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2021.csv filtrado -> data\interim\atus\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2021_HMO.csv
[0m
[32m2025-10-13 12:37:46,827 - INFO - extract_atus.py - Archivo data\raw\atus\atus_2022_shp\conjunto_de_datos\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2022.csv filtrado -> data\interim\atus\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2022_HMO.csv
[0m
[32m2025-10-13 12:37:48,597 - INFO - extract_atus.py - Archivo data\raw\atus\atus_2023_shp\conjunto_de_datos\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2023.csv filtrado -> data\interim\atus\BASE MUNICIPAL_ACCIDENTES DE TRANSITO GEORREFERENCIADOS_2023_HMO.csv
[0m
[32m2025-10-13 12:37:48,598 - INFO - extract_atus.py - Proceso de extracción completado en 10.80 s
[0m





# 5. Verificación rápida del resultado

A continuación, se carga uno de los archivos CSV resultantes para verificar que la estructura y los campos sean correctos. 

En este punto, se espera que los datos correspondan únicamente a accidentes ocurridos en Hermosillo, Sonora. 

In [15]:
df_hmo = pd.read_csv(atus_filtered[0])
df_hmo.head()

Unnamed: 0.1,Unnamed: 0,ID,EDO,MES,ANIO,MPIO,HORA,MINUTOS,DIA,DIASEMANA,...,OTROMUERTO,OTROHERIDO,TOTMUERTOS,TOTHERIDOS,CLASE,CALLE1,CALLE2,CARRETERA,LONGITUD,LATITUD
0,173098,1006278-999-0,26,1,2021,30,5,0,1,5,...,0,0,0,1,2,HERMOSILLO - BAHÍA KINO,CARRETERA 100,HERMOSILLO - BAHÍA KINO,-111.175579,29.005638
1,173099,1006278-999-1,26,1,2021,30,14,55,1,5,...,0,0,0,0,3,LEY FEDERAL DEL TRABAJO,ARIZONA,,-110.977345,29.118933
2,173100,1006278-999-2,26,1,2021,30,15,20,1,5,...,0,0,0,0,3,SOLIDARIDAD,RICARDO VALENCIA Y SOUZA,,-110.994506,29.135785
3,173101,1006278-999-3,26,1,2021,30,22,30,1,5,...,0,0,0,0,3,TERCERA DE WISTARIA,LÁZARO MERCADO,,-111.016417,29.124394
4,173102,1006278-999-5,26,1,2021,30,8,45,2,6,...,0,0,0,0,3,HERMOSILLO - BAHÍA KINO,,HERMOSILLO - BAHÍA KINO,-111.115522,29.050191


## 6. Ejecución desde la terminal

Alternativamente, si se prefiere ejecutar el flujo de descarga y extracción sin usar esta notebook, ambos scripts pueden correrse directamente desde la terminal.

### 6.1 Descargar los archivos ATUS (2021–2023)

```bash
python src/download_atus.py
````

Esto descargará los archivos ZIP oficiales del INEGI en la ruta: `data/raw/atus/`

### 6.2 Extraer y filtrar los datos de Hermosillo

```bash
python src/extract_atus.py
```

Este comando:

* Descomprime los archivos descargados en `data/raw/atus/`
* Filtra los registros de Hermosillo (`EDO=26`, `MPIO=30`)
* Guarda los resultados en `data/interim/atus/`
* Y si se ejecuta con la opción `clean=True` dentro del script, eliminará los ZIP originales.

### 6.3 Flujo completo

En caso de querer correr ambos pasos consecutivamente:

```bash
python src/download_atus.py && python src/extract_atus.py
```

## 7. Conclusión

En esta notebook se documentó el flujo completo de **extracción de los datos ATUS**:

- Se descargaron automáticamente los conjuntos de datos de INEGI (2021–2023).  
- Se extrajeron y filtraron los registros de Hermosillo.  
- Se generaron archivos intermedios limpios para su posterior análisis, limpueza e integración con los datos de **baches reportados (Bachómetro)** y **clima (Open Meteo)**.

Los datos procesados servirán como base para el análisis espacial y temporal de accidentes y su relación con condiciones viales y meteorológicas.
