# **Raw to Processed**

## **Librerías y modulos necesarios**

In [1]:
import pandas as pd
from funciones.faltantes import *
from funciones_datas.data_calidad_agua import *
from funciones_datas.data_acceso_internet import *
from funciones_datas.data_casos_de_homicidio import *

### **Indicaciones para el análisis y limpieza de cada conjunto de datos**

Por cada conjunto de datos, se debe realizar el siguiente proceso:

1. **Descripción del conjunto de datos**
   Presentar un resumen claro y conciso que explique la naturaleza, origen y variables principales del dataset.

2. **Lectura del dataset original**
   Cargar el archivo de datos en el entorno de trabajo respetando su formato original.

3. **Aplicación del método de limpieza**
   Aplicar el método previamente creado para el proceso de limpieza de datos.

4. **Análisis de datos faltantes**
   Identificar y documentar la cantidad y porcentaje de datos ausentes en cada variable relevante.

5. **Visualización o impresión del dataset limpio**
   Mostrar el dataset final tras la limpieza para verificar su estructura y contenido.

6. **Diccionario de variables**
   Incluir una tabla o listado que explique el significado y tipo de cada variable en el dataset.

## **Nivel: Departamental**

## **Nivel: Municipal**

### **Data: Calidad del Agua para Consumo Humano en Colombia**

**Descripción:**

El Sistema de Información de la Vigilancia de la Calidad del Agua de Potable **(SIVICAP)** fue creado para monitorear la calidad del agua potable en Colombia desde la perspectiva de la vigilancia en salud pública. Este sistema genera el Índice de Riesgo de la Calidad de Agua Potable **(IRCA)**, que cuantifica en porcentaje el nivel de riesgo de ocurrencia de enfermedades asociadas al incumplimiento de características físicas, químicas y microbiológicas del agua destinada al consumo humano.


***Observación:*** El conjunto de datos contiene históricos del valor promedio anual del IRCA, desagregados por departamento, municipio, área urbana y área rural, cubriendo el periodo desde 2007 en adelante. En este caso, el nivel escogido es municipal. 

**Fuentes:**  

- Pagina oficial: {cite}`SIVICAP2025` 
- Datos: {cite}`ICA_Agua2025` 


In [2]:
data_raw_calidad_agua = pd.read_csv("https://drive.google.com/uc?export=download&id=1rPVSPwtca-q248RwKBYuEqO8BE1pzvMn")
data_processed_calidad_agua = data_cleaned_calidad_del_agua(data_raw_calidad_agua, 'CARIBE', 2023)

In [3]:
analizar_columnas_faltantes(data_processed_calidad_agua)

No hay datos faltantes.


In [4]:
data_processed_calidad_agua.head()

Unnamed: 0,COD_DEPTO,DEPARTAMENTO,COD_MUNI,IRCA,NIVEL_RIESGO,NIVEL_RIESGO_COD,MUNICIPIO
6,70,SUCRE,70235,4.6,Sin riesgo,0,GALERAS
2129,8,ATLANTICO,8001,0.0,Sin riesgo,0,BARRANQUILLA
2146,8,ATLANTICO,8078,10.5,Riesgo bajo,1,BARANOA
2163,8,ATLANTICO,8137,0.0,Sin riesgo,0,CAMPO DE LA CRUZ
2180,8,ATLANTICO,8141,0.0,Sin riesgo,0,CANDELARIA


Diccionario de variables : poner enlace

### **Data Acceso a Internet**

**Descripción:**

Número de suscriptores con acceso dedicado a Internet para cada uno de los departamentos y municipios de Colombia, según los datos reportados por los proveedores al último día de cada trimestre . Basados en estos datos y en las proyecciones del DANE para la población por municipio, departamento y en total en Colombia, se muestra el porcentaje de penetración de Internet fijo para el periodo comprendido desde 2015-4T hasta el ultimo trimestre publicado.

***Observación:*** En la base de datos se tienen los registros de los ``accesos de interner fijos por cada 100 habitantes por departamentos y municipios de Colombia`` desde año a año 

**Fuentes:**  

- Pagina oficial: {cite}`colombia_tic` 
- Datos: {cite}`internet_fijo_penetracion` 


In [2]:
data_raw_internet = pd.read_csv("https://drive.google.com/uc?export=download&id=1itLnFvy4_OBlT57dzn__VxBtkSUA7XFr")

In [3]:
data_processed_internet = data_cleaned_acceso_internet(data_raw_internet, 'CARIBE', 2023)

In [4]:
analizar_columnas_faltantes(data_processed_internet)

No hay datos faltantes.


In [5]:
data_processed_internet.head()

Unnamed: 0,AÑO,COD_DEPTO,DEPARTAMENTO,COD_MUNI,ACCESO_INTERNET,MUNICIPIO
125,2023,8,ATLANTICO,8001,307144.0,BARRANQUILLA
126,2023,8,ATLANTICO,8078,5615.0,BARANOA
127,2023,8,ATLANTICO,8137,432.0,CAMPO DE LA CRUZ
128,2023,8,ATLANTICO,8141,262.0,CANDELARIA
129,2023,8,ATLANTICO,8296,10155.0,GALAPA


### **Data Homicidios**

**Descripción:**

Este conjunto de datos “HOMICIDIO” (categoría Seguridad y Defensa) recoge, a nivel municipal y anual, la cantidad de muertes intencionales causadas por otra persona, incluyendo civiles, miembros de la Fuerza Pública y actores criminales, pero excluyendo las víctimas de accidentes de tránsito y cualquier muerte no atribuible a la voluntad homicida de un tercero.


***Observación:*** En la base de datos se tienen los registros de los ``casos de homicidio que se presentaron por departamentos y municipios de Colombia`` desde 2003 a 2025 

**Fuentes:**  

- Datos: {cite}`homicidio` 

In [6]:
data_raw_homicidios = pd.read_csv('https://drive.google.com/uc?export=download&id=1ZjHIxKmfboAtuAPWdAH14JMOe5yMujBo')
data_processed_homicidios = data_cleaned_homicidios(data_raw_homicidios, 'CARIBE', 2023)

In [7]:
analizar_columnas_faltantes(data_processed_homicidios)

No hay datos faltantes.


In [8]:
data_processed_homicidios.head()

Unnamed: 0,COD_DEPTO,DEPARTAMENTO,COD_MUNI,AÑO,CANTIDAD,MUNICIPIO
0,8,ATLANTICO,8001,2023,375,BARRANQUILLA
1,13,BOLIVAR,13001,2023,0,CARTAGENA DE INDIAS
2,13,BOLIVAR,13244,2023,33,EL CARMEN DE BOLIVAR
3,23,CORDOBA,23678,2023,9,SAN CARLOS
4,44,LA GUAJIRA,44078,2023,7,BARRANCAS


## **Nivel: Manzana**



# **Referencias**

```{bibliography} references.bib
:style: plain
