# Etapa 3 - Limpieza de Datos

**Proyecto:** Ciencia de Datos - Preparaci√≥n de Datos  
**Universidad:** Pontificia Universidad Javeriana  
**Curso:** Tecnolog√≠as Emergentes 2025  
**Profesor:** Luis Carlos Chica√≠za

---

## Objetivo de esta Etapa

Realizar la **limpieza sistem√°tica** del dataset de accidentes de tr√°nsito en Bucaramanga, abordando:

1. Reconocimiento y tratamiento de atributos con valores √∫nicos o casi √∫nicos.  
2. An√°lisis y tratamiento de valores faltantes.  
3. Identificaci√≥n y tratamiento de valores at√≠picos o inconsistentes.  
4. Generaci√≥n de un dataset limpio y documentado para la etapa 4 (vista minable).


## 1. Configuraci√≥n Inicial


In [15]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

import sys
import os
sys.path.append(os.path.abspath(".."))

from src.limpieza_datos import (
    cargar_datos,
    diagnostico_calidad,
    tratar_atributos_unicos,
    tratar_valores_faltantes,
    tratar_atipicos_iqr,
    normalizar_texto_categorico
)

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")

# Configuraci√≥n de visualizaci√≥n
%matplotlib inline
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úì Librer√≠as importadas y configuradas")

‚úì Librer√≠as importadas y configuradas


## 2. Carga del Dataset y Diagn√≥stico Inicial


In [16]:
# Cargar dataset original (mismas rutas usadas en las etapas 1 y 2)
file_path = '../data/raw/accidentes_transito.csv'

# Intentar cargar con diferentes encodings si es necesario
try:
    df_raw = pd.read_csv(file_path, encoding='utf-8')
except UnicodeDecodeError:
    df_raw = pd.read_csv(file_path, encoding='latin-1')

print("=" * 80)
print("DATASET ORIGINAL - INFORMACI√ìN B√ÅSICA")
print("=" * 80)
print(f"Registros: {len(df_raw):,}")
print(f"Atributos: {len(df_raw.columns)}")
print("\nPrimeras filas:")
display(df_raw.head())

print("\nInformaci√≥n general:")
print(df_raw.info())


DATASET ORIGINAL - INFORMACI√ìN B√ÅSICA
Registros: 39,193
Atributos: 24

Primeras filas:


Unnamed: 0,ORDEN,FECHA,A√ëO,MES,D√çA,GRAVEDAD,PEATON,AUTOMOVIL,CAMPERO,CAMIONETA,MICRO,BUSETA,BUS,CAMION,VOLQUETA,MOTO,BICICLETA,OTRO,BARRIO,HORA,ENTIDAD,COMUNA,Propietario de Veh√≠culo,DIURNIO/NOCTURNO
0,1,2012-01-01T00:00:00.000,2012,01. Enero,07. Domingo,Con heridos,0,1,0,0,0,0,0,0,0,0,0,0,Mutis,1899-12-31T12:15:00.000,AGENTES DTB,17. MUTIS,Particular,Diurno
1,2,2012-01-01T00:00:00.000,2012,01. Enero,07. Domingo,Solo da√±os,0,1,0,1,0,0,0,0,0,0,0,0,Regaderos Norte,1899-12-31T14:00:00.000,AGENTES DTB,02. NORORIENTAL,Empresa,Diurno
2,3,2012-01-01T00:00:00.000,2012,01. Enero,07. Domingo,Solo da√±os,0,0,0,1,0,0,0,0,0,0,0,0,Cabecera Del Llano,1899-12-31T12:00:00.000,AGENTES DTB,12. CABECERA DEL LLANO,Particular,Diurno
3,4,2012-01-01T00:00:00.000,2012,01. Enero,07. Domingo,Solo da√±os,0,1,0,1,0,0,0,0,0,0,0,0,Norte Bajo,1899-12-31T18:30:00.000,AGENTES DTB,03. SAN FRANCISCO,Empresa,Nocturno
4,5,2012-01-01T00:00:00.000,2012,01. Enero,07. Domingo,Con heridos,1,0,0,0,0,0,0,0,0,1,0,0,Dangond,1899-12-31T00:30:00.000,AGENTES DTB,11. SUR,Particular,Nocturno



Informaci√≥n general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39193 entries, 0 to 39192
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   ORDEN                    39193 non-null  int64 
 1   FECHA                    39193 non-null  object
 2   A√ëO                      39193 non-null  int64 
 3   MES                      39193 non-null  object
 4   D√çA                      39193 non-null  object
 5   GRAVEDAD                 39193 non-null  object
 6   PEATON                   39193 non-null  int64 
 7   AUTOMOVIL                39193 non-null  int64 
 8   CAMPERO                  39193 non-null  int64 
 9   CAMIONETA                39193 non-null  int64 
 10  MICRO                    39193 non-null  int64 
 11  BUSETA                   39193 non-null  int64 
 12  BUS                      39193 non-null  int64 
 13  CAMION                   39193 non-null  int64 
 14  VOLQUETA     

### 2.1 Tabla de Diagn√≥stico de Calidad de Datos

Como primer paso, se construye una tabla de diagn√≥stico por atributo, que resume:

- Tipo de dato.  
- N√∫mero y porcentaje de valores faltantes.  
- Cardinalidad (n√∫mero de valores distintos).  
- Ejemplos de valores observados.

Esto permite identificar r√°pidamente columnas con muchos nulos, alta unicidad o posibles problemas de calidad.


In [17]:
# Construir tabla de diagn√≥stico usando la funci√≥n auxiliar
tabla_diagnostico = diagnostico_calidad(df_raw)

print("=" * 80)
print("TABLA DE DIAGN√ìSTICO DE CALIDAD - VISTA GENERAL")
print("=" * 80)
display(tabla_diagnostico)

print("\nResumen de valores faltantes por columna:")
cols_con_nulos = tabla_diagnostico[tabla_diagnostico['n_nulos'] > 0]
if not cols_con_nulos.empty:
    for _, row in cols_con_nulos.iterrows():
        print(f" - {row['columna']}: {row['n_nulos']:,} nulos ({row['pct_nulos']}%)")
else:
    print("No se encontraron valores nulos en las columnas analizadas.")


TABLA DE DIAGN√ìSTICO DE CALIDAD - VISTA GENERAL


Unnamed: 0,columna,tipo,n_nulos,pct_nulos,cardinalidad,ejemplo_valores
0,ORDEN,int64,0,0.0,39193,"[1, 2, 3]"
1,FECHA,object,0,0.0,4264,"[2012-01-01T00:00:00.000, 2012-01-02T00:00:00...."
2,A√ëO,int64,0,0.0,12,"[2012, 2014, 2016]"
3,MES,object,0,0.0,12,"[01. Enero, 02. Febrero, 03. Marzo]"
4,D√çA,object,0,0.0,7,"[07. Domingo, 01. Lunes, 02. Martes]"
5,GRAVEDAD,object,0,0.0,4,"[Con heridos, Solo da√±os, Con muertos]"
6,PEATON,int64,0,0.0,8,"[0, 1, 2]"
7,AUTOMOVIL,int64,0,0.0,10,"[1, 0, 2]"
8,CAMPERO,int64,0,0.0,3,"[0, 1, 2]"
9,CAMIONETA,int64,0,0.0,4,"[0, 1, 2]"



Resumen de valores faltantes por columna:
No se encontraron valores nulos en las columnas analizadas.


## 3. Tratamiento de Atributos con Valores √önicos o Casi √önicos

En esta secci√≥n se identifican columnas que:

- Funcionan como identificadores puros (por ejemplo, `ORDEN`).  
- Tienen una **cardinalidad muy alta** (casi un valor distinto por fila).

Las columnas que act√∫an como ID se eliminan del an√°lisis; las de alta unicidad se documentan y se decide si se conservan por su relevancia anal√≠tica.

In [18]:
# Aplicar tratamiento de atributos √∫nicos / casi √∫nicos
df_unicos, decisiones_unicos = tratar_atributos_unicos(df_raw)

print("=" * 80)
print("TRATAMIENTO DE ATRIBUTOS √öNICOS / CASI √öNICOS")
print("=" * 80)
print("Decisiones tomadas:")
for col, decision in decisiones_unicos.items():
    print(f" - {col}: {decision}")

print("\nForma del dataset antes / despu√©s:")
print(f" - Original: {df_raw.shape[0]:,} filas, {df_raw.shape[1]} columnas")
print(f" - Tras tratamiento de unicidad: {df_unicos.shape[0]:,} filas, {df_unicos.shape[1]} columnas")


TRATAMIENTO DE ATRIBUTOS √öNICOS / CASI √öNICOS
Decisiones tomadas:
 - ORDEN: eliminada (columna ID expl√≠cita)

Forma del dataset antes / despu√©s:
 - Original: 39,193 filas, 24 columnas
 - Tras tratamiento de unicidad: 39,193 filas, 23 columnas


## 4. Tratamiento de Valores Faltantes

A partir de la tabla de diagn√≥stico, se definen criterios para el manejo de nulos:

- Columnas con m√°s del **50% de valores faltantes** se eliminan.  
- En el resto:
  - Variables num√©ricas: imputaci√≥n con la **mediana**.  
  - Variables categ√≥ricas: imputaci√≥n con la **moda** (valor m√°s frecuente).

Este criterio busca un balance entre conservar informaci√≥n y evitar sesgos excesivos por imputaci√≥n.


In [19]:
# Aplicar tratamiento de valores faltantes
df_nulos, decisiones_nulos = tratar_valores_faltantes(df_unicos)

print("=" * 80)
print("TRATAMIENTO DE VALORES FALTANTES")
print("=" * 80)

print("Decisiones por columna (muestra):")
for col, decision in list(decisiones_nulos.items())[:30]:
    print(f" - {col}: {decision}")

print("\nN√∫mero de columnas eliminadas por alto porcentaje de nulos:")
eliminadas = [c for c, d in decisiones_nulos.items() if 'eliminada' in d]
print(f" - Total columnas eliminadas: {len(eliminadas)}")
if eliminadas:
    print("   Columnas eliminadas:", ', '.join(eliminadas))

print("\nForma del dataset tras tratamiento de nulos:")
print(f" - Filas: {df_nulos.shape[0]:,}")
print(f" - Columnas: {df_nulos.shape[1]}")


TRATAMIENTO DE VALORES FALTANTES
Decisiones por columna (muestra):
 - FECHA: sin nulos
 - A√ëO: sin nulos
 - MES: sin nulos
 - D√çA: sin nulos
 - GRAVEDAD: sin nulos
 - PEATON: sin nulos
 - AUTOMOVIL: sin nulos
 - CAMPERO: sin nulos
 - CAMIONETA: sin nulos
 - MICRO: sin nulos
 - BUSETA: sin nulos
 - BUS: sin nulos
 - CAMION: sin nulos
 - VOLQUETA: sin nulos
 - MOTO: sin nulos
 - BICICLETA: sin nulos
 - OTRO: sin nulos
 - BARRIO: sin nulos
 - HORA: sin nulos
 - ENTIDAD: sin nulos
 - COMUNA: sin nulos
 - Propietario de Veh√≠culo: sin nulos
 - DIURNIO/NOCTURNO: sin nulos

N√∫mero de columnas eliminadas por alto porcentaje de nulos:
 - Total columnas eliminadas: 0

Forma del dataset tras tratamiento de nulos:
 - Filas: 39,193
 - Columnas: 23


## 5. Normalizaci√≥n de Variables Categ√≥ricas

Se realiza una limpieza b√°sica de texto en variables categ√≥ricas clave:

- Eliminaci√≥n de espacios en blanco al inicio y al final.  
- Unificaci√≥n de espacios intermedios m√∫ltiples.

Esto ayuda a reducir problemas derivados de valores como `" Norte "` vs `"Norte"` o variaciones similares.


In [20]:
# Definir columnas categ√≥ricas a normalizar (seg√∫n exploraci√≥n previa)
columnas_texto = [
    "BARRIO",
    "COMUNA",
    "GRAVEDAD",
    "MES",
    "D√çA",
    "ENTIDAD",
    "Propietario de Veh√≠culo",
    "DIURNIO/NOCTURNO",
]

df_cat = normalizar_texto_categorico(df_nulos, columnas_texto)

print("=" * 80)
print("NORMALIZACI√ìN DE VARIABLES CATEG√ìRICAS")
print("=" * 80)
print("Columnas normalizadas:")
for col in columnas_texto:
    if col in df_cat.columns:
        print(f" - {col}")
    else:
        print(f" - {col} (no presente en el DataFrame tras pasos anteriores)")

# Normalizaci√≥n espec√≠fica de la variable GRAVEDAD
if "GRAVEDAD" in df_cat.columns:
    df_cat["GRAVEDAD"] = (
        df_cat["GRAVEDAD"]
        .astype(str)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.lower()
        .map({
            "solo da√±os": "Solo da√±os",
            "solo danos": "Solo da√±os",
            "con heridos": "Con heridos",
            "con muertos": "Con muertos",
        })
        .fillna("Otra")
    )

# Asignar el DataFrame normalizado a df_limpio
df_limpio = df_cat


NORMALIZACI√ìN DE VARIABLES CATEG√ìRICAS
Columnas normalizadas:
 - BARRIO
 - COMUNA
 - GRAVEDAD
 - MES
 - D√çA
 - ENTIDAD
 - Propietario de Veh√≠culo
 - DIURNIO/NOCTURNO


## 6. Tratamiento de Valores At√≠picos (Outliers) en Variables Num√©ricas

Para las variables num√©ricas se aplican reglas basadas en el **rango intercuart√≠lico (IQR)**:

- Se calculan Q1, Q3 e IQR = Q3 ‚àí Q1.  
- Se fijan l√≠mites inferior y superior:  
  \\( \\text{L√≠mite Inf} = Q1 - 1.5 \\times IQR \\),  
  \\( \\text{L√≠mite Sup} = Q3 + 1.5 \\times IQR \\).  
- Los valores que quedan por fuera se **recortan** (winsorizaci√≥n) a dichos l√≠mites.

Con esto se reduce el impacto de registros extremos sin eliminarlos por completo.


In [21]:
# Aplicar tratamiento de valores at√≠picos num√©ricos
df_limpio, resumen_atipicos = tratar_atipicos_iqr(df_cat)

print("=" * 80)
print("TRATAMIENTO DE VALORES AT√çPICOS NUM√âRICOS (IQR)")
print("=" * 80)

if resumen_atipicos:
    resumen_df = pd.DataFrame.from_dict(resumen_atipicos, orient='index')
    display(resumen_df)
    print("\nColumnas con valores modificados (n_modificados > 0):")
    modificadas = resumen_df[resumen_df['n_modificados'] > 0]
    if not modificadas.empty:
        for col, row in modificadas.iterrows():
            print(f" - {col}: {int(row['n_modificados'])} registros recortados")
    else:
        print("No se detectaron outliers seg√∫n el criterio IQR.")
else:
    print("No se gener√≥ resumen de at√≠picos (posiblemente no hay columnas num√©ricas con variaci√≥n suficiente).")

print("\nForma final del dataset limpio:")
print(f" - Filas: {df_limpio.shape[0]:,}")
print(f" - Columnas: {df_limpio.shape[1]}")


TRATAMIENTO DE VALORES AT√çPICOS NUM√âRICOS (IQR)


Unnamed: 0,q1,q3,lim_inf,lim_sup,n_modificados
A√ëO,2014.0,2019.0,2006.5,2026.5,0
AUTOMOVIL,0.0,1.0,-1.5,2.5,360
MOTO,0.0,1.0,-1.5,2.5,107



Columnas con valores modificados (n_modificados > 0):
 - AUTOMOVIL: 360 registros recortados
 - MOTO: 107 registros recortados

Forma final del dataset limpio:
 - Filas: 39,193
 - Columnas: 23


## 7. Exportaci√≥n del Dataset Limpio

Finalmente, se guarda el resultado de la limpieza en la carpeta `data/processed/`, para su uso en la etapa 4 (construcci√≥n de vista minable y an√°lisis posterior).


In [22]:
# Guardar dataset limpio
output_path = '../data/processed/accidentes_transito_limpio.csv'
import os

os.makedirs(os.path.dirname(output_path), exist_ok=True)
df_limpio.to_csv(output_path, index=False, encoding='utf-8')

print("=" * 80)
print("EXPORTACI√ìN DEL DATASET LIMPIO")
print("=" * 80)
print(f"Archivo guardado en: {output_path}")


EXPORTACI√ìN DEL DATASET LIMPIO
Archivo guardado en: ../data/processed/accidentes_transito_limpio.csv


## 8. Conclusiones de la Etapa 3 - Limpieza de Datos

### ‚úÖ Resumen de Transformaciones Clave

- **Atributos √∫nicos / casi √∫nicos**  
  - Se elimin√≥ la columna de identificaci√≥n `ORDEN`, al no aportar informaci√≥n anal√≠tica.  
  - Se documentaron columnas de alta unicidad (por ejemplo, fechas) que se conservaron por su relevancia temporal.

- **Valores faltantes**  
  - Se eliminaron columnas con m√°s del 50% de valores faltantes (criterio de baja confiabilidad).  
  - En el resto de atributos:
    - Variables num√©ricas: imputaci√≥n con la mediana.  
    - Variables categ√≥ricas: imputaci√≥n con la moda o un valor marcador (`SIN_DATO`) cuando fue necesario.

- **Valores at√≠picos**  
  - Se aplic√≥ el m√©todo IQR con winsorizaci√≥n en variables num√©ricas, reduciendo el impacto de registros extremos sin eliminar observaciones completas.

- **Normalizaci√≥n de texto**  
  - Se unificaron formatos en variables categ√≥ricas clave (`GRAVEDAD`, `BARRIO`, `COMUNA`, `DIURNIO/NOCTURNO`, entre otras), reduciendo la dispersi√≥n artificial de categor√≠as por diferencias de escritura.

### üéØ Impacto en el Proyecto

- El dataset resultante presenta **mejor consistencia y calidad**, lo cual:
  - Facilita la interpretaci√≥n de patrones en las etapas siguientes.  
  - Reduce el riesgo de conclusiones sesgadas por errores de captura o datos extremos.  
  - Deja documentadas las decisiones de limpieza, lo que aporta transparencia y reproducibilidad al proyecto.

Con esta etapa, se completa el macroproceso de **limpieza de datos**, dejando el dataset listo para la construcci√≥n de la **vista minable** y el an√°lisis m√°s profundo en la Etapa 4.
