<a href="https://colab.research.google.com/github/teobenko99/PRACTICA/blob/main/02_LIMPIEZA_TP_Final_AA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Carga de Librerias

In [None]:
#Cargas
import pandas as pd
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt


# Opcional, pero recomendado para la imputación
from sklearn.impute import SimpleImputer

# Definición de la función
def load_data():
    candidates = [
        Path('/content/datos_genero_filtrados.xlsx'),   # Colab local
        Path('data/raw/datos_genero_filtrados.xlsx'),   # Proyecto local
        Path('datos_genero_filtrados.xlsx'),            # Carpeta actual
    ]
    for p in candidates:
        if p.exists():
            df = pd.read_excel(p)
            print("=== Dataset cargado ===")
            print(f"Archivo: {p} | Filas={df.shape[0]} | Columnas={df.shape[1]}")
            display(df.head(3))
            return df
    raise FileNotFoundError('No se encontró datos_genero_filtrados.xlsx en rutas conocidas.')

#ver DS cargado
df = load_data()  # Llama a la función y guarda el DataFrame en 'df'


=== Dataset cargado ===
Archivo: /content/datos_genero_filtrados.xlsx | Filas=235 | Columnas=36


Unnamed: 0,profesionales,edad,motivo_de_consulta,medio_por_el_que_ingresa,genero,nacionalidad,barrio,municipio,localidad,estado_civil,...,simbolica,ambiental,politica,digital,cant_tipos_violencias_por_persona,denuncio,medidas_de_proteccion,fecha_fin_de_vigencia,personas_a_cargo,red_vincular
0,Fanny / Dana,28.0,VIOLENCIA,,Mujer,Argentina,bordeu,Bahía Blanca,Bahía Blanca,Soltera,...,0.0,0.0,0.0,0.0,2.0,NO,NO,,NO,PARIENTES CONVIVIENTES
1,Agus/ Analé,43.0,VIOLENCIA,,Mujer,Argentina,pacifico,Bahía Blanca,Bahía Blanca,,...,0.0,1.0,0.0,0.0,4.0,SI,Prohibición de acercamiento,,Hija/Hijo,PARIENTES NO CONVIVIENTES
2,Fanny/ Majo,53.0,VIOLENCIA,,Mujer,Argentina,pampa central,Bahía Blanca,Bahía Blanca,Soltera,...,0.0,0.0,0.0,0.0,2.0,NO,NO,,NO,PARIENTES NO CONVIVIENTES


# Universidad Nacional de la Matanza

Especialización en Ciencia de Datos

Materia: APRENDIZAJE AUTOMÁTICO

GRUPO : Benko Teo, Cura Diego, Riganti Valentina, Sanjuan Oriana.

# **Etapa: Limpieza de datos y preprocesamiento**

Se realizan correciones generales en las variables categóricas:
* Normalización de texto
* Tratamiento de nulos
* Estandarización

Respecto a variables numéricas, se hacen las aclaraciones pertinentes en cada caso.

### Análisis de variables de consulta (qué profesional se asignó, cuál es el motivo de la consulta y por qué canal llega):

In [None]:
# Lista de columnas a limpiar
col_limpiar = ['profesionales', 'motivo_de_consulta']

for col in col_limpiar:

    # 1. Normalización Rígida (Minúsculas, Sin Espacios)
    df[col] = df[col].astype(str).str.lower().str.strip()

    # 2. Unificación de Nulos/Ausencia de Dato a 'desconocido'
    df[col] = df[col].replace({
        'nan': 'desconocido',
        'nulo (sin dato)': 'desconocido',
        'sin datos': 'desconocido',
        'otra': 'desconocido'
    })

    # 3. Estandarización de Separadores (Para eliminar la barra '/' en profesionales)
    df[col] = df[col].str.replace('/', '_', regex=False).str.replace(' ', '_', regex=False)


# VERIFICACIÓN DE LA LIMPIEZA
print("--- Conteo de la Variable 'profesionales' (Post-Limpieza - Top 5) ---")
print(df['profesionales'].value_counts(dropna=False).head(5).to_markdown())

print("\n--- Conteo de la Variable 'motivo_de_consulta' (Post-Limpieza) ---")
print(df['motivo_de_consulta'].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable 'profesionales' (Post-Limpieza - Top 5) ---
| profesionales   |   count |
|:----------------|--------:|
| ana_gladis      |      12 |
| analé_ana       |       5 |
| agus___rami     |       4 |
| desconocido     |       4 |
| fernanda        |       4 |

--- Conteo de la Variable 'motivo_de_consulta' (Post-Limpieza) ---
| motivo_de_consulta   |   count |
|:---------------------|--------:|
| violencia            |     202 |
| desconocido          |      22 |
| asesoramiento        |       9 |
| socioeconómica       |       2 |


In [None]:
columna = 'medio_por_el_que_ingresa'

# 1. Normalización de Texto (Minúsculas y Sin Espacios)
df[columna] = df[columna].astype(str).str.lower().str.strip()

# 2. Unificación de Nulos/Ausencia de Dato a 'desconocido'
# Se capturan los strings 'nan' (de los NaNs originales) y 'sin datos'.
df[columna] = df[columna].replace({
    'nan': 'desconocido',
    'sin datos': 'desconocido',
    'nulo (sin dato)': 'desconocido'
})

# 3. Estandarización de Categorías Combinadas (Ej. Eliminar barras y espacios)
# Convertir categorías con formato poco limpio (opcional, pero buena práctica)
df[columna] = df[columna].str.replace(' ', '_', regex=False).str.replace('/', '_', regex=False)

# Verificación de la Limpieza
print("--- Conteo de la Variable 'medio_por_el_que_ingresa' (Post-Limpieza) ---")
print(df[columna].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable 'medio_por_el_que_ingresa' (Post-Limpieza) ---
| medio_por_el_que_ingresa                    |   count |
|:--------------------------------------------|--------:|
| notificación_judicial                       |      83 |
| espontánea                                  |      50 |
| desconocido                                 |      48 |
| otra                                        |      26 |
| turno_programado                            |      15 |
| comisaría                                   |       6 |
| unidad_sanitaria                            |       3 |
| organización_social_institución_comunitaria |       2 |
| institución_educativa                       |       1 |
| hospital                                    |       1 |


### Análisis de variables que describen la ubicación de la persona que se comunica:

In [None]:
# Columnas de ubicación a limpiar
location_cols = ['nacionalidad', 'barrio', 'municipio', 'localidad']

for col in location_cols:

    # 1. Normalización de Texto: Minúsculas y Sin Espacios
    df[col] = df[col].astype(str).str.lower().str.strip()

    # 2. Unificación de Nulos e Inconsistencias
    # Mapeo general para todos los tipos de 'Ausencia de Dato'
    df[col] = df[col].replace({
        'nan': 'desconocida',          # Nulos de Python
        'nulo (sin dato)': 'desconocida',
        's/d': 'desconocida',
        'sin datos': 'desconocida',
        'sin dato': 'desconocida',
    })

    # 3. Corrección Específica de Inconsistencias Geográficas (Bahía Blanca)
    if col in ['municipio', 'localidad']:
        df[col] = df[col].replace({
            'bahia blanca': 'bahia_blanca', # Corregir typo y estandarizar
            'bahía blanca': 'bahia_blanca'
        })

    # 4. Estandarización de Separadores (Espacios a Guion Bajo)
    # Esto es crucial para la posterior Ingeniería de Características (OHE)
    df[col] = df[col].str.replace(' ', '_', regex=False).str.replace('/', '_', regex=False)


# Verificación de la Limpieza
print("--- Conteo de la Variable 'nacionalidad' (Post-Limpieza) ---")
print(df['nacionalidad'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'municipio' (Inconsistencias Corregidas - Post-Limpieza) ---")
print(df['municipio'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'localidad' (Inconsistencias Corregidas - Post-Limpieza) ---")
print(df['localidad'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'barrio' (Top 5 - Post-Limpieza) ---")
print(df['barrio'].value_counts(dropna=False).head(5).to_markdown())

--- Conteo de la Variable 'nacionalidad' (Post-Limpieza) ---
| nacionalidad   |   count |
|:---------------|--------:|
| argentina      |     219 |
| desconocida    |      13 |
| chilena        |       2 |
| no             |       1 |

--- Conteo de la Variable 'municipio' (Inconsistencias Corregidas - Post-Limpieza) ---
| municipio    |   count |
|:-------------|--------:|
| bahia_blanca |     231 |
| desconocida  |       2 |
| punta_alta   |       1 |
| buenos_aires |       1 |

--- Conteo de la Variable 'localidad' (Inconsistencias Corregidas - Post-Limpieza) ---
| localidad          |   count |
|:-------------------|--------:|
| bahia_blanca       |     228 |
| gral._daniel_cerri |       3 |
| desconocida        |       1 |
| punta_alta         |       1 |
| buenos_aires       |       1 |
| ing._white         |       1 |

--- Conteo de la Variable 'barrio' (Top 5 - Post-Limpieza) ---
| barrio          |   count |
|:----------------|--------:|
| desconocida     |      20 |
| noroest

### Análisis de variables que describen características de la persona:

In [None]:
col_genero = 'genero'

# 1. Normalización de Texto (Minúsculas y Sin Espacios)
df[col_genero] = df[col_genero].astype(str).str.lower().str.strip()

# 2. Unificación de Nulos/Ausencia de Dato a 'desconocido'
df[col_genero] = df[col_genero].replace({
    'nan': 'desconocido',          # Nulos de Python
    'nulo (sin dato)': 'desconocido',
    'sin datos': 'desconocido'
})

# --- VERIFICACIÓN DE LA LIMPIEZA ---
print("--- Conteo de la Variable Limpia 'genero' ---")
print(df[col_genero].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable Limpia 'genero' ---
| genero      |   count |
|:------------|--------:|
| mujer       |     228 |
| desconocido |       6 |
| otro        |       1 |


Para la variable numérica 'edad', se hace una imputación con la mediana a los valores faltantes.

In [None]:
# Imputación de nulos con la mediana
median_edad = df['edad'].median()
df['edad'] = df['edad'].fillna(median_edad)

# Conversión de variable a entero (int)
df['edad'] = df['edad'].astype(int)

print("\n--- Verificación de la Columna 'edad' (Post-Limpieza) ---")
print(f"Total de Nulos en 'edad': {df['edad'].isnull().sum()} nulos")

print("\n--- Resumen Estadístico 'edad' (Post-Limpieza) ---")
print(df['edad'].describe().to_markdown())

print("\n--- Tipo de Variable 'edad' (Post-Limpieza) ---")
df['edad'].info()


--- Verificación de la Columna 'edad' (Post-Limpieza) ---
Total de Nulos en 'edad': 0 nulos

--- Resumen Estadístico 'edad' (Post-Limpieza) ---
|       |     edad |
|:------|---------:|
| count | 235      |
| mean  |  38.1532 |
| std   |  12.3334 |
| min   |  17      |
| 25%   |  29.5    |
| 50%   |  36      |
| 75%   |  45      |
| max   |  85      |

--- Tipo de Variable 'edad' (Post-Limpieza) ---
<class 'pandas.core.series.Series'>
RangeIndex: 235 entries, 0 to 234
Series name: edad
Non-Null Count  Dtype
--------------  -----
235 non-null    int64
dtypes: int64(1)
memory usage: 2.0 KB


### Análisis de variables socioeconómicas y de estatus de la persona:

In [None]:
# Columnas socieconómicas y de estatus a limpiar
socio_cols = [
    'estado_civil', 'nivel_educativo', 'situacion_laboral',
    'percibe_prestacion_estatal', 'vivienda', 'obra_social'
]

for col in socio_cols:

    # 1. Normalización de Texto: Minúsculas y Sin Espacios
    df[col] = df[col].astype(str).str.lower().str.strip()

    # 2. UNIFICACIÓN GENERAL DE NULOS y AUSENCIAS a 'desconocido'
    df[col] = df[col].replace({
        'nan': 'desconocido',          # Nulos de Python
        'nulo (sin dato)': 'desconocido',
        'sin datos': 'desconocido',
        'sin dato': 'desconocido',
        's/d': 'desconocido'
    })

# CORRECCIONES ESPECÍFICAS DE INCONSISTENCIAS DE TEXTO

# 3. 'nivel_educativo': Corregir typos y agrupar inconsistencias de registro
df['nivel_educativo'] = df['nivel_educativo'].replace({
    'primario incompletp': 'primario incompleto',  # Corregir typo 'incompletp'
    'univrtsitario incompleto': 'universitario incompleto', # Corregir typo
})

# 4. 'situacion_laboral': Corregir case y unificar similares
df['situacion_laboral'] = df['situacion_laboral'].replace({
    'trabaja formal': 'trabajo formal', # Unificar 'trabaja' y 'trabajo'
})
# Nota: La imputación de nulos/desconocidos ya se hizo en el bucle general.

# 5. 'percibe_prestacion_estatal': corregir derecho vs prestacion
df['percibe_prestacion_estatal'] = df['percibe_prestacion_estatal'].replace({
'cuota alimentaria': 'no percibe' #error, no es una percepción
})

# VERIFICACIÓN DE LA LIMPIEZA
print("--- Conteo de la Variable 'estado_civil' (Post-Limpieza)---")
print(df['estado_civil'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'nivel_educativo' (Post-Limpieza) ---")
print(df['nivel_educativo'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'situacion_laboral' (Post-Limpieza) ---")
print(df['situacion_laboral'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'percibe_prestacion_estatal' (Post-Limpieza) ---")
print(df['percibe_prestacion_estatal'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'vivienda' (Post-Limpieza) ---")
print(df['vivienda'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'obra_social' (Post-Limpieza) ---")
print(df['obra_social'].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable 'estado_civil' (Post-Limpieza)---
| estado_civil       |   count |
|:-------------------|--------:|
| soltera            |      97 |
| casada             |      50 |
| separada           |      33 |
| desconocido        |      25 |
| unión convivencial |      13 |
| divorciada         |      10 |
| viuda              |       7 |

--- Conteo de la Variable 'nivel_educativo' (Post-Limpieza) ---
| nivel_educativo                    |   count |
|:-----------------------------------|--------:|
| secundario incompleto              |      67 |
| secundario completo                |      40 |
| desconocido                        |      30 |
| terciario completo                 |      21 |
| primario completo                  |      19 |
| terciario incompleto               |      11 |
| primario incompleto                |      10 |
| universitario completo             |      10 |
| terciario en curso                 |       7 |
| universitario incompleto           | 

### Análisis de descriptores sobre características Clínicas, de Riesgo y Familiares:

In [None]:
# Lista de columnas clínicas y familiares
cols_clinicas_familiares = [
    'diagnostico', 'tratamiento', 'posee_cud',
    'hijos_pea', 'convivencia_pea'
]

for col in cols_clinicas_familiares:

    # 1. Normalización de Texto (Minúsculas y Sin Espacios)
    df[col] = df[col].astype(str).str.lower().str.strip()

    # 2. Imputación/Estandarización de Nulos y Errores (Reglas específicas)
    # Primero se resuelve el problema de 'Opción 1' por la separación dura de caracteres
    df[col] = df[col].str.replace(r'[^\S\n\r]', ' ', regex=True).str.strip()
    # y luego se procede normalmente
    if col in ['diagnostico', 'tratamiento', 'posee_cud']:
        # Unificar 'Opción 1' y nulos en 'desconocido'
        df[col] = df[col].replace({
            'nan': 'desconocido',
            'nulo (sin dato)': 'desconocido',
            'opción 1': 'desconocido', #regla específica para diagnostico y tratamiento
            'sin datos': 'desconocido'
        })

    elif col in ['hijos_pea', 'convivencia_pea']:
        # Regla de Negocio: Imputar Nulos a 'no'
        df[col] = df[col].replace({'nan': 'no',
                                   'nulo (sin dato)': 'no',
                                   'sin datos': 'no'})


# VERIFICACIÓN DE LA LIMPIEZA

print("\n--- Conteo de la Variable 'diagnostico' (Post-Limpieza) ---")
print(df['diagnostico'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'tratamiento' (Post-Limpieza) ---")
print(df['tratamiento'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'posee_cud' (Post-Limpieza) ---")
print(df['posee_cud'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'hijos_pea' (Post-Limpieza) ---")
print(df['hijos_pea'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'convivencia_pea' (Post-Limpieza) ---")
print(df['convivencia_pea'].value_counts(dropna=False).to_markdown())




--- Conteo de la Variable 'diagnostico' (Post-Limpieza) ---
| diagnostico        |   count |
|:-------------------|--------:|
| desconocido        |     127 |
| no                 |      66 |
| si                 |      39 |
| consum antidep.    |       2 |
| enfermedad crónica |       1 |

--- Conteo de la Variable 'tratamiento' (Post-Limpieza) ---
| tratamiento   |   count |
|:--------------|--------:|
| desconocido   |     141 |
| no            |      61 |
| si            |      33 |

--- Conteo de la Variable 'posee_cud' (Post-Limpieza) ---
| posee_cud   |   count |
|:------------|--------:|
| desconocido |     121 |
| no          |      98 |
| si          |      16 |

--- Conteo de la Variable 'hijos_pea' (Post-Limpieza) ---
| hijos_pea   |   count |
|:------------|--------:|
| no          |     131 |
| si          |     104 |

--- Conteo de la Variable 'convivencia_pea' (Post-Limpieza) ---
| convivencia_pea   |   count |
|:------------------|--------:|
| no                |     

### Análisis de descriptores de violencia

La variable numérica 'cant_personas_a_cargo' debe devolver números enteros posibles. Para eso, se hace una imputación por interpretación erronea entre caracteres (NO) y números (0) que unifica el criterio.

In [None]:
col_count = 'cant_personas_a_cargo'

# 1. Reemplazar 'NO' por 0
df[col_count] = df[col_count].replace('NO', '0')

# 2. Reemplazar Nulos por 0
df[col_count] = pd.to_numeric(df[col_count], errors='coerce') # Convierte cualquier otro valor anómalo que haya quedado a NaN
df[col_count] = df[col_count].fillna(0).astype(int)

# Conversión de variable a entero (int)
df['cant_personas_a_cargo'] = df['cant_personas_a_cargo'].astype(int)

# VERIFICACIÓN DE LA LIMPIEZA
print("--- Conteo de la Variable Limpia 'cant_personas_a_cargo' ---")

print(df['cant_personas_a_cargo'].value_counts(dropna=False).to_markdown())

print(f"\nTotal de Nulos en 'cant_personas_a_cargo': {df['cant_personas_a_cargo'].isnull().sum()} nulos")

print("\n--- Tipo de Variable 'cant_personas_a_cargo' (Post-Limpieza) ---")
df['cant_personas_a_cargo'].info()

--- Conteo de la Variable Limpia 'cant_personas_a_cargo' ---
|   cant_personas_a_cargo |   count |
|------------------------:|--------:|
|                       0 |      93 |
|                       2 |      47 |
|                       1 |      42 |
|                       3 |      34 |
|                       4 |      15 |
|                       6 |       3 |
|                       5 |       1 |

Total de Nulos en 'cant_personas_a_cargo': 0 nulos

--- Tipo de Variable 'cant_personas_a_cargo' (Post-Limpieza) ---
<class 'pandas.core.series.Series'>
RangeIndex: 235 entries, 0 to 234
Series name: cant_personas_a_cargo
Non-Null Count  Dtype
--------------  -----
235 non-null    int64
dtypes: int64(1)
memory usage: 2.0 KB


In [None]:
# LIMPIEZA DE 'modalidad_de_violencia'

col_modalidad = 'modalidad_de_violencia'

# 2.1. Normalización de Texto (Minúsculas y Sin Espacios)
df[col_modalidad] = df[col_modalidad].astype(str).str.lower().str.strip()

# 2.2. Unificación de Nulos/Ausencia de Dato a 'desconocida'
df[col_modalidad] = df[col_modalidad].replace({
    'nan': 'desconocida',
    'nulo (sin dato)': 'desconocida',
    'sin datos': 'desconocida'
})

# VERIFICACIÓN DE LA LIMPIEZA
print("--- Conteo de la Variable 'modalidad_de_violencia' (Post-Limpieza)---")
print(df[col_modalidad].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable 'modalidad_de_violencia' (Post-Limpieza)---
| modalidad_de_violencia   |   count |
|:-------------------------|--------:|
| doméstica                |     188 |
| desconocida              |      47 |


In [None]:
# LIMPIEZA DE LOS 8 TIPOS DE VIOLENCIA
# Lista de las 8 variables de violencia
violence_flags = [
    'fisica', 'psicologica', 'sexual', 'economica',
    'simbolica', 'ambiental', 'politica', 'digital'
]

for col in violence_flags:
    # Conversión de las columnas a numérico (debe manejar 'True'/'False' o 1.0/0.0)
    # Coerce convierte texto como 'Nulo (Sin dato)' o 'sin datos' a NaN
    df[col] = pd.to_numeric(df[col], errors='coerce')

    # Imputación de Nulos (NaN) a 0.0 (Regla: si no hubo dato, no hubo violencia)
    df[col] = df[col].fillna(0.0)

    # Conversión de variable a entero (int)
    df[col] = df[col].astype(int)

# VERIFICACIÓN DE LA LIMPIEZA
# Se toma la primer variable a modo de ejemplo
print("\n--- Verificación de nulos en 'fisica' (Post-Limpieza) ---")
print(f"Total de Nulos en 'fisica': {df['fisica'].isnull().sum()} nulos")
print(df['fisica'].value_counts().to_markdown())

print("\n--- Tipo de Variable 'fisica' (Post-Limpieza) ---")
df['fisica'].info()


--- Verificación de nulos en 'fisica' (Post-Limpieza) ---
Total de Nulos en 'fisica': 0 nulos
|   fisica |   count |
|---------:|--------:|
|        0 |     119 |
|        1 |     116 |

--- Tipo de Variable 'fisica' (Post-Limpieza) ---
<class 'pandas.core.series.Series'>
RangeIndex: 235 entries, 0 to 234
Series name: fisica
Non-Null Count  Dtype
--------------  -----
235 non-null    int64
dtypes: int64(1)
memory usage: 2.0 KB


### Análisis de variables sociales:

In [None]:
# Limpieza de variables sociales

cols_sociales = ['personas_a_cargo', 'red_vincular']

for col in cols_sociales:

    # 1. Normalización Rígida: Mayúsculas y Sin Espacios
    df[col] = df[col].astype(str).str.strip().str.lower()

    # 2. Unificación de Nulos y Ausencia de Dato a 'DESCONOCIDO'
    df[col] = df[col].replace({
        'nan': 'desconocido',
        'nulo (sin dato)': 'desconocido',
        'sin datos': 'desconocido'
    })

    # 3. Corrección de Inconsistencias (Para el OHE posterior)
    # Reemplazar la barra '/' por un guion bajo '_' para evitar KeyErrors futuros
    df[col] = df[col].str.replace('/', '_', regex=False)
    df[col] = df[col].str.replace(' ', '_', regex=False)


# Verificación de la Limpieza
print("--- Conteo de la Variable 'personas_a_cargo' (Post-Limpieza) ---")
print(df['personas_a_cargo'].value_counts(dropna=False).to_markdown())

print("\n--- Conteo de la Variable 'red_vincular' (Post-Limpieza) ---")
print(df['red_vincular'].value_counts(dropna=False).to_markdown())

--- Conteo de la Variable 'personas_a_cargo' (Post-Limpieza) ---
| personas_a_cargo   |   count |
|:-------------------|--------:|
| hija_hijo          |     151 |
| desconocido        |      52 |
| no                 |      29 |
| otros_as           |       3 |

--- Conteo de la Variable 'red_vincular' (Post-Limpieza) ---
| red_vincular              |   count |
|:--------------------------|--------:|
| desconocido               |      62 |
| amigas_os                 |      61 |
| parientes_no_convivientes |      55 |
| parientes_convivientes    |      45 |
| no                        |       9 |
| vecinas_os                |       3 |


### Análisis de variable objetivo y variables identificadoras de denuncia:

In [None]:
col_medida = 'medidas_de_proteccion'

# Normalización de texto (para manejar 'NO' vs 'no')
df[col_medida] = df[col_medida].astype(str).str.lower().str.strip()

# Unificar Nulos/Ausencia de Dato a 'desconocida' (manteniendo 'no' como categoría)
df[col_medida] = df[col_medida].replace({
    'nan': 'desconocida',
    'nulo (sin dato)': 'desconocida',
})

# Corrección de Inconsistencias
# Reemplazar la barra '/' o espacio ' ' por un guion bajo '_' para evitar KeyErrors futuros
df[col_medida] = df[col_medida].str.replace('/', '_', regex=False)
df[col_medida] = df[col_medida].str.replace(' ', '_', regex=False)

# VERIFICACIÓN DE LA LIMPIEZA
print("--- Verificación de la Limpieza (FASE I) ---")
print("\nConteo de 'medidas_de_proteccion' (Limpieza de Texto/Nulos):")
print(df[col_medida].value_counts().to_markdown())

--- Verificación de la Limpieza (FASE I) ---

Conteo de 'medidas_de_proteccion' (Limpieza de Texto/Nulos):
| medidas_de_proteccion                            |   count |
|:-------------------------------------------------|--------:|
| desconocida                                      |      93 |
| prohibición_de_acercamiento                      |      89 |
| no                                               |      40 |
| botón_antipánico__prohibición_acercamiento       |       6 |
| botón_antipánico                                 |       2 |
| prohibición_de_acercamiento__cese_de_hostigación |       2 |
| exclusión_del_hogar                              |       2 |
| cese_hostigamiento                               |       1 |


In [None]:
# Limpieza de fecha fin de vigencia
col_fecha = 'fecha_fin_de_vigencia'

# 1. Normalización y Exclusión de Nulos
# Convertir a string para poder buscar patrones.
df[col_fecha] = df[col_fecha].astype(str).str.lower().str.strip()
df_non_null = df[df[col_fecha] != 'nan'].copy()

# 2. Identificar valores que NO son códigos de fecha (NO son números)
# Al convertir la columna a numérico, los errores (coerce) son los strings.
non_numeric_values = pd.to_numeric(df_non_null[col_fecha], errors='coerce')
non_numeric_strings = df_non_null[non_numeric_values.isna()][col_fecha]

# 3. Contar la frecuencia de cada string único
print("--- Strings Únicos en 'fecha_fin_de_vigencia' que NO son Códigos Numéricos ---")
if not non_numeric_strings.empty:
    print(non_numeric_strings.value_counts().to_markdown())
else:
    print("No se encontraron strings de fecha no válidos más allá de los ya tratados.")

--- Strings Únicos en 'fecha_fin_de_vigencia' que NO son Códigos Numéricos ---
| fecha_fin_de_vigencia   |   count |
|:------------------------|--------:|
| hasta junio             |       1 |


In [None]:
REPLACEMENT_CODE = 45809 # Código Excel para 01/06/2025

# 1. Normalización Rígida: Pasar a minúsculas, quitar espacios
df[col_fecha] = df[col_fecha].astype(str).str.lower().str.strip()

# 2. Aplicar el reemplazo con una búsqueda de patrón (subcadena)
# Usamos .str.contains('hasta') & .str.contains('junio') para ser robustos ante espacios internos ('hasta junio')
df.loc[df[col_fecha].str.contains('hasta', na=False) & df[col_fecha].str.contains('junio', na=False), col_fecha] = str(REPLACEMENT_CODE)

# 3. Convertir la columna a numérica (finaliza la limpieza)
df[col_fecha] = pd.to_numeric(df[col_fecha], errors='coerce')

# Verificación de la limpieza:
count_after = (df[col_fecha] == REPLACEMENT_CODE).sum()

print(f"Casos convertidos a 45809: {count_after}")

Casos convertidos a 45809: 1


In [None]:
FECHA_LIMITE_INFERIOR = 45474 # Código Excel para 01/07/2024

# Los valores menores a 45474 (fechas antiguas/caducadas) se fuerzan a NaN.
df.loc[df[col_fecha] < FECHA_LIMITE_INFERIOR, col_fecha] = np.nan

# Verificación de la limpieza de Rango:
print("--- Conteo Final de 'fecha_fin_de_vigencia' (Post-Filtro de Rango) ---")
print(f"Total de valores numéricos válidos: {df[col_fecha].notna().sum()}")
print(df[col_fecha].describe().to_markdown())

--- Conteo Final de 'fecha_fin_de_vigencia' (Post-Filtro de Rango) ---
Total de valores numéricos válidos: 63
|       |   fecha_fin_de_vigencia |
|:------|------------------------:|
| count |                  63     |
| mean  |               45896     |
| std   |                 197.344 |
| min   |               45673     |
| 25%   |               45790.5   |
| 50%   |               45867     |
| 75%   |               45923.5   |
| max   |               46984     |


In [None]:
# ----------------------------------------------------------------------
# LIMPIAR E IMPUTAR la columna 'denuncio'
# ----------------------------------------------------------------------

col_denuncio = 'denuncio'

# A. Estandarizar el texto a minúsculas
df[col_denuncio] = df[col_denuncio].astype(str).str.lower()

# B. Reemplazar strings que representan valores vacíos o nulos por NaN real
df[col_denuncio] = df[col_denuncio].replace(['sin datos', 'sin dato', ' ', '', 'nan'], np.nan)


# CREACIÓN DE BANDERAS LÓGICAS PARA LA REGLA DE NEGOCIO
## FECHA_LIMITE_INFERIOR = 45474 # Código Excel para 01/07/2024

# Bandera A: Medida de Protección es Válida (NO es 'no' ni 'desconocida')
medida_valida_logica = ~df[col_medida].isin(['no', 'desconocida'])

# Bandera B: La Fecha es Válida (NO es Nulo Y está en el rango >= 01/07/2024)
fecha_valida_logica = df[col_fecha].notna() & (df[col_fecha] >= FECHA_LIMITE_INFERIOR)


# APLICACIÓN DE LA REGLA DE ORO (Imputación del Target)

# CRITERIO: Si 'denuncio' es NULO Y (Medida Válida) Y (Fecha Válida), imputar a 'SI'.
df.loc[
    (df[col_denuncio].isna()) &
    (medida_valida_logica == True) &
    (fecha_valida_logica == True),
    col_denuncio
] = 'si'

# Imputar el resto de los Nulos a 'NO'
df[col_denuncio] = df[col_denuncio].fillna('no')


# VERIFICACIÓN

print("--- Valores después de limpiar e imputar (Post-Regla) ---")
print(df[col_denuncio].value_counts().to_markdown())

--- Valores después de limpiar e imputar (Post-Regla) ---
| denuncio   |   count |
|:-----------|--------:|
| si         |     140 |
| no         |      95 |


#### Resultados

Se verifican los resultados de la limpieza.

Todas las variables tienen correctamente el tipo asignado y los nulos trabajados, de acuerdo a las posibilidades y coherencia con la etapa de la limpieza. Los dos casos atípicos se van a trabajar en la Ingenieria de Características.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 36 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   profesionales                      235 non-null    object 
 1   edad                               225 non-null    float64
 2   motivo_de_consulta                 235 non-null    object 
 3   medio_por_el_que_ingresa           235 non-null    object 
 4   genero                             235 non-null    object 
 5   nacionalidad                       235 non-null    object 
 6   barrio                             235 non-null    object 
 7   municipio                          235 non-null    object 
 8   localidad                          235 non-null    object 
 9   estado_civil                       235 non-null    object 
 10  nivel_educativo                    235 non-null    object 
 11  situacion_laboral                  235 non-null    object 

# Descarga de CSV limpio

In [None]:
# 1. Guardar el DataFrame a un archivo CSV.
# index=False evita que pandas guarde la columna de índice numérico como una columna extra.
df.to_csv('dataset_limpio_ok.csv', index=False)

print("Archivo 'dataset_limpio_ok.csv' generado con éxito en tu entorno de Colab.")

# 2. Descargar el archivo
# La siguiente línea inicia la descarga a tu computadora local:
from google.colab import files
files.download('dataset_limpio_ok.csv')

print("Descarga iniciada a tu computadora.")

Archivo 'dataset_limpio_ok.csv' generado con éxito en tu entorno de Colab.


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Descarga iniciada a tu computadora.
