# Proyecto Final - Aprendizaje Automático - Diego Estrada

## Problema de interés de analisis: Clasificación de Tipos de Violencia de Género en Llamadas a la Línea 144

### 1* Carga de datos

In [52]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

#Definimos una ruta base absoluta para levantar los 4 dataset
ruta_base = 'C:\\Users\\destrada\\Ciencia_datos_2A1C\\Cookiecutter_Proyecto_Final\\data\\'

#Verificamos si la ruta existe para evitar falla de localizacion de archivos, con la condicion IF validamos la existencia de ruta.
if os.path.exists(ruta_base):
    # Cargamos los datasets
    df1 = pd.read_csv(ruta_base + 'linea144-2020.csv')
    df2 = pd.read_csv(ruta_base + 'linea144-2021.csv')
    df3 = pd.read_csv(ruta_base + 'linea144-2022.csv')
    df4 = pd.read_csv(ruta_base + 'linea144-2023.csv')

    #Concatenamos los dataframes en uno solo Dataframe
    df_final = pd.concat([df1, df2, df3, df4], ignore_index=True)
else:
    #En caso de no encontrar los archivos en la ruta, mostraria este mensaje.
    print("La ruta especificada no existe.")
    
#Mostramos las primeras filas del DataFrame unificado
df_final.head()

Unnamed: 0,fecha,prov_residencia_persona_en_situacion_violencia,genero_persona_en_situacion_de_violencia,edad_persona_en_situacion_de_violencia,pais_nacimiento_persona_en_situacion_de_violencia,tipo_de_violencia_fisica,tipo_de_violencia_psicologica,tipo_de_violencia_sexual,tipo_de_violencia_economica_y_patrimonial,tipo_de_violencia_simbolica,...,modalidad_de_violencia_institucional,modalidad_de_violencia_laboral,modalidad_violencia_contra_libertad_reproductiva,modalidad_de_violencia_obstetrica,modalidad_de_violencia_mediatica,modalidad_de_violencia_otras,vinculo_con_la_persona_agresora,genero_de_la_persona_agresora,Fecha,Unnamed: 19
0,2020-01-01,Tucumán,Mujer,,,Si,Si,No,No,No,...,No,No,No,No,No,No,Pareja,Varon,,
1,2020-01-01,Buenos Aires,Mujer,39.0,,Si,Si,No,No,No,...,No,No,No,No,No,No,Ex pareja,Varon,,
2,2020-01-01,Buenos Aires,Mujer,22.0,Argentina,Si,Si,No,No,No,...,No,No,No,No,No,No,Ex pareja,Varon,,
3,2020-01-01,Buenos Aires,Mujer,53.0,,No,Si,No,No,No,...,No,No,No,No,No,No,Pareja,Varon,,
4,2020-01-01,Buenos Aires,Mujer,38.0,Argentina,Si,Si,No,No,No,...,No,No,No,No,No,No,Pareja,Varon,,


Vamos a trabajar en el proceso de ETL. Después de unificar los conjuntos de datos, eliminaremos algunas columnas que no necesitamos analizar, lo que también mejorará el rendimiento del modelo que vamos a desarrollar.

In [54]:
#Estantarizamos los nombre de las columnas
df_final.columns = df_final.columns.str.lower()

#Eliminamos la columna 'fecha' si existe. Con la condicion IF validamos
if 'fecha' in df_final.columns:
    df_final = df_final.drop(columns=['fecha'])
else:
    #En caso de no encontrar la columna, mostraria este mensaje.
    print("No existe la columna.")

#Mostramos las primeras filas del DataFrame unificado sin la columna "Fecha"
df_final.head()

Unnamed: 0,prov_residencia_persona_en_situacion_violencia,genero_persona_en_situacion_de_violencia,edad_persona_en_situacion_de_violencia,pais_nacimiento_persona_en_situacion_de_violencia,tipo_de_violencia_fisica,tipo_de_violencia_psicologica,tipo_de_violencia_sexual,tipo_de_violencia_economica_y_patrimonial,tipo_de_violencia_simbolica,tipo_de_violencia_domestica,modalidad_de_violencia_institucional,modalidad_de_violencia_laboral,modalidad_violencia_contra_libertad_reproductiva,modalidad_de_violencia_obstetrica,modalidad_de_violencia_mediatica,modalidad_de_violencia_otras,vinculo_con_la_persona_agresora,genero_de_la_persona_agresora,unnamed: 19
0,Tucumán,Mujer,,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon,
1,Buenos Aires,Mujer,39.0,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon,
2,Buenos Aires,Mujer,22.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon,
3,Buenos Aires,Mujer,53.0,,No,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon,
4,Buenos Aires,Mujer,38.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon,


In [56]:
#Queremos conocer la cantidad de registros en el DataFrame Unificado
num_registros = df_final.shape[0]
print("Cantidad de registros: " + str(num_registros))

Cantidad de registros: 89540


In [58]:
#Validamos si tenemos valores nulos en cada columnas
valores_nulos = df_final.isnull().sum()
print(valores_nulos)

prov_residencia_persona_en_situacion_violencia        1175
genero_persona_en_situacion_de_violencia              1915
edad_persona_en_situacion_de_violencia               17288
pais_nacimiento_persona_en_situacion_de_violencia    30291
tipo_de_violencia_fisica                                11
tipo_de_violencia_psicologica                           11
tipo_de_violencia_sexual                                11
tipo_de_violencia_economica_y_patrimonial               11
tipo_de_violencia_simbolica                             11
tipo_de_violencia_domestica                             11
modalidad_de_violencia_institucional                    11
modalidad_de_violencia_laboral                          11
modalidad_violencia_contra_libertad_reproductiva        11
modalidad_de_violencia_obstetrica                       11
modalidad_de_violencia_mediatica                        11
modalidad_de_violencia_otras                            11
vinculo_con_la_persona_agresora                       34

Se encontraron valores nulos en todas las columnas, por lo que necesitamos tratarlos utilizando diferentes métodos. Comenzaremos eliminando las filas con valores nulos en algunas columnas, ya que no afectan significativamente el volumen de nuestro conjunto de datos.

In [60]:
df_final = df_final.dropna(subset=["tipo_de_violencia_fisica","tipo_de_violencia_psicologica","tipo_de_violencia_sexual","tipo_de_violencia_economica_y_patrimonial",
                                  "tipo_de_violencia_simbolica","tipo_de_violencia_domestica","modalidad_de_violencia_institucional","modalidad_de_violencia_laboral",
                                  "modalidad_violencia_contra_libertad_reproductiva","modalidad_de_violencia_obstetrica","modalidad_de_violencia_mediatica","modalidad_de_violencia_otras"])

Como seguimos teniendo columnas con valores nulos y no queremos perder datos en aquellas que necesitamos completas, vamos a trabajar con la columna "edad_persona_en_situacion_de_violencia". Utilizaremos la "Mediana" para completar los valores nulos, ya que es menos sensible a los valores extremos (outliers) que el promedio y suele presentar una mejor tendencia central en datos sesgados.

In [62]:
mediana_edad = df_final['edad_persona_en_situacion_de_violencia'].median()
df_final['edad_persona_en_situacion_de_violencia'] = df_final['edad_persona_en_situacion_de_violencia'].fillna(mediana_edad)

In [64]:
#Revisamos nuevamente los valores nulos en las columnas del dataframe
valores_nulos = df_final.isnull().sum()
print(valores_nulos)

prov_residencia_persona_en_situacion_violencia        1164
genero_persona_en_situacion_de_violencia              1904
edad_persona_en_situacion_de_violencia                   0
pais_nacimiento_persona_en_situacion_de_violencia    30280
tipo_de_violencia_fisica                                 0
tipo_de_violencia_psicologica                            0
tipo_de_violencia_sexual                                 0
tipo_de_violencia_economica_y_patrimonial                0
tipo_de_violencia_simbolica                              0
tipo_de_violencia_domestica                              0
modalidad_de_violencia_institucional                     0
modalidad_de_violencia_laboral                           0
modalidad_violencia_contra_libertad_reproductiva         0
modalidad_de_violencia_obstetrica                        0
modalidad_de_violencia_mediatica                         0
modalidad_de_violencia_otras                             0
vinculo_con_la_persona_agresora                       33

Volvimos a revisar cómo quedaron las columnas con valores nulos, y nos queda darle tratamiento a "prov_residencia_persona_en_situacion_violencia", "genero_persona_en_situacion_de_violencia", "pais_nacimiento_persona_en_situacion_de_violencia", "vinculo_con_la_persona_agresora" y "genero_de_la_persona_agresora". En estos casos, al ser columnas categóricas, podríamos reemplazar los valores nulos con la "Moda" de cada columna. Esto evitaría distorsionar los datos, preservaría la frecuencia relativa de las categorías y si aplicaramos otra técnica como introducir valores nuevos, podría hacer que nuestro modelo no funcione correctamente.

In [66]:
#Para la columna 'prov_residencia_persona_en_situacion_violencia'
provincia_moda = df_final['prov_residencia_persona_en_situacion_violencia'].mode()[0]
df_final['prov_residencia_persona_en_situacion_violencia'] = df_final['prov_residencia_persona_en_situacion_violencia'].fillna(provincia_moda)

#Para la columna 'genero_persona_en_situacion_de_violencia'
genero_moda = df_final['genero_persona_en_situacion_de_violencia'].mode()[0]
df_final['genero_persona_en_situacion_de_violencia'] = df_final['genero_persona_en_situacion_de_violencia'].fillna(genero_moda)

#Para la columna 'pais_nacimiento_persona_en_situacion_de_violencia'
pais_moda = df_final['pais_nacimiento_persona_en_situacion_de_violencia'].mode()[0]
df_final['pais_nacimiento_persona_en_situacion_de_violencia'] = df_final['pais_nacimiento_persona_en_situacion_de_violencia'].fillna(pais_moda)

#Para la columna 'vinculo_con_la_persona_agresora'
vinculo_moda = df_final['vinculo_con_la_persona_agresora'].mode()[0]
df_final['vinculo_con_la_persona_agresora'] = df_final['vinculo_con_la_persona_agresora'].fillna(vinculo_moda)

#Para la columna 'genero_de_la_persona_agresora'
genero_agresor_moda = df_final['genero_de_la_persona_agresora'].mode()[0]
df_final['genero_de_la_persona_agresora'] = df_final['genero_de_la_persona_agresora'].fillna(genero_agresor_moda)

#Volvemos a revisar los valores nulos
valores_nulos = df_final.isnull().sum()
print(valores_nulos)

prov_residencia_persona_en_situacion_violencia           0
genero_persona_en_situacion_de_violencia                 0
edad_persona_en_situacion_de_violencia                   0
pais_nacimiento_persona_en_situacion_de_violencia        0
tipo_de_violencia_fisica                                 0
tipo_de_violencia_psicologica                            0
tipo_de_violencia_sexual                                 0
tipo_de_violencia_economica_y_patrimonial                0
tipo_de_violencia_simbolica                              0
tipo_de_violencia_domestica                              0
modalidad_de_violencia_institucional                     0
modalidad_de_violencia_laboral                           0
modalidad_violencia_contra_libertad_reproductiva         0
modalidad_de_violencia_obstetrica                        0
modalidad_de_violencia_mediatica                         0
modalidad_de_violencia_otras                             0
vinculo_con_la_persona_agresora                         

Conclusión: Durante el proceso de limpieza y transformación de los datos, se partió de un conjunto de datos unificado que contenía 19 columnas y 89,540 registros. Luego del ETL, se redujo a 18 columnas y 89,529 registros. La columna que se eliminó fue "fecha", ya que no es relevante para el modelo que vamos a realizar, buscando simplificar el modelo y reducir el ruido en los datos. Además, se eliminaron 11 registros (0.012%) por contener datos faltantes en todas sus columnas, una pérdida mínima que no compromete la representatividad del conjunto de datos. El impacto del ETL fue leve en términos de pérdida de datos, pero significativo en cuanto a la calidad del dataset final, que ahora es más limpio, manejable y apto para aplicar el modelo de clasificación logística.