# **Análisis exploratorio de la base de datos de la línea 144** 
-----------------------------

Autor: Gonzalo Gabriel Ramirez  
Fecha: 24/6/2023  
Fuente: [Ministerio de las Mujeres, Géneros y Diversidad de la Nación - Dirección Técnica de Registros y Bases de Datos.](https://www.datos.gob.ar/dataset/generos-base-datos-linea-144)  


### 1. El dataframe
----------------
Durante este análisis utilizaremos una base de datos pública de la línea 144, pero... ¿qué es la línea 144?  
La línea 144 es una canal telefónico que brinda el Estado argentino con el objetivo de dar contención, atención y asesoramiento a mujeres y LGTB+ en situación de violencia de género. Poseen un equipo interdisciplinario de profesionales especializados en derecho, psicología, trabajo social y otras áreas afines.  
Los registros -según la fuente- corresponden al periodo de enero - marzo del 2023 de las tres sedes que gestiona la línea 144. Estas son: Provincia de Buenos Aires, CABA (Ciudad Autónoma de Buenos Aires), y la sede de gestión nacional (actualmente a cargo del Ministerio de Mujeres, Géneros y Diversidad creado el 10 de Diciembre del 2019).  

Para este primer trimestre del 2023 se han registrado 5.296 llamados que recavan información de 19 variables. A continuación, daremos una breve descripción de cada una de ellas y entre paréntesis el tipo de dato que almacena dicha variable:  

- **Fecha:** en que fecha se realizó el llamdo (objeto)
- **Provincia:** en que provincia reside el llamante (objeto)
- **Género:** el género que el llamante declara (objeto)
- **Edad:** edad del llamante (float64)
- **Nacionalidad:** país de nacimiento del llamante (objeto)
- **violencia_fisica** el llamante responde si es victima o no de violencia física (objeto)
- **violencia_psciologica** el llamante responde si es victima o no de violencia psicológica (objeto)
- **violencia_sexual** el llamante responde si es victima o no de violencia sexual (objeto)
- **violencia_econom_y_patrimonial** el llamante responde si es victima o no de violencia económica y patrimonial (objeto)
- **violencia_simbolica** el llamante responde si es victima o no de violencia simbólica (objeto)
- **violencia_domestica** el llamante responde si es victima o no de violencia doméstica (objeto)
- **violencia_institucional** el llamante responde si es victima o no de violencia institucional (objeto)

In [2]:
import pandas as pd
import numpy as np

**Cargamos CSV**

In [11]:
df = pd.read_csv("linea144-enero-marzo-2023.csv")

Revisamos el dataframe y corroboramos que no existan filas duplicadas

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5296 entries, 0 to 5295
Data columns (total 19 columns):
 #   Column                                             Non-Null Count  Dtype  
---  ------                                             --------------  -----  
 0   Fecha                                              5296 non-null   object 
 1   prov_residencia_persona_en_situacion_violencia     5231 non-null   object 
 2   genero_persona_en_situacion_de_violencia           5161 non-null   object 
 3   edad_persona_en_situacion_de_violencia             4352 non-null   float64
 4   pais_nacimiento_persona_en_situacion_de_violencia  3459 non-null   object 
 5   tipo_de_violencia_fisica                           5296 non-null   object 
 6   tipo_de_violencia_psicologica                      5296 non-null   object 
 7   tipo_de_violencia_sexual                           5296 non-null   object 
 8   tipo_de_violencia_economica_y_patrimonial          5296 non-null   object 
 9   tipo_de_

In [13]:
df.drop_duplicates()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5296 entries, 0 to 5295
Data columns (total 19 columns):
 #   Column                                             Non-Null Count  Dtype  
---  ------                                             --------------  -----  
 0   Fecha                                              5296 non-null   object 
 1   prov_residencia_persona_en_situacion_violencia     5231 non-null   object 
 2   genero_persona_en_situacion_de_violencia           5161 non-null   object 
 3   edad_persona_en_situacion_de_violencia             4352 non-null   float64
 4   pais_nacimiento_persona_en_situacion_de_violencia  3459 non-null   object 
 5   tipo_de_violencia_fisica                           5296 non-null   object 
 6   tipo_de_violencia_psicologica                      5296 non-null   object 
 7   tipo_de_violencia_sexual                           5296 non-null   object 
 8   tipo_de_violencia_economica_y_patrimonial          5296 non-null   object 
 9   tipo_de_

Modificamos el nombre de las variables para un mejor manejo del dataframe

In [14]:
df.rename(columns = {
    'prov_residencia_persona_en_situacion_violencia' : 'Provincia',
    'genero_persona_en_situacion_de_violencia' : 'Genero',
    'edad_persona_en_situacion_de_violencia' : 'Edad',
    'pais_nacimiento_persona_en_situacion_de_violencia' : 'Nacionalidad',
    'tipo_de_violencia_fisica' : 'violencia_fisica',
    'tipo_de_violencia_psicologica' : 'violencia_psicologica',
    'tipo_de_violencia_sexual' : 'violencia_sexual',
    'tipo_de_violencia_economica_y_patrimonial' : 'violencia_econom_y_patrimonial',
    'tipo_de_violencia_simbolica' : 'violencia_simbolica',
    'tipo_de_violencia_domestica' : 'violencia_domestica',
    'modalidad_de_violencia_institucional' : 'violencia_institucional',
    'modalidad_de_violencia_laboral' : 'violencia_laboral',
    'modalidad_violencia_contra_libertad_reproductiva' : 'violencia_contra_libertad_reproductiva',
    'modalidad_de_violencia_obstetrica' : 'violencia_obstetrica',
    'modalidad_de_violencia_mediatica' : 'violencia_mediatica',
    'modalidad_de_violencia_otras' : 'violencia_otras'
}, inplace=True)

Reemplazamos los valores nulos o NaN por el string "Missing"

In [15]:
df.fillna("Missing", inplace=True)
df

Unnamed: 0,Fecha,Provincia,Genero,Edad,Nacionalidad,violencia_fisica,violencia_psicologica,violencia_sexual,violencia_econom_y_patrimonial,violencia_simbolica,violencia_domestica,violencia_institucional,violencia_laboral,violencia_contra_libertad_reproductiva,violencia_obstetrica,violencia_mediatica,violencia_otras,vinculo_con_la_persona_agresora,genero_de_la_persona_agresora
0,2023-01-01,Buenos Aires,Mujer,Missing,Missing,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
1,2023-01-01,Buenos Aires,Mujer,19.0,Argentina,Si,Si,Si,No,No,No,No,No,No,No,No,No,Otro,Varon
2,2023-01-01,Buenos Aires,Mujer,46.0,Argentina,Si,Si,No,No,Si,Si,No,No,No,No,No,No,Pareja,Varon
3,2023-01-01,Entre Ríos,Mujer,28.0,Missing,No,Si,No,No,Si,Si,No,No,No,No,No,No,Pareja,Varon
4,2023-01-01,Mendoza,Mujer,34.0,Argentina,No,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5291,2023-03-31,Buenos Aires,Mujer,Missing,Argentina,Si,Si,No,No,Si,Si,No,No,No,No,No,No,Ex pareja,Varon
5292,2023-03-31,Buenos Aires,Mujer,28.0,Missing,No,Si,No,No,Si,Si,No,No,No,No,No,No,Pareja,Varon
5293,2023-03-31,Buenos Aires,Mujer,Missing,Argentina,Si,Si,No,Si,Si,Si,No,No,No,No,No,No,Ex pareja,Varon
5294,2023-03-31,Buenos Aires,Mujer,28.0,Missing,Si,Si,Si,No,Si,Si,No,No,No,No,No,No,Ex pareja,Varon


**¿Cuál es el promedio de edad de las personas que sufren violencia física?**

In [16]:
df_violencia_fisica = df_144.loc[df_144["violencia_fisica"] == "Si"]
df_violencia_fisica = df_violencia_fisica[df_violencia_fisica["Edad"] != "Missing"]
df_violencia_fisica["Edad"].mean()

34.2603760198652

In [17]:
df_violencia_fisica["Edad"].value_counts()

Edad
27.0    119
30.0    117
25.0    111
28.0    111
26.0    109
       ... 
1.0       1
79.0      1
69.0      1
13.0      1
3.0       1
Name: count, Length: 75, dtype: int64