# Trabajo Práctico Final de Pandas

## Autores:
- Alfredo Sanz
- Juan Manuel Saad

In [None]:
import pandas as pd

## **Paso 1**: Leer los archivos y crear los dataframes

En este paso, se leerán los archivos CSV ubicados en la carpeta `datos` y se crearán dataframes de pandas a partir de ellos. Esto permitirá manipular y analizar los datos de las llamadas a la Línea 144 correspondientes a los años 2020, 2021, 2022 y el primer semestre de 2023.

In [133]:
csv_files = [
    "./datos/linea144-2020.csv",
    "./datos/linea144-2021.csv",
    "./datos/linea144-enero-diciembre-2022.csv",
    "./datos/linea144-enero-junio-2023.csv",
]

csv2020 = pd.read_csv(csv_files[0])
csv2021 = pd.read_csv(csv_files[1])
csv2022 = pd.read_csv(csv_files[2])
csv2023 = pd.read_csv(csv_files[3])

# Show only the values that are not NaN from 'Unnamed: 19' column
non_nan_values = csv2022['Unnamed: 19'].dropna()
non_nan_values

# Drop column that are not useful
csv2022 = csv2022.drop('Unnamed: 19', axis=1)

## **Paso 2**: Verificación de columnas

En este paso, se verificará que todos los datasets tengan las mismas columnas en cantidad y en nombre. Esto es crucial para poder unir los datasets correctamente en pasos posteriores. Las acciones específicas incluyen:

1. **Extracción de nombres de columnas**: Se extraerán los nombres de las columnas de cada dataset.
2. **Comparación de columnas**: Se compararán los nombres de las columnas entre los diferentes datasets para asegurarse de que coincidan en cantidad y nombre.
3. **Identificación de diferencias**: Se identificarán y mostrarán las diferencias en los nombres de las columnas, si las hubiera.
4. **Normalización de nombres de columnas**: Se normalizarán los nombres de las columnas para asegurar la consistencia convirtiendo a minúsculas si es necesario.

Este análisis permitirá asegurar que todos los datasets estén alineados en términos de estructura de columnas antes de proceder a su unión.


In [134]:
# Extract the column names
columns2020 = csv2020.columns
columns2021 = csv2021.columns
columns2022 = csv2022.columns
columns2023 = csv2023.columns

all_columns_df = pd.DataFrame({
    '2020': columns2020,
    '2021': columns2021,
    '2022': columns2022,
    '2023': columns2023
})

# Count the number of times each column appears in the dataframe
unique_columns = all_columns_df.apply(pd.Series.value_counts).fillna(0)

# If unique_columns.sum(axis=1) is not equals to the length of all_columns_df.columns, then the columns are not the same
unique_columns = unique_columns[unique_columns.sum(axis=1) != len(all_columns_df.columns)]

# If unique_columns is empty, then all the columns are the same
unique_columns

Unnamed: 0,2020,2021,2022,2023
Fecha,0.0,0.0,1.0,1.0
fecha,1.0,1.0,0.0,0.0


### **Paso 2.1**: normalizacion de columnas

In [135]:
# Rename columns to lowercase

csv2022.columns = csv2022.columns.str.lower()
csv2023.columns = csv2023.columns.str.lower()

### **Paso 2.3**: Rechequeo de columnas

In [136]:
# Extract the column names
columns2020 = csv2020.columns
columns2021 = csv2021.columns
columns2022 = csv2022.columns
columns2023 = csv2023.columns

all_columns_df = pd.DataFrame({
    '2020': columns2020,
    '2021': columns2021,
    '2022': columns2022,
    '2023': columns2023
})

# Count the number of times each column appears in the dataframe
unique_columns = all_columns_df.apply(pd.Series.value_counts).fillna(0)

# If unique_columns.sum(axis=1) is not equals to the length of all_columns_df.columns, then the columns are not the same
unique_columns = unique_columns[unique_columns.sum(axis=1) != len(all_columns_df.columns)]

# If unique_columns is empty, then all the columns are the same
unique_columns

Unnamed: 0,2020,2021,2022,2023


## **Paso 3**: Unificacion de DataFrames

In [137]:
complete_df = pd.concat([csv2020, csv2021, csv2022, csv2023])

# Reset index
complete_df.reset_index(drop=True, inplace=True)

complete_df.head(10)

Unnamed: 0,fecha,prov_residencia_persona_en_situacion_violencia,genero_persona_en_situacion_de_violencia,edad_persona_en_situacion_de_violencia,pais_nacimiento_persona_en_situacion_de_violencia,tipo_de_violencia_fisica,tipo_de_violencia_psicologica,tipo_de_violencia_sexual,tipo_de_violencia_economica_y_patrimonial,tipo_de_violencia_simbolica,tipo_de_violencia_domestica,modalidad_de_violencia_institucional,modalidad_de_violencia_laboral,modalidad_violencia_contra_libertad_reproductiva,modalidad_de_violencia_obstetrica,modalidad_de_violencia_mediatica,modalidad_de_violencia_otras,vinculo_con_la_persona_agresora,genero_de_la_persona_agresora
0,2020-01-01,Tucumán,Mujer,,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
1,2020-01-01,Buenos Aires,Mujer,39.0,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon
2,2020-01-01,Buenos Aires,Mujer,22.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon
3,2020-01-01,Buenos Aires,Mujer,53.0,,No,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
4,2020-01-01,Buenos Aires,Mujer,38.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
5,2020-01-01,Buenos Aires,Mujer,23.0,Argentina,Si,Si,No,Si,No,Si,No,No,No,No,No,No,Ex pareja,Varon
6,2020-01-01,Santiago Del Estero,Mujer,25.0,Paraguaya,Si,Si,No,Si,No,Si,No,No,No,No,No,No,Pareja,Varon
7,2020-01-01,Santa Fe,Mujer,24.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon
8,2020-01-01,Santa Fe,Mujer,,Argentina,Si,Si,No,Si,No,Si,No,No,No,No,No,No,Pareja,Varon
9,2020-01-01,San Juan,Mujer,21.0,Argentina,Si,Si,No,Si,No,Si,No,No,No,No,No,No,Pareja,Varon


In [138]:
complete_df.tail(10)

Unnamed: 0,fecha,prov_residencia_persona_en_situacion_violencia,genero_persona_en_situacion_de_violencia,edad_persona_en_situacion_de_violencia,pais_nacimiento_persona_en_situacion_de_violencia,tipo_de_violencia_fisica,tipo_de_violencia_psicologica,tipo_de_violencia_sexual,tipo_de_violencia_economica_y_patrimonial,tipo_de_violencia_simbolica,tipo_de_violencia_domestica,modalidad_de_violencia_institucional,modalidad_de_violencia_laboral,modalidad_violencia_contra_libertad_reproductiva,modalidad_de_violencia_obstetrica,modalidad_de_violencia_mediatica,modalidad_de_violencia_otras,vinculo_con_la_persona_agresora,genero_de_la_persona_agresora
89531,2023-06-30,Ciudad Autónoma de Buenos Aires,,,,Si,Si,Si,Si,No,Si,No,No,No,No,No,No,,
89532,2023-06-30,Ciudad Autónoma de Buenos Aires,,39.0,Argentina,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
89533,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,44.0,Argentina,No,Si,No,Si,No,Si,No,No,No,No,No,No,Ex pareja,Varon
89534,2023-06-30,Buenos Aires,,,,No,Si,No,No,No,Si,No,No,No,No,No,No,,
89535,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Pareja,Varon
89536,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,53.0,,No,Si,No,Si,No,Si,No,No,No,No,No,No,Pareja,Varon
89537,2023-06-30,Sin datos,Mujer,19.0,Argentina,No,Si,Si,No,No,Si,No,No,No,No,No,No,Padre o tutor,Varon
89538,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,18.0,Argentina,Si,Si,No,Si,Si,Si,No,No,No,No,No,No,Ex pareja,Varon
89539,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,27.0,,Si,Si,No,No,No,Si,No,No,No,No,No,No,Ex pareja,Varon
89540,2023-06-30,Ciudad Autónoma de Buenos Aires,Mujer,20.0,,No,Si,No,No,Si,Si,No,No,No,No,No,No,Ex pareja,


## **Paso 4**: Normalización de valores de columnas

En este paso, se realizará la normalización de los valores de las columnas para asegurar la consistencia y facilitar el análisis posterior. Las acciones específicas incluyen:

1. **Remoción de tildes**: Se eliminarán las tildes de los valores en las columnas para evitar inconsistencias debidas a caracteres acentuados. Las tildes se remueven con la forma NFD (Normalization Form Decomposition) para separar los caracteres acentuados o especiales para separarlos y filtrarlos.
2. **Conversión a minúsculas**: Se convertirán todos los valores de las columnas a minúsculas para asegurar uniformidad en los datos.
3. **Asignación de tipos de datos correctos**: Se asignarán los tipos de datos correctos a las columnas, como convertir fechas a formato datetime y números a formato numérico.
4. **Transformación de valores "Si/No" a booleanos**: Se transformarán los valores "Si" y "No" en valores booleanos (`True` y `False`) para facilitar el análisis posterior.

Este paso es crucial para preparar los datos y asegurar que estén en un formato adecuado para los análisis y visualizaciones que se realizarán en los siguientes pasos.


In [139]:
# print(f'Min index: {complete_df.index.min()}, max index: {complete_df.index.max()}')

complete_df['fecha'] = pd.to_datetime(complete_df['fecha'])

# Fill missing values with -1 to better identify those later
complete_df['edad_persona_en_situacion_de_violencia'] = complete_df['edad_persona_en_situacion_de_violencia'].fillna(-1).astype(int)

pd.set_option('future.no_silent_downcasting', True)

# Convert Si/No values to boolean type
complete_df['tipo_de_violencia_fisica'] = complete_df['tipo_de_violencia_fisica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['tipo_de_violencia_psicologica'] = complete_df['tipo_de_violencia_psicologica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['tipo_de_violencia_sexual'] = complete_df['tipo_de_violencia_sexual'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['tipo_de_violencia_economica_y_patrimonial'] = complete_df['tipo_de_violencia_economica_y_patrimonial'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['tipo_de_violencia_simbolica'] = complete_df['tipo_de_violencia_simbolica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['tipo_de_violencia_domestica'] = complete_df['tipo_de_violencia_domestica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_de_violencia_institucional'] = complete_df['modalidad_de_violencia_institucional'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_de_violencia_laboral'] = complete_df['modalidad_de_violencia_laboral'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_violencia_contra_libertad_reproductiva'] = complete_df['modalidad_violencia_contra_libertad_reproductiva'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_de_violencia_obstetrica'] = complete_df['modalidad_de_violencia_obstetrica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_de_violencia_mediatica'] = complete_df['modalidad_de_violencia_mediatica'].str.lower().replace({'no': False, 'si': True}).astype(bool)
complete_df['modalidad_de_violencia_otras'] = complete_df['modalidad_de_violencia_otras'].str.lower().replace({'no': False, 'si': True}).astype(bool)

# Convert objec values to string
complete_df['prov_residencia_persona_en_situacion_violencia'] = complete_df['prov_residencia_persona_en_situacion_violencia'].str.lower().fillna('N/A').astype(str)
complete_df['genero_persona_en_situacion_de_violencia'] = complete_df['genero_persona_en_situacion_de_violencia'].str.lower().fillna('N/A').astype(str)
complete_df['pais_nacimiento_persona_en_situacion_de_violencia'] = complete_df['pais_nacimiento_persona_en_situacion_de_violencia'].str.lower().fillna('N/A').astype(str)
complete_df['vinculo_con_la_persona_agresora'] = complete_df['vinculo_con_la_persona_agresora'].str.lower().fillna('N/A').astype(str)
complete_df['genero_de_la_persona_agresora'] = complete_df['genero_de_la_persona_agresora'].str.lower().fillna('N/A').astype(str)

print(complete_df['prov_residencia_persona_en_situacion_violencia'].dtypes)
print(complete_df.prov_residencia_persona_en_situacion_violencia.unique())

# There are some values that are 'sin datos', we will replace them with 'N/A'
complete_df['prov_residencia_persona_en_situacion_violencia'] = complete_df['prov_residencia_persona_en_situacion_violencia'].replace('sin datos', 'N/A')


complete_df.dtypes

object
['tucumán' 'buenos aires' 'santiago del estero' 'santa fe' 'san juan'
 'catamarca' 'neuquén' 'mendoza' 'córdoba' 'río negro'
 'ciudad autónoma de buenos aires' 'salta' 'entre ríos' 'jujuy' 'chaco'
 'chubut' 'san luis' 'la pampa' 'misiones' 'formosa'
 'tierra del fuego, antártida e islas del atlántico sur' 'N/A'
 'corrientes' 'santa cruz' 'la rioja' 'cordoba' 'sin datos']


fecha                                                datetime64[ns]
prov_residencia_persona_en_situacion_violencia               object
genero_persona_en_situacion_de_violencia                     object
edad_persona_en_situacion_de_violencia                        int32
pais_nacimiento_persona_en_situacion_de_violencia            object
tipo_de_violencia_fisica                                       bool
tipo_de_violencia_psicologica                                  bool
tipo_de_violencia_sexual                                       bool
tipo_de_violencia_economica_y_patrimonial                      bool
tipo_de_violencia_simbolica                                    bool
tipo_de_violencia_domestica                                    bool
modalidad_de_violencia_institucional                           bool
modalidad_de_violencia_laboral                                 bool
modalidad_violencia_contra_libertad_reproductiva               bool
modalidad_de_violencia_obstetrica               

In [140]:
print(complete_df.isna().sum())
print(complete_df.count())

fecha                                                0
prov_residencia_persona_en_situacion_violencia       0
genero_persona_en_situacion_de_violencia             0
edad_persona_en_situacion_de_violencia               0
pais_nacimiento_persona_en_situacion_de_violencia    0
tipo_de_violencia_fisica                             0
tipo_de_violencia_psicologica                        0
tipo_de_violencia_sexual                             0
tipo_de_violencia_economica_y_patrimonial            0
tipo_de_violencia_simbolica                          0
tipo_de_violencia_domestica                          0
modalidad_de_violencia_institucional                 0
modalidad_de_violencia_laboral                       0
modalidad_violencia_contra_libertad_reproductiva     0
modalidad_de_violencia_obstetrica                    0
modalidad_de_violencia_mediatica                     0
modalidad_de_violencia_otras                         0
vinculo_con_la_persona_agresora                      0
genero_de_

### **Paso 4.1**: Normalizacion de columnas con valores tipo string

In [141]:
# Normalize column using pandas and unicodedata
complete_df["prov_residencia_persona_en_situacion_violencia"] = (
    complete_df["prov_residencia_persona_en_situacion_violencia"]
    .str.normalize('NFD')  # Normalize characters
    .str.encode('ascii', 'ignore')  # Remove non-ASCII characters
    .str.decode('utf-8')  # Decode back to string
)

complete_df.groupby('prov_residencia_persona_en_situacion_violencia').size().reset_index(name='count')


Unnamed: 0,prov_residencia_persona_en_situacion_violencia,count
0,,1312
1,buenos aires,48565
2,catamarca,298
3,chaco,801
4,chubut,280
5,ciudad autonoma de buenos aires,17397
6,cordoba,2610
7,corrientes,512
8,entre rios,631
9,formosa,333


In [142]:
# Normalize column using pandas and unicodedata
complete_df["genero_persona_en_situacion_de_violencia"] = (
    complete_df["genero_persona_en_situacion_de_violencia"]
    .str.normalize('NFD')  # Normalize characters
    .str.encode('ascii', 'ignore')  # Remove non-ASCII characters
    .str.decode('utf-8')  # Decode back to string
)

complete_df.groupby('genero_persona_en_situacion_de_violencia').size().reset_index(name='count')

Unnamed: 0,genero_persona_en_situacion_de_violencia,count
0,,1904
1,intersexual,4
2,mujer,86884
3,mujer trans,141
4,no binarie,3
5,otro,67
6,queer,1
7,transgenero,151
8,travesti,11
9,varon,349


In [143]:
# Normalize column using pandas and unicodedata
complete_df["pais_nacimiento_persona_en_situacion_de_violencia"] = (
    complete_df["pais_nacimiento_persona_en_situacion_de_violencia"]
    .str.normalize('NFD')  # Normalize characters
    .str.encode('ascii', 'ignore')  # Remove non-ASCII characters
    .str.decode('utf-8')  # Decode back to string
)

complete_df.groupby('pais_nacimiento_persona_en_situacion_de_violencia').size().reset_index(name='count')

Unnamed: 0,pais_nacimiento_persona_en_situacion_de_violencia,count
0,,30281
1,alemana,8
2,arabe,3
3,argentina,52943
4,armenia,15
5,australiana,6
6,belga,2
7,boliviana,1290
8,brasilena,146
9,canadiense,1


In [144]:
# Normalize column using pandas and unicodedata
complete_df["vinculo_con_la_persona_agresora"] = (
    complete_df["vinculo_con_la_persona_agresora"]
    .str.normalize('NFD')  # Normalize characters
    .str.encode('ascii', 'ignore')  # Remove non-ASCII characters
    .str.decode('utf-8')  # Decode back to string
)

complete_df.groupby('vinculo_con_la_persona_agresora').size().reset_index(name='count')

Unnamed: 0,vinculo_con_la_persona_agresora,count
0,,3395
1,ex pareja,42247
2,madre o tutor,170
3,otro,6804
4,otro familiar,3182
5,padre o tutor,1082
6,pareja,32255
7,superior jerarquico,406


In [146]:
# Normalize column using pandas and unicodedata
complete_df["genero_de_la_persona_agresora"] = (
    complete_df["genero_de_la_persona_agresora"]
    .str.normalize('NFD')  # Normalize characters
    .str.encode('ascii', 'ignore')  # Remove non-ASCII characters
    .str.decode('utf-8')  # Decode back to string
)

complete_df.groupby('genero_de_la_persona_agresora').size().reset_index(name='count')

Unnamed: 0,genero_de_la_persona_agresora,count
0,,9213
1,mujer,1034
2,mujer trans,10
3,no binarie,1
4,otro,223
5,queer,1
6,transgenero,9
7,travesti,2
8,varon,79026
9,varon trans,22


### **Paso 4.2**: Analisis y eliminacion de outliers en las edades de la victima