## **DATASET COMPLEMENTARIO: *LESIONES***

### Importando librerías

In [1]:
import pandas as pd
import openpyxl

### Extracción y lectura de los datasets

Proceso muy similar a lo realizado con el datasets de HOMICIDIOS debido al mismo tipo de archivo y la misma estructura de los datos.

In [2]:
injuries_facts = pd.read_excel("datasets/lesiones.xlsx", sheet_name="HECHOS")
injuries_victims = pd.read_excel("datasets/lesiones.xlsx", sheet_name="VICTIMAS")

## Tratamiento de los datos del dataset `lesiones - hechos`

In [3]:
injuries_facts

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2,SD,8,...,-34.677556,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
3,LC-2019-0000079,1,2019,1,1,2019-01-01 00:00:00,02:30:00,2,SD,7,...,-34.647349,PEATON,SD,PEATON-SD,x,SD,SD,SD,SD,SD
4,LC-2019-0000082,4,2019,1,1,2019-01-01 00:00:00,04:30:00,4,SD,3,...,-34.604579,AUTO,SD,AUTO-SD,SD,SD,x,SD,SD,SD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23780,LC-2021-0652849,1,2021,12,31,2021-12-31 00:00:00,19:30:00,19,"ALBERDI, JUAN BAUTISTA AV. y GUAMINI",9,...,-34.659713573880,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
23781,LC-2021-0652865,2,2021,12,31,2021-12-31 00:00:00,19:40:00,19,"ALBERDI, JUAN BAUTISTA AV. 4436",9,...,-34.641753304864,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
23782,LC-2021-0652907,1,2021,12,31,2021-12-31 00:00:00,20:00:00,20,SD,1,...,-34.583083,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
23783,LC-2021-0652921,1,2021,12,31,2021-12-31 00:00:00,22:00:00,22,LINIERS VIRREY y MORENO,5,...,-34.614288229345,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,x,0,x,0,0,GRAVE


In [4]:
injuries_facts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23785 entries, 0 to 23784
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     23785 non-null  object 
 1   n_victimas             23785 non-null  int64  
 2   aaaa                   23785 non-null  int64  
 3   mm                     23785 non-null  int64  
 4   dd                     23785 non-null  int64  
 5   fecha                  23785 non-null  object 
 6   hora                   23785 non-null  object 
 7   franja_hora            23780 non-null  object 
 8   direccion_normalizada  23732 non-null  object 
 9   comuna                 23616 non-null  object 
 10  tipo_calle             23785 non-null  object 
 11  otra_direccion         23785 non-null  object 
 12  calle                  12867 non-null  object 
 13  altura                 12771 non-null  float64
 14  cruce                  9407 non-null   object 
 15  ge

### Plan de acción de las transformaciones a realizar en `lesiones - hechos`

Antes de continuar opté por revisar la cantidad de datos **inexistentes realmente**, aclaro porque en el resumen mostrado en la sección anterior, no se perciben como nulos, están los datos etiquetados como SD, lo cual significa "sin datos".
Todo esto debido a la primera impresión que tuve al ver de forma preliminar la composición de la tabla en la penúltima sección mostrada. Se observaron muchos valores SD en las filas de casi todas las columnas relevantes para el estudio.

In [5]:
tot_count_SD = injuries_facts.applymap(lambda x: 1 if x == 'SD' else 0).sum().sum()
tot_count_SD

  tot_count_SD = injuries_facts.applymap(lambda x: 1 if x == 'SD' else 0).sum().sum()


150629

In [6]:
injuries_facts.isnull().sum().sum()

37565

### CONCLUSIÓN PREVIA

La cantidad de datos faltantes etiquetados como SD son 150,629. Adicionalmente, están los datos propiamente faltantes, es decir los nulos, que son 37,565; es decir, están faltando, en realidad, 188,194 datos de un total de 642,195 posibles (23,785 registros en 27 campos), lo que hace un 29.3%. Una cifra muy alta.

Sin embargo, hice una revisión rápida sobre las variables a estudiar como las calles, tipo de vias, roles, tipo de víctima y de acusado y el tipo de lesión. 

In [7]:
tot_count_SD=0
for column in injuries_facts.columns:
    SDval_count = (injuries_facts[column] == 'SD').sum()
    nulls_count = injuries_facts[column].isnull().sum()
    empty_count = (SDval_count+nulls_count)
    tot_count_SD += empty_count
    print(f"{column}:\t\t{empty_count} faltantes : {SDval_count} val 'SD' - {nulls_count} nulos")
print("Total de valores faltantes: "+str(tot_count_SD))

id:		0 faltantes : 0 val 'SD' - 0 nulos
n_victimas:		0 faltantes : 0 val 'SD' - 0 nulos
aaaa:		0 faltantes : 0 val 'SD' - 0 nulos
mm:		0 faltantes : 0 val 'SD' - 0 nulos
dd:		0 faltantes : 0 val 'SD' - 0 nulos
fecha:		0 faltantes : 0 val 'SD' - 0 nulos
hora:		4 faltantes : 4 val 'SD' - 0 nulos
franja_hora:		5 faltantes : 0 val 'SD' - 5 nulos
direccion_normalizada:		10868 faltantes : 10815 val 'SD' - 53 nulos
comuna:		1015 faltantes : 846 val 'SD' - 169 nulos
tipo_calle:		11045 faltantes : 11045 val 'SD' - 0 nulos
otra_direccion:		18295 faltantes : 18295 val 'SD' - 0 nulos
calle:		10918 faltantes : 0 val 'SD' - 10918 nulos
altura:		11014 faltantes : 0 val 'SD' - 11014 nulos
cruce:		14378 faltantes : 0 val 'SD' - 14378 nulos
geocodificacion_CABA:		1252 faltantes : 1213 val 'SD' - 39 nulos
longitud:		1471 faltantes : 1209 val 'SD' - 262 nulos
latutid:		1471 faltantes : 1209 val 'SD' - 262 nulos
victima:		10733 faltantes : 10733 val 'SD' - 0 nulos
acusado:		15288 faltantes : 15288 val 'SD'


## **CONCLUSIÓN**

Tras la revisión de los resultados del cálculo sobre la cantidad de valores faltantes por cada columna, pude observar que varias variables principales a analizar perderían objetividad ante la falta de más de 10% de los datos, incluso en 4 de ellos  más del 40% (calle, cruce, victima y acusado).
Por lo tanto, se tomó la decisión de **NO CONTINUAR** con este estudio.

## Tratamiento de los datos del dataset `lesiones- víctimas`

De forma similar a lo realizado en la sección anterior, se muestra un resumen del dataframe

In [8]:
injuries_victims

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD
...,...,...,...,...,...,...,...,...,...
27600,LC-2021-0451911,2021,9,11,2021-09-11,TRANSPORTE PUBLICO,Varon,87,SD
27601,LC-2021-0530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,60,SD
27602,LC-2021-0530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,32,SD
27603,LC-2021-0201378,2021,5,2,2021-05-02,MOTO,Varon,32,SD


In [9]:
injuries_victims.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          27605 non-null  object        
 1   AAA               27605 non-null  int64         
 2   MM                27605 non-null  int64         
 3   DD                27605 non-null  int64         
 4   FECHA             27605 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  27605 non-null  object        
 6   SEXO              27605 non-null  object        
 7   EDAD_VICTIMA      27605 non-null  object        
 8   GRAVEDAD          27605 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 1.9+ MB


In [10]:
tot_count_SD = injuries_victims.applymap(lambda x: 1 if x == 'SD' else 0).sum().sum()
tot_count_SD

  tot_count_SD = injuries_victims.applymap(lambda x: 1 if x == 'SD' else 0).sum().sum()


31120

In [11]:
SDval_count = (injuries_victims.SEXO == 'SD').sum()
SDval_count

1929

In [12]:
SDval_count = (injuries_victims.EDAD_VICTIMA == 'SD').sum()
SDval_count

3990


## **CONCLUSIÓN DEFINITIVA**

Tras la revisión de las cantidad de valores faltantes para las 2 únicas variables a analizar desde este dataset, se perderían objetividad ante la falta de más de 7% de los datos, incluso en 1 de ellos 14% para la edad de la víctima.
Por lo tanto, se ratifica la decisión de **NO CONTINUAR** con este estudio.