<center>

# Analisis Exploratorio De Datos (Homicidios)

<center>

<div style="text-align: justify">

### Importaciones 
</div>

In [191]:
import numpy as np
import pandas as pd
from datetime import time, datetime as dt

<div style="text-align: justify">

### Lectura de la pestaña HECHOS del excel homicidios

Se comienza con el analisis exploratorio de datos del archivo de excel homicidios de la primera pestaña con tabla de datos llamada HECHOS.
</div>

In [192]:
# Leyendo el archivo homicidios.xlsx
df_hechos = pd.read_excel('../proyecto/archivos iniciales/homicidios.xlsx', sheet_name='HECHOS')
df_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


<div style="text-align: justify">

### Descripcion inicial de la pestaña HECHOS

Esta tabla de datos presenta 696 registros y 21 variables (columnas) que a continuacion proceder a visualizar individualmente.

</div>

In [193]:
df_hechos.shape[0]

696

In [194]:
df_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

<div style="text-align: justify">
Se evidencia que los nombres de la columnas se encuentran en diferentes formatos(mayusculas, minusculas y capitalización de título), se procede a renombrar todas las columnas siguiendo el ultimo formato pensando en el manejo de la informacion y presentacion en Power BI.
</div>

In [197]:
# Crear un diccionario con los nuevos nombres de las columnas
nuevos_nombres = {
    'N_Victimas': 'Número de víctimas',
    'AAAA': 'Año',
    'MM': 'Mes',
    'DD': 'Día',
    'HH': 'Cantidad Hora',
    'Lugar_Del_Hecho': 'Lugar del hecho',
    'Tipo_De_Calle': 'Tipo de calle',
    'XY (CABA)': 'Coordenadas XY (CABA)',
    'Victima': 'Víctima'
}

# Renombrar las columnas según el diccionario
df_hechos = df_hechos.rename(columns=nuevos_nombres)

# Capitalizar 'XY' en el nombre de la columna 'Coordenadas XY (CABA)'
df_hechos.columns = [col.title() if col != 'Coordenadas XY (CABA)' else 'Coordenadas XY (CABA)' for col in df_hechos.columns]

df_hechos.columns

Index(['Id', 'Número De Víctimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora',
       'Cantidad Hora', 'Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Altura',
       'Cruce', 'Dirección Normalizada', 'Comuna', 'Coordenadas XY (CABA)',
       'Pos X', 'Pos Y', 'Participantes', 'Víctima', 'Acusado'],
      dtype='object')

<div style="text-align: justify">
Para mantener la Homogenizacion en la presentacion de la informacion donde hay cadenas de texto vamos a convertir todas las columnas con texto en formato titulo.
</div>

In [198]:
# Lista de columnas a analizar
columnas_a_analizar = ['Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Cruce', 'Dirección Normalizada', 'Participantes', 'Víctima', 'Acusado']

# Aplicar str.title() a las columnas seleccionadas
df_hechos[columnas_a_analizar] = df_hechos[columnas_a_analizar].apply(lambda x: x.str.title())

<div style="text-align: justify">
Despues de modificar los nombres y el formato de las Columnas es turno para verificar el contenido de las columnas con cadenas de texto.
</div>

In [199]:
# Aplicar strip a todas las columnas del DataFrame
df_hechos = df_hechos.applymap(lambda x: x.strip() if isinstance(x, str) else x)

# Lista de columnas a analizar
columnas_a_analizar = ['Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Cruce', 'Dirección Normalizada', 'Participantes', 'Víctima', 'Acusado']

# Crear un DataFrame vacío para almacenar los resultados
resultados_df = pd.DataFrame(columns=['Columna', 'Tipo de Dato', 'Mayúsculas', 'Minúsculas', 'Título'])

# Iterar sobre las columnas seleccionadas del DataFrame
for columna in columnas_a_analizar:
    # Obtener el tipo de dato de la columna
    tipo_dato = df_hechos[columna].dtype
    
    # Contar el número de celdas con mayúsculas, minúsculas y en formato de título
    mayusculas = df_hechos[columna].str.isupper().sum()
    minusculas = df_hechos[columna].str.islower().sum()
    titulo = df_hechos[columna].str.istitle().sum()
    
    # Crear un diccionario con los resultados
    resultado = {
        'Columna': columna,
        'Tipo de Dato': tipo_dato,
        'Mayúsculas': mayusculas,
        'Minúsculas': minusculas,
        'Título': titulo
    }
    
    # Agregar el diccionario a DataFrame de resultados_df
    resultados_df = pd.concat([resultados_df, pd.DataFrame([resultado])], ignore_index=True)

# Mostrar los resultados_df
print(resultados_df)

                 Columna Tipo de Dato Mayúsculas Minúsculas Título
0        Lugar Del Hecho       object          0          0    696
1          Tipo De Calle       object          0          0    696
2                  Calle       object          0          0    695
3                  Cruce       object          0          0    525
4  Dirección Normalizada       object          0          0    688
5          Participantes       object          0          0    696
6                Víctima       object          0          0    696
7                Acusado       object          0          0    696


<div style="text-align: justify">

### Datos nulos de la pestaña HECHOS

Se encontraron 747 valores nulos, considerando que son 14.616(696*21) datos, estos valores nulos representan el 5.11%. los valores nulos se encuentran en las columnas Calle, Altura, Cruce y Dirección Normalizada.
</div>

In [200]:
# Mostrar la cantidad de valores nulos por columna
nulos_por_columna = df_hechos.isnull().sum()

print(nulos_por_columna)

Id                         0
Número De Víctimas         0
Fecha                      0
Año                        0
Mes                        0
Día                        0
Hora                       0
Cantidad Hora              0
Lugar Del Hecho            0
Tipo De Calle              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
Comuna                     0
Coordenadas XY (CABA)      0
Pos X                      0
Pos Y                      0
Participantes              0
Víctima                    0
Acusado                    0
dtype: int64


<div style="text-align: justify">

### Analizando los datos nulos

Para poder entender que tipo de datos son los que vamos a tratar en las columnas con datos nulos procedemos a extraer una muestra de todas las columnas involucradas en las direcciones de la pestaña HECHOS.

</div>

In [201]:
# Mirando las columnas donde el dataframe almacena informacion sobre la direccion/lugar del accidente.
columnas_seleccionadas = ['Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada']
df_hechos[columnas_seleccionadas]

Unnamed: 0,Lugar Del Hecho,Tipo De Calle,Calle,Altura,Cruce,Dirección Normalizada
0,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,Piedra Buena Av.,,"Fernandez De La Cruz, F., Gral. Av.","Piedra Buena Av. Y Fernandez De La Cruz, F., G..."
1,Av Gral Paz Y Av De Los Corrales,Gral Paz,"Paz, Gral. Av.",,De Los Corrales Av.,"Paz, Gral. Av. Y De Los Corrales Av."
2,Av Entre Rios 2034,Avenida,Entre Rios Av.,2034.0,,Entre Rios Av. 2034
3,Av Larrazabal Y Gral Villegas Conrado,Avenida,Larrazabal Av.,,"Villegas, Conrado, Gral.","Larrazabal Av. Y Villegas, Conrado, Gral."
4,Av San Juan Y Presidente Luis Saenz Peña,Avenida,San Juan Av.,,"Saenz Pe?A, Luis, Pres.","San Juan Av. Y Saenz Peã‘A, Luis, Pres."
...,...,...,...,...,...,...
691,Av. Riestra Y Mom,Avenida,Riestra Av.,,Mom,Riestra Av. Y Mom
692,Au Dellepiane Y Lacarra,Autopista,"Dellepiane, Luis, Tte. Gral.",,Lacarra Av.,"Dellepiane, Luis, Tte. Gral. Y Lacarra Av."
693,Av. Gaona Y Terrada,Avenida,Gaona Av.,,Terrada,Gaona Av. Y Terrada
694,Av. Eva Peron 4071,Avenida,"Peron, Eva Av.",4071.0,,"Peron, Eva Av. 4071"


<div style="text-align: justify">

### Analizando los datos de columna Calle de la pestaña HECHOS

La columna calle toma la datos de la columna Lugar Del Hecho, cuando es un cruce toma la primera avenida, cuando es una calle con altura toma solo el nombre. Cuando filtramos la fila donde calle es un valor nulo, nos encontramos que el dato ingresado en la columna Lugar Del Hecho es SD(Sin datos sobre el tipo de víctima) y que los demas datos de esa fila son practicamente inexistentes.
</div>

In [202]:
# Filtrar filas donde 'Calle' es NaN
filas_calle_nan = df_hechos[df_hechos['Calle'].isna()]
filas_calle_nan

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,...,Altura,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,Sd,Calle,...,,,,0,Point (. .),.,.,Peaton-Sd,Peaton,Sd


<div style="text-align: justify">

En la fila del Id 2016-0151 prodemos a colocar SD. considerando que el termino hace parte de las definiciones del informe.

</div>

In [203]:
# Asignar 'SD' solo a las celdas NaN en la fila donde 'Id' es '2016-0151'
df_hechos.loc[df_hechos['Id'] == '2016-0151'] = df_hechos.loc[df_hechos['Id'] == '2016-0151'].fillna('Sd')

# Mostrar el DataFrame actualizado
df_hechos[df_hechos['Id'] == '2016-0151']

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,...,Altura,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,Sd,Calle,...,Sd,Sd,Sd,0,Point (. .),.,.,Peaton-Sd,Peaton,Sd


<div style="text-align: justify">

### Analizando los datos de columna Altura de la pestaña HECHOS

La columna Altura toma el valor numerico de la direccion ingresada en Lugar Del Hecho. Esta columna apenas tiene 129 datos de 696 dando como resultado los 567 datos nulos que se visualizo antes. En otras palabras apenas el 18.53% de los datos tienen el valor de la Altura en esa columna.
</div>

In [204]:
df_altura = df_hechos[['Lugar Del Hecho', 'Altura']][1:3]
df_altura

Unnamed: 0,Lugar Del Hecho,Altura
1,Av Gral Paz Y Av De Los Corrales,
2,Av Entre Rios 2034,2034.0


<div style="text-align: justify">
Conisiderando lo anterior vemos que el dato que contiene esta columna no es muy relevante y procedemos a eliminarla.
</div>

In [205]:
# Se elimina la columna Altura
df_hechos = df_hechos.drop('Altura', axis=1)
df_hechos.columns

Index(['Id', 'Número De Víctimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora',
       'Cantidad Hora', 'Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Cruce',
       'Dirección Normalizada', 'Comuna', 'Coordenadas XY (CABA)', 'Pos X',
       'Pos Y', 'Participantes', 'Víctima', 'Acusado'],
      dtype='object')

<div style="text-align: justify">

### Analizando los datos de columna Cruce de la pestaña HECHOS

En la columna Cruce hay 171 nulos, esta columna cuenta con 525(696-171) datos, procedemos a analizar tambien la Columna Tipo De Calle para estudiar si esta tiene efecto sobre la Columna cruce o no.
</div>

In [206]:
# Obtener los valores únicos de la columna 'Tipo De Calle'
valores_unicos_tipo_de_calle = df_hechos['Tipo De Calle'].unique()

# Mostrar los valores únicos
valores_unicos_tipo_de_calle

array(['Avenida', 'Gral Paz', 'Calle', 'Autopista'], dtype=object)

<div style="text-align: justify">
Confimarmos que la columna Tipo De Calle no tiene ningun efecto en la columna cruce, ya que dentro de esta columna no hay una denominacion que asi lo indique como podria ser esquina, esquinas o cruce.
</div>

In [207]:
# Mirando las columnas donde el dataframe almacena informacion sobre la direccion/lugar del accidente.
columnas_seleccionadas = ['Lugar Del Hecho', 'Tipo De Calle', 'Calle', 'Cruce', 'Dirección Normalizada']
df_hechos[columnas_seleccionadas][1:3]

Unnamed: 0,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada
1,Av Gral Paz Y Av De Los Corrales,Gral Paz,"Paz, Gral. Av.",De Los Corrales Av.,"Paz, Gral. Av. Y De Los Corrales Av."
2,Av Entre Rios 2034,Avenida,Entre Rios Av.,,Entre Rios Av. 2034


<div style="text-align: justify">
Vamos a cambiar el tipo de dato de la columna Cruce de categorico-nominal que contiene el ultimo nombre de las avenidas de la columna Lugar Del Hecho a un tipo de dato categorico-binario, al determinar que si el valor de la columna Cruce no es nulo se colocara Si, y si es nulo/NAN entonces entonces se colocara No incluyendo la celda que habiamos modificado previamente con Sd.
</div>

In [208]:
# Aplicar str.strip() a la columna 'Cruce' para eliminar espacios al principio y al final
df_hechos['Cruce'] = df_hechos['Cruce'].str.strip()

# Definir una función que verifique si el último valor en 'Lugar Del Hecho' es un número
def es_ultimo_valor_numero(texto):
    partes = texto.split()
    return partes[-1].isdigit() if partes else False

# Definir una función que aplique la lógica deseada a la columna 'Cruce'
def modificar_columna_cruce(fila):
    if fila['Lugar Del Hecho'] == 'Sd':
        return 'No'
    elif pd.notna(fila['Cruce']):
        return 'Si'
    else:
        return 'No'

# Aplicar la función a la columna 'Cruce'
df_hechos['Cruce'] = df_hechos.apply(modificar_columna_cruce, axis=1)

# Obtener los valores únicos de la columna 'Cruce' después de las modificaciones
valores_unicos_cruce = df_hechos['Cruce'].unique()

# Mostrar los valores únicos
valores_unicos_cruce

array(['Si', 'No'], dtype=object)

In [209]:
# Mostrar el DataFrame actualizado
df_hechos[df_hechos['Id'] == '2016-0151']

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,Sd,Calle,Sd,No,Sd,0,Point (. .),.,.,Peaton-Sd,Peaton,Sd


<div style="text-align: justify">

### Analizando los datos de columna Dirección Normalizada de la pestaña HECHOS

Finalmente vamos a analizar los datos nulos de la columna Dirección Normalizada donde previamente encontramos 8 datos nulos menos la fila donde cambiamos el valor nulo por Sd, cuando analizamos la informacion en esta columnas encontramos que era la concatenacion de las columnas Calle+Altura o Calle+Cruce pero dado el manejo de datos nulos que hemos realizado previamente vamos a simplemente colocar la informacion de la columna Lugar Del Hecho aunque no quede examente en el mismo formato. revisaremos que tienen las 7 celdas restantes.
</div>

In [210]:
# Mostrar los datos nulos en la columna 'Dirección Normalizada'
datos_nulos_direccion = df_hechos['Dirección Normalizada'].isnull()

# Filtrar el DataFrame para mostrar solo las filas con datos nulos en 'Dirección Normalizada'
filas_con_datos_nulos = df_hechos[datos_nulos_direccion]

# Mostrar el DataFrame resultante
filas_con_datos_nulos

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,Autopista Lugones Pk 10000,Autopista,"Lugones, Leopoldo Av.",No,,13,Point (. .),.,.,Moto-Sd,Moto,Sd
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,Au Buenos Aires - La Plata Km. 4,Autopista,Autopista Buenos Aires - La Plata,No,,4,Point (. .),.,.,Moto-Cargas,Moto,Cargas
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11,Au Perito Moreno Y Ramal Enlace Au1/Au6,Autopista,Autopista Perito Moreno,No,,9,Point (. .),.,.,Moto-Cargas,Moto,Cargas
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3,Au Dellepiane 2400,Autopista,Autopista Dellepiane Luis Tte. Gral.,No,,7,Point (. .),.,.,Auto-Auto,Auto,Auto
313,2018-0039,1,2018-04-21,2018,4,21,22:15:00,22,Autopista Lugones Km 4.7,Autopista,"Lugones, Leopoldo Av.",No,,14,Point (. .),.,.,Peaton-Auto,Peaton,Auto
546,2020-0026,1,2020-05-17,2020,5,17,06:40:00,6,"Lugones, Leopoldo Av. Km 6,1",Autopista,"Lugones, Leopoldo Av.",No,,14,Point (. .),.,.,Moto-Objeto Fijo,Moto,Objeto Fijo
621,2021-0023,1,2021-03-01,2021,3,1,09:20:00,9,"Au Buenos Aires La Plata Km 4,5",Autopista,Autopista Buenos Aires - La Plata,No,,4,Point (. .),.,.,Moto-Cargas,Moto,Cargas


<div style="text-align: justify">
Como vemos que es posible dejar la misma informacion que esta en la columna Lugar del hecho vamos a proceder a modificar los valores nulos de la columna Dirección Normalizada.
</div>

In [211]:
# Reemplazar valores nulos en 'Dirección Normalizada' con los de 'Lugar Del Hecho'
df_hechos['Dirección Normalizada'].fillna(df_hechos['Lugar Del Hecho'], inplace=True)

<div style="text-align: justify">
Procedemos a revisar el resultado usando un Id(2016-0052) donde la columna Dirección Normalizada tenia un valor nulo.
</div>

In [212]:
# Mostrar el DataFrame actualizado
df_hechos[df_hechos['Id'] == '2016-0052']

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,Autopista Lugones Pk 10000,Autopista,"Lugones, Leopoldo Av.",No,Autopista Lugones Pk 10000,13,Point (. .),.,.,Moto-Sd,Moto,Sd


<div style="text-align: justify">

### Buscando Duplicados de la pestaña HECHOS

No se encontraron datos duplicados en la pestaña HECHOS cuando se realizo la busqueda por Id.
</div>

In [213]:
# Buscar duplicados en la columna 'Id'
duplicados = df_hechos[df_hechos.duplicated(subset=['Id'], keep=False)]

# Verificar si se encontraron duplicados
if duplicados.empty:
    print("No se encontraron duplicados.")
else:
    # Mostrar las filas duplicadas
    print("Se encontraron duplicados:")
    duplicados

No se encontraron duplicados.


<div style="text-align: justify">

### Verificando los tipos de datos en las columnas de la pestaña HECHOS

Despues de haber analizado los datos nulos y comprobar que la pestaña HECHOS no tiene duplicados, vamos a visulizar los tipos de datos de cada columna.
</div>

In [214]:
# Iterar sobre las columnas y mostrar información detallada
for columna in df_hechos.columns:
    tipos_presentes = df_hechos[columna].apply(type).unique()
    print(f'Columna: {columna}, Tipos Presentes: {tipos_presentes}')

Columna: Id, Tipos Presentes: [<class 'str'>]
Columna: Número De Víctimas, Tipos Presentes: [<class 'int'>]
Columna: Fecha, Tipos Presentes: [<class 'pandas._libs.tslibs.timestamps.Timestamp'>]
Columna: Año, Tipos Presentes: [<class 'int'>]
Columna: Mes, Tipos Presentes: [<class 'int'>]
Columna: Día, Tipos Presentes: [<class 'int'>]
Columna: Hora, Tipos Presentes: [<class 'datetime.time'> <class 'str'> <class 'datetime.datetime'>]
Columna: Cantidad Hora, Tipos Presentes: [<class 'int'> <class 'str'>]
Columna: Lugar Del Hecho, Tipos Presentes: [<class 'str'>]
Columna: Tipo De Calle, Tipos Presentes: [<class 'str'>]
Columna: Calle, Tipos Presentes: [<class 'str'>]
Columna: Cruce, Tipos Presentes: [<class 'str'>]
Columna: Dirección Normalizada, Tipos Presentes: [<class 'str'>]
Columna: Comuna, Tipos Presentes: [<class 'int'>]
Columna: Coordenadas XY (CABA), Tipos Presentes: [<class 'str'>]
Columna: Pos X, Tipos Presentes: [<class 'str'>]
Columna: Pos Y, Tipos Presentes: [<class 'str'>]
Co

<div style="text-align: justify">

### Analisando la columna Hora

Se visualiza la cantidad por cada tipo de dato.
</div>

In [215]:
# Verificar y contar los tipos de datos en la columna "Hora"
conteo_tipos_datos_hora = df_hechos['Hora'].apply(lambda x: type(x).__name__).value_counts()

# Imprimir resultados
print('\nCantidad de cada tipo de datos en la columna "Hora":\n', conteo_tipos_datos_hora)


Cantidad de cada tipo de datos en la columna "Hora":
 Hora
time        608
str          85
datetime      3
Name: count, dtype: int64


In [216]:
# Función para convertir a datetime.time
def convertir_a_time(valor):
    if isinstance(valor, time):
        return valor
    elif isinstance(valor, str):
        try:
            return pd.to_datetime(valor, format='%H:%M:%S').time()
        except ValueError:
            pass
    elif isinstance(valor, dt):
        return valor.time()

# Aplicar la función de conversión a la columna "Hora"
df_hechos['Hora'] = df_hechos['Hora'].apply(convertir_a_time)

# Verificar y contar los tipos de datos después de la conversión
conteo_tipos_datos_hora = df_hechos['Hora'].apply(type).value_counts()

# Imprimir resultados
print('\nCantidad de cada tipo de datos en la columna "Hora" después de la conversión:\n', conteo_tipos_datos_hora)


Cantidad de cada tipo de datos en la columna "Hora" después de la conversión:
 Hora
<class 'datetime.time'>    695
<class 'NoneType'>           1
Name: count, dtype: int64


In [217]:
# Filtrar las filas donde la columna "Hora" es nula
filas_nulas = df_hechos[df_hechos['Hora'].isnull()]

# Imprimir las filas nulas
filas_nulas

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
518,2019-0103,1,2019-12-18,2019,12,18,,SD,"Paz, Gral. Av. Y Griveo",Gral Paz,"Paz, Gral. Av.",Si,"Paz, Gral. Av. Y Griveo",11,Point (94643.11254058 103831.57115061),-58.52169422,-34.5947164,Moto-Moto,Moto,Moto


In [219]:
# Id específico
id_especifico = "2019-0103"

# Obtener la moda de toda la columna "Hora"
moda_hora_global = df_hechos['Hora'].mode()

# Verificar si hay al menos un valor en la moda global
if not moda_hora_global.empty:
    # Obtener el valor de moda global
    hora_mas_frecuente_global = moda_hora_global.iloc[0]

    # Reemplazar valores nulos en la columna "Hora" con la hora más frecuente global
    df_hechos['Hora'].fillna(hora_mas_frecuente_global, inplace=True)

    # Convertir la columna "Cantidad Hora" a valores enteros basados en la hora para el Id específico
    df_hechos['Cantidad Hora'] = df_hechos['Hora'].apply(lambda x: int(str(x).split(':')[0]) if not pd.isnull(x) else 0)

    # Filtrar la fila modificada para el Id específico
    fila_modificada = df_hechos[df_hechos['Id'] == id_especifico]

    # Verificar los cambios
    print(f'Hora más frecuente global: {hora_mas_frecuente_global}')

    # Mostrar el valor de la columna 'Cantidad Hora' para el Id específico
    print(f'Cantidad Hora para el Id {id_especifico}: {df_hechos.loc[df_hechos["Id"] == id_especifico, "Cantidad Hora"].values[0]}')
else:
    print("No hay moda para la columna 'Hora' en todo el DataFrame.")

Hora más frecuente global: 09:00:00
Cantidad Hora para el Id 2019-0103: 9


In [220]:
# Filtrar la fila con el ID 2019-0103
fila_id_2019_0103 = df_hechos[df_hechos['Id'] == '2019-0103']
fila_id_2019_0103

Unnamed: 0,Id,Número De Víctimas,Fecha,Año,Mes,Día,Hora,Cantidad Hora,Lugar Del Hecho,Tipo De Calle,Calle,Cruce,Dirección Normalizada,Comuna,Coordenadas XY (CABA),Pos X,Pos Y,Participantes,Víctima,Acusado
518,2019-0103,1,2019-12-18,2019,12,18,09:00:00,9,"Paz, Gral. Av. Y Griveo",Gral Paz,"Paz, Gral. Av.",Si,"Paz, Gral. Av. Y Griveo",11,Point (94643.11254058 103831.57115061),-58.52169422,-34.5947164,Moto-Moto,Moto,Moto


In [221]:
# Iterar sobre las columnas y mostrar información detallada
for columna in df_hechos.columns:
    tipos_presentes = df_hechos[columna].apply(type).unique()
    print(f'Columna: {columna}, Tipos Presentes: {tipos_presentes}')

Columna: Id, Tipos Presentes: [<class 'str'>]
Columna: Número De Víctimas, Tipos Presentes: [<class 'int'>]
Columna: Fecha, Tipos Presentes: [<class 'pandas._libs.tslibs.timestamps.Timestamp'>]
Columna: Año, Tipos Presentes: [<class 'int'>]
Columna: Mes, Tipos Presentes: [<class 'int'>]
Columna: Día, Tipos Presentes: [<class 'int'>]
Columna: Hora, Tipos Presentes: [<class 'datetime.time'>]
Columna: Cantidad Hora, Tipos Presentes: [<class 'int'>]
Columna: Lugar Del Hecho, Tipos Presentes: [<class 'str'>]
Columna: Tipo De Calle, Tipos Presentes: [<class 'str'>]
Columna: Calle, Tipos Presentes: [<class 'str'>]
Columna: Cruce, Tipos Presentes: [<class 'str'>]
Columna: Dirección Normalizada, Tipos Presentes: [<class 'str'>]
Columna: Comuna, Tipos Presentes: [<class 'int'>]
Columna: Coordenadas XY (CABA), Tipos Presentes: [<class 'str'>]
Columna: Pos X, Tipos Presentes: [<class 'str'>]
Columna: Pos Y, Tipos Presentes: [<class 'str'>]
Columna: Participantes, Tipos Presentes: [<class 'str'>]
C