# Analisis de los datos y limpieza

Carga del archivo homicidios.xlsl la tabla VICTIMAS e importar frameworks

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import requests
from sqlalchemy import create_engine
from dotenv import load_dotenv
import os

# Cargar el archivo Excel
file_path = 'homicidios.xlsx'  # Cambia esto por la ruta real del archivo

# Cargar las hojas en DataFrames independientes
hechos_df = pd.read_excel(file_path, sheet_name='HECHOS')
victimas_df = pd.read_excel(file_path, sheet_name='VICTIMAS')

# Mostrar las primeras filas de cada DataFrame para verificar su contenido
hechos_df.head(), victimas_df.head()

Vista General de los datos del DataFrame

In [None]:
# Inspección inicial de hechos
print("Información general de Hechos:")
print(hechos_df.info())
print("\nConteo de valores nulos en Hechos:")
print(hechos_df.isnull().sum())

# Inspección inicial de víctimas
print("\nInformación general de Víctimas:")
print(victimas_df.info())
print("\nConteo de valores nulos en Víctimas:")
print(victimas_df.isnull().sum())

Deteccion de duplicados

In [None]:
# Comprobar duplicados
hechos_duplicados = hechos_df.duplicated().sum()
victimas_duplicados = victimas_df.duplicated().sum()

print(f"Duplicados en Hechos: {hechos_duplicados}")
print(f"Duplicados en Victimas: {victimas_duplicados}")

Conteo de Valores sin datos

In [None]:
#sin datos
na_counts = victimas_df.isna().sum()
print(na_counts)

# Dimensiones del DataFrame
num_filas, num_columnas = hechos_df.shape
print(f"\nNúmero de filas: {num_filas}, Número de columnas: {num_columnas}")

Combinar 'FECHA' y 'HORA' en una nueva columna 'FECHA_HORA'

In [None]:
hechos_df['HORA'] = hechos_df['HORA'].replace('SD', '00:00:00')


# Verificar si la columna 'HORA' está en formato string y necesita conversión
hechos_df['HORA'] = hechos_df['HORA'].apply(lambda x: x if isinstance(x, datetime.time) else pd.to_datetime(x).time())


# Combinar 'FECHA' y 'HORA' en una nueva columna 'FECHA_HORA'
hechos_df['FECHA_HORA'] = pd.to_datetime(hechos_df['FECHA'].astype(str) + ' ' + hechos_df['HORA'].astype(str), errors='coerce')

# Verificar el resultado
print(hechos_df[['FECHA', 'HORA', 'FECHA_HORA']].head())

In [None]:
filtrado = hechos_df.loc[hechos_df['pos x'] == '.']

# Mostrar las filas filtradas
print(filtrado)

Verificar las cordenadas en API google y llenar valores de valores con '.'

In [None]:
# Función para obtener coordenadas usando la API de Google Maps
def obtener_coordenadas(direccion, api_key):
    url = f'https://maps.googleapis.com/maps/api/geocode/json?address={direccion}&key={api_key}'
    response = requests.get(url)
    data = response.json()

    # Verificar si la solicitud fue exitosa y si hay resultados
    if data['status'] == 'OK':
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']  # Retorna latitud y longitud
    else:
        # Retornar valores nulos si no se puede obtener la dirección
        return None, None

# Tu clave de API de Google Maps
api_key = 'AIzaSyDyVSvFu2wxYivarcLCGU1wYrE51U-CroA'

# Iterar sobre las filas del DataFrame original y actualizar 'pos x' y 'pos y'
for index, row in hechos_df.iterrows():
    if row['pos x'] == '.':  # Solo procesar si 'pos x' es igual a '.'
        direccion = row['LUGAR_DEL_HECHO']

        if pd.notnull(direccion):  # Solo buscar si la dirección no es nula
            lat, lng = obtener_coordenadas(direccion, api_key)
            
            # Reemplazar los valores en 'pos x' y 'pos y' en el DataFrame original
            hechos_df.at[index, 'pos y'] = lat
            hechos_df.at[index, 'pos x'] = lng
        else:
            # Si no hay dirección, dejar los valores actuales
            hechos_df.at[index, 'pos x'] = None
            hechos_df.at[index, 'pos y'] = None

#Se eliminan nos valores nulos 
hechos_df = hechos_df.dropna(subset=['pos x', 'pos y'])

# Mostrar el DataFrame actualizado
print(hechos_df)


Eliminar columnas redundantes e innecesarias en hechos_df

In [None]:

# Definir las columnas a eliminar
columnas_a_eliminar = ['AAAA', 'MM', 'DD','HH','Calle','Altura', 'Cruce', 'Dirección Normalizada','XY (CABA)', 'HORA','FECHA','LUGAR_DEL_HECHO']

# Eliminar las columnas del DataFrame
hechos_df = hechos_df.drop(columns=columnas_a_eliminar)


Valores unicos por columna Victima y Acusado

In [None]:
# Definir una lista de columnas para las cuales deseas obtener valores únicos
columnas_a_consultar = ['VICTIMA', 'CALLE',  'ACUSADO']  # Puedes modificar esta lista

# Obtener los valores únicos de las columnas especificadas en hechos_df
unique_values = {col: hechos_df[col].unique() for col in columnas_a_consultar if col in hechos_df.columns}

# Mostrar los valores únicos para cada columna especificada
for column, unique_values in unique_values.items():
    print(f"Valores únicos en la columna '{column}':\n{unique_values}\n")

Convertir las columnas pos x y pos y en tipo float 

In [None]:
# Reemplazar los valores no válidos (por ejemplo, ".") por NaN
hechos_df['pos x'] = hechos_df['pos x'].replace('.', np.nan)
hechos_df['pos y'] = hechos_df['pos y'].replace('.', np.nan)

# Convertir las columnas a tipo numérico (float), forzando el manejo de errores
hechos_df['pos x'] = pd.to_numeric(hechos_df['pos x'], errors='coerce')
hechos_df['pos y'] = pd.to_numeric(hechos_df['pos y'], errors='coerce')


In [None]:
# Verificar los valores nulos en la columna 'FECHA_HORA' del DataFrame 'hechos_df'
nulos_fecha_hora = hechos_df['FECHA_HORA'].isnull().sum()
valores_nulos_fecha_hora = hechos_df['FECHA_HORA'].isnull()

# Mostrar la cantidad de valores nulos y los registros donde están presentes
valores_nulos_info = hechos_df[valores_nulos_fecha_hora]

nulos_fecha_hora, valores_nulos_info.head()

Cantidad de siniestros por año

In [None]:

# Extraer el año de la columna FECHA y crear la nueva columna 'AAAA'
hechos_df['AÑO'] = hechos_df['FECHA_HORA'].dt.year

# Ejemplo gráfico: cantidad de siniestros por año
siniestros_por_ano = hechos_df.groupby('AÑO').size()

plt.figure(figsize=(10, 6))
siniestros_por_ano.plot(kind='bar', color='lightcoral')
plt.title('Cantidad de siniestros por año')
plt.xlabel('Año')
plt.ylabel('Número de siniestros')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()

Eliminar columnas redundantes e innecesarias en victimas_df

In [None]:
# Definir las columnas a eliminar
columnas_a_eliminar = ['AAAA', 'MM', 'DD','FECHA_FALLECIMIENTO','FECHA']

# Eliminar las columnas del DataFrame
victimas_df = victimas_df.drop(columns=columnas_a_eliminar)

# Verificar el resultado
print(victimas_df.head())  # Muestra las primeras filas para confirmar que las columnas fueron eliminadas

Limpieza de Datos en victimas_df y modificacion del formato de Fecha

In [None]:
# Reemplazar los valores "SD" en la columna EDAD por 0 
victimas_df['EDAD'] = np.where(victimas_df['EDAD'] == 'SD', 0, victimas_df['EDAD'])

# Convertir la columna EDAD a tipo numérico
victimas_df['EDAD'] = pd.to_numeric(victimas_df['EDAD'], errors='coerce').fillna(0)



In [None]:
# Gráfico para la distribución de la edad de las víctimas
plt.figure(figsize=(10, 6))

# Creamos un histograma de las edades
sns.histplot(victimas_df['EDAD'], bins=15, kde=True, color='skyblue')
plt.title('Distribución de la Edad de las Víctimas en Siniestros Viales')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.tight_layout()
plt.show()

 Gráfico para la variable cualitativa 'TIPO_DE_CALLE'


In [None]:
# Gráfico para la variable cualitativa 'TIPO_DE_CALLE'
sns.countplot(data=hechos_df, x='TIPO_DE_CALLE', palette='viridis')
plt.title('Cantidad de Siniestros Viales por Tipo de Calle')
plt.xlabel('Tipo de Calle')
plt.ylabel('Cantidad de Siniestros')
plt.show()

In [None]:
# Exportar el DataFrame a un archivo CSV
victimas_df.to_csv('victimas_limpio.csv', index=False)
hechos_df.to_csv('hechos_limpio.csv', index=False)

 Cambiar el nombre de la columna 'pos x' a 'pos_x'


In [None]:
# Cambiar el nombre de la columna 'pos x' a 'pos_x'
hechos_df.rename(columns={'pos x': 'pos_x'}, inplace=True)
# Cambiar el nombre de la columna 'pos y' a 'pos_y'
hechos_df.rename(columns={'pos y': 'pos_y'}, inplace=True)


CARGA DE HECHOS_CV A MYSQL 

In [None]:
# Cargar variables de entorno desde el archivo .env
load_dotenv()

# Parámetros de conexión desde variables de entorno
host = os.getenv('DB_HOST')
user = os.getenv('DB_USER')
port = os.getenv('DB_PORT')
password = os.getenv('DB_PASSWORD')
database = os.getenv('DB_NAME')

# Crear una conexión a la base de datos utilizando SQLAlchemy
connection_string = f'mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}'
engine = create_engine(connection_string)


# Intentar subir el DataFrame a la tabla 'hechos'
try:
    hechos_df.to_sql('hechos', con=engine, if_exists='append', index=False)
    print("Datos de hechos insertados exitosamente.")

    # Verificar si ID_hecho existe en hechos
    existing_ids = hechos_df['ID'].unique()  # Obtener IDs existentes en hechos
    victimas_df = victimas_df[victimas_df['ID_hecho'].isin(existing_ids)]  # Filtrar victimas_df

    # Subir el DataFrame a la tabla 'victimas'
    if not victimas_df.empty:
        victimas_df.to_sql('victimas', con=engine, if_exists='append', index=False)
        print("Datos de victimas insertados exitosamente.")
    else:
        print("No hay datos de victimas para insertar.");

except Exception as e:
    print("Ocurrió un error durante la inserción:", str(e))

finally:
    # Cerrar la conexión
    engine.dispose()


In [None]:
# Extraer el año de la columna de fechas
hechos_df['year'] = hechos_df['FECHA_HORA'].dt.year

# Definir la población total (ajustar según datos)
poblacion_total = 3120000  

# Agrupar por año y contar el número de homicidios en siniestros viales
homicidios_por_año = hechos_df.groupby('year')['N_VICTIMAS'].sum()

# Calcular la tasa por año
tasa_homicidios_por_año = (homicidios_por_año / poblacion_total) * 100000

# Mostrar las tasas por año
print("Tasa de homicidios en siniestros viales por año:")
print(tasa_homicidios_por_año)

Carga del archivo homicidios.xlsl la tabla VICTIMAS e importar frameworks

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import requests

# Cargar el archivo Excel
file_path = 'homicidios.xlsx'  # Cambia esto por la ruta real del archivo

# Cargar las hojas en DataFrames independientes
hechos_df = pd.read_excel(file_path, sheet_name='HECHOS')
victimas_df = pd.read_excel(file_path, sheet_name='VICTIMAS')

# Mostrar las primeras filas de cada DataFrame para verificar su contenido
hechos_df.head(), victimas_df.head()

Vista General de los datos del DataFrame

In [None]:
# Inspección inicial de hechos
print("Información general de Hechos:")
print(hechos_df.info())
print("\nConteo de valores nulos en Hechos:")
print(hechos_df.isnull().sum())

# Inspección inicial de víctimas
print("\nInformación general de Víctimas:")
print(victimas_df.info())
print("\nConteo de valores nulos en Víctimas:")
print(victimas_df.isnull().sum())

Deteccion de duplicados

In [None]:
# Comprobar duplicados
hechos_duplicados = hechos_df.duplicated().sum()
victimas_duplicados = victimas_df.duplicated().sum()

print(f"Duplicados en Hechos: {hechos_duplicados}")
print(f"Duplicados en Victimas: {victimas_duplicados}")

Conteo de Valores sin datos

In [None]:
#sin datos
na_counts = victimas_df.isna().sum()
print(na_counts)

# Dimensiones del DataFrame
num_filas, num_columnas = hechos_df.shape
print(f"\nNúmero de filas: {num_filas}, Número de columnas: {num_columnas}")

Combinar 'FECHA' y 'HORA' en una nueva columna 'FECHA_HORA'

In [None]:
hechos_df['HORA'] = hechos_df['HORA'].replace('SD', '00:00:00')


# Verificar si la columna 'HORA' está en formato string y necesita conversión
hechos_df['HORA'] = hechos_df['HORA'].apply(lambda x: x if isinstance(x, datetime.time) else pd.to_datetime(x).time())


# Combinar 'FECHA' y 'HORA' en una nueva columna 'FECHA_HORA'
hechos_df['FECHA_HORA'] = pd.to_datetime(hechos_df['FECHA'].astype(str) + ' ' + hechos_df['HORA'].astype(str), errors='coerce')

# Verificar el resultado
print(hechos_df[['FECHA', 'HORA', 'FECHA_HORA']].head())

In [None]:
filtrado = hechos_df.loc[hechos_df['pos x'] == '.']

# Mostrar las filas filtradas
print(filtrado)

Verificar las cordenadas en API google y llenar valores de valores con '.'

In [None]:
# Función para obtener coordenadas usando la API de Google Maps
def obtener_coordenadas(direccion, api_key):
    url = f'https://maps.googleapis.com/maps/api/geocode/json?address={direccion}&key={api_key}'
    response = requests.get(url)
    data = response.json()

    # Verificar si la solicitud fue exitosa y si hay resultados
    if data['status'] == 'OK':
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']  # Retorna latitud y longitud
    else:
        # Retornar valores nulos si no se puede obtener la dirección
        return None, None

# Tu clave de API de Google Maps
api_key = 'AIzaSyDyVSvFu2wxYivarcLCGU1wYrE51U-CroA'

# Iterar sobre las filas del DataFrame original y actualizar 'pos x' y 'pos y'
for index, row in hechos_df.iterrows():
    if row['pos x'] == '.':  # Solo procesar si 'pos x' es igual a '.'
        direccion = row['LUGAR_DEL_HECHO']

        if pd.notnull(direccion):  # Solo buscar si la dirección no es nula
            lat, lng = obtener_coordenadas(direccion, api_key)
            
            # Reemplazar los valores en 'pos x' y 'pos y' en el DataFrame original
            hechos_df.at[index, 'pos y'] = lat
            hechos_df.at[index, 'pos x'] = lng
        else:
            # Si no hay dirección, dejar los valores actuales
            hechos_df.at[index, 'pos x'] = None
            hechos_df.at[index, 'pos y'] = None

#Se eliminan nos valores nulos 
hechos_df = hechos_df.dropna(subset=['pos x', 'pos y'])

# Mostrar el DataFrame actualizado
print(hechos_df)


Eliminar columnas redundantes e innecesarias en hechos_df

In [None]:

# Definir las columnas a eliminar
columnas_a_eliminar = ['AAAA', 'MM', 'DD','HH','Calle','Altura', 'Cruce', 'Dirección Normalizada','XY (CABA)', 'HORA','FECHA','LUGAR_DEL_HECHO']

# Eliminar las columnas del DataFrame
hechos_df = hechos_df.drop(columns=columnas_a_eliminar)


REVISAR LOS VALORES UNICOS DE CADA COLUMNA

In [None]:
# Definir una lista de columnas para las cuales deseas obtener valores únicos
columnas_a_consultar = ['VICTIMA', 'CALLE',  'ACUSADO']  # Puedes modificar esta lista

# Obtener los valores únicos de las columnas especificadas en hechos_df
unique_values = {col: hechos_df[col].unique() for col in columnas_a_consultar if col in hechos_df.columns}

# Mostrar los valores únicos para cada columna especificada
for column, unique_values in unique_values.items():
    print(f"Valores únicos en la columna '{column}':\n{unique_values}\n")

Convertir las columnas pos x y pos y en tipo float 

In [None]:
# Reemplazar los valores no válidos (por ejemplo, ".") por NaN
hechos_df['pos x'] = hechos_df['pos x'].replace('.', np.nan)
hechos_df['pos y'] = hechos_df['pos y'].replace('.', np.nan)

# Convertir las columnas a tipo numérico (float), forzando el manejo de errores
hechos_df['pos x'] = pd.to_numeric(hechos_df['pos x'], errors='coerce')
hechos_df['pos y'] = pd.to_numeric(hechos_df['pos y'], errors='coerce')


VERIFICAR COLUMNA FECHA_HORA

In [None]:
# Verificar los valores nulos en la columna 'FECHA_HORA' del DataFrame 'hechos_df'
nulos_fecha_hora = hechos_df['FECHA_HORA'].isnull().sum()
valores_nulos_fecha_hora = hechos_df['FECHA_HORA'].isnull()

# Mostrar la cantidad de valores nulos y los registros donde están presentes
valores_nulos_info = hechos_df[valores_nulos_fecha_hora]

nulos_fecha_hora, valores_nulos_info.head()

Cantidad de siniestros por año

In [None]:

# Extraer el año de la columna FECHA y crear la nueva columna 'AAAA'
hechos_df['AÑO'] = hechos_df['FECHA_HORA'].dt.year

# Ejemplo gráfico: cantidad de siniestros por año
siniestros_por_ano = hechos_df.groupby('AÑO').size()

plt.figure(figsize=(10, 6))
siniestros_por_ano.plot(kind='bar', color='lightcoral')
plt.title('Cantidad de siniestros por año')
plt.xlabel('Año')
plt.ylabel('Número de siniestros')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()

Eliminar columnas redundantes e innecesarias en victimas_df

In [None]:
# Definir las columnas a eliminar
columnas_a_eliminar = ['AAAA', 'MM', 'DD','FECHA_FALLECIMIENTO','FECHA']

# Eliminar las columnas del DataFrame
victimas_df = victimas_df.drop(columns=columnas_a_eliminar)

Limpieza de Datos en victimas_df y modificacion del formato de Fecha

In [None]:
# Reemplazar los valores "SD" en la columna EDAD por 0 
victimas_df['EDAD'] = np.where(victimas_df['EDAD'] == 'SD', 0, victimas_df['EDAD'])

# Convertir la columna EDAD a tipo numérico
victimas_df['EDAD'] = pd.to_numeric(victimas_df['EDAD'], errors='coerce').fillna(0)



Confirmar Valores Unicos de columnas

In [None]:
# Valores únicos en victimas_df
roles_victimas = victimas_df['ROL'].unique()
victimas_victimas = victimas_df['VICTIMA'].unique()
sexos_victimas = victimas_df['SEXO'].unique()

print("Roles en victimas_df:", roles_victimas)
print("Victimas en victimas_df:", victimas_victimas)
print("Sexos en victimas_df:", sexos_victimas)

Gráfico para la distribución de la edad de las víctimas

In [None]:
# Gráfico para la distribución de la edad de las víctimas
plt.figure(figsize=(10, 6))

# Creamos un histograma de las edades
sns.histplot(victimas_df['EDAD'], bins=15, kde=True, color='skyblue')
plt.title('Distribución de la Edad de las Víctimas en Siniestros Viales')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.tight_layout()
plt.show()

CANTIDAD TOTAL POR TIPO DE CALLE

In [None]:
# Gráfico para la variable cualitativa 'TIPO_DE_CALLE'
sns.countplot(data=hechos_df, x='TIPO_DE_CALLE', palette='viridis')
plt.title('Cantidad de Siniestros Viales por Tipo de Calle')
plt.xlabel('Tipo de Calle')
plt.ylabel('Cantidad de Siniestros')
plt.show()

Representacion grafica Número de Siniestros Viales por Comuna

In [None]:

# Agrupar por comuna y contar los siniestros
siniestros_por_comuna = hechos_df['COMUNA'].value_counts()

# Crear un gráfico de barras para siniestros por comuna
plt.figure(figsize=(12, 6))
sns.barplot(x=siniestros_por_comuna.index, y=siniestros_por_comuna.values, palette='viridis')
plt.title('Número de Siniestros Viales por Comuna')
plt.xlabel('Comuna')
plt.ylabel('Cantidad de Siniestros')
plt.xticks(rotation=45)
plt.show()


CARGA DE HECHOS_CV A MYSQL 

In [None]:

from sqlalchemy import create_engine

# Cargar el DataFrame hechos_df (asegúrate de que lo hayas definido previamente)
# hechos_df = pd.read_excel('tu_archivo.xlsx', sheet_name='tu_hoja')  # Ejemplo para cargar datos

# Parámetros de conexión
host = '6.tcp.ngrok.io'
user = 'root'
port = '13979'
password = 'Colombia1717.'
database = 'Proyecto2'

# Crear una conexión a la base de datos utilizando SQLAlchemy
connection_string = f'mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}'
engine = create_engine(connection_string)


# Intentar subir el DataFrame a la tabla 'hechos'
try:
    hechos_df.to_sql('hechos', con=engine, if_exists='append', index=False)
    print("Datos de hechos insertados exitosamente.")

    # Verificar si ID_hecho existe en hechos
    existing_ids = hechos_df['ID'].unique()  # Obtener IDs existentes en hechos
    victimas_df = victimas_df[victimas_df['ID_hecho'].isin(existing_ids)]  # Filtrar victimas_df

    # Subir el DataFrame a la tabla 'victimas'
    if not victimas_df.empty:
        victimas_df.to_sql('victimas', con=engine, if_exists='append', index=False)
        print("Datos de victimas insertados exitosamente.")
    else:
        print("No hay datos de victimas para insertar.");

except Exception as e:
    print("Ocurrió un error durante la inserción:", str(e))

finally:
    # Cerrar la conexión
    engine.dispose()
