In [None]:
# ETL (Extracción, Transformación y Carga) para el conjunto de datos

# 1. Limpieza de datos

# Verificando si hay valores faltantes en las hojas 'HECHOS' y 'VICTIMAS'
missing_values_hechos = hechos_df.isnull().sum()
missing_values_victimas = victimas_df.isnull().sum()

# 2. Normalización y Formato

# Convirtiendo columnas de fecha y hora a formatos apropiados en 'HECHOS' y 'VICTIMAS'
hechos_df['FECHA'] = pd.to_datetime(hechos_df['FECHA'])
hechos_df['HORA'] = pd.to_datetime(hechos_df['HORA'], format='%H:%M:%S').dt.time
victimas_df['FECHA'] = pd.to_datetime(victimas_df['FECHA'])
victimas_df['FECHA_FALLECIMIENTO'] = pd.to_datetime(victimas_df['FECHA_FALLECIMIENTO'], errors='coerce')

# 3. Creación de Variables

# Por ejemplo, podríamos querer extraer el día de la semana de la fecha del hecho
hechos_df['DIA_SEMANA'] = hechos_df['FECHA'].dt.day_name()

# 4. Reducción de Datos

# No aplicable en este caso, ya que no tenemos un gran volumen de datos o alta dimensionalidad

# 5. Integración de Datos

# Combinando las hojas 'HECHOS' y 'VICTIMAS' usando el ID del hecho
combined_df = pd.merge(hechos_df, victimas_df, left_on='ID', right_on='ID_hecho', how='left')

(missing_values_hechos, missing_values_victimas, combined_df.head())


### ETL (Extracción, Transformación y Carga) para el conjunto de datos

In [1]:
import pandas as pd




Cargamos archivo Excel y procedemos a leer la información

In [2]:
# Cargando el archivo Excel
xl = pd.ExcelFile('../Datasets/homicidios.xlsx')

# Mostrando los nombres de las hojas del archivo
sheet_names = xl.sheet_names
sheet_names

PermissionError: [Errno 13] Permission denied: '../Datasets/homicidios.xlsx'

In [None]:
# Cargando las hojas relevantes del archivo Excel
hechos_df = xl.parse('HECHOS')
victimas_df = xl.parse('VICTIMAS')

# Visualizando las primeras filas de cada hoja para entender la estructura de los datos
hechos_head = hechos_df.head()
victimas_head = victimas_df.head()

(hechos_head, victimas_head)
