In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar archivo
df = pd.read_excel("VictimasRU_202503.xlsx")

# 1. Normalizar nombres de columnas
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# 2. Convertir año, mes, día
df['año'] = pd.to_numeric(df['año'], errors='coerce')
df['mes'] = pd.to_numeric(df['mes'], errors='coerce')
df['día'] = pd.to_numeric(df['día'], errors='coerce')

# 3. Crear columna de fecha válida
df['fecha'] = pd.to_datetime(dict(
    year=df['año'].fillna(1).astype(int),
    month=df['mes'].replace(0, 1).fillna(1).astype(int),
    day=df['día'].replace(0, 1).fillna(1).astype(int)
), errors='coerce')

# 4. Filtrar registros válidos
filtered_df = df[df['sexo'].notnull() & df['edad'].notnull() & df['fecha'].notnull()]

# 5. Conteo por sexo
sexo_counts = filtered_df['sexo'].value_counts()
print("Conteo por sexo:")
print(sexo_counts)

# 6. Conteo por edad
edad_counts = filtered_df['edad'].value_counts()
print("\nConteo por edad:")
print(edad_counts)

# 7. Agrupación por año
reclutas_por_año = filtered_df.groupby(filtered_df['fecha'].dt.year).size()
print("\nReclutamiento por año:")
print(reclutas_por_año)

# 8. Top 10 departamentos
reclutas_por_departamento = filtered_df['departamento'].value_counts().head(10)
print("\nTop 10 departamentos con más casos:")
print(reclutas_por_departamento)

# 9. Visualizaciones
# Gráfico por sexo
sexo_counts.plot(kind='bar', title='Distribución por Sexo', ylabel='Número de Casos')
plt.tight_layout()
plt.show()

# Gráfico por edad
edad_counts.plot(kind='barh', title='Distribución por Edad', xlabel='Número de Casos')
plt.tight_layout()
plt.show()

# Gráfico por año
reclutas_por_año.plot(kind='line', marker='o', title='Casos de Reclutamiento por Año')
plt.ylabel('Número de Casos')
plt.xlabel('Año')
plt.grid(True)
plt.tight_layout()
plt.show()

# Gráfico por departamento
reclutas_por_departamento.plot(kind='bar', title='Top 10 Departamentos Afectados')
plt.ylabel('Número de Casos')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()