### üìä An√°lisis Exploratorio Global ‚Äì Casos Judiciales
# Ministerios P√∫blicos ‚Äì Argentina

## Introduccion
En este notebook se realiza un an√°lisis exploratorio global de los casos judiciales iniciados por los Ministerios P√∫blicos en Argentina.

El objetivo es obtener una visi√≥n panor√°mica del volumen, la distribuci√≥n temporal y geogr√°fica, y la composici√≥n penal de los casos, as√≠ como una primera aproximaci√≥n a la completitud del registro de informaci√≥n.

Este an√°lisis es descriptivo y exploratorio; no se realizan inferencias causales ni evaluaciones normativas.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from pathlib import Path

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

# Rutas (notebook/ -> ../data)
DATA_DIR = Path("..") / "data" / "eda"
DATA_FILE = DATA_DIR / "casos_eda.csv"

df = pd.read_csv(DATA_FILE, low_memory=False)

print("Dataset cargado")
df.shape

: 

## Descripci√≥n general del dataset

Se presenta una descripci√≥n b√°sica del dataset, incluyendo dimensiones, per√≠odo temporal cubierto y nivel de agregaci√≥n.

In [None]:
print(f"Filas: {df.shape[0]:,}")
print(f"Columnas: {df.shape[1]}")

df[["caso_fecha_inicio"]].describe(datetime_is_numeric=True)
df.head()


## Volumen total de casos

Se analiza la magnitud del fen√≥meno judicial a partir del n√∫mero total de casos √∫nicos registrados.


In [None]:
total_casos = df["caso_id"].nunique()
total_registros = len(df)

print(f"Casos √∫nicos: {total_casos:,}")
print(f"Registros totales: {total_registros:,}")

# Nota: Un mismo `caso_id` puede aparecer en m√∫ltiples registros debido a la existencia de m√°s de un delito asociado a un mismo caso.


## Distribuci√≥n de casos por a√±o

Se analiza la evoluci√≥n temporal de los casos judiciales iniciados, utilizando la fecha de inicio del caso.


In [None]:
df["anio_inicio"] = pd.to_datetime(df["caso_fecha_inicio"], errors="coerce").dt.year

casos_por_anio = (
    df.groupby("anio_inicio")["caso_id"]
    .nunique()
    .reset_index(name="casos")
    .dropna()
)
casos_por_anio

sns.lineplot(data=casos_por_anio, x="anio_inicio", y="casos", marker="o")
plt.title("Casos judiciales iniciados por a√±o")
plt.xlabel("A√±o")
plt.ylabel("Cantidad de casos")
plt.show()


## Distribuci√≥n geogr√°fica por provincia

Se explora la distribuci√≥n de los casos judiciales iniciados seg√∫n la provincia.


In [None]:
casos_por_provincia = (
    df.groupby("provincia_nombre")["caso_id"]
    .nunique()
    .sort_values(ascending=False)
)
casos_por_provincia.head(10)

top_provincias = casos_por_provincia.head(10).reset_index()

sns.barplot(
    data=top_provincias,
    x="caso_id",
    y="provincia_nombre",
    orient="h"
)
plt.title("Top 10 provincias por cantidad de casos")
plt.xlabel("Cantidad de casos")
plt.ylabel("Provincia")
plt.show()


# Advertencia: Estos valores representan volumen de causas iniciadas, no tasas de criminalidad.


## Composici√≥n penal de los casos

Se analiza la distribuci√≥n de los delitos m√°s frecuentes registrados en el dataset.


In [None]:
top_delitos = (
    df[df["delito_descripcion"] != "No informado"]
    .groupby("delito_descripcion")["caso_id"]
    .nunique()
    .sort_values(ascending=False)
    .head(15)
)
top_delitos

top_delitos_df = top_delitos.reset_index()

sns.barplot(
    data=top_delitos_df,
    x="caso_id",
    y="delito_descripcion",
    orient="h"
)
plt.title("Top 15 delitos m√°s frecuentes")
plt.xlabel("Cantidad de casos")
plt.ylabel("Delito")
plt.show()

## Completitud del registro de informaci√≥n

Se eval√∫a la proporci√≥n de registros con informaci√≥n disponible en variables clave.


In [None]:
variables_clave = [
    "caso_fecha_hecho",
    "caso_hora_hecho",
    "delito_codigo",
    "unidad_descripcion"
]

completitud = (
    df[variables_clave]
    .notna()
    .mean()
    .sort_values()
    * 100
)

completitud

completitud.plot(kind="barh")
plt.title("Completitud de variables clave (%)")
plt.xlabel("Porcentaje de registros con dato disponible")
plt.ylabel("Variable")
plt.show()


# Nota: La ausencia de informaci√≥n en estas variables no implica error, sino que refleja la l√≥gica y las etapas del proceso judicial.


## Hallazgos preliminares

‚Ä¢ El volumen de casos judiciales iniciados es elevado y presenta variaciones interanuales claras.  
‚Ä¢ La distribuci√≥n geogr√°fica muestra una fuerte concentraci√≥n en un grupo reducido de provincias.  
‚Ä¢ La composici√≥n penal est√° dominada por un conjunto limitado de delitos frecuentes.  
‚Ä¢ La completitud del registro var√≠a significativamente seg√∫n la variable analizada, siendo la hora del hecho una de las m√°s incompletas.  
‚Ä¢ Los valores faltantes observados reflejan caracter√≠sticas estructurales del sistema de registro judicial.
