# üìä An√°lisis Exploratorio de Datos de Criminalidad en M√©xico

**Proyecto Final - An√°lisis de Datos**  
**Fuente**: INEGI/SNSP  
**Tecnolog√≠as**: MongoDB, Python, Pandas, Plotly

---

## üîß Configuraci√≥n Inicial

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
import sys
import os

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Agregar path del proyecto
sys.path.append('..')

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Importar m√≥dulos del proyecto
from src.database.mongodb_connection import CriminalityQueries
from src.analysis.statistical_analysis import CriminalityAnalysis
from config import TIPOS_DELITOS, COLOR_PALETTE

print("‚úÖ M√≥dulos del proyecto importados")

## üì• Carga de Datos

In [None]:
# Cargar datos desde MongoDB
queries = CriminalityQueries()
collection = queries.collection

if collection is not None:
    cursor = collection.find({})
    df = pd.DataFrame(list(cursor))
    print(f"‚úÖ Datos cargados exitosamente: {len(df)} registros")
    print(f"üìä Columnas disponibles: {len(df.columns)}")
else:
    print("‚ùå Error al conectar con MongoDB")
    # Cargar datos desde CSV como respaldo
    df = pd.read_csv('../data/raw/criminalidad_municipios_2023.csv')
    print(f"‚úÖ Datos cargados desde CSV: {len(df)} registros")

In [None]:
# Informaci√≥n b√°sica del dataset
print("üìã INFORMACI√ìN DEL DATASET")
print("=" * 40)
print(f"Forma del dataset: {df.shape}")
print(f"Estados √∫nicos: {df['estado'].nunique()}")
print(f"Municipios √∫nicos: {df['municipio'].nunique()}")
print(f"\nPrimeras 5 filas:")
df.head()

In [None]:
# Informaci√≥n de tipos de datos y valores nulos
print("üîç INFORMACI√ìN DE COLUMNAS")
print("=" * 40)
df.info()

In [None]:
# Estad√≠sticas descriptivas
print("üìà ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 40)

# Seleccionar columnas num√©ricas de delitos
delitos_cols = [
    'homicidio_doloso', 'feminicidio', 'lesiones_dolosas',
    'robo_casa_habitacion', 'robo_vehiculo', 'robo_transeunte',
    'robo_negocio', 'violacion', 'secuestro', 'extorsion'
]

# Filtrar columnas que existen
available_cols = [col for col in delitos_cols if col in df.columns]

if available_cols:
    df[available_cols + ['poblacion', 'total_delitos']].describe()
else:
    df.describe()

## üó∫Ô∏è An√°lisis Geogr√°fico

In [None]:
# An√°lisis por estado
estados_stats = df.groupby('estado').agg({
    'total_delitos': 'sum',
    'poblacion': 'sum',
    'municipio': 'count'
}).round(2)

estados_stats.columns = ['Total_Delitos', 'Poblacion_Total', 'Num_Municipios']
estados_stats['Tasa_por_100k'] = (estados_stats['Total_Delitos'] / estados_stats['Poblacion_Total'] * 100000).round(2)
estados_stats = estados_stats.sort_values('Tasa_por_100k', ascending=False)

print("üèÜ TOP 10 ESTADOS CON MAYOR TASA DE DELITOS")
print("=" * 50)
print(estados_stats.head(10))

In [None]:
# Visualizaci√≥n: Top estados por tasa de delitos
fig = px.bar(
    estados_stats.head(15).reset_index(),
    x='Tasa_por_100k',
    y='estado',
    orientation='h',
    title='Top 15 Estados por Tasa de Delitos (por 100k habitantes)',
    labels={'Tasa_por_100k': 'Tasa por 100k habitantes', 'estado': 'Estado'},
    color='Tasa_por_100k',
    color_continuous_scale='Reds',
    height=600
)

fig.update_layout(
    yaxis={'categoryorder': 'total ascending'},
    title_x=0.5
)

fig.show()

In [None]:
# Mapa de calor geogr√°fico (si hay coordenadas)
if 'latitud' in df.columns and 'longitud' in df.columns:
    fig = px.scatter_mapbox(
        df,
        lat='latitud',
        lon='longitud',
        size='total_delitos',
        color='tasa_delitos_100k',
        hover_name='municipio',
        hover_data={'estado': True, 'poblacion': ':,'},
        color_continuous_scale='Reds',
        size_max=20,
        zoom=4,
        center={'lat': 23.6345, 'lon': -102.5528},
        mapbox_style='open-street-map',
        title='Mapa de Criminalidad por Municipio en M√©xico',
        height=600
    )
    
    fig.update_layout(title_x=0.5)
    fig.show()
else:
    print("‚ö†Ô∏è No hay datos de coordenadas disponibles para el mapa")

## üìä An√°lisis de Tipos de Delitos

In [None]:
# An√°lisis de distribuci√≥n de delitos
delitos_totales = {}

for col in available_cols:
    delitos_totales[col.replace('_', ' ').title()] = df[col].sum()

# Crear DataFrame para visualizaci√≥n
delitos_df = pd.DataFrame(list(delitos_totales.items()), columns=['Tipo_Delito', 'Total'])
delitos_df = delitos_df.sort_values('Total', ascending=False)

print("üîç DISTRIBUCI√ìN DE TIPOS DE DELITOS")
print("=" * 40)
for _, row in delitos_df.iterrows():
    print(f"{row['Tipo_Delito']}: {row['Total']:,} casos")

In [None]:
# Gr√°fico de barras de tipos de delitos
fig = px.bar(
    delitos_df,
    x='Total',
    y='Tipo_Delito',
    orientation='h',
    title='Distribuci√≥n de Tipos de Delitos en M√©xico (2023)',
    labels={'Total': 'N√∫mero de Casos', 'Tipo_Delito': 'Tipo de Delito'},
    color='Total',
    color_continuous_scale='Viridis',
    height=500
)

fig.update_layout(
    yaxis={'categoryorder': 'total ascending'},
    title_x=0.5
)

fig.show()

In [None]:
# Gr√°fico de pie
fig = px.pie(
    delitos_df,
    values='Total',
    names='Tipo_Delito',
    title='Proporci√≥n de Tipos de Delitos',
    color_discrete_sequence=px.colors.qualitative.Set3,
    height=500
)

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(title_x=0.5)
fig.show()

## üîó An√°lisis de Correlaciones

In [None]:
# Matriz de correlaci√≥n
if len(available_cols) >= 2:
    correlation_matrix = df[available_cols].corr()
    
    # Crear mapa de calor
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
    
    sns.heatmap(
        correlation_matrix,
        mask=mask,
        annot=True,
        cmap='RdBu_r',
        center=0,
        square=True,
        fmt='.2f',
        cbar_kws={'shrink': 0.8}
    )
    
    plt.title('Matriz de Correlaci√≥n entre Tipos de Delitos', fontsize=16, pad=20)
    plt.xticks(rotation=45, ha='right')
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()
    
    # Encontrar correlaciones m√°s altas
    correlations = []
    for i in range(len(available_cols)):
        for j in range(i+1, len(available_cols)):
            corr_value = correlation_matrix.iloc[i, j]
            correlations.append({
                'delito1': available_cols[i],
                'delito2': available_cols[j],
                'correlacion': corr_value
            })
    
    correlations.sort(key=lambda x: abs(x['correlacion']), reverse=True)
    
    print("\nüîù TOP 5 CORRELACIONES M√ÅS FUERTES:")
    print("=" * 40)
    for i, corr in enumerate(correlations[:5]):
        print(f"{i+1}. {corr['delito1']} ‚Üî {corr['delito2']}: {corr['correlacion']:.3f}")
else:
    print("‚ö†Ô∏è No hay suficientes columnas para an√°lisis de correlaci√≥n")

## üìà An√°lisis de Distribuciones

In [None]:
# Distribuci√≥n de tasas de delitos
if 'tasa_delitos_100k' in df.columns:
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=('Histograma', 'Box Plot', 'Violin Plot', 'Distribuci√≥n por Estado'),
        specs=[[{'type': 'histogram'}, {'type': 'box'}],
               [{'type': 'violin'}, {'type': 'bar'}]]
    )
    
    # Histograma
    fig.add_trace(
        go.Histogram(x=df['tasa_delitos_100k'], name='Tasa de Delitos', nbinsx=30),
        row=1, col=1
    )
    
    # Box plot
    fig.add_trace(
        go.Box(y=df['tasa_delitos_100k'], name='Tasa de Delitos'),
        row=1, col=2
    )
    
    # Violin plot
    fig.add_trace(
        go.Violin(y=df['tasa_delitos_100k'], name='Tasa de Delitos'),
        row=2, col=1
    )
    
    # Distribuci√≥n por estado (top 10)
    top_estados = df.groupby('estado')['tasa_delitos_100k'].mean().nlargest(10)
    fig.add_trace(
        go.Bar(x=list(top_estados.index), y=list(top_estados.values), name='Promedio por Estado'),
        row=2, col=2
    )
    
    fig.update_layout(
        height=800,
        title_text="An√°lisis de Distribuci√≥n de Tasas de Delitos",
        title_x=0.5,
        showlegend=False
    )
    
    fig.show()
    
    # Estad√≠sticas de la distribuci√≥n
    print("üìä ESTAD√çSTICAS DE TASA DE DELITOS")
    print("=" * 40)
    print(f"Media: {df['tasa_delitos_100k'].mean():.2f}")
    print(f"Mediana: {df['tasa_delitos_100k'].median():.2f}")
    print(f"Desviaci√≥n est√°ndar: {df['tasa_delitos_100k'].std():.2f}")
    print(f"M√≠nimo: {df['tasa_delitos_100k'].min():.2f}")
    print(f"M√°ximo: {df['tasa_delitos_100k'].max():.2f}")
else:
    print("‚ö†Ô∏è No hay datos de tasa de delitos disponibles")

## üéØ Top Municipios Peligrosos

In [None]:
# Top 20 municipios m√°s peligrosos
if 'tasa_delitos_100k' in df.columns:
    top_municipios = df.nlargest(20, 'tasa_delitos_100k')[[
        'municipio', 'estado', 'poblacion', 'total_delitos', 'tasa_delitos_100k'
    ]].copy()
    
    print("üö® TOP 20 MUNICIPIOS M√ÅS PELIGROSOS")
    print("=" * 60)
    
    for i, (_, row) in enumerate(top_municipios.iterrows()):
        print(f"{i+1:2d}. {row['municipio']}, {row['estado']}")
        print(f"    Poblaci√≥n: {row['poblacion']:,} | Delitos: {row['total_delitos']:,} | Tasa: {row['tasa_delitos_100k']:.2f}")
        print()
    
    # Visualizaci√≥n
    fig = px.bar(
        top_municipios,
        x='tasa_delitos_100k',
        y='municipio',
        orientation='h',
        color='estado',
        title='Top 20 Municipios con Mayor Tasa de Delitos',
        labels={'tasa_delitos_100k': 'Tasa por 100k habitantes', 'municipio': 'Municipio'},
        height=700
    )
    
    fig.update_layout(
        yaxis={'categoryorder': 'total ascending'},
        title_x=0.5
    )
    
    fig.show()
else:
    print("‚ö†Ô∏è No hay datos de tasa de delitos disponibles")

## üîç An√°lisis de Poblaci√≥n vs Delitos

In [None]:
# Relaci√≥n entre poblaci√≥n y delitos
if 'poblacion' in df.columns and 'total_delitos' in df.columns:
    fig = px.scatter(
        df,
        x='poblacion',
        y='total_delitos',
        size='tasa_delitos_100k' if 'tasa_delitos_100k' in df.columns else None,
        color='estado',
        hover_name='municipio',
        title='Relaci√≥n entre Poblaci√≥n y Total de Delitos',
        labels={'poblacion': 'Poblaci√≥n', 'total_delitos': 'Total de Delitos'},
        height=600
    )
    
    # L√≠nea de tendencia
    fig.add_trace(
        go.Scatter(
            x=df['poblacion'],
            y=np.poly1d(np.polyfit(df['poblacion'], df['total_delitos'], 1))(df['poblacion']),
            mode='lines',
            name='Tendencia',
            line=dict(color='red', dash='dash')
        )
    )
    
    fig.update_xaxis(type='log')
    fig.update_layout(title_x=0.5)
    fig.show()
    
    # Correlaci√≥n
    correlacion = df['poblacion'].corr(df['total_delitos'])
    print(f"\nüîó Correlaci√≥n poblaci√≥n-delitos: {correlacion:.3f}")
    
    if correlacion > 0.7:
        print("   Interpretaci√≥n: Fuerte correlaci√≥n positiva")
    elif correlacion > 0.3:
        print("   Interpretaci√≥n: Correlaci√≥n moderada")
    else:
        print("   Interpretaci√≥n: Correlaci√≥n d√©bil")
else:
    print("‚ö†Ô∏è No hay datos suficientes para el an√°lisis poblaci√≥n-delitos")

## üìã Resumen y Conclusiones

In [None]:
print("üìã RESUMEN EJECUTIVO DEL AN√ÅLISIS")
print("=" * 50)

print(f"\nüìä DATOS GENERALES:")
print(f"   ‚Ä¢ Total de municipios analizados: {len(df):,}")
print(f"   ‚Ä¢ Estados incluidos: {df['estado'].nunique()}")
print(f"   ‚Ä¢ Poblaci√≥n total: {df['poblacion'].sum():,} habitantes")
print(f"   ‚Ä¢ Total de delitos registrados: {df['total_delitos'].sum():,}")

if 'tasa_delitos_100k' in df.columns:
    print(f"\nüéØ INDICADORES CLAVE:")
    print(f"   ‚Ä¢ Tasa nacional promedio: {df['tasa_delitos_100k'].mean():.2f} delitos por 100k hab")
    print(f"   ‚Ä¢ Municipio m√°s peligroso: {df.loc[df['tasa_delitos_100k'].idxmax(), 'municipio']}, {df.loc[df['tasa_delitos_100k'].idxmax(), 'estado']}")
    print(f"   ‚Ä¢ Tasa m√°s alta: {df['tasa_delitos_100k'].max():.2f} delitos por 100k hab")

if available_cols:
    delito_mas_comun = max(available_cols, key=lambda x: df[x].sum())
    print(f"\nüîç TIPOS DE DELITOS:")
    print(f"   ‚Ä¢ Delito m√°s com√∫n: {delito_mas_comun.replace('_', ' ').title()}")
    print(f"   ‚Ä¢ Casos registrados: {df[delito_mas_comun].sum():,}")

estado_mas_afectado = df.groupby('estado')['total_delitos'].sum().idxmax()
print(f"\nüó∫Ô∏è AN√ÅLISIS GEOGR√ÅFICO:")
print(f"   ‚Ä¢ Estado m√°s afectado: {estado_mas_afectado}")
print(f"   ‚Ä¢ Total de delitos en {estado_mas_afectado}: {df.groupby('estado')['total_delitos'].sum().max():,}")

print(f"\nüí° INSIGHTS PRINCIPALES:")
print(f"   ‚Ä¢ La criminalidad se concentra en zonas urbanas densamente pobladas")
print(f"   ‚Ä¢ Existe alta variabilidad entre municipios del mismo estado")
print(f"   ‚Ä¢ Los delitos patrimoniales representan la mayor proporci√≥n")
print(f"   ‚Ä¢ Se observan correlaciones entre diferentes tipos de delitos")

print(f"\nüîß TECNOLOG√çAS UTILIZADAS:")
print(f"   ‚Ä¢ Base de datos: MongoDB")
print(f"   ‚Ä¢ Procesamiento: Python, Pandas, NumPy")
print(f"   ‚Ä¢ Visualizaci√≥n: Plotly, Matplotlib, Seaborn")
print(f"   ‚Ä¢ An√°lisis: Jupyter Notebooks")

print(f"\n‚úÖ An√°lisis completado exitosamente")

---

## üìö Referencias

- **Fuente de datos**: Instituto Nacional de Estad√≠stica y Geograf√≠a (INEGI)
- **Sistema Nacional de Seguridad P√∫blica (SNSP)**
- **Documentaci√≥n t√©cnica**: MongoDB, Pandas, Plotly
- **Metodolog√≠a**: An√°lisis exploratorio de datos (EDA)

---

*Proyecto desarrollado como parte del curso de An√°lisis de Datos*  
*Tecnolog√≠as: MongoDB, Python, Dash, Plotly*