- 3. Comparación de modelos de regresión para la predicción de crímenes
    
    ### **Objetivo:**
    
    En este ejercicio, trabajarás con un dataset en formato JSON que contiene información sobre crímenes en la ciudad de Chicago. Tu tarea será analizar los datos y determinar qué modelo de regresión es más adecuado para predecir la cantidad de crímenes.
    
    ### **Instrucciones:**
    
    1. **Carga y exploración de datos:**
        - Carga el dataset en un `DataFrame` de Pandas.
        - Extrae y analiza las variables relevantes para la predicción (fecha, tipo de crimen, ubicación, etc.).
    2. **Transformación de datos:**
        - Convierte la columna de fechas al formato `datetime`.
        - Extrae los valores de **mes** y **día de la semana**.
        - Agrupa los datos para obtener la cantidad de crímenes por mes y día de la semana.
    3. **Entrenamiento de modelos:**
        - Crea un modelo de **Regresión Simple**, utilizando solo el mes como variable independiente.
        - Crea un modelo de **Regresión Múltiple**, usando tanto el mes como el día de la semana como variables independientes.
        - Divide los datos en conjuntos de entrenamiento y prueba.
    4. **Evaluación de modelos:**
        - Calcula y compara las métricas **MSE (Error Cuadrático Medio)** y **R² (Coeficiente de Determinación)** para ambos modelos.
        - Genera gráficos para visualizar la relación entre las variables y la cantidad de crímenes.
    5. **Conclusión:**
        - ¿Cuál de los dos modelos predice mejor la cantidad de crímenes?
        - Explica tu elección basándote en los valores de MSE y R² obtenidos.
        - ¿Qué otras variables podrías incluir para mejorar la precisión del modelo?
    
    ### **Criterios de Evaluación:**
    
    1. 1. Correcta carga y manipulación del dataset.
    2. Implementación adecuada de los modelos de regresión.
    3. Análisis claro de las métricas de evaluación.
    4. Justificación bien argumentada sobre qué modelo es más adecuado.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [16]:
# Cargamos el JSON
df = pd.read_json("crime.json")

# Análisis del contenido del Dataframe
print(df.info())
print(df.describe())

# Obtener la cantidad de valores únicos por columna para saber cuales son categóricas
""" for col in df.columns:
    print(f"{col}: {len(df[col].unique())}") """
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1905 entries, 0 to 1904
Data columns (total 50 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        1905 non-null   object 
 1   name                      1905 non-null   object 
 2   assetType                 1905 non-null   object 
 3   averageRating             1905 non-null   int64  
 4   category                  1872 non-null   object 
 5   createdAt                 1905 non-null   int64  
 6   description               1892 non-null   object 
 7   displayType               1905 non-null   object 
 8   downloadCount             1905 non-null   int64  
 9   hideFromCatalog           1905 non-null   bool   
 10  hideFromDataJson          1905 non-null   bool   
 11  locked                    1905 non-null   bool   
 12  modifyingViewUid          848 non-null    object 
 13  newBackend                1905 non-null   bool   
 14  numberOf

Unnamed: 0,id,name,assetType,averageRating,category,createdAt,description,displayType,downloadCount,hideFromCatalog,...,ratings,indexUpdatedAt,locale,iconUrl,previewImageId,blobFilename,blobFileSize,blobId,blobMimeType,resourceName
0,3jha-tbsu,Transportation Network Provider Trips by Month...,chart,0,Transportation,1740767400,Chart of Transportation Network Provider Trips...,visualization_canvas_chart,0,False,...,,,,,,,,,,
1,3q84-vs9b,Transportation Network Providers - Trips (2025),filter,0,Transportation,1740766540,Transportation Network Provider Trips in 2025,table,2,False,...,,,,,,,,,,
2,6dvr-xwnh,Transportation Network Providers - Trips (2025-),dataset,0,Transportation,1740694129,"All trips, starting January 2025, reported by ...",table,10,False,...,,,,,,,,,,
3,jkpc-3pjb,Boundaries - Tax Increment Financing Districts...,map,0,Facilities & Geographic Boundaries,1740607892,Map of Tax Increment Financing Districts,visualization_canvas_map,0,False,...,,,,,,,,,,
4,eejr-xtfb,Boundaries - Tax Increment Financing Districts,dataset,0,Facilities & Geographic Boundaries,1740607136,Tax Increment Financing (TIF) district boundar...,table,10,False,...,,,,,,,,,,
