# Taller Dataminig – API Modelo Machine Learning
Vamos a construir un modelo que pueda predecir el próximo crimen y su ubicación utilizando el archivo  data. csv proporcionado. Luego, crearemos una API utilizando FastAPI para exponer este modelo, utilizando la estructura a continuación:

CASE#,DATE OF OCCURRENCE,BLOCK, IUCR, PRIMARY DESCRIPTION, SECONDARY DESCRIPTION, LOCATION DESCRIPTION,ARREST,DOMESTIC,BEAT,WARD,FBI CD,X COORDINATE,Y COORDINATE,LATITUDE,LONGITUDE,LOCATION
JG406115,08/31/2023 07:00:00 PM,042XX W MARQUETTE RD,0498,BATTERY,"AGG. DOMESTIC BATTERY - HANDS, FISTS, FEET, SERIOUS INJURY",APARTMENT,Y,Y,833,23,04B,1149062,1859830,41.771296232,-87.729149311,"(41.771296232, -87.729149311)".

Archivo de datos en repo ucc-datamining: ucc-data-mining/taller-api-dl/data.csv

## Paso 1: Preprocesamiento de Datos y Entrenamiento del Modelo
Aquí está el código para cargar los datos, preprocesarlos y entrenar un modelo de predicción utilizando Scikit-Learn:

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib
# Paso 1: Cargar los datos
data = pd.read_csv('/home/jovyan/work/data1.csv')
# Paso 2: Preprocesamiento de datos
# Eliminar columnas innecesarias o que no sean útiles para la predicción
data = data.drop(columns=['CASE#', 'FBI CD', 'X COORDINATE', 'Y COORDINATE', 'LATITUDE', 
'LONGITUDE', 'LOCATION'])


# Dividir los datos en características (X) y etiquetas (y)
X = data.drop(columns=['PRIMARY DESCRIPTION', 'DATE OF OCCURRENCE'])
y = data['PRIMARY DESCRIPTION']



In [2]:
print(data.columns)
print(data.head())

Index(['DATE OF OCCURRENCE', 'BLOCK', ' IUCR', 'PRIMARY DESCRIPTION',
       'SECONDARY DESCRIPTION', 'LOCATION DESCRIPTION', 'ARREST', 'DOMESTIC',
       'BEAT', 'WARD'],
      dtype='object')
       DATE OF OCCURRENCE                                BLOCK  IUCR  \
0  08/31/2023 07:00:00 PM                 042XX W MARQUETTE RD  0498   
1  09/15/2023 11:20:00 PM                      010XX W 84TH ST  0486   
2  08/31/2023 09:13:00 PM                   093XX S WABASH AVE  0910   
3  09/15/2023 06:00:00 PM  057XX S DR MARTIN LUTHER KING JR DR  1320   
4  03/07/2024 01:50:00 AM                    059XX W FULTON ST  0486   

   PRIMARY DESCRIPTION                              SECONDARY DESCRIPTION  \
0              BATTERY  AGG. DOMESTIC BATTERY - HANDS, FISTS, FEET, SE...   
1              BATTERY                            DOMESTIC BATTERY SIMPLE   
2  MOTOR VEHICLE THEFT                                         AUTOMOBILE   
3      CRIMINAL DAMAGE                                         TO

In [3]:
# Codificar las variables categóricas
# data = pd.get_dummies(data)
# print(data.columns)
# print(data.head())
# Codificar las variables categóricas
X = pd.get_dummies(X)

In [4]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Evaluar el modelo
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Guardar el modelo entrenado
joblib.dump(model, 'crime_prediction_model.pkl')

Accuracy: 0.9871001031991744


['crime_prediction_model.pkl']