<a href="https://colab.research.google.com/github/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/blob/main/regresion_arbol_de_decisiones_postgresql.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión con Arbol de Decisiones

A continuación se presenta un ejemplo detallado del flujo de trabajo para:

1. Configurar PostgreSQL con la extensión PL/Python3u en Google Colab.
2. Entrenar un modelo de regresión (árbol de decisión) usando el dataset California Housing.
3. Guardar el modelo entrenado.
4. Crear una función definida por el usuario (UDF) en PostgreSQL con PL/Python3u que cargue el modelo y realice predicciones al ser invocada desde SQL.

### Paso a paso

#### 1. Configurar PostgreSQL en Google Colab

**Nota:**  
Google Colab no provee PostgreSQL ni su configuración por defecto. Tendremos que instalarlo y configurarlo manualmente. También, Colab se ejecuta en un entorno efímero, lo que implica que cada vez que se reinicie el entorno, se deberá repetir la configuración.

In [1]:
%%capture
# Instalar PostgreSQL
!apt-get install postgresql postgresql-contrib postgresql-plpython3-14
# Instalar bibliotecas
!pip install ipython-sql psycopg2-binary pymysql sqlalchemy prettytable==0.7.2

In [2]:
# Iniciar el servicio de PostgreSQL
!service postgresql start

# Crear base de datos
!sudo -u postgres psql -c "CREATE DATABASE colab;"
!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"


 * Starting PostgreSQL 14 database server
   ...done.
CREATE DATABASE
ALTER ROLE


Ahora podemos conectarnos a la base de datos. En Colab, usaremos la interfaz por línea de comando `psql`. Antes, se instaló la extensión `ipython-sql` para correr consultas SQL desde la notebook.

Para las siguientes celdas, asumiremos que nos conectaremos con `%sql` mágicas. Si no se desea, se puede obviar esta parte y usar el comando `!psql ...`.

In [3]:
%load_ext sql
%sql postgresql://postgres:postgres@localhost:5432/colab

#### 2. Entrenar el modelo de regresión con el dataset California Housing

Usaremos `scikit-learn` para cargar el dataset de California Housing, entrenar un modelo de árbol de decisión, y guardarlo usando `pickle`.

In [4]:
from sklearn.datasets import fetch_california_housing
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
import pickle

# Cargar dataset
data = fetch_california_housing()
X = data.data
y = data.target

# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar modelo de árbol de decisión
model = DecisionTreeRegressor(random_state=42)
model.fit(X_train, y_train)

# Guardar el modelo en un archivo local
with open("california_model.pkl", "wb") as f:
    pickle.dump(model, f)

Podemos evaluar brevemente la calidad del modelo:

In [5]:
from sklearn.metrics import mean_squared_error

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
mse

0.495235205629094

#### 3. Habilitar PL/Python3u en PostgreSQL y crear la función UDF en PostgreSQL con PL/Python3u

Ahora, crearemos una función en la base de datos que:

- Cargará el modelo desde el archivo `california_model.pkl`.
- Recibirá un vector de floats (las características a predecir).
- Devolverá una predicción.

**Puntos importantes:**

- PL/Python3u puede acceder al sistema de archivos del servidor (en este caso, el mismo entorno de Colab, ya que el servidor se ejecuta localmente).
- Hay que asegurarse de que el archivo `california_model.pkl` sea accesible por el usuario que corre el servidor PostgreSQL.
- Si se requiere, se pueden ajustar permisos (`chmod`), pero en Colab normalmente no es problema si el archivo está en el directorio actual.

Primero, instalemos `cloudpickle` dentro del entorno global de Python que usa PL/Python3u, aunque generalmente `pickle` estándar es suficiente. Verificaremos que PL/Python3u permita importar `pickle`.

**Nota:**  
PL/Python3u permite el uso de módulos estándar de Python, pero no siempre el entorno es idéntico al de la notebook. De ser necesario, podríamos colocar el contenido del modelo serializado dentro del UDF, o asegurarnos de que la ruta sea correcta.

Crearemos la UDF:

In [6]:
%%sql

CREATE EXTENSION IF NOT EXISTS plpython3u;

CREATE OR REPLACE FUNCTION predict_california_price(features float8[])
RETURNS float8 AS $$
    import pickle
    import os

    model_path = '/content/california_model.pkl'  # Ajustar ruta si es necesario
    if not hasattr(plpy, 'model'):
        # Cargar el modelo sólo una vez y guardarlo en un atributo de plpy
        with open(model_path, 'rb') as f:
            plpy.model = pickle.load(f)

    # features llega como un array de float8. Debemos convertirlo en la forma (1, n_features)
    import numpy as np
    X = np.array(features).reshape(1, -1)
    pred = plpy.model.predict(X)[0]
    return float(pred)
$$ LANGUAGE plpython3u;

 * postgresql://postgres:***@localhost:5432/colab
Done.
Done.


[]

Lo que hace esta función:

- Comprueba si `plpy.model` está definido. Si no, carga el modelo desde el archivo pickle. Esto evita recargar el modelo en cada llamada.
- Toma el array de entrada `features`, lo convierte a un numpy array 2D y llama al método `predict`.
- Devuelve la predicción como un float.

#### 5. Invocar la función desde SQL

Asumamos que queremos predecir el valor medio de una vivienda para un conjunto de características. El dataset California Housing tiene 8 características por vivienda:  
`MedInc, HouseAge, AveRooms, AveBedrms, Population, AveOccup, Latitude, Longitude`.

Por ejemplo, tomemos una muestra de `X_test`:

In [7]:
sample_features = X_test[0]  # Un vector de 8 valores
sample_features

array([ 1.68120000e+00,  2.50000000e+01,  4.19220056e+00,  1.02228412e+00,
        1.39200000e+03,  3.87743733e+00,  3.60600000e+01, -1.19010000e+02])

Suponiendo que esto arroja algo como `[   4.4742,  34. ,    6.525 ,   1.0238,  150.   ,   2.1841,  37.88 , -122.23 ]` (estos son ejemplos, pueden variar).

Podemos llamar la función desde SQL:

In [8]:
sample_features_list = list(sample_features)
query = f"SELECT predict_california_price(ARRAY[{','.join(str(x) for x in sample_features_list)}]);"
query

'SELECT predict_california_price(ARRAY[1.6812,25.0,4.192200557103064,1.0222841225626742,1392.0,3.8774373259052926,36.06,-119.01]);'

Ejecutamos:

In [9]:
%%sql

$query

 * postgresql://postgres:***@localhost:5432/colab
1 rows affected.


predict_california_price
0.414


Esto debería devolver la predicción como un valor float.

### Resumen

En resumen, hemos:

- Configurado PostgreSQL en Colab y habilitado PL/Python3u.
- Entrenado un modelo de árbol de decisión sobre el dataset California Housing.
- Guardado el modelo en un archivo pickle.
- Creado un UDF en PostgreSQL con PL/Python3u que carga el modelo y realiza predicciones.
- Invocado la función desde SQL para obtener predicciones.