In [6]:
import psycopg2

# Conectar a la base de datos
conn = psycopg2.connect("dbname='DB_OFF_Viz' user='postgres' host='localhost' password='offviz'")
cur = conn.cursor()

# Ejecutar consulta para listar tablas
cur.execute("""
    SELECT table_name
    FROM information_schema.tables
    WHERE table_schema = 'public'
""")

# Imprimir nombres de tablas
tables = cur.fetchall()
print("Tablas en la base de datos:")
for table in tables:
    print(table[0])

# Cerrar conexión
cur.close()
conn.close()


Tablas en la base de datos:
OFF_Viz__countries
OFF_Viz__monthly_avg_predictions
OFF_Viz_ini
OFF_Viz__categories
OFF_Viz__traces
OFF_Viz__packaging
OFF_Viz__labels
OFF_Viz__allergens
OFF_Viz__additives
OFF_Viz__food_groups
OFF_Viz__main_category
OFF_Viz__energy_kcal_100g
OFF_Viz__fat_100g
OFF_Viz__saturated_fat_100g
OFF_Viz__carbohydrates_100g
OFF_Viz__cholesterol_100g
OFF_Viz__sugars_100g
OFF_Viz__added_sugars_100g
OFF_Viz__fiber_100g
OFF_Viz__proteins_100g
OFF_Viz__salt_100g
OFF_Viz__added_salt_100g
countrymapping
OFF_Viz__saturated_fat_100g_month_predict
OFF_Viz__carbohydrates_100g_month_predict
OFF_Viz__proteins_100g_month_predict
OFF_Viz__fat_100g_month_predict
OFF_Viz__added_salt_100g_month_predict
OFF_Viz__added_sugars_100g_month_predict
OFF_Viz__fg_monthly_avg
OFF_Viz__fg_monthly_avg_predictions


In [1]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from datetime import datetime
import numpy as np
import warnings
from sklearn.exceptions import ConvergenceWarning, UndefinedMetricWarning

# Configurar la conexión a la base de datos
db_url = "postgresql://postgres:offviz@localhost:5432/DB_OFF_Viz"
engine = create_engine(db_url)

# Leer la tabla "OFF_Viz__fg_monthly_avg"
df = pd.read_sql('SELECT * FROM "OFF_Viz__fg_monthly_avg"', engine)

# Verificar las columnas presentes en el DataFrame
print(df.columns)

# Eliminar registros con valores nulos en 'food_groups_en'
if 'food_groups_en' in df.columns:
    df = df.dropna(subset=['food_groups_en'])
else:
    print("La columna 'food_groups_en' no está presente en la tabla.")
    raise KeyError("La columna 'food_groups_en' no está presente en la tabla.")

# Extraer año y mes de la columna 'year_month'
df['year_month'] = pd.to_datetime(df['year_month'])
df['year'] = df['year_month'].dt.year
df['month'] = df['year_month'].dt.month

# Definir los modelos de regresión a probar
models = {
    'LinearRegression': LinearRegression(),
    'Ridge': Ridge(),
    'Lasso': Lasso(max_iter=10000),
    'ElasticNet': ElasticNet(max_iter=10000)
}

# Preparar los datos y entrenar modelos
results = {}

# Seleccionar características (year, month) y etiquetas (las demás columnas numéricas)
features = df[['year', 'month']]
numeric_columns = df.select_dtypes(include=[np.number]).columns.tolist()
numeric_columns.remove('year')
numeric_columns.remove('month')

# Crear una lista para almacenar las predicciones
predictions_list = []

# Agrupar por food_groups_en y entrenar modelos
for food_group, group_df in df.groupby('food_groups_en'):
    group_results = {}
    features = group_df[['year', 'month']]
    
    for column in numeric_columns:
        X = features
        y = group_df[column].dropna()  # Eliminar valores NaN de la columna objetivo
        X = X.loc[y.index]  # Alinear X con y

        # Verificar si hay suficientes datos para el entrenamiento
        if len(y) < 2:
            continue

        # Dividir los datos en conjuntos de entrenamiento y prueba
        test_size = 0.2 if len(y) >= 5 else 0.5  # Ajustar test_size dinámicamente
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)

        # Verificar si el conjunto de entrenamiento tiene suficientes datos
        if len(X_train) == 0 or len(X_test) == 0:
            continue

        column_results = {}

        for model_name, model in models.items():
            # Entrenar el modelo
            with warnings.catch_warnings():
                warnings.filterwarnings("ignore", category=ConvergenceWarning)
                model.fit(X_train, y_train)

            # Predecir en el conjunto de prueba
            y_pred = model.predict(X_test)

            # Calcular métricas de rendimiento
            mse = mean_squared_error(y_test, y_pred)
            if len(y_test) > 1:  # Solo calcular R^2 si hay más de una muestra
                r2 = r2_score(y_test, y_pred)
            else:
                r2 = float('nan')  # Indicar que R^2 no se puede calcular

            column_results[model_name] = {'MSE': mse, 'R2': r2}

        group_results[column] = column_results

        # Seleccionar el mejor modelo
        best_model_name = min(group_results[column], key=lambda x: group_results[column][x]['MSE'])
        best_model = models[best_model_name]
        best_model.fit(X_train, y_train)

        # Predecir valores futuros hasta 2026
        future_years = np.arange(datetime.now().year, 2027)
        future_months = np.arange(1, 13)
        future_dates = [(year, month) for year in future_years for month in future_months]
        future_df = pd.DataFrame(future_dates, columns=['year', 'month'])
        
        future_predictions = best_model.predict(future_df)
        
        predictions_df = future_df.copy()
        predictions_df[column] = future_predictions
        predictions_df['food_groups_en'] = food_group
        predictions_df['type'] = 'y'  # Indicar que estos son predicciones
        predictions_list.append(predictions_df)

    results[food_group] = group_results

# Combinar todas las predicciones en un solo DataFrame
all_predictions = pd.concat(predictions_list, ignore_index=True)

# Calcular promedios históricos por year, month y food_groups_en, excluyendo columnas no numéricas
df['type'] = 'x'  # Indicar que estos son datos históricos
historical_averages = df.groupby(['year', 'month', 'food_groups_en'])[numeric_columns].mean().reset_index()

# Combinar promedios históricos con predicciones futuras
combined_df = pd.concat([historical_averages, all_predictions], ignore_index=True)

# Guardar el resultado combinado en PostgreSQL
table_name = "OFF_Viz__fg_monthly_avg_predictions"
combined_df.to_sql(table_name, engine, if_exists='replace', index=False)

print("Predicciones y promedios generados y guardados en la tabla PostgreSQL.")




Index(['year_month', 'food_groups_en', 'avg_energy_kcal_100g', 'avg_fat_100g',
       'avg_saturated_fat_100g', 'avg_carbohydrates_100g',
       'avg_added_sugars_100g', 'avg_proteins_100g', 'avg_added_salt_100g'],
      dtype='object')
Predicciones y promedios generados y guardados en la tabla PostgreSQL.


In [3]:
# Crear una lista para almacenar los mejores modelos seleccionados para cada grupo de alimentos y columna
best_models = []

# Agrupar por food_groups_en y entrenar modelos
for food_group, group_df in df.groupby('food_groups_en'):
    group_results = {}
    features = group_df[['year', 'month']]
    
    for column in numeric_columns:
        X = features
        y = group_df[column].dropna()  # Eliminar valores NaN de la columna objetivo
        X = X.loc[y.index]  # Alinear X con y

        # Verificar si hay suficientes datos para el entrenamiento
        if len(y) < 2:
            continue

        # Dividir los datos en conjuntos de entrenamiento y prueba
        test_size = 0.2 if len(y) >= 5 else 0.5  # Ajustar test_size dinámicamente
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)

        # Verificar si el conjunto de entrenamiento tiene suficientes datos
        if len(X_train) == 0 or len(X_test) == 0:
            continue

        column_results = {}

        for model_name, model in models.items():
            # Entrenar el modelo
            with warnings.catch_warnings():
                warnings.filterwarnings("ignore", category=ConvergenceWarning)
                model.fit(X_train, y_train)

            # Predecir en el conjunto de prueba
            y_pred = model.predict(X_test)

            # Calcular métricas de rendimiento
            mse = mean_squared_error(y_test, y_pred)
            if len(y_test) > 1:  # Solo calcular R^2 si hay más de una muestra
                r2 = r2_score(y_test, y_pred)
            else:
                r2 = float('nan')  # Indicar que R^2 no se puede calcular

            column_results[model_name] = {'MSE': mse, 'R2': r2}

        group_results[column] = column_results

        # Seleccionar el mejor modelo
        best_model_name = min(group_results[column], key=lambda x: group_results[column][x]['MSE'])
        best_model = models[best_model_name]
        
        # Guardar el mejor modelo seleccionado
        best_models.append((food_group, column, best_model_name))
        

# Imprimir los mejores modelos seleccionados para cada grupo de alimentos y columna
for food_group, column, best_model_name in best_models:
    print(f"Mejor modelo para {food_group} - {column}: {best_model_name}")




Mejor modelo para Alcoholic beverages - avg_energy_kcal_100g: ElasticNet
Mejor modelo para Alcoholic beverages - avg_fat_100g: LinearRegression
Mejor modelo para Alcoholic beverages - avg_saturated_fat_100g: Lasso
Mejor modelo para Alcoholic beverages - avg_carbohydrates_100g: Lasso
Mejor modelo para Alcoholic beverages - avg_added_sugars_100g: LinearRegression
Mejor modelo para Alcoholic beverages - avg_proteins_100g: LinearRegression
Mejor modelo para Beverages,Artificially sweetened beverages - avg_energy_kcal_100g: LinearRegression
Mejor modelo para Beverages,Artificially sweetened beverages - avg_fat_100g: LinearRegression
Mejor modelo para Beverages,Artificially sweetened beverages - avg_saturated_fat_100g: LinearRegression
Mejor modelo para Beverages,Artificially sweetened beverages - avg_carbohydrates_100g: Lasso
Mejor modelo para Beverages,Artificially sweetened beverages - avg_added_sugars_100g: Lasso
Mejor modelo para Beverages,Artificially sweetened beverages - avg_proteins