# **Reading the csv cleaned**

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../data/happiness_dataset_cleaned.csv')

# **AI model - Let's training**

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Lasso, LassoCV, LassoLars, LassoLarsIC, LassoLarsCV, Ridge, RidgeCV
from xgboost import XGBRegressor
from sklearn.metrics import r2_score

In [4]:
X = df.drop(['happiness_score', 'country'], axis=1)
y = df['happiness_score']

models = {
    'Linear Regression': LinearRegression(),
    'Lasso': Lasso(),
    'Ridge': Ridge(),
    'RidgeCV': RidgeCV(),
    'LassoCV': LassoCV(), 
    'LassoLars': LassoLars(),
    'LassoLarsCV': LassoLarsCV(),
    'LassoLarsIC': LassoLarsIC(),
    'XGBRegressor': XGBRegressor(), #Hasta ahora la más precisa
}

def train_model(model, X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    model.fit(X_train, y_train)
    y_predict = model.predict(X_test)
    accuracy = r2_score(y_test, y_predict)
    return accuracy

for model_name, model in models.items():
    print(f'Accuracy of {model_name}: {train_model(model, X, y)}')

Accuracy of Linear Regression: 0.9852277849790076
Accuracy of Lasso: 0.9849907887476183
Accuracy of Ridge: 0.9853341629783893
Accuracy of RidgeCV: 0.9853341629735776
Accuracy of LassoCV: 0.9854045096329477
Accuracy of LassoLars: 0.9849907887476183
Accuracy of LassoLarsCV: 0.9853518330190502
Accuracy of LassoLarsIC: 0.985289612178536
Accuracy of XGBRegressor: 0.9966248551540543


## **Conclusiones del Modelo**
Después de entrenar varios modelos de regresión lineal y regularización, se obtuvieron las siguientes métricas de precisión (R²):

- **Linear Regression**: 0.9852277849790076
- **Lasso**: 0.9849907887476183
- **Ridge**: 0.9853341629783893
- **RidgeCV**: 0.9853341629735776
- **LassoCV**: 0.9854045096329477
- **LassoLars**: 0.9849907887476183
- **LassoLarsCV**: 0.9853518330190502
- **LassoLarsIC**: 0.985289612178536
- **XGBRegressor**: 0.9966248551540543

### Conclusiones

1. **XGBRegressor** es el modelo que obtuvo la mayor precisión con un R² de 99.66%.

2. **LassoCV** también mostró un buen rendimiento con una precisión muy alta, lo que indica que la regularización Lasso es efectiva para este conjunto de datos.

3. **Lasso** y **LassoLars** también mostraron un buen rendimiento con una precisión muy cercana a la de LassoCV.

4. **Ridge** y **RidgeCV** tuvieron un rendimiento similar, con una precisión ligeramente inferior a la de los modelos Lasso, pero aún así muy alta.

5. **Linear Regression** tuvo la precisión más baja entre los modelos probados, aunque la diferencia es mínima.

En resumen, todos los modelos probados mostraron una alta precisión, con XGBRegressor destacándose ligeramente sobre los demás. Por lo anterior, **se utilizará el modelo de XGBRegressor** para presentar predicciones.

# **Save the model**

In [6]:
import pickle

# Split the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create the XGBoost model again
xgboost_model = XGBRegressor(eval_metric='logloss')
xgboost_model.fit(X_train, y_train)

# Save the model to disk
path = '../artifacts/models/model.pkl'
with open(path, 'wb') as f:
    pickle.dump(xgboost_model, f)

print(f"Successfully saved XGBoost model to {path}")

Successfully saved XGBoost model to ../artifacts/models/model.pkl
