# Momento de Retroalimentación: Módulo 2 Uso de framework o biblioteca de aprendizaje máquina para la implementación de una solución.
## Uso de regresion lineal con scikit-learn

#### *Diego Alberto Baños Lopez*
#### *A01275100*



## Introducción

En este notebook se busca aplicar librerias en python que ayude a facilitar la modelacion del dataset a usar


## Parte 1: Importacion de librerias y leer el dataset
Para ello se requiere que primeramente leamos las librerias necesarias y una vez realizado ello se guarda el dataset como data


In [18]:
# En caso de no tener instalado alguna libreria favor de descomentar la siguiente linea de codigo
# !pip install -U pandas
# !pip install -U seaborn
# !pip install -U matplotlib
# !pip install -U scikit-learn
# Pandas es usado para importar el CSV
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
# El dataset a usar se llama Ice Cream Revenue
# Los datos se pueden obtener de https://www.kaggle.com/datasets/vinicius150987/ice-cream-revenue
data = pd.read_csv("./IceCreamData.csv")
data.head(10)

Unnamed: 0,Temperature,Revenue
0,24.566884,534.799028
1,26.005191,625.190122
2,27.790554,660.632289
3,20.595335,487.70696
4,11.503498,316.240194
5,14.352514,367.940744
6,13.70778,308.894518
7,30.833985,696.71664
8,0.97687,55.390338
9,31.669465,737.800824


El dataset "IceCreamData.csv" contiene dos columnas:

1. **Temperature**: Representa la temperatura.
2. **Revenue**: Representa los ingresos obtenidos.

Dado que estamos tratando con un conjunto de datos que tiene una variable independiente (temperatura) y una variable dependiente (ingresos), se puede abordar la prediccción de los ingresos en base a la temperatura a tráves de regresión linea

## Parte 2: División de datos en train y test
Esto trata de dividir el dataset en dos, uno de entrenamiento y otro de verificación, se hace con el objetivo de verificar si realmente se esta entrenando el modelo de forma correcta y no estamos cayendo en overfitting o underfitting

In [19]:
# Variable Independiente
X = data[['Temperature']]
# Variable Dependiente
y = data['Revenue'] 
# División del dataframe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.head(), y_train.head()

(     Temperature
 249    18.148952
 433     8.756004
 19     21.775948
 322    18.439982
 332    15.843022,
 249    473.568112
 433    246.787161
 19     534.622865
 322    463.480508
 332    379.564268
 Name: Revenue, dtype: float64)

## Parte 3: Entrenamiento del Modelo con Parámetros por Defecto

En esta parte usaremos las librerias de Scikit-learn para realizar nuestro modelado de regresión lineal, en este caso se realizará primero como viene por defecto

In [20]:
model = LinearRegression()
model.fit(X_train, y_train)

train_predictions = model.predict(X_train)
test_predictions = model.predict(X_test)

train_mse = mean_squared_error(y_train, train_predictions)
train_r2 = r2_score(y_train, train_predictions)

test_mse = mean_squared_error(y_test, test_predictions)
test_r2 = r2_score(y_test, test_predictions)

train_mse, train_r2, test_mse, test_r2


(616.5053542324285, 0.9802510145652878, 652.5200612979733, 0.9771532792713993)

## Predicciones del modelo

Aqui se intenta predecir usando el modelo y se compara con los datos reales para ver como se comporta y ver que tanto difiere el modelo con los datos reales

In [22]:
sample_data = X_test.iloc[:3]
real_values = y_test.iloc[:3]
predicted_values = model.predict(sample_data)

predictions_comparison = pd.DataFrame({
    'Real Revenue': real_values,
    'Predicted Revenue': predicted_values
})

predictions_comparison

Unnamed: 0,Real Revenue,Predicted Revenue
361,659.873287,681.938706
73,623.248701,632.14475
374,559.135869,559.643605
