# Práctica de regresión lineal


Revisar el video disponible [aquí](https://www.youtube.com/watch?v=k964_uNn3l0)

## Cargamos los módulos a utilizar

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

## Usando el dataset diabetes de sklearn

### Cargamos el dataset

Usaremos el dataset [diabetes](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset) que nos proporciona el módulo sklearn.

In [None]:
# cargamos el dataset diabetes
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

In [None]:
print(diabetes_X)

In [None]:
print(diabetes_y)

In [None]:
# Usaremos solo una característica
diabetes_X = diabetes_X[:, np.newaxis, 2]

El código anterior está tomando la tercera característica de la matriz de características original diabetes_X y remodelándola para crear una matriz bidimensional. Esta operación es a menudo necesaria cuando se trabaja con scikit-learn, ya que espera datos de entrada en un formato determinado, por lo general una matriz 2D donde cada fila corresponde a una muestra y cada columna corresponde a una característica.

### Dividimos el dataset de características (features) en entrenamiento y prueba

In [None]:
# dividimos los datos relacionados a las características en entrenamiento y prueba
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

### Dividimos el dataset de valores objetivo en entrenamiento y prueba

In [None]:
# dividimos los datos de los valores objetivo en entrenamiento y prueba
diabetes_y_train = diabetes_y[:-20]
diabetes_y_test = diabetes_y[-20:]

### Creamos el objeto de regresión lineal

In [None]:
regr_lineal = linear_model.LinearRegression()

### Entrenamos el modelo

In [None]:
regr_lineal.fit(diabetes_X_train, diabetes_y_train)

### Realizamos predicciones utilizando el conjunto de datos de prueba

In [None]:
# hacemos predicciones usando el conjunto de datos de prueba
diabetes_y_pred = regr_lineal.predict(diabetes_X_test)

### Revisamos los coeficientes

In [None]:
print("Coeficiente: ", regr_lineal.coef_[0])
print("Intercepto: ", regr_lineal.intercept_)

### Revisamos el coeficiente de determinación: 1 es predicción perfecta

In [None]:
print("Coeficiente de determinación (R²): %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))

### Revisamos el valor de error cuadrático medio (mse)

In [None]:
print("Error cuadrático medio (mse): %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))

### Graficamos las salidas

In [None]:
# graficar salidas
plt.scatter(diabetes_X_test, diabetes_y_test, color="black")
plt.plot(diabetes_X_test, diabetes_y_pred, color="blue", linewidth=3)

#plt.xticks(())
#plt.yticks(())

plt.show()

## Usando el dataset Weather Conditions in World War Two

Buscaremos dar respuesta a las interrogantes:

- Existe relación entre las temperaturas mínima y máxima diarias.
- Se puede predecir la temperatura máxima dada una temperatura mínima.

La descripción del dataset puede revisarse [aquí](https://www.kaggle.com/datasets/smid80/weatherww2/data).

### Cargamos el dataset

In [1]:
import pandas as pd
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression


In [2]:
# ruta al archivo
filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/summary_of_weather.csv"
datos = pd.read_csv(filepath)

  datos = pd.read_csv(filepath)


In [None]:
datos.head()

In [None]:
datos.info()

In [None]:
# revisemos la relación
datos.plot(x='MinTemp',y='MaxTemp',style='o')

In [None]:
# obtenemos los datos para x y y
x=datos['MinTemp'].values
y=datos['MaxTemp'].values

In [None]:
x

In [None]:
# obtenemos los datos para x y y
x=datos['MinTemp'].values.reshape(-1,1)
y=datos['MaxTemp'].values.reshape(-1,1)

In [None]:
x

### Dividimos los datos en entrenamiento y prueba

In [None]:
# separar los datos
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test=train_test_split(x,y,test_size=.25)

### Creamos el modelo

In [None]:
# crear el modelo
model = LinearRegression()

### Entrenamos el modelo

In [None]:
# entrenar el modelo
model.fit(x_train, y_train)

### Realizamos predicciones con los datos de prueba

In [None]:
# realizar predicciones
y_predict=model.predict(x_test)

### Revisamos los coeficientes

In [None]:
print("Coeficiente:", model.coef_[0])
print("Intercepto:", model.intercept_)
print(f"y = {model.coef_[0][0]}x + {model.intercept_[0]}")
print("Coeficiente de determinación (R²): %.2f" % r2_score(y_test, y_predict))

### Agrupamos los datos de prueba reales y las predicciones para visualización

In [None]:
datos2=pd.DataFrame({'mínima':x_test.flatten(),'máxima real':y_test.flatten(),'máxima predicción':y_predict.flatten()})
datos2

### Graficamos

In [None]:
plt.scatter(x_train,y_train)
plt.title("Temperatura máxima vs mínima")
plt.plot(x_train,model.predict(x_train),color='black')

In [None]:
plt.scatter(x_test,y_test)
plt.title("Temperatura máxima vs mínima")
plt.plot(x_test,model.predict(x_test),color='black')

In [None]:
x_test

In [None]:
b = 20
b = np.array(b)
b = np.array(b.reshape(-1,1))
print(b)

In [None]:
a = np.array([[20]])
print(model.predict(b))