# Introducción a ML y Generative AI - Taller #4 

Este taller tiene como objetivo manipular un conjunto de datos de alturas y pesos, analizar los datos, visualizarlos y aplicar técnicas de regresión lineal. 


## 1. Instala la librería numpy (si aún no lo has hecho).

```pip install numpy```

## 2. Descarga el dataset del siguiente enlace.

https://www.kaggle.com/datasets/burnoutminer/heights-and-weights-dataset

## 3. Cargar el dataset

In [1]:
import pandas as pd

df = ### Completar


In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.isnull().sum()

## 4. Transforma los valores a cm y kg

In [8]:
df['Altura'] = df['Height(Inches)'] * 2.54
df['Peso'] = df['Weight(Pounds)'] * 0.453592

# Eliminar columnas anteriores
df.drop(['Height(Inches)', 'Weight(Pounds)'], axis=1, inplace=True)

## 5. Visualiza los datos. Altura en el eje X y Peso en el eje Y

- Puedes tomar solo un subset de los datos para que la visualización mejore (opcional)
- Puedes utilizar la función plt.scatter https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html

In [None]:
import matplotlib.pyplot as plt

### Completar



## 6. Utiliza la librería numpy para extraer X y Y del dataset

- Imprime el shape de **X** y **Y** para confirmar sus tamaños
- Reshape **X** y **y** para que sean matrices. e.g (25000,) a (25000,1)

In [18]:
import numpy as np

X = ### Completar
y = ### Completar

In [None]:
print('X shape:', X.shape)
print('Y shape:', y.shape)

In [24]:
# -1 significa que se ajusta al tamaño de la otra dimensión. También se puede usar X.reshape(X.size, 1)

X = X.reshape(-1, 1) # -1 significa que se ajusta al tamaño de la otra dimensión
y = y.reshape(-1, 1)

In [None]:
print('X shape:', X.shape)
print('Y shape:', y.shape)

## 7. Incluye la columna de unos a nuestros features (X)

- Genera la columna de 1s (unos). Puedes utilizar https://numpy.org/doc/stable/reference/generated/numpy.ones.html
- Incluye la columna a X utilizando np.concatenate https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html
- Verifica la nueva **shape** de **X** y mira sus valores

In [None]:
X.shape

In [None]:
X

## 8. Recapitulación: Regresión Lineal

### 8.1 Ecuación lineal

$\hat{y} = \theta_{1} x_{1} + \theta_{2}$

### 8.2 Usando matrices

$\hat{Y} = X \cdot \theta$

### 8.3 Cost Function

$\text{cost} = \frac{1}{2m} \sum (Y - {\hat{Y}})^2$


### 8.4 Gradient Descent (Algoritmo)

- Inicializar $\theta$ a cero 

- Repetir durante $i$ iteracciones:
    - $\hat{Y} = X \cdot \theta$

    - $\text{cost} = \frac{1}{2m} \sum (Y - {\hat{Y}})^2$

    - $d\theta = \frac{1}{m} X^T \cdot (Y - {\hat{Y}})$

    - $\theta = \theta - \alpha \cdot d\theta$

## 9. Implementa el algoritmo de Gradient Descent

- Comienza con 1000 iteraciones y luego cámbialo para explorar como cambia las métricas del modelo

In [79]:

class MyLinearRegression:

    def __init__(self, learning_rate, iterations):
        self.learning_rate = learning_rate
        self.iterations = iterations

    def fit(self, X, y):

        # Número de observaciones
        m = ## Completar

        # Inicializar los parámetros theta a cero

        self.theta = ### Completar

        for i in range(self.iterations):

            # Calcular y_hat (hypotesis)

            y_hat =  ### Completar

            # Calcular el costo

            cost = ### Completar

            # Calcular el gradiente (la derivada de la función de costo)

            d_theta = ### Completar

            # Actualizar los parámetros theta
            self.theta = ### Completar

            if i % 100 == 0:
                print(f'Iteración {i} - Costo: {cost}')

    def predict(self, X):

        return X.dot(self.theta)
    

## 10. Separa el dataset en training 80% y testing 20%

- Utiliza un random_state = 0

In [80]:
from sklearn.model_selection import train_test_split

### Completar

X_train, X_test, y_train, y_test = 

## 11. Entrena tu algoritmo con los datos de entrenamiento y evalualo con los datos de prueba

- Utiliza un learning rate = 0.00000005
- Intenta con un número diferente de iteraciones. Cuándo converge el algoritmo?

In [82]:
lr = MyLinearRegression(learning_rate=0.00000005, iterations=3000)

In [None]:
# Entrenar el modelo usando la funcion fit


### Completar


In [None]:
# Realizar predicciones en el conjunto de prueba. Utiliza la función predict

y_pred = ### Completar

### 11.1 Evalue el modelo utilizando MSE, MAE y R2

In [None]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Calcular el error cuadrático medio
mse = 

# Calcular el coeficiente de determinación
r2 = 

# Calcular el error absoluto medio
mae =

## 12. Utiliza la librería sklearn y utiliza el modelo de regresión lineal. Compara los resultados con tu modelo

In [86]:
from sklearn.linear_model import LinearRegression

# Instanciar el modelo de regresión lineal de sklearn

## Completar

In [None]:
# Entrenar el modelo

## Completar


In [88]:
# Realizar predicciones en el conjunto de prueba

y_pred = 

In [None]:
# Calcular el error cuadrático medio, el coeficiente de determinación y el error absoluto medio

### Completar

© 2024 Ariel Ramos. All rights reserved.
