<br>
<img src="pics/logo_hct.png" alt="Figure 1" style="width: 300px;"/>
<!-- <h4 style="text-align: center;" markdown="1">  Figure 2c from (Ferreira et al. 2014). Note that the colorbar legend at the bottom as well as the arrows are not required in the assignment descriptions below.</h4> -->
<br>

**Elaborado por**: Pérez-Estrada, Adolfo & Peña-Mata, Claudia Elizabeth 

**Fecha de elaboración**: 14 de mayo de 2024

# CLASE 1. METODOS DE APRENDIZAJE AUTOMATICO (*MACHINE LEARNING*): Regresión lineal

## Introducción de Actividad Práctica: Modelado de Regresión con Datos Meteorológicos

Bienvenidos a esta actividad práctica donde exploraremos cómo aplicar modelos de regresión lineal a un conjunto de datos meteorológicos. En este notebook, nuestro objetivo será construir un modelo predictivo de **REGRESIÓN LINEAL**, utilizando variables históricas. Para hacerlo, pasaremos por varias etapas cruciales en el proceso de modelado estadístico y aprendizaje automático. A continuación, detallo los pasos que seguiremos:

### 1. Preparación del Entorno
Antes de comenzar con el análisis y modelado de datos, es esencial preparar nuestro entorno de trabajo. Esto incluye la importación de librerías y módulos necesarios para la manipulación de datos, visualización y modelado estadístico. Algunas de las librerías que utilizaremos son `pandas` para la gestión de datos, `matplotlib` y `seaborn` para visualización, y `scikit-learn` para crear y evaluar modelos de regresión.

### 2. Adquisición de Datos
Los datos son el núcleo de cualquier análisis estadístico. En esta sección, aprenderemos cómo descargar los datos meteorológicos que necesitamos. Discutiremos las fuentes de estos datos y cómo asegurarnos de que la descarga sea exitosa y segura, utilizando herramientas y técnicas adecuadas para la manipulación de datos en línea.

### 3. Preprocesamiento de Datos
Una vez que tenemos los datos, el siguiente paso es prepararlos para el análisis. Esto incluye limpiar los datos de posibles errores, llenar o eliminar valores faltantes, y realizar transformaciones necesarias para el análisis. Esta etapa es crucial para asegurar la calidad de los resultados del modelo.

### 4. División del Conjunto de Datos
Para evaluar la efectividad de nuestro modelo de regresión, dividiremos nuestros datos en un conjunto de entrenamiento y otro de prueba. Esto nos permite entrenar nuestro modelo en un subconjunto de datos y luego probarlo en datos que no ha visto antes, proporcionando una evaluación más robusta de su desempeño.

### 5. Aplicación de la Regresión Lineal
Con los datos preparados y divididos, procederemos a aplicar el modelo de regresión lineal. Explicaremos la teoría detrás de la regresión lineal, cómo funciona, y cómo puede ser aplicada a nuestros datos meteorológicos. Configuraremos nuestro modelo, lo entrenaremos con el conjunto de entrenamiento y luego lo utilizaremos para hacer predicciones sobre el conjunto de prueba.

### 6. Evaluación del Modelo
Finalmente, evaluaremos el desempeño de nuestro modelo utilizando métricas estándar como el Error Absoluto Medio (MAE), el Error Cuadrático Medio (MSE) y el coeficiente de determinación (R2). Estas métricas nos proporcionarán una comprensión clara de cuán bien nuestro modelo está realizando predicciones basadas en los datos de prueba.

Al final de este notebook, no solo habrás aprendido a aplicar un modelo de regresión lineal, sino también a entender y evaluar su rendimiento en un contexto real de datos meteorológicos. Este conocimiento es esencial para cualquier aspirante a científico de datos o analista en el campo de la meteorología y más allá.

Preparemos nuestro entorno, carguemos los datos, y sumérgete en el fascinante mundo de la modelación estadística. ¡Comencemos!

---



## 1. Preparación del entorno 

Para este notebook serán necesarias las siguientes librerías: 

1. **Pandas (1.3.4)**:
   - **Utilidad**: Es una biblioteca de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales. Es indispensable para la limpieza, transformación, y análisis de datos.

2. **NumPy (1.21.4)**:
   - **Utilidad**: Esencial para la computación científica con Python. Proporciona un objeto de arreglo multidimensional, diversos objetos derivados (como matrices enmascaradas y matrices), y una variedad de rutinas para operaciones rápidas en arreglos, incluyendo matemáticas, lógica, manipulación de formas, ordenación, selección, I/O, transformadas discretas de Fourier, álgebra lineal básica, operaciones estadísticas básicas, simulación aleatoria y mucho más.

3. **Seaborn (0.9.0)**:
   - **Utilidad**: Es una biblioteca de visualización de datos en Python basada en matplotlib. Proporciona una interfaz de alto nivel para la creación de gráficos estadísticos atractivos e informativos. Es particularmente útil para explorar y entender datos complejos a través de visualizaciones más sofisticadas y temáticas.

4. **Matplotlib (3.5.0)**:
   - **Utilidad**: Es una biblioteca de trazado para la creación de visualizaciones estáticas, animadas e interactivas en Python. Ofrece una gran variedad de gráficos y diagramas, lo que permite a los usuarios visualizar datos de formas muy variadas y personalizadas. Es la base sobre la que se construyen muchas otras bibliotecas de visualización, incluida Seaborn.

Estas bibliotecas son herramientas fundamentales en el ámbito del análisis de datos y la ciencia de datos, permitiendo desde la manipulación de datos hasta la creación de visualizaciones complejas para interpretaciones más profundas y presentaciones efectivas.

---

NOTA: 
Importación de las bibliotecas requeridas para este laboratorio. Descomentar si no se tienen las librerias instaladas.

Si tu entorno no admite el uso de "!mamba install", utiliza "!pip install" en su lugar.

In [1]:
#!pip install -q pandas==1.3.4 numpy==1.21.4 seaborn==0.9.0 matplotlib==3.5.0

5. **Scikit-learn**:

Es una biblioteca de aprendizaje automático (machine learning) para Python. Proporciona una gama de herramientas supervisadas y no supervisadas a través de una interfaz consistente en Python. Scikit-learn es ampliamente utilizada para diversas aplicaciones de machine learning, incluyendo clasificación, regresión, agrupamiento y reducción de dimensionalidad.

##### Por qué se utiliza:

Scikit-learn se utiliza principalmente porque simplifica la implementación de algoritmos de machine learning, lo que permite a los usuarios y desarrolladores concentrarse en la formulación de sus problemas más que en la programación de algoritmos desde cero. Además, al ser un proyecto de código abierto, permite la colaboración y mejora continua por parte de la comunidad de machine learning, asegurando que las técnicas implementadas estén al día con los avances más recientes en el campo.

In [2]:
!pip install scikit-learn



Función para **suprimir errores o sugerencias (***warnings***)** de ejecución de las librerías: 

In [3]:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

### Importación de librerías

In [4]:
# Importación de bibliotecas para manipulación de datos
import pandas as pd
import numpy as np

# Importación de modelos de machine learning de scikit-learn
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm

# Importación de herramientas de preprocesamiento de scikit-learn
from sklearn import preprocessing

# Importación de funciones de división de datos y evaluación de modelos
from sklearn.model_selection import train_test_split
from sklearn.metrics import jaccard_score, f1_score, log_loss
from sklearn.metrics import confusion_matrix, accuracy_score
import sklearn.metrics as metrics

## 2. ADQUISICIÓN DE DATOS

La fuente original de los datos es el Bureau of Meteorology del Gobierno de Australia, y los datos más recientes se pueden obtener desde [http://www.bom.gov.au/climate/dwo/](http://www.bom.gov.au/climate/dwo/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01).

<br>
<img src="pics/BOM.png" alt="Figure 2" style="width: 300px;"/>

El conjunto de datos que se utilizará tiene columnas adicionales como 'RainToday' y nuestro objetivo es 'RainTomorrow', que se obtuvo de Rattle en [https://bitbucket.org/kayontoga/rattle/src/master/data/weatherAUS.RData](https://bitbucket.org/kayontoga/rattle/src/master/data/weatherAUS.RData?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01).

Contiene observaciones de métricas meteorológicas para cada día desde 2008 hasta 2017.

El conjunto de datos **weatherAUS.csv** incluye los siguientes campos:


| Campo           | Descripción                                           | Unidad            | Tipo   |
| --------------- | ----------------------------------------------------- | ---------------- | ------ |
| Date            | Fecha de la observación en YYYY-MM-DD                 | Fecha            | object |
| Location        | Ubicación de la observación                           | Ubicación        | object |
| MinTemp         | Temperatura mínima                                    | Celsius          | float  |
| MaxTemp         | Temperatura máxima                                    | Celsius          | float  |
| Rainfall        | Cantidad de precipitación                             | Milímetros       | float  |
| Evaporation     | Cantidad de evaporación                               | Milímetros       | float  |
| Sunshine        | Cantidad de luz solar directa                         | Horas            | float  |
| WindGustDir     | Dirección de la ráfaga más fuerte                     | Puntos cardinales| object |
| WindGustSpeed   | Velocidad de la ráfaga más fuerte                     | Kilómetros/Hora  | object |
| WindDir9am      | Dirección del viento promediada 10 minutos antes de las 9am | Puntos cardinales| object |
| WindDir3pm      | Dirección del viento promediada 10 minutos antes de las 3pm | Puntos cardinales| object |
| WindSpeed9am    | Velocidad del viento promediada 10 minutos antes de las 9am | Kilómetros/Hora  | float  |
| WindSpeed3pm    | Velocidad del viento promediada 10 minutos antes de las 3pm | Kilómetros/Hora  | float  |
| Humidity9am     | Humedad a las 9am                                     | Porcentaje       | float  |
| Humidity3pm     | Humedad a las 3pm                                     | Porcentaje       | float  |
| Pressure9am     | Presión atmosférica reducida al nivel medio del mar a las 9am | Hectopascal     | float  |
| Pressure3pm     | Presión atmosférica reducida al nivel medio del mar a las 3pm | Hectopascal     | float  |
| Cloud9am        | Fracción del cielo oscurecida por nubes a las 9am     | Octavos          | float  |
| Cloud3pm        | Fracción del cielo oscurecida por nubes a las 3pm     | Octavos          | float  |
| Temp9am         | Temperatura a las 9am                                 | Celsius          | float  |
| Temp3pm         | Temperatura a las 3pm                                 | Celsius          | float  |
| RainToday       | Si llovió hoy                                         | Sí/No            | object |
| RainTomorrow    | Si lloverá mañana                                     | Sí/No            | float  |

Las definiciones de las columnas se recopilaron de [http://www.bom.gov.au/climate/dwo/IDCJDW0000.shtml](http://www.bom.gov.au/climate/dwo/IDCJDW0000.shtml?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01)

**Cargamos los datos leyendo desde la función de lectura de PANDAS**

In [None]:
df = pd.read_csv("Weather_Data.csv")
df.head() 
## Por default la función head traerá los primeras 5 filas de datos, cambiala para observar las primeras 10 

##### EJERCICIO: ¿Que función utilizarias para ver los últimos registros del dataframe?

In [None]:
# Escribe aquí tu sugerencia

## 3. Preprocesamiento de Datos
El primer paso en el preprocesamiento de datos para este análisis implica una exploración inicial y comprensiva de las medidas de tendencia central y dispersión de los datos. Este proceso nos permite obtener una visión general y detallada de las características estadísticas básicas del conjunto de datos, facilitando la identificación de patrones, valores atípicos y errores potenciales que podrían afectar el rendimiento del modelo de regresión. A continuación, se describen las actividades a realizar en este paso:

1. **Uso de la función `describe()` de Pandas**: 
   - Esta función proporciona un resumen estadístico rápido y útil de cada columna numérica en el DataFrame. Esto incluye la media, la mediana (50%), la desviación estándar, los valores mínimos y máximos, así como los percentiles 25% y 75%.
   - Para ejecutarlo, simplemente utilizamos `dataframe.describe()` donde `dataframe` es nuestro conjunto de datos. Es importante asegurarse de que todas las columnas que se desean incluir sean de tipo numérico; de lo contrario, serán excluidas del resumen.

2. **Exploración de estadigrafos con función calculada**:
    - Para expandir el análisis vamos a ejecutar una función creada para obtener los valores similares a la función de pandas con la adición de valores como cuartiles, rango intercuartilicos, sesgo y curtosis.
      
3. **Visualización de las distribuciones de datos**:
   - Complementaremos el análisis de la tabla `describe()` con visualizaciones gráficas para una mejor interpretación y comprensión de la distribución de los datos. Las visualizaciones como histogramas, gráficos de caja (box plots) y gráficos de violín son especialmente útiles para este propósito.
   - **Histogramas**: Ayudan a ver la forma de la distribución de los datos, mostrando la frecuencia de valores en intervalos específicos. Son excelentes para detectar la simetría y sesgos en los datos.
   - **Gráficos de caja (Box plots)**: Ofrecen una representación visual de cómo están distribuidos los datos en términos de cuartiles y ayudan a identificar claramente los valores atípicos.

4. **Preprocesamiento específico**

La combinación de métodos estadísticos descriptivos y visualizaciones gráficas en este primer paso es crucial para establecer un entendimiento sólido del conjunto de datos antes de proceder a pasos más avanzados de preprocesamiento y modelado. 


### 1. Uso de la función `describe()` de Pandas

In [None]:
df.describe()

##### Describe el comportamiento de las variable `Rainfall`

### 2. Exploración de estadigrafos con función calculada `estadigrafos()`

In [None]:
def estadigrafos(df, VariableName):
    """
    Calcula estadísticas descriptivas básicas para una columna específica de un DataFrame.
    
    Parámetros:
    - df (pandas.DataFrame): DataFrame que contiene los datos.
    - VariableName (str): Nombre de la columna para la cual calcular las estadísticas.
    
    Retorna:
    - pandas.DataFrame: DataFrame con las estadísticas de la columna especificada.
    """
    # Calcula las estadísticas deseadas
    minim = df[VariableName].min()
    Q1 = df[VariableName].quantile(0.25)
    prome = df[VariableName].mean()
    Q2 = df[VariableName].median()
    Q3 = df[VariableName].quantile(0.75)
    maxim = df[VariableName].max()
    varia = df[VariableName].var()
    desvi = df[VariableName].std()
    rango = maxim - minim
    IQR = Q3 - Q1
    coefv = desvi / prome if prome != 0 else np.nan  # Previene división por cero
    simetria = df[VariableName].skew() 
    curtosis = df[VariableName].kurtosis()
    
    # Crea un DataFrame con los resultados
    estadisticas = pd.DataFrame({
        VariableName: [minim, Q1, prome, Q2, Q3, maxim, varia, desvi, rango, IQR, coefv, simetria, curtosis]
    }, index=['Mínimo', 'Primer Cuartil', 'Promedio', 'Mediana', 'Tercer Cuartil', 'Máximo', 'Varianza', 'Desviación Estandar', 'Rango', 'IQR', 'Coeficiente de variación', 'Simetria', 'Curtosis'])
    
    return estadisticas.round(2)

La función anterior requiere dos variables de entrada para su ejecución `df` y `VariableName`. La primera será el dataframe que contiene los datos de análisis. La segunda variable requiere los nombres de las variables que quieres analizar. 

Como en este caso se ejecuta por variable, vamos a construir un código que itere el nombre de las variables para crear una tabla visualmente similar a la que se ve en la función de pandas `pandas.DataFrame.describe()`.

Para obtenerlo podemos: 
- Escribir manualmente el nombre de las columnas. 
- Usar la función `pandas.DataFrame.columns()`

Implementaremos la segunda opción

In [None]:
columnas_a_analizar = df.columns()
columnas_a_analizar

Para continuar hacemos la iteración de las columnas con un ciclo `for`

In [None]:
estadisticos = pd.DataFrame()
for variable in columnas_a_analizar:
    df_est = estadigrafos(df, variable)
    estadisticos = pd.concat([estadisticos, df_est], axis = 1)

estadisticos

### 3. Visualización de las distribuciones de datos

Para crear una función en Python que genere una gráfica por variable de interés, donde se puede especificar el nombre de la variable y el DataFrame como parámetros de entrada, se puede modificar y simplificar el código proporcionado. A continuación, te muestro cómo hacerlo paso a paso, enfocándonos en generar una sola gráfica para una variable específica cada vez que se llama a la función:

```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_variable(dataframe, variable_name):
    """
    Función para graficar la distribución de una variable única junto con estadísticas importantes.

    Parámetros:
    - dataframe (pd.DataFrame): DataFrame de donde se extraerá la variable.
    - variable_name (str): Nombre de la columna del DataFrame a graficar.
    """
```

La función `plot_variable` toma dos argumentos:
- `dataframe`: El DataFrame de Pandas que contiene los datos.
- `variable_name`: El nombre de la columna que se desea graficar.

### Funcionalidad de la Función:
- Configura el estilo de visualización usando Seaborn.
- Crea una figura y un eje para la gráfica.
- Calcula y muestra en la gráfica las estadísticas principales de la variable (media, mediana, moda, máximo y mínimo) utilizando líneas verticales de diferentes colores.
- Añade una leyenda para identificar cada estadística.

Esta función es útil para realizar un análisis visual rápido y detallado de una variable específica dentro de un conjunto de datos.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_variable(dataframe, variable_name):
    """
    Función para graficar la distribución de una variable única junto con estadísticas importantes.

    Parámetros:
    - dataframe (pd.DataFrame): DataFrame de donde se extraerá la variable.
    - variable_name (str): Nombre de la columna del DataFrame a graficar.
    """
    # Ajustes de visualización con Seaborn
    custom_params = {"axes.spines.right": True, "axes.spines.top": True, "axes.spines.left": True}
    sns.set_theme(style='whitegrid', context="talk", rc=custom_params, color_codes=True)
    sns.set_style("ticks", {"axes.grid": True, "grid.linestyle": "--"})
    
    # Crea la figura
    plt.figure(figsize=(10, 6))
    
    # Crea el gráfico para la variable especificada
    ax = sns.histplot(dataframe[variable_name], bins=10, kde=True, color='yellowgreen', legend=False)
    ax.set_title(f'Distribución de {variable_name}', fontsize=14)
    ax.set_ylabel('Frecuencia', fontsize=12)
    ax.set_axisbelow(True)
    
    # Calcula estadísticas
    mean = dataframe[variable_name].mean()
    median = dataframe[variable_name].median()
    mode = dataframe[variable_name].mode()[0]
    max_value = dataframe[variable_name].max()
    min_value = dataframe[variable_name].min()
    
    # Agrega líneas verticales para cada estadística
    lines = [
        ax.axvline(mean, color='red', linestyle='dashed', linewidth=2, label=f'Media: {mean:.2f}'),
        ax.axvline(median, color='green', linestyle='dashed', linewidth=2, label=f'Mediana: {median:.2f}'),
        ax.axvline(mode, color='blue', linestyle='dashed', linewidth=2, label=f'Moda: {mode}'),
        ax.axvline(max_value, color='purple', linestyle='dashed', linewidth=2, label=f'Máx: {max_value:.2f}'),
        ax.axvline(min_value, color='orange', linestyle='dashed', linewidth=2, label=f'Mín: {min_value:.2f}')
    ]
    
    # Añade la leyenda
    ax.legend(loc='best', fontsize=10)
    
    # Muestra la gráfica
    plt.show()


In [None]:
plot_variable(df, 'Rainfall')

### 4. Preprocesamiento específico

Necesitamos realizar una codificación "one hot" para convertir variables categóricas en variables binarias.

#### ¿Qué es la codificación one hot?

La codificación one hot transforma cada categoría de una variable categórica en una nueva variable binaria (0 o 1). Cada una de estas nuevas variables binarias representa la presencia (o ausencia) de una categoría específica. Esto es particularmente útil en modelos de aprendizaje automático, ya que muchos algoritmos no pueden manejar directamente las variables categóricas y requieren que los datos de entrada estén en formatos numéricos.

#### ¿Cómo funciona la codificación one hot?

Supongamos que tenemos una variable categórica llamada "Color" con tres categorías: Rojo, Verde y Azul. La codificación one hot convierte esta variable en tres nuevas variables: una para cada categoría. Así es como se vería:

- **Original:**
  - Color: Rojo
  - Color: Verde
  - Color: Azul

- **Codificado One Hot:**
  - Color_Rojo: 1, Color_Verde: 0, Color_Azul: 0
  - Color_Rojo: 0, Color_Verde: 1, Color_Azul: 0
  - Color_Rojo: 0, Color_Verde: 0, Color_Azul: 1

#### Beneficios de la codificación one hot

1. **Interpretación del Modelo:** Facilita la interpretación de los resultados en modelos estadísticos y de machine learning al eliminar el orden ordinal implícito que puede tener una codificación numérica directa (por ejemplo, 1 para Rojo, 2 para Verde, 3 para Azul), lo cual puede ser incorrecto si las categorías no tienen un orden natural.
   
2. **Compatibilidad con Algoritmos:** Muchos algoritmos de aprendizaje automático esperan datos de entrada numéricos, por lo que la codificación one hot permite la integración directa de atributos categóricos en estos modelos.

#### Implementación en Python

En Python, la codificación one hot puede realizarse fácilmente utilizando bibliotecas como `pandas` o `scikit-learn`. Con `pandas`, se puede usar la función `get_dummies()`, mientras que `scikit-learn` ofrece `OneHotEncoder` en su módulo `preprocessing`.

Este proceso de codificación es fundamental para preparar tus datos para modelos de aprendizaje automático y debe ser comprendido y utilizado adecuadamente para obtener los mejores resultados de tus análisis.


In [None]:
df_sydney_processed = pd.get_dummies(data=df, columns=['RainToday', 'WindGustDir', 'WindDir9am', 'WindDir3pm'])

A continuación, reemplazamos los valores de la columna `RainTomorrow` cambiándolos de una columna categórica a una columna binaria. No utilizamos el método get_dummies porque terminaríamos con dos columnas para `RainTomorrow`, lo cual no deseamos, ya que `RainTomorrow` es nuestro objetivo.

In [None]:
df_sydney_processed.replace(['No', 'Yes'], [0,1], inplace=True)

## 4. División del Conjunto de Datos
Ahora, establecemos nuestras 'variables' o valores de $x$ y nuestra $y$ o variable objetivo.

In [None]:
# Eliminamos aquellos datos que NO sean númericos
df_sydney_processed.drop('Date',axis=1,inplace=True)

In [None]:
# Nos aseguramos que los datos sean de tipo númerico
df_sydney_processed = df_sydney_processed.astype(float)

In [None]:
# Dividimos el dataframe en conjunto de datos para entrar a los modelos
features = df_sydney_processed.drop(columns='RainTomorrow', axis=1)
Y = df_sydney_processed['RainTomorrow']

## 5. Aplicación de la Regresión Lineal


#### A1) Utiliza la función `train_test_split` para dividir los dataframes `features` y `Y` con un `test_size` de `0.2` y el `random_state` establecido en `10`.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(features, Y, random_state=10, test_size=.2)

Esta línea de código utiliza la función `train_test_split` del módulo `sklearn.model_selection` para dividir dos conjuntos de datos —`features` y `Y`— en subconjuntos de entrenamiento y prueba. Aquí está el detalle de cada parte:

1. **`features`**: Es el DataFrame o array que contiene las variables independientes o predictores que se utilizarán para predecir la variable objetivo. Este conjunto incluye todas las características (por ejemplo, temperatura, humedad) que el modelo usará para aprender.

2. **`Y`**: Es el DataFrame o array que contiene la variable dependiente o objetivo que se está tratando de predecir. En el contexto de un problema de clasificación, por ejemplo, podría ser si lloverá mañana o no.

3. **`random_state=10`**: Es un parámetro que sirve para asegurar la reproducibilidad de los resultados. Al especificar un número (en este caso, 10), el algoritmo de división siempre generará el mismo resultado cada vez que se ejecute el código, siempre que los datos de entrada no cambien. Esto es útil para la depuración y para comparar el desempeño del modelo bajo condiciones consistentes.

4. **`test_size=.2`**: Este parámetro especifica la proporción del conjunto de datos que se separará como conjunto de prueba. En este caso, el 20% de los datos será usado para el conjunto de prueba, mientras que el restante 80% será usado para el conjunto de entrenamiento. El conjunto de prueba es el que se utiliza para evaluar el rendimiento del modelo después de entrenarlo con el conjunto de entrenamiento.

#### A2. Crea y entrena un modelo de Regresión Lineal llamado LinearReg usando los datos de entrenamiento `(x_train, y_train)`.

In [None]:
LinearReg = LinearRegression()
LinearReg.fit(x_train, y_train)

1. **`LinearReg = LinearRegression()`**:
   - Esta línea de código inicializa un nuevo modelo de regresión lineal. `LinearRegression()` es una función de `scikit-learn` que crea un objeto de modelo de regresión lineal. Al llamar a esta función, se configuran todos los parámetros predeterminados necesarios para el modelo.
   - `LinearReg` es el nombre que le asignamos a este objeto de modelo. Es un identificador que usaremos para acceder a las funciones del modelo, como el entrenamiento y la predicción.

2. **`LinearReg.fit(x_train, y_train)`**:
   - Esta es la línea donde efectivamente se entrena el modelo de regresión lineal. La función `fit()` es un método proporcionado por `scikit-learn` que toma los datos de entrada (`x_train`) y las etiquetas o respuestas asociadas (`y_train`) para entrenar el modelo.
   - `x_train` contiene las características o variables independientes de los datos de entrenamiento, que el modelo usará para aprender.
   - `y_train` contiene la variable objetivo o dependiente correspondiente a `x_train`, que es lo que el modelo intenta predecir.
   - Durante el entrenamiento, el algoritmo de regresión lineal ajusta los mejores parámetros (coeficientes e intercepción) para minimizar el error entre las predicciones hechas con el modelo y los valores reales en `y_train`. Esto se logra a menudo a través de un método matemático como el descenso de gradiente o la ecuación normal.

#### A3) Ahora utiliza el método predict sobre los datos de prueba `(x_test)` y guárdalo en el arreglo `predictions`.

In [None]:
predictions = LinearReg.predict(x_test)

Este es un método del modelo `LinearReg`. El método `predict` se usa para obtener predicciones del modelo basadas en nuevos datos que el modelo no ha visto durante el entrenamiento. En este caso, el método `predict` toma como entrada `x_test`, que son los datos de prueba o un conjunto de características nuevas para las cuales quieres predecir los valores de la variable objetivo.


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_test, y=predictions)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4)  # Línea diagonal
plt.xlabel('Valores Reales')
plt.ylabel('Predicciones')
plt.title('Valores Reales vs Predicciones')

## 6. Evaluación del Modelo

**A4) Usando las predicciones y el dataframe y_test, calcula el valor de cada métrica usando la función apropiada.**

```python
LinearRegression_MAE = np.mean(np.absolute(predictions-y_test))
LinearRegression_MSE = np.mean((predictions-y_test)**2)
LinearRegression_R2 = metrics.r2_score(y_pred=predictions, y_true=y_test)
```

Este bloque de código está calculando tres métricas estadísticas para evaluar el rendimiento de un modelo de regresión lineal basado en las predicciones realizadas y los valores reales (y_test).

1. **MAE (Mean Absolute Error - Error Absoluto Medio):**
   - `LinearRegression_MAE = np.mean(np.absolute(predictions-y_test))`
   - El MAE es el promedio de los valores absolutos de los errores individuales entre las predicciones y los valores reales. Es una medida de la magnitud media de los errores en un conjunto de predicciones, sin considerar su dirección (ignora si son positivos o negativos).
   - En este caso, se calcula como el promedio del valor absoluto de la diferencia entre las predicciones y los valores reales.

2. **MSE (Mean Squared Error - Error Cuadrático Medio):**
   - `LinearRegression_MSE = np.mean((predictions-y_test)**2)`
   - El MSE es el promedio de los cuadrados de los errores; es decir, la diferencia entre el valor real y la predicción se eleva al cuadrado y luego se promedia sobre el conjunto de datos. Esta métrica penaliza más los errores grandes, lo que la hace muy útil cuando los errores grandes son particularmente indeseables.
   - Se calcula como el promedio de los errores al cuadrado entre las predicciones y los valores reales.

3. **R² (Coeficiente de Determinación):**
   - `LinearRegression_R2 = metrics.r2_score(y_pred=predictions, y_true=y_test)`
   - El coeficiente R² es una medida estadística que representa la proporción de la varianza para una variable dependiente que es predecible a partir de las variables independientes. Un valor de R² de 1 indica que el modelo puede predecir perfectamente los valores reales, mientras que un valor de 0 indica que el modelo no es mejor que simplemente tomar la media de los datos como predicción para todos los casos.
   - En este código, se utiliza la función `r2_score` de la biblioteca de `metrics` para calcular R² basado en las predicciones y los valores reales.


In [None]:
Report = pd.DataFrame({'MAE':LinearRegression_MAE, 'MSE': LinearRegression_MSE, 'R2': LinearRegression_R2}, range(1))
Report