# **Bootcamp Ciencia de Datos e Inteligencia Artificial**
# **Módulo 3. ML: Modelado supervisado**
## Semana 9. Fundamentos de modelos de regresión


¡Hola! Te damos la bienvenida al módulo 3.

Durante esta semana se profundizará en los fundamentos de los modelos de regresión para comprender los principios de un modelo supervisado. Además, se aplicarán los conceptos de las funciones de costo para obtener los mejores resultados dentro de un modelo de regresión.

## Regresión
Probablemente, lo primero que te preguntarás es: **¿Qué es la regresión?**

Un **modelo de regresión** se define como la relación entre una o varias variables independendientes con respecto a una variable dependiente.

Una manera de ejemplificarlo es con algunos aspectos de la vida diaria: un modelo de regresión puede ser aquel que explica la relación del tiempo y la cantidad de gasolina utilizada al manejar. El conocimiento empírico dicta que se tratará de una relación proporcional, donde a mayor tiempo de conducción, mayor cantidad de combustible se consume.

Si se haya ese modelo (representable con una ecuación matemática), es posible determinar cuánto combustible se necesita para manejar durante tres horas.

Para conocer la ecuación que facilitará el conocimiento sobre cuánta gasolina se requiere para llegar. por ejemplo, hasta Acapulco, es necesario ejecutar datos en un conjunto.

El ejemplo anterior se conoce como **modelo univariable**, pues solo utiliza una variable (el tiempo) para determinar el combustible necesario. Sin embargo, habrá ocasiones en las cuales influyen dos o más variables.

Si se recupera el ejemplo de la gasolina que requiere el auto para ir a Acapulco, podrían considerarse también aspectos como la temperatura, la distancia, el tipo de camino, el pago de casetas e incluso si es un viaje unipersonal o con toda la familia.

Seguro caíste en cuenta de que la cantidad de combustible está sujeta a múltiples variables y que unas impactarán más que otras. Así, cuando un modelo considera dos o más variables, se le denomina **multivariable**.

Ahora que sabes qué se calcula y cuál es relación existente en los modelos de regresión, es momento de escribir código.

Notarás que antes de aplicar cualquier código, es necesario hacer el **preprocesado**.

## **Pregunta**

¿Recuerdas por qué es importante este paso y qué se hace?

Para entender mejor este módulo, es necesario importar algunas librerías. Ya  conoces muchas de ellas (como `pandas`, `numpy` y ``matplotlib``), pero otras más son nuevas y se explicarán cuando llegue el momento de usarlas.

In [23]:
# Importamos las librerias necesarias
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
%load_ext autoreload
%autoreload 2
import datetime

# scikit-learn
from sklearn.dummy           import DummyClassifier
from sklearn.linear_model    import LogisticRegression
from sklearn.linear_model    import LinearRegression
from sklearn.linear_model    import Lasso
from sklearn.metrics         import confusion_matrix
from sklearn.metrics         import roc_curve
from sklearn.metrics         import roc_auc_score
from sklearn.preprocessing   import StandardScaler
from sklearn.model_selection import train_test_split

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [24]:
#from google.colab import drive
#drive.mount('/content/drive')

## Importar set de datos

Se utilizará el archivo CSV llamado `height_weight_gender.csv`, que indica valores como el peso, la altura y el género de algunas personas.

**Importante**: los valores de altura están en pulgadas y los de peso, en libras.

Descarga el archivo en la siguiente liga: https://drive.google.com/file/d/1zdNlb-zDLLEw02yzRrBlHRSWqI6Z1XWr/view?usp=sharing

Recuerda que para usarlo es necesario descargarlo en tu **Drive** y hacer las conexiones pertienentes vistas con anterioridad.

En este ejemplo, el  _dataframe_ se nombra `data`; recuerda que puedes llamarlo de alguna forma que facilite su identificación (algunos ciéntificos de datos prefieren denominarlo `df`).

In [25]:
# Importar datos
data = pd.read_csv(r'C:\Users\Equipo 1\Downloads\datasets\height_weight_genders.csv')

Como es costumbre, se echa un vistazo rápido al _dataframe_ con la función `.head()`. Así, se tiene una vita general de los primeros datos y las columnas que lo componen.

In [26]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Gender  10000 non-null  object 
 1   Height  10000 non-null  float64
 2   Weight  10000 non-null  float64
dtypes: float64(2), object(1)
memory usage: 234.5+ KB


In [27]:
# Hecha un vistazo a los datos
data.head()

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.04247
4,Male,69.881796,206.349801


El primer paso consiste en identificar la existencia de valores categóricos que, por su naturaleza, ayudan a hacer cálculos; tal es el caso de las «cadenas de texto».

En este ejemplo, existe una columna llamada `gender`, que tiene dos posibles valores: `male` y `female`. Esta puede convertirse en _dummies_, es decir, se separa en dos: si el valor de esa fila es `male`, entonces tendrá un `1`; de no ser así, habrá un `0`; o bien, si el valor de cada fila es `female`, entonces se asignará un `1`, y en caso de no tenerlo, el número será un `0`.

A continuación se presenta un ejemplo para analizar el caso antes de aplicarlo en el conjunto de datos:

![Dummy](https://drive.google.com/uc?id=154E9SeEl-SFA9bD9oRKw9VwY4DEcNH_k)

Como notarás en el ejemplo de arriba, la columna se separó en dos y los valores se representa con `0` y `1`.

Convertir una columna en valores _dummies_ no es complicado; para hacerlo, se utiliza la función `pd.get_dummies`, la cual solicita dos parámetros:
- `data`: el conjunto de datos, nombrado para fines de este ejemplo como `data` (o `df`).
- `columns`: indicación sobre las columnas que se dividen considerando sus valores categóricos. Este valor debe estar entre corchetes, incluso si únicamente se trata de una columna.

In [28]:
# Crear variables dummy para la variable categórica "Gender"
data = pd.get_dummies(data=data, columns=['Gender'])
data

Unnamed: 0,Height,Weight,Gender_Female,Gender_Male
0,73.847017,241.893563,False,True
1,68.781904,162.310473,False,True
2,74.110105,212.740856,False,True
3,71.730978,220.042470,False,True
4,69.881796,206.349801,False,True
...,...,...,...,...
9995,66.172652,136.777454,True,False
9996,67.067155,170.867906,True,False
9997,63.867992,128.475319,True,False
9998,69.034243,163.852461,True,False


El código de abajo es opcional y servirá para visualizar el nombre de las columnas dentro del conjunto de datos. También puedes emplear la función `.columns` para averiguarlo.

In [29]:
# Mostrar el nombre de las variables dummy creadas
print('\n'.join(data.columns))

Height
Weight
Gender_Female
Gender_Male


Otra opción es utilizar `.head()` para ver el resultado de aplicar el _dummie_. Presta especial atención a la columna `gender`, que se dividió en dos.

In [30]:
# Hecha un vistazo a los datos
data.head()

Unnamed: 0,Height,Weight,Gender_Female,Gender_Male
0,73.847017,241.893563,False,True
1,68.781904,162.310473,False,True
2,74.110105,212.740856,False,True
3,71.730978,220.04247,False,True
4,69.881796,206.349801,False,True


Antes de continuar, aprenderás una de las funciones más importantes: `.loc`.

Al imaginar el conjunto de datos como una tabla de Excel o una matriz, la función `.loc` permite indicar qué filas y columnas se tomarán, desde una especifica hasta un conjunto.

A continuación, entenderás cómo funciona:


Se escribe `.loc` en el conjunto de datos donde se aplicará esta función, por ejemplo, `data.loc` o `df.loc`.

Existen dos formas de escribir esta función:

#### **Método 1**

```python
df[['Columna_A', 'Columna_B', 'Columna_C']].loc[:]
```
Observa cómo se abre un doble corchete (`[[`) después del conjunto de datos, el cual incluirá las columnas a consultar separados por comas(`,`).

Inmediatamente después, se cierran los dos corchetes (`]]`). Si el campose deja vacío (sin los dobles corchetes), Python intepretará que **todas las columnas se seleccionaron**.

En este momento se añade `.loc`. Ahora, se abren los corchetes nuevamente, solo que en este caso son simples (`[`).

En esta parte se colocan dos puntos (`:`), lo cual significa que se seleccionarán todas las filas.

#### **Método 2**
```python
df.loc[:, ['Columna_A', 'Columna_B', 'Columna_C']]  
```
Después del conjunto de datos se escribe `.loc`. Enseguida, se abre un corchete simple (`[`). Después, se colocan dos puntos (`:`), que indican la selección detodas las filas.

A continuación, se añade una coma (`,`) y se indica entre corchetes (`[` y `]`) las columnas a consultar divididas por comas (`,`). Si este campo se deja vacío (sin los corchetes), Python interpretará que **todas las columnas se seleccionaron**.

Finalmente, se cierra el primer corchete colocado (`]`).

#### **Explicación de los dos puntos**.

Como se mencionó anteriormente, si en la función `.loc` se señala que el rango es `:`, esto quiere decir que se seleccionarán todas las filas; sin embargo, si se añade un número sencillo (por ejemplo, `3`) significa que se tomará el cuarto valor (recuerda, la numeración en Python comienza en `0`), de manera que la primera fila es `0`, la segunda es `1` y así sucesivamente.  

Como sabes, Python permite seleccionar más de una columna a través de los rangos donde el primer valor indica la fila de inicio (ten en cuenta que la fila `0` es la primera y la segunda señala dónde se detendrá el rango).

![Range](https://drive.google.com/uc?id=1mpU3C4FElm6FihnZtdJnAsPAx3Dt7RG6)

El segundo valor indica dónde se detendrá el rango; no obstante, ese valor **no se considera**.

La lógica de este método se explica con la imagen anterior donde:
- El primer valor señala la primera celda que tomará. En el ejemplo será la fila `4`, es decir, la quinta fila.
- El segundo valor indica que el rango se detendrá en la fila `9`, o sea, la décima fila, pero esta última no se tomará en cuenta.

![Range2](https://drive.google.com/uc?id=1WFIKpJ1_PT-AAM5J-d7IoGT0j8FNXFDT)

Si se deseara tomar los valores de la fila 0 hasta la 5, esto se expresará como `:6`. El espacio vacío antes de los dos puntos (`:`) dicta que comenzará desde el primer valor posible, mientras que el `6`mencionará hasta dónde llegará, pero sin considerarlo; en otras palabras, hasta la fila inmediata anterior (la fila 5).

Lo mismo sucedería a la inversa: si se abarca de la fila 7 hasta el último valor, entonces se expresará como `7:`. El espacio vacío después de los dos puntos (`:`) indica que se tomará hasta el último valor de la lista.

### Determinar variables dependientes e independientes

Analiza el conjunto de datos: el primer paso es detectar qué predecir. En este ejemplo se quiere conocer el peso de una persona, para ello se toma la columna `Weight`, que será la variable objetivo o variable dependiente.

Las demás variables condicionarán el resultado final, es decir, tanto la altura (columna `Height`) como el género (columnas `Gender_Female` y `Gender_Male`) serán las variables independientes.

La variable dependiente se indica como un **array**, el cual se define como un arreglo, también llamado «vector».

Para convertir una columna en vector se recurre a una función de **Numpy**, escrita de la siguiente forma:

In [31]:
# Define la variable target (Weight)
y = np.array(data['Weight'])

Analiza lo escrito arriba:
- `y =`: crea una nueva variable para usarla posteriormente. Por lo general, se le conoce como `y`, pues en matemáticas se usa con regularidad para expresar la variable dependiente.
- `np.array(`: es la función derivada de **Numpy** que convierte un conjunto de datos en un _array_.
- `data`: es el conjunto de datos del cual se toma la columna.
- `['Weight'])`: es la columna que se transformará en _array_.

Hasta aquí el proceso para la variable objetivo o variable dependiente. Ahora, se hará lo propio con las variables independientes. Enseguida, se ejecutará lo aprendido en la función `.loc`

In [None]:
# Define el conjunto de variables independientes
X = data.loc[:, ['Height' ,'Gender_Female', 'Gender_Male']]

Verás que esta variable se denomina `X` (en mayúscula), y aunque puedes llamarla como prefieras, regularmente se usa este nombre.


##### **Ponte a prueba**

Calcular el MSE, MAE y R2 de las siguientes predicciones.

Predicción: (43.6,44.4,45.2,46,46.8)
Valor real:  (41,45,49,47,44)

Antes de continuar, es importante asegurarse de que la cantidad de filas tanto en la variable dependiente (`y`) como en las independientes (`X`) es la misma.

Para averiguarlo se usa la función `.shape`, que menciona cuántas filas y columnas existen.

In [None]:
# Checa el tamaño de las variables dependiente e independientes
y.shape, X.shape

((10000,), (10000, 3))

Como puedes ver, `y` tiene 10 mil filas, al igual que `X``.



Como último tratamiento antes de llegar a los modelos, es momento de estandarizar las variables independientes `X`.
$$
Z_i=\frac{X_i - \mu}{\sigma}
$$
Donde:
- $Z_i$ es el nuevo valor estándar por cada valor (fila).
- $X_i$ es el valor original de $X$ por cada valor (fila).
- $\mu$ es el promedio de $X$.
- $\sigma$ es la variación estándar de $X$.

In [None]:
media_X = X.mean()
X = X - media_X
std_X = np.std(X)
X_std = X / std_X

  return std(axis=axis, dtype=dtype, out=out, ddof=ddof, **kwargs)


Ahora, se aprecia el resultado de X estandarizado.

In [None]:
X_std.describe()

Unnamed: 0,Height,Gender_Female,Gender_Male
count,10000.0,10000.0,10000.0
mean,0.0,0.0,0.0
std,1.00005,1.00005,1.00005
min,-3.146184,-1.0,-1.0
25%,-0.743876,-1.0,-1.0
50%,-0.012863,0.0,0.0
75%,0.729518,1.0,1.0
max,3.283099,1.0,1.0


In [None]:
X.head()

Unnamed: 0,Height,Gender_Female,Gender_Male
0,1.944061,-1.0,1.0
1,0.627537,-1.0,1.0
2,2.012443,-1.0,1.0
3,1.39406,-1.0,1.0
4,0.913421,-1.0,1.0


La gran ventaja de usar los valores como _arrays_ es que favorecen el cálculo como vectores, es decir, no se opera uno por uno, sino como un todo, para aplicarlo una sola vez.

## La fórmula de regresión lineal con tres variables independientes

Como se ha mencionado, la regresión líneal es una relación proporcional entre las variables independientes y la variable dependiente. A continuación se muestra la fórmula:
$$
y = b + w_{0} x_{0} + w_{1} x_{1} + w_{2} x_{2}
$$
Donde:
- $y$ es la variable dependiente, o sea, el resultado de resolver la ecuación.
- $b$ es la constante de origen.
- $w_i x_i$ (entiéndase que la $i$ vale $0$, $1$, $2$) es el peso que tiene cada variable para el resultado final.

No te procupes: a continuación se explicará mediante un ejemplo qué sucede.

Imagina que un banco determina cuánto dinero está dispuesto a prestar a sus clientes. Para hacerlo, considera muchas variables, como edad, salario, estado civil, etc.

Se parte del supuesto de que para el préstamo de base el banco ofrece 5 mil pesos. Por cada año cumplido prestará mil pesos, por cada peso de salario prestará 0.05 pesos y si la persona está casada, entonces prestará 3 mil pesos más.

Por lo tanto, su fórmula sería:
$$
Préstamo = 5000 + 1000x_1+ 0.05x_2 + 3000x_3
$$

Cada factor tiene un peso distinto, o sea, uno dará cantidades distintas por cada unidad, similar a la fórmula. $w_i$ dice el peso que tendrá, es decir, su relevancia para determinar el número final. $X_i$ es el valor del conjunto de datos(estandarizado), mientras que $b$ es un valor incial, incluso si los demás valores son $0$.

Al usar este modelo, Python determinará los valores.

Otro detalle a considerar es que la fórmula y los ejemplos son funcionales para tres variables, pero aplican a la cantidad que requieras, por ello, la fórmula se ajustaría de la siguiente manera:
$$
y = b + w_{i} x_{i} + \dots + w_{n} x_{n}
$$


## Entrenamiento y predicción utilizando el objeto de regresión lineal de sklearn

**Sklearn** es un conjunto de funciones y objetos útiles para los modelos de predicción. Esta herramienta ya tiene los cálculos matemáticos necesarios para predecir y evaluar los modelos.

A continuación, aprenderás cómo aplicar **Sklearn** en modelos de regresión líneal.

El primer paso es crear un objeto; en este ejemplo, se llama `modelo_LinReg` (aunque algunos lo nombran como `RegresionLineal`, `modelo`, `RLmodel`) y este objeto será el modelo en sí.

El objeto es igual a `LinearRegression()`. Recuerda que esta función se importó al inicio, en la línea:
```python
from sklearn.linear_model import LinearRegression
```

Si todavía no has hecho esta importación, este es un buen momento.

El segundo paso es «entrenar» el modelo, es decir, hacer el ajuste del objeto con Python; para hacerlo, se recurre a la función `.fit`, la cual tiene dos parámetros: **el primero, las variables independientes** (o `X`, como en el ejemplo), y **la segunda, la variable objetivo** (o `y,` según el ejemplo). Recuerda, la variable dependiente (`y`) es un _array_ de una sola columna, mientras que la variable independiente corresponde a una o más columnas; en cualquier caso, las variables deben tener la misma cantidad de filas.





In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
modelo_LinReg = LinearRegression() #necesitamos pasar datos estandarizados para hacer la predicción
modelo_LinReg.fit(X, y)


In [22]:
X['Height'] = (X['Height'] - X['Height'].mean()) / X['Height'].std(ddof= 0)

Al correr el modelo pensarás que no ha sucedido nada, pero en realidad el objeto `modelo_LinReg` se ha entrenado.

Para predecir el valor de la variable dependiente `y`, se solicita con la función `.predict`, aplicable solo al objeto del modelo. En el ejemplo se escribiría como sigue:
```python
prediccion_y = modelo_LinReg.predict()
```

En los paréntesis se indican las variables dependientes para predecir `y`. En este punto, **los tres valores están escalados** (los datos ingresados en `X`) y deben **respetar ese orden**.

Ejemplo de lo anterior es que, al considerar los valores **reales** (en pulgadas y libras) de:

- `Height` = 60
- `Gender_Female` = 1
- `Gender_Male` = 0

Estos se representan como un nuevo _dataframe_. Para facilitar los cálculos, se asignarán a una variable, llamada en este caso `pregunta`.

In [None]:
pregunta = pd.DataFrame({
    'Height': [60],
    'Gender_Female': [1],
    'Gender_Male': [0]
})

Después de esto, se escalan estos valores con la siguiente fórmula:
$$
Z_i = \frac{X_i - \mu}{\sigma}
$$

In [None]:
#Previamente ya calculamos media_X y std_X
pregunta_escalada = (pregunta - media_X) / std_X
pregunta_escalada

Unnamed: 0,Height,Gender_Female,Gender_Male
0,-1.655057,1.0,-1.0


Con lo anterior se obtienen los datos escalados:
- `Height` = 60 $\rightarrow$ -16.829194
- `Gender_Female` = 1 $\rightarrow$ 1
- `Gender_Male` = 0 $\rightarrow$ -1

Ahora, se predice el peso de una persona que mide 60 pulgadas y de género femenino.

In [None]:
modelo_LinReg.predict(pregunta_escalada)

array([113.69297115])

Gracias a lo anterior se predice que la persona pesa 113.69 libras.

Al aplicar la predicción a las variables independientes o `X` se obtendrá una predicción para la variable dependiente o `y`.

Podrías pensar que esta prediccion corresponde a los datos reales, pero la verdad no es así. Esto se explica porque los valores predecidos responden a cálculos matemáticos que tratan de asemejarse a la realidad, pero lo cierto es que esta pocas veces obedece a fórmulas matemáticas.

En el ejemplo, al tomar como referencia el género y la estatura se adivina el peso, pero este dato puede variar, incluso si dos personas presentaran las mismas características de género y estatura.

El siguiente código hará la predicción del peso de todo el conjunto de datos.

In [None]:
prediccion_y = modelo_LinReg.predict(X)

A continuación, se muestra una comparación entre la variable dependiente real (`y`) y la variable dependiente predecida (`prediccion_y`). Recuerda, estos valores están escalados.

In [None]:
pd.DataFrame({'Realidad': y,
              'Prediccion': prediccion_y}).head()

Unnamed: 0,Realidad,Prediccion
0,241.893563,215.833489
1,162.310473,185.559606
2,212.740856,217.405952
3,220.04247,203.18605
4,206.349801,192.133595


Como verás, los valores son similares pero no exactos.

Una forma de determinar esa discrepancia entre variables dependientes e independientes es mediante $R^2$, la cual usa la función `.score` aplicado al objeto del modelo y tiene dos parámetros: la variable independiente escalada o `X` y la variable dependiente escalada o `y`.

In [None]:
# Revisa la medida de R^2 de la regresión anterior
modelo_LinReg.score(X,y)

0.9027481729220092

Como se mencionó anteriormente, todos estos valores obedecen una fórmula matemática:

$$
y = b + w_{0} x_{0} + w_{1} x_{1} + w_{2} x_{2}
$$
Donde:
- $y$ es la variable dependiente predicha y corresponde a la resolución de la ecuación a su derecha.
- $b$ el origen o intercepto, un valor inicial incluso si los valores son 0 y se suman (o restan) entre sí. Se obtiene con la función `.intercept_` aplicada al objeto del modelo.
- $w_0$ el peso que tendrá $x_0$, o sea, la multiplicación de la primera variable independiente con este número y se obtiene mediante la función `.coef_[0]`
- $x_0$ es el valor escalado de la primera variable.
- $w_1$ es exactamente lo mismo que $w_0$, pero aplicada a la segunda variable, la cual se obtiene con la función `coef_[1]`

In [None]:
#Para conocer el intercepto o el origen aplicamos el siguiente código.
modelo_LinReg.intercept_

161.44035683283076

In [None]:
#Para conocer el peso de cada variable aplicamos el siguiente código.
print(modelo_LinReg.coef_[0])
print(modelo_LinReg.coef_[1])
print(modelo_LinReg.coef_[2])

22.995299599268737
-4.84442763047929
4.84442763047929


In [None]:
# Checa los coefientes del modelo
print("Los parámetros del modelo son: w0= {0}, w1={1}, w2={2}".format(modelo_LinReg.coef_[0], modelo_LinReg.coef_[1], modelo_LinReg.coef_[2]))

Los parámetros del modelo son: w0= 22.995299599268737, w1=-4.84442763047929, w2=4.84442763047929


In [None]:
import pandas as pd
import numpy as pd
xx_=np.array([43.6,44.4,45.2,46,46.8])

xx=np.array([41,45,49,47,44])

##### **Ponte a prueba 2**

Eres un analista en una empresa de ventas en línea y has recopilado datos sobre el tiempo que los usuarios pasan en el sitio web y la cantidad que gastan en compras. Quieres establecer una relación entre estas dos variables para predecir el gasto en función del tiempo pasado en el sitio.

Puedes descargar el conjunto de datos del siguiente enlace: https://drive.google.com/file/d/1mwrO9y1pHpxeNTjOlTfoet3OzZ1b9lv_/view?usp=sharing

Tus tareas son:

1. Cargar el conjunto de datos de "tiempo_vs_gasto.csv".
2. Realizar un análisis exploratorio de los datos para entender su distribución.
3. Establecer la variable de tiempo como independiente y la de gasto como dependiente.
4. Entrenar un modelo de regresión lineal simple.
5. Evaluar el modelo utilizando la métrica R2.
6. Interpretar el coeficiente de la regresión para entender cuánto aumenta el gasto por cada minuto adicional que un usuario pasa en el sitio.


## Reto de la semana

Ahora es tu turno: aplicarás la regresión lineal a un ejemplo.

Descarga el archivo CSV de la siguiente liga: https://drive.google.com/file/d/1jNXCAxS9LwthJK2jatqL4z64SUWtnPte/view?usp=sharing.

El archivo es un conjunto de 200 registros que indica los costos de una casa nueva para empleados de IT y de Recursos Humanos de diferentes empresas.

En el documento se consideraron los siguientes factores: salario, cantidad de hijos, departamento al que corresponde y valor de la casa.

Para que tu modelo sea considerado exitoso deberá indicar los coeficientes de cada variable.

Un reto extra para ti consiste en indicar cuánto vale la casa de un empleado que gana 25 000, tiene 2 hijos y trabaja en IT.

No olvides estandarizar las variables independientes.

Concluiste la semana 9. En la próxima sesión, continuarás con el tema de modelos de regresión.

Recuerda anotar todas tus dudas para compartirlas con tu coach y colegas.👌