<h2 style="color:green" align="center"> Aprendizaje Autom√°tico Con Python: Regresi√≥n Lineal M√∫ltiples Variables</h2>

<h3 style="color:purple">Problema de ejemplo de predicci√≥n de precios de viviendas en Monroe, Nueva Jersey (EE.UU.)</h3>

A continuaci√≥n se muestra la tabla con precios de viviendas en Monroe Twp, NJ. Aqu√≠ el precio depende del **√°rea (pies cuadrados), n√∫mero de habitaciones y antig√ºedad de la vivienda (en a√±os)**. Dados estos precios, tenemos que predecir los precios de nuevas viviendas bas√°ndonos en el √°rea, n√∫mero de habitaciones y antig√ºedad.

<img src="homeprices.jpg" style='height:200px;width:350px'>

Dados estos precios de viviendas, encuentra el precio de una vivienda que tiene:

**3000 pies cuadrados de √°rea, 3 habitaciones, 40 a√±os de antig√ºedad**

**2500 pies cuadrados de √°rea, 4 habitaciones, 5 a√±os de antig√ºedad**

Usaremos regresi√≥n con m√∫ltiples variables aqu√≠. El precio se puede calcular usando la siguiente ecuaci√≥n:

<img src="equation.jpg" >

Aqu√≠ √°rea, habitaciones y antig√ºedad se llaman variables independientes o **caracter√≠sticas**, mientras que el precio es una variable dependiente

In [1]:
import pandas as pd
import numpy as np
from sklearn import linear_model

In [2]:
df = pd.read_csv('homeprices.csv')
df

Unnamed: 0,area,bedrooms,age,price
0,2600,3.0,20,550000
1,3000,4.0,15,565000
2,3200,,18,610000
3,3600,3.0,30,595000
4,4000,5.0,8,760000
5,4100,6.0,8,810000


In [3]:
df.isnull().sum()

area        0
bedrooms    1
age         0
price       0
dtype: int64

In [14]:
#df.dropna(inplace=True)
df2 = df.dropna()
df2 

Unnamed: 0,area,bedrooms,age,price
0,2600,3.0,20,550000
1,3000,4.0,15,565000
2,3200,4.0,18,610000
3,3600,3.0,30,595000
4,4000,5.0,8,760000
5,4100,6.0,8,810000


**Preprocesamiento de Datos: Llenar valores NA con el valor de la mediana de la columna**

In [5]:
df.bedrooms.median()

4.0

In [6]:
df

Unnamed: 0,area,bedrooms,age,price
0,2600,3.0,20,550000
1,3000,4.0,15,565000
2,3200,,18,610000
3,3600,3.0,30,595000
4,4000,5.0,8,760000
5,4100,6.0,8,810000


In [7]:
df.bedrooms = df.bedrooms.fillna(df.bedrooms.median())
df

Unnamed: 0,area,bedrooms,age,price
0,2600,3.0,20,550000
1,3000,4.0,15,565000
2,3200,4.0,18,610000
3,3600,3.0,30,595000
4,4000,5.0,8,760000
5,4100,6.0,8,810000


In [8]:
reg = linear_model.LinearRegression()
reg.fit(df.drop('price',axis='columns').values,df.price)

In [9]:
reg.coef_

array([  112.06244194, 23388.88007794, -3231.71790863])

In [19]:
reg.intercept_

np.float64(14910.231291544944)

**Encontrar el precio de una vivienda con 3000 pies cuadrados de √°rea, 3 habitaciones, 40 a√±os de antig√ºedad**

In [11]:
reg.predict([[3000, 3, 40]])

array([498408.25158031])

In [12]:
112.06244194*3000 + 23388.88007794*3 + -3231.71790863*40 + 221323.00186540384

498408.25157402386

**Encontrar el precio de una vivienda con 2500 pies cuadrados de √°rea, 4 habitaciones, 5 a√±os de antig√ºedad**

In [13]:
reg.predict([[2500, 4, 5]])

array([578876.03748933])

<h3>Ejercicio<h3>

En la carpeta de ejercicios (mismo nivel que este notebook en GitHub) est√° el archivo **hiring.csv**. Este archivo contiene estad√≠sticas de contrataci√≥n de una empresa como la experiencia del candidato, su puntuaci√≥n en la prueba escrita y la puntuaci√≥n en la entrevista personal. Bas√°ndose en estos 3 factores, Recursos Humanos decidir√° el salario. Dados estos datos, necesitas construir un modelo de aprendizaje autom√°tico para el departamento de RRHH que les ayude a decidir los salarios para futuros candidatos. Usando esto, predice los salarios para los siguientes candidatos:


**2 a√±os de experiencia, 9 puntos en la prueba, 6 puntos en la entrevista**

**12 a√±os de experiencia, 10 puntos en la prueba, 10 puntos en la entrevista**


In [24]:
df = pd.read_csv('Exercise/hiring.csv')
df

Unnamed: 0,experience,test_score(out of 10),interview_score(out of 10),salary($)
0,,8.0,9,50000
1,,8.0,6,45000
2,five,6.0,7,60000
3,two,10.0,10,65000
4,seven,9.0,6,70000
5,three,7.0,10,62000
6,ten,,7,72000
7,eleven,7.0,8,80000


In [25]:
import pandas as pd
import numpy as np
from sklearn import linear_model

# Cargar los datos
df = pd.read_csv("Exercise/hiring.csv")

# Diccionario para convertir palabras a n√∫meros
word_to_num = {
    'zero': 0,
    'one': 1,
    'two': 2,
    'three': 3,
    'four': 4,
    'five': 5,
    'six': 6,
    'seven': 7,
    'eight': 8,
    'nine': 9,
    'ten': 10,
    'eleven': 11,
    'twelve': 12
}

# Funci√≥n para convertir experiencia de texto a n√∫mero
def convert_experience(x):
    if pd.isnull(x):
        return np.nan
    x = str(x).lower().strip()
    return word_to_num.get(x, np.nan)

# Aplicar conversi√≥n
df['experience'] = df['experience'].apply(convert_experience)

# Reemplazar valores nulos por la media de la columna
df['experience'] = df['experience'].fillna(df['experience'].mean())
df['test_score(out of 10)'] = df['test_score(out of 10)'].fillna(df['test_score(out of 10)'].mean())

print("‚úÖ Nueva base de datos limpia:\n")
print(df)

# Variables independientes (X) y dependiente (y)
X = df[['experience', 'test_score(out of 10)', 'interview_score(out of 10)']]
y = df['salary($)']

# Crear y entrenar modelo
reg = linear_model.LinearRegression()
reg.fit(X, y)

# ---- Predicciones ----
pred_1 = reg.predict([[2, 9, 6]])    # Candidato 1
pred_2 = reg.predict([[12, 10, 10]]) # Candidato 2

# Mostrar resultados
print("\nüíº Predicciones de salario:")
print(f"‚û°Ô∏è Candidato 1 (2 a√±os, 9 test, 6 entrevista): ${pred_1[0]:.2f}")
print(f"‚û°Ô∏è Candidato 2 (12 a√±os, 10 test, 10 entrevista): ${pred_2[0]:.2f}")


‚úÖ Nueva base de datos limpia:

   experience  test_score(out of 10)  interview_score(out of 10)  salary($)
0    6.333333               8.000000                           9      50000
1    6.333333               8.000000                           6      45000
2    5.000000               6.000000                           7      60000
3    2.000000              10.000000                          10      65000
4    7.000000               9.000000                           6      70000
5    3.000000               7.000000                          10      62000
6   10.000000               7.857143                           7      72000
7   11.000000               7.000000                           8      80000

üíº Predicciones de salario:
‚û°Ô∏è Candidato 1 (2 a√±os, 9 test, 6 entrevista): $47738.89
‚û°Ô∏è Candidato 2 (12 a√±os, 10 test, 10 entrevista): $86424.67




<h3>Respuesta<h3>

53713.86 and 93747.79