In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

#2 Recoleccion y limpieza

diccionario = {'Tamaño':[50,60,70,80,90,100,None,120],
               'Habitaciones':[1,2,2,3,3,3,4,4],
               'Ubicacion':[1,1,2,2,3,3,4,4],
               'Precio':[150000,170000,190000,210000,230000,250000,270000,290000]} # 1 Centro - 4 Periferia

df = pd.DataFrame(diccionario)
Media = df['Tamaño'].mean()
df['Tamaño'] = df['Tamaño'].fillna(Media) 
print(Media.round(2))
print(df['Tamaño'])

#3 Division de datos (No puedo mezclar los datos de prueba con los de entrenamiento)
#Conjuntos de entrenamiento y prueba en este caso 80 para entrenar y 20 de prueba
#random_state es similar al seed

X = df[['Tamaño','Habitaciones','Ubicacion']] #Caracteristicas o predictores. 
y = df['Precio'] #Es la variable objetivo a predecir (minuscula por convencion)
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42) 

#4 Seleccion del modelo [Regresion lineal]
model = LinearRegression()

#5 Entrenamiento del modelo para que minimicen el error de la prediccion
model.fit(X_train, y_train) 

y_prediccion = model.predict(X_test)
MSE = mean_squared_error(y_test, y_prediccion)
print(f'\nMSE:{MSE:.2f}')

# **EJEMPLO** y(precio) = 50.000 + 2000*x1(tamaño m2) + 10.000*x2(habitacion #) - 5.000*x3(ubicacion (1-4)) 

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.scatter(X_pca[:,0], X_pca[:,1], c=y)
plt.colorbar(label='precio')
plt.xlabel('Componente principal 1')
plt.ylabel('Componente principal 2')
plt.show()


In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([60,80,100]).reshape(-1,1) #lo transforma en un vector vertical
y = np.array([180000,220000,260000])

modelo = LinearRegression()
modelo.fit(X,y)

print(f'Intercepto: {modelo.intercept_:.0f}')
print(f'Pendiente: {modelo.coef_[0]:.0f}')
print(f'Prediccion para 90 m2: ${modelo.predict([[90]])[0]:.0f}')
print(f'Prediccion para 120 m2: ${modelo.predict([[120]])[0]:.0f}')

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

X = np.array([60,80,100,120]).reshape(-1,1) #lo transforma en un vector vertical
y = np.array([180000,220000,260000,300000])

tam = np.linspace(50,130,100)
precio_predicho = 60000 + 2000*tam
plt.scatter(X,y,color='blue',label='Datos reales')
plt.plot(tam,precio_predicho,color='red',linestyle='--',label='Prediccion')
plt.scatter(120,300000,color='green', label='Prediccion para 120 m2', s=120)
plt.xlabel('Tamaño (m2)')
plt.ylabel('Precio')
plt.legend()
plt.grid(True)
plt.show()