# Introducción a modelos de regresión

## Primera parte: Analizar los datos

### Importamos las librerías necesarias

In [None]:
import numpy as np # algebra lineal
import pandas as pd # procesamiento de datos
import matplotlib.pyplot as plt # generación de gráficos

### Importamos nuestro conjunto de datos

In [None]:
precios_casas = pd.read_csv("./house_data.csv")

### Analizamos los datos y metadatos de nuestro data frame

In [None]:
precios_casas.describe()

### Limpiamos los valores nulos

In [None]:
precios_casas = precios_casas.fillna(method='ffill')

## Segunda parte: Modelo de regresión lineal simple

### Extraemos nuestras variables a usar

In [None]:
datos = precios_casas['sqft_living']
precio = precios_casas['price']

In [None]:
x = np.array(datos).reshape(-1, 1)
y = np.array(precio)

### Debemos separar nuestros datos para entrenamiento y pruebas

In [None]:
from sklearn.model_selection import train_test_split 
xtrain, xtest, ytrain, ytest = train_test_split(x,y,test_size=1/3, random_state=0)

### Generamos nuestro modelo de regresión lineal

In [None]:
from sklearn.linear_model import LinearRegression 
regressor = LinearRegression()
regressor.fit(xtrain, ytrain)

### Validamos nuestro modelo con la base de pruebas

In [None]:
pred = regressor.predict(xtest)

In [None]:
pred

### Graficamos nuestro modelo

In [None]:
#Visualizamos nuestra base de entrenamiento
plt.scatter(xtrain, ytrain, color= 'red')
plt.plot(xtrain, regressor.predict(xtrain), color = 'blue')
plt.title ("Análisis de los datos de entrenamiento")
plt.xlabel("Espacio")
plt.ylabel("Precio")
plt.show()

In [None]:
#Visualizamos nuestra base de pruebas
plt.scatter(xtest, ytest, color= 'red')
plt.plot(xtrain, regressor.predict(xtrain), color = 'blue')
plt.title("Análisis de los datos de prueba")
plt.xlabel("Espacio")
plt.ylabel("Precio")
plt.show()

### Verificamos el accuracy de nuestro modelo

In [None]:
accuracy = regressor.score(xtest, ytest)

In [None]:
print("Accuracy: {}%".format(int(round(accuracy * 100))))

## Segundo modelo: Regresión Lineal múltiple

### Revisamos todos los campos y verificamos cuales sí deberían aplicar a nuestro modelo

In [None]:
all_params = list(precios_casas)

In [None]:
x_vars=['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot','floors', 'waterfront','condition', 'grade', 'sqft_above', 'sqft_basement', 'yr_built','sqft_living15', 'sqft_lot15','yr_renovated']
print(list(set(all_params) - set(x_vars)))

### Descartamos las variables que no serán utilizadas y asignamos nuestra variable objetivo

In [None]:
y = precios_casas.iloc[:, 2].values
precios_casas = precios_casas.drop(['date','price','lat', 'zipcode', 'view', 'id', 'long'], axis =1)
X = precios_casas.iloc[:, ].values

### Separamos en datos de entrenamiento y testing

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

### Aplicamos un Scaler para que nuestra regresión lineal soporte más de una variable

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

### Verificamos el accuracy de nuestro modelo

In [None]:
accuracy = regressor.score(X_test, y_test)
print("Accuracy: {}%".format(int(round(accuracy * 100))))