# Análisis de correlación
![Correlación](correlacion.jpg)

In [None]:
import numpy as np # https://numpy.org/
import pandas as pd # https://pandas.pydata.org/
import seaborn as sns # https://seaborn.pydata.org/
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('precio_prep_reg.csv', header = 0) # Leer el archivo generado en el notebook de preproceso

In [None]:
df.corr() # Muestra las correlaciones cruzadas de los atributos numéricos

In [None]:
# Se pueden visualizar mejor la correlación entre las variables utilizando un mapa de calor (heatmap)
import matplotlib.pyplot as plt
plt.figure(figsize=(14, 14), facecolor = 'lightgray')
sns.heatmap(df.corr(), annot = True, cmap = 'winter_r')
plt.savefig('mapa.jpg', dpi = 600)

# Regresión lineal simple por el método de los mínimos cuadrados

In [None]:
import statsmodels.api as sn # Importar modulo que desarrolla la regresión lineal por el método de los mínimos cuadrados

In [None]:
X = sn.add_constant(df['num_hab']) # Generar constantes iniciales de los parámetros
# theta h(x) = theta0 + theta1 * X

In [None]:
X # Ver las constantes generadas

In [None]:
linear_model = sn.OLS(df['precio'], X).fit() # Crear el modelo y realizar el ajuste de los parámetros

In [None]:
linear_model.summary() # Ver los estadísticos del modelo

In [None]:
sns.scatterplot(x = df['num_hab'], y = df['precio']) # Visualizar la nube de puntos

In [None]:
sns.lineplot(x = df['num_hab'], y = -34.6592 + 9.0997*df['num_hab']) # Opción 1: Visualizar la línea de regresión generada
# por el modelo

In [None]:
sns.regplot(x = df['num_hab'], y = df['precio']) # Opción 2: Visualizar nube de puntos y línea de regresión
# usando la función regplot

In [None]:
sns.jointplot(x = df['num_hab'], y = df['precio'], kind = 'reg', color = 'blue') # Opción 3: Visualizar la nube de
# puntos y línea de regresión con la función jointplot (kind = 'reg')

In [None]:
sns.jointplot(x = df['num_hab'], y = df['precio'], kind = 'resid', color = 'darkorange') # Igualmente con la función
# jointplot (kind = 'resid') podemos visualizar los residuos (alturas) de los valores observados vs los predichos

In [None]:
def proyeccion(x):
    y = -34.6592 + 9.0997 * x
    print('El valor proyectado es', '{0:.2f}'.format(y))

In [None]:
proyeccion(10)

In [None]:
linear_model.predict([1,10])

# Regresión lineal multiple

In [None]:
X_multiple = df.drop('precio', axis = 1) # Crear un nuevo dataframe sin la columna precio (axis=1 -> borra columna)

In [None]:
X_multiple.head() # Verificar

In [None]:
y_multiple = df['precio']

In [None]:
y_multiple

In [None]:
X_multiple_constante = sn.add_constant(X_multiple)

In [None]:
X_multiple_constante

In [None]:
lin_model_mult = sn.OLS(y_multiple, X_multiple_constante).fit()

In [None]:
lin_model_mult.summary()

# Regresión lineal múltiple con el modulo sklearn

In [None]:
from sklearn.linear_model import LinearRegression # Importar el modulo y la función necesaria

In [None]:
lin_model_sk = LinearRegression() # Crear el modelo

In [None]:
lin_model_sk.fit(X_multiple, y_multiple) # Ajustar el modelo a los datos

In [None]:
lin_model_sk.intercept_, lin_model_sk.coef_ # Ver los valores del intercepto y de los coeficientes