<a href="https://colab.research.google.com/github/Dr-Carlos-Villasenor/PatternRecognition/blob/main/PR01_04_explicacion_variables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reconocimeinto de Patrones
## Dr. Carlos Vilaseñor
## Explicación de variables con un modelo lineal

Importamos la bilioteca necesaria

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

Descargamos el conjunto de datos sobre casas

In [None]:
!wget 'https://raw.githubusercontent.com/Dr-Carlos-Villasenor/PatternRecognition/main/Dataset/home_data.csv'

Leemos y exploramos los datos

In [None]:
df = pd.read_csv('home_data.csv')
df.head()

Veamos las variables que tenemos

In [None]:
df.info()

Calculemos la matriz de correlación para ver que tanto tiene que ver una variable con otra

In [None]:
corr = df.corr()
sns.heatmap(corr,xticklabels=corr.columns,
            yticklabels=corr.columns)
plt.show()

Podemos ver la dispersión de cada variable por separado

In [None]:
# elegimos una variable
var = 'price'
plt.figure()
df[[var]].hist()
plt.figure()
df.boxplot(column=[var])


Elegimos las variables de entrada y la variable de salida, vamos escalar los datos de entrada.

In [None]:
# Quitamos variables de entrada que no tiene importancia y la variable deseada
df2 = df.drop(['id','date','price'], axis=1)

# Graudamos el nombre de las variables para usarlo despues
columns = list(df2.columns)

# Casteamos a un arreglo de numpy
x = np.asanyarray(df2)

# Escalamos los datos de entrada
x = StandardScaler().fit_transform(x)
print('Tamaño de la entrada: ', x.shape)

# Seleccionamos la variable de salida
y = np.asanyarray(df[['price']])
print('Tamaño de la salida: ', y.shape)

Creamos un modelo de regresión lineal y mostramos el entrenamiento

In [None]:
model = LinearRegression()
model.fit(x, y)
print('R2-score: ', model.score(x, y))

Por el momento no nos importa tanto el desempeño del modelo, lo que necesitamos es entender como afectan las variables de entrada a las salida deseada. Para este fin sacaremos los parametros de la regresión lineal.

In [None]:
df3 = pd.DataFrame()
coef = np.abs((model.coef_.ravel()))
df3['coef'] = coef / np.sum(coef)
df3['names'] = columns
df3.sort_values(by=['coef'], ascending=True, inplace=True)
df3.set_index('names', inplace=True)
print(df3)

df3.coef.plot(kind='barh')
plt.xlabel('Importance')
plt.title('Importance of variables over the price')