Buscamos un poco de información de como hacer este proceso y acerca de la regresión lineal, no tanto para nosotros ya que somos profesionales en este tema, sino para nuestro cliente, para que al menos tenga una vaga idea de este método

La **regresión lineal** es un método estadístico que modela la relación entre una variable dependiente (o respuesta) y una o más variables independientes (o predictoras) mediante una ecuación lineal. En su forma más básica (regresión lineal simple), la ecuación es:  


$y = \beta_0 + \beta_1 x + \epsilon$

Donde:  
- ($y$): variable dependiente.  
- ($x$): variable independiente.  
- ($\beta_0$): término constante (intercepto).  
- ($\beta_1$): coeficiente que mide la relación entre ($x$) e ($y$).  
- ($\epsilon$): error o ruido.  

En **regresión lineal múltiple**, se incluyen múltiples variables independientes, y la ecuación se extiende a:


$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon$


Este método se usa ampliamente en diversos campos como economía, biología, ingeniería y análisis de datos, debido a su simplicidad y facilidad de interpretación.


## Posible uso en la predicción de precios de casas

En el contexto del mercado inmobiliario, la regresión lineal puede ser una herramienta efectiva para predecir el precio de una casa (\(y\)) basado en características como:  
- Tamaño en metros cuadrados ($x_1$).  
- Ubicación ($x_2$).  
- Número de habitaciones ($x_3$).  
- Edad de la propiedad ($x_4$).  
- Entre otros factores.

Cada coeficiente ($\beta_i$) representa el impacto estimado de esa característica específica en el precio.

### Ventajas:

1. **Simplicidad**: Fácil de implementar e interpretar.   
2. **Transparencia**: Los coeficientes muestran claramente cómo afecta cada variable al precio.  
4. **Flexibilidad básica**: Funciona bien cuando la relación entre las variables independientes y el precio es lineal.

### Limitaciones:
1. **Suposición de linealidad**: La regresión lineal asume que la relación entre las variables es lineal, lo que puede no reflejar adecuadamente las dinámicas complejas del mercado inmobiliario.  
2. **Sensibilidad a valores atípicos**: Los datos anómalos pueden sesgar los resultados.  
3. **Interacciones y no linealidades**: No capta relaciones más complejas entre las variables, como efectos interactivos o no lineales.  
4. **Multicolinealidad**: Si las variables independientes están correlacionadas entre sí, los coeficientes pueden ser inestables.


In [8]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.model_selection import train_test_split
import warnings

%matplotlib inline
warnings.filterwarnings('ignore')

Bueno una vez explicada un poco la teoría nos pusimos mano a la obra en la práctica

In [9]:
df=pd.read_csv("housing_Melbourne_big.csv")

Quitemos todos los valores nulos que no nos interesan

In [10]:
df.dropna(how='any', subset=['Price'],inplace = True) 

Datos como 'address''date''postcode' no nos brindan ninguna información referente al precio de las casas, por lo que lo quitamos, las demás columnas las volvemos numéricas, ya que si pueden brindarnos cierta información respecto al precio de una casa

In [11]:
df.drop(["Address","Date","Postcode"], axis=1,inplace=True)
df.dropna(inplace=True)

from sklearn import preprocessing 
  
label_encoder = preprocessing.LabelEncoder() 

df['Suburb']= label_encoder.fit_transform(df['Suburb'])
df['Type']= label_encoder.fit_transform(df['Type'])
df['Method']= label_encoder.fit_transform(df['Method'])
df['SellerG']= label_encoder.fit_transform(df['SellerG'])
df['Regionname']= label_encoder.fit_transform(df['Regionname'])
df['CouncilArea']= label_encoder.fit_transform(df['CouncilArea'])


Apliquemos entonces nustro modelo de regresión lineal, por convención usamos el 20% de los datos para testear

In [12]:
X1 = df.drop(['Price'], axis=1)

y1 = df['Price']

X1_train, X1_test, y1_train, y1_test = train_test_split(X1,y1, test_size = .20, random_state= 0)

In [13]:
lm_regressor = LinearRegression().fit(X1_train,y1_train)


In [14]:
lm_regressor.score(X1_test, y1_test)

0.5641144413425099

56.41% de efectividad... |:
Ok es bastante lamentable, como no podíamos entregarle algo tan mediocre a nuestro cliente, decidimos mejorar este resultado haciendo una limpieza de nuestros datos lo mejor posible, al menos queríamos superar el 60%, así que el trabajo seguía