# ****PROYECTO INTEGRADOR: REAL ESTATE VALUATION****
**REGRESION MÚLTIPLE**

UNIVERSIDAD DE GUADALAJARA   
MAESTRIA EN CIENCIA DE LOS DATOS   
ECONOMETRIA   
MONICA ALONSO SORIA  

## **Contenido**

0. Introducción
1. Estructura de los datos  
2. Modelo clásico de regresión lineal 
3. Prueba de bondad de ajuste  
4. Prueba significancia T y F 
5. Evaluación y predicción con ecuación lineal  
6. Análisis de los residuos  
7. ANOVA 
8. Estimación puntual y por intervalo
9. Variables cualitativas independientes   
10. Regresión logística  
11. Bibliografía

## **Introducción**

* **Fuente de Información**  
El dataset fue obtenido originalmente del [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set) . Para más información, contactar al donante de los datos:   

    Prof. I-Cheng Yeh   
    Department of Civil Engineering, Tamkang    University, Taiwan.    
    140910 '@' mail.tku.edu.tw    
    886-2-26215656 ext. 3181       

* **Acerca de**    
Los datos corresponden a los precios históricos de mercado de bienes y raices (*real estate*) en la provincia de Sindian Dist., New Taipei, Taiwan. 

* **Objetivo**   
El presente es un problema de regresión puesto que se tiene como objetivo la predicción del mercado de bienes y raíces utilizando estos datos.   

* **Investigación relevante**   
Yeh, I. C., & Hsu, T. K. (2018). Building real estate valuation models with comparative approach through case-based reasoning. Applied Soft Computing, 65, 260-271.

## ****Estructura de los datos****  
 
**a. ¿Cuántos elementos hay en la base de datos?**   
    414 registros. 

**b. ¿Cuántas variables presenta la base de datos?**   
    6 variables   
    
**c. ¿Cuáles variables son categóricas?**   
    Ninguna
    
**d. ¿Cuáles son cuantitativas?**           
    X1= la fecha de la transacción (*transaction date*).  
    X2= la edad de la casa (*house age*).       
    X3= la distancia al transporte más cercano (*distance to the nearest MRT station*).       
    X4= el número de tiendas de conveniencia a la redonda (*number of convenience stores in the living circle on foot*.     
    X5= la latidud (*latitude*).     
    X6= la longitud (*longitude*).    
    Y1= el precio de una unidad de área (*house price of unit area*).   

**e. ¿Qué tipo de escala de medición se usa para cada una de las  variables?**              
    X1= la fecha de la transacción (*transaction date*) está expresada como año y mes por lo tanto es ordinal, porque tiene orden.     
    X2= la edad de la casa (*house age*) se mide en años, por lo tanto es nominal.          
    X3= la distancia al transporte más cercano (*distance to the nearest MRT station*), se mide en metros por lo tanto es nominal.       
    X4= el número de tiendas de conveniencia a la redonda (*number of convenience stores in the living circle on foot*), se mide en números enteros y es nominal.    
    X5= la latidud (*latitude*), se mide en grados por lo tanto la escala es intervalo.    
    X6= la longitud (*longitude*), se mide en grados por lo tanto la escala es intervalo.         
    Y1= el precio de una unidad de área (*house price of unit area*) está expresado en 10000 Nuevos dólares taiwaneses/ Ping, donde Ping es la unidad local, 1 Ping = 3.3 metros cuadrados. Por lo tanto es un ratio.    


**f. ¿Cuál es la población de la que provienen los datos?**        
Las casas de la provincia de Sindian Dist., New Taipei, Taiwan.

**g. ¿Qué estructura tienen los datos? (series de tiempo o de corte  transversal)**         
Corte transversal, los datos se obtuvieron mediante la observación de muchos sujetos y en este caso se comparan las diferencias entre los sujetos sin tener en cuenta las diferencias en el tiempo.    

**h. Describa de forma general los datos, puede apoyarse gráficos o  estadística descriptiva.**         
A continuación se procede a realizar el análisis exploratorio de los datos (*exploratory data analysis*) asi como su limpieza.    


In [None]:
# Importar bibliotecas
import numpy as np # linear algebra
import pandas as pd # data processing
import matplotlib.pyplot as plt
import seaborn as sns

#Importar base de datos
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

#Leer base de datos 
data = pd.read_csv('../input/real-estate-price-prediction/Real estate.csv')
data.head()

In [None]:
# Explorar tipos de datos y si hay datos faltantes 
data.info()

In [None]:
# Transformaciones de datos : revisar si todos los datos están en el formato que corresponde y si hay que escalar 

In [None]:
# Creación de nuevos datos : precio (opcional)

In [None]:
''''''
Visualización de datos 

a) Distribuciones de probabilidad 
b) Relación entre variables 
c) Mapa de ubicación de las casas 
d) Outliers
'''''''

# Estadísticos descriptivos y gráficos
-m pip install -upgrade pip

!pip install sweetviz
import sweetviz as sv
from IPython.display import Image

df_analysis =sv.analyze(data) # analiza los datos
df_analysis.show_html('data_analysis.html') #muestra los datos en html
Image("../input/sweetviz/sweetviz.JPG")

# BOXPLOTS (BOX-AND-WHISKER PLOTS) + STRIP PLOTS

'''
Outliers in the boxplot are values outside the minumum or maximum , in this case Figure 1 indicates: 
- Sepal lenght : Iris-setosa presents values over the maximum / Iris virginica has values under the minimum
- Sepal width : Iris-virginica has outliers below and above the minimum(maximum) limit
- Petal lenght : Iris-versicolor has values below the minimum / Iris-setosa has outliers too
- Petal width : outliers exist Iris-setosa

'''

sns.set(style="darkgrid") 
sns.set_palette("husl", 3) #This palette was defined for every graph (Law of Similarity)
plt.figure(figsize=(14,13))
plt.subplot(2,2,1)
plt.title("Sepal lenght (cm)")
sns.boxplot(x='species',y='sepal_length', data=data)
sns.stripplot(x='species',y='sepal_length',data=data,jitter=True,edgecolor='white',linewidth=.5)  # The linewidth has to be thick enough in order to differentiate the stripplot from the boxplot (Law of Figure/Ground)
plt.ylabel("") # We are already stating the (cm) in the tile (Law of Prägnanz)
plt.subplot(2,2,2)
plt.title("Sepal width (cm)")
sns.boxplot(x='species',y='sepal_width',data=data)
sns.stripplot(x='species',y='sepal_width',data=data,jitter=True,edgecolor='white',linewidth=.5)
plt.ylabel("")
plt.subplot(2,2,3)
plt.title("Petal lenght (cm)")
sns.boxplot(x='species',y='petal_lenght',data=data)
sns.stripplot(x='species',y='petal_lenght',data=data,jitter=True,edgecolor='white',linewidth=.5)
plt.ylabel("")
plt.subplot(2,2,4)
plt.title("Petal width (cm)")
sns.boxplot(x='species',y='petal_width',data=data)
sns.stripplot(x='species',y='petal_width',data=data,jitter=True,edgecolor='white',linewidth=.5)
plt.ylabel("")
fig = plt.gcf()
fig.suptitle("Figure 1. Comparison of Iris flower charateristics by species [BoxPlot]", fontsize=14) # Title : same one for every graph
fig.subplots_adjust(top=0.91, bottom=0.08) #Margins customization
plt.show()

## **2. Modelo clásico de regresión lineal**  

**Agregar supuestos del modelo del modelo** 
**Partir el dataset**


**a. Determina las variables a analizar.** 

**b. Calcular la ecuación de regresión lineal que explique la relación entre la  variable (y) con respecto a la variable (x).**


**c. Validar los supuestos del modelo clásico de regresión lineal (Linealidad,  Homocedasticidad, Independencia, Normalidad, no colinealidad)**