# **Abstract del dataset**
El conjunto de datos de vivienda de Austin le brinda toda la información que necesita saber sobre el mercado inmobiliario en Austin, Texas, y es una excelente manera de ver lo que está sucediendo en el mundo de la vivienda. Salida: este conjunto de datos tiene un montón de información sobre propiedades inmobiliarias, por lo que podemos observar las diferentes partes del mercado.
Este conjunto de datos tiene una característica interesante: tiene precios de viviendas, por lo que puede ver cómo cambian y dónde se encuentran en Austin. Conocer esta información es muy importante para calcular cuánto cuestan las casas en el área y tomar decisiones inmobiliarias inteligentes.
El conjunto de datos también contiene información sobre el tamaño del terreno, cuántas habitaciones y baños tiene la casa, cuánto espacio cubre, dónde está ubicada y otras cosas importantes para la casa. "Estas funciones brindan toda la información que se necesita para comparar y analizar las casas, para que pueda tomar la mejor decisión".
También podemos utilizar el conjunto de datos para observar cómo se distribuye geográficamente el mercado inmobiliario en Austin. Al observar dónde están las propiedades y cómo se comparan con aspectos como el costo y las características, los investigadores pueden determinar qué lugares son populares o tienen mucho potencial de crecimiento, y qué lugares tienen viviendas mejores o más baratas.
Además, este conjunto de datos es un gran recurso para realizar predicciones en el aprendizaje automático. Resultado: Podemos usar algunas cosas matemáticas sofisticadas para hacer modelos que adivinen cuánto vale una casa en función de diferentes cosas, y eso puede ser muy útil para las personas que se ocupan de casas, como agentes, compradores y vendedores.


In [None]:
#Agregamos las librerías a utilizar
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Planteamos las siguientes hipotesis:

**Hipotesis 1:**
Impacto de las características de la vivienda en el precio: Una hipótesis podría ser que ciertas características de la vivienda, como el tamaño del lote, el número de habitaciones, la ubicación geográfica, etc., tienen un impacto significativo en el precio de la vivienda en Austin.




In [None]:
# Cargar el dataset
df = pd.read_csv('josedanielnoriega/AustinHousingAnalysis/austinHousingData.csv')

In [None]:
# Hipótesis 1: Impacto de las características de la vivienda en el precio
# Visualización univariada de características numéricas relacionadas con el precio
plt.figure(figsize=(8, 6))
plt.scatter(df['lotSizeSqFt'], df['latestPrice'], color='green', alpha=0.7)
plt.title('Relación entre el tamaño del lote y el precio de la vivienda')
plt.xlabel('Tamaño del lote (pies cuadrados)')
plt.ylabel('Precio de la vivienda')
plt.grid(True)
plt.show()

#Este gráfico tiene valores que se disparan mucho del precio estándar, lo que dificulta analizar este precio de manera gráfica

In [None]:
#Sin embargo, cuando visualizamos las siguiente gráfica de visualización de distribución
# por Área habitable en pies cuadrados, la información se vuelve más clara
#haciendo un zoom a los datos, podemos notar que el tamaño no necesariamente dicta
#el costo de la propiedad, considerar otros factores se vuelve necesario.


In [None]:
#Ahora veamos cuantos baños suelen tener las viviendas
plt.hist(df['numOfBathrooms'], bins=30, color='skyblue', edgecolor='black')
plt.title("Distribución de numOfBathrooms")
plt.xlabel('numOfBathrooms')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()

#Se vuelve interesante ver que la mayoría de las propiedades en el dataset tienen entre
#1 y 5 baños. podría estar conectado con el valor de la propiedad?

In [None]:
#Ahora analizamos el numero de baños en el costo de la vivienda
plt.figure(figsize=(10, 6))
plt.scatter(df['numOfBathrooms'], df['latestPrice'], color='blue', alpha=0.7)
plt.title('Relación entre el número de baños y el precio de la vivienda')
plt.xlabel('Número de baños')
plt.ylabel('Precio de la vivienda')
plt.grid(True)
plt.show()

#es facil ver que de 1 a 5 baños, el precio se mantiene estable salvo algunas
#raras excepciones, sin embargo, en el caso de 5 baños o más, el precio se dispara

In [None]:
#Ahora veamos cuantos habitaciones suelen tener las viviendas
plt.hist(df['numOfBedrooms'], bins=30, color='skyblue', edgecolor='black')
plt.title("Distribución de numOfBedrooms")
plt.xlabel('numOfBedrooms')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()

#Se vuelve interesante ver que la mayoría de las propiedades en el dataset tienen entre
#1 y 5 baños. podría estar conectado con el valor de la propiedad?

In [None]:
#Ahora analizamos el numero de habitaciones y el costo de la vivienda
plt.figure(figsize=(10, 6))
plt.scatter(df['numOfBedrooms'], df['latestPrice'], color='blue', alpha=0.7)
plt.title('Relación entre el número de dormitorios y el precio de la vivienda')
plt.xlabel('Número de dormitorios')
plt.ylabel('Precio de la vivienda')
plt.grid(True)
plt.show()

#El precion muestra un comportamiento interesante, pues 5 habitaciones se vuelve el punto de inflexión


En conclusión para la hipótesis 1.
Las características de una propiedad afectan directamente al precio de la misma, no solo la distancia, el tamaño, la cantidad de amenidades, etc, sino que TODO el conjunto afecta al valor de la propiedad. Contrario a lo que yo creía, mayor  cantidad de habitaciones no siempre implica mayor precio, pues dependerá de más datos como la zona, ciudad, negocios y eficios al rededor, etc.

Hipótesis 2:
Impacto de la cercanía con las escuelas en el precio de la vivienda: Esta hipótesis se centra en investigar si la distancia de una propiedad con una escuela tiene un impacto significativo en su precio.


In [None]:
#Empecemos por analizar el costo de la vivienda y la distancia promedio a las escuelas
# Visualización entre el costo de la vivienda y la distancia promedio a las escuelas
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='avgSchoolDistance', y='latestPrice', color='blue', alpha=0.7)
plt.title('Precio de la vivienda en función de la distancia promedio a las escuelas')
plt.xlabel('Distancia promedio a las escuelas')
plt.ylabel('Precio de la vivienda')
plt.grid(True)
plt.show()



In [None]:
#Aunque en México, pareciera norma que mientras más cerca de una escuela u otros
#establecimientos como restaurantes, centros comerciales, etc, el precio de la vivienda
#es más alto, en Austin TX es lo contrario, pues parece ser que a mayor cercanía de una escuela
#menor es el costo hasta un cierto punto donde el costo comienza a aumentar.

#Ahora veamos el costo de las viviendas respecto a la distancia de las escuelas por
#calificación

df = df.dropna(subset=['latestPrice', 'avgSchoolDistance', 'avgSchoolRating'])
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='avgSchoolDistance', y='latestPrice', hue='avgSchoolRating', palette='viridis', size='avgSchoolRating', sizes=(20, 200))
plt.title('Precio de la vivienda vs. Distancia a la escuela con respecto a la calificación promedio de las escuelas')
plt.xlabel('Distancia promedio a la escuela (millas)')
plt.ylabel('Precio de la vivienda')
plt.legend(title='Calificación promedio de las escuelas')
plt.grid(True)
plt.show()


In [None]:
#Más datos interesantes, pues mientras la escuela tiene mejor calificación, y su cercanía aumenta,
#El costo de la vivienda aumenta
