
# Proyecto de Ciencia de Datos - Parte I
## Dataset: Ames Housing

### Abstract

El presente proyecto tiene como objetivo analizar el dataset **Ames Housing**, una base de datos que contiene información detallada sobre más de 2900 propiedades residenciales vendidas en Ames, Iowa, entre 2006 y 2010. Este dataset es una alternativa moderna al clásico "Boston Housing" y se ha convertido en un recurso popular para prácticas de regresión, exploración y visualización de datos.

Se estudiarán diferentes variables que influyen en el **precio de venta de las casas (`SalePrice`)**, considerando tanto características físicas (superficie, número de habitaciones, calidad de materiales) como categóricas (ubicación, tipo de vivienda, estado general).

A través de gráficos univariados, bivariados y multivariados, acompañados de resúmenes estadísticos, se buscará responder a preguntas clave como:
- ¿Qué variables están más asociadas al precio?
- ¿Cómo varía el precio según la calidad general o la ubicación?
- ¿Existen relaciones no lineales o valores atípicos significativos?

Este análisis será útil tanto para entender mejor el comportamiento del mercado inmobiliario en Ames como para practicar habilidades de ciencia de datos, tales como limpieza de datos, visualización y formulación de hipótesis.


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
df = pd.read_csv("AmesHousing.csv")
df.shape


In [None]:

# Primer vistazo al dataset
df.head()


In [None]:
df.describe()

In [None]:

# Identificación de valores nulos
df.isnull().sum().sort_values(ascending=False).head(10)



## Preguntas e hipótesis de interés

1. ¿Las casas con mayor superficie habitable (`GrLivArea`) tienen precios más altos?
2. ¿Existe una relación positiva entre la calidad general (`OverallQual`) y el precio (`SalePrice`)?
3. ¿Cómo influye el barrio (`Neighborhood`) en el precio promedio de las viviendas?
4. ¿Existen valores atípicos que afectan la relación entre superficie y precio?
5. ¿Qué tan distribuidos están los precios y qué sesgo tiene su distribución?


In [None]:

# Histograma de precios
plt.figure(figsize=(10, 5))
sns.histplot(df['SalePrice'], kde=True)
plt.title('Distribución del precio de venta')
plt.xlabel('Precio de venta')
plt.ylabel('Frecuencia')
plt.show()


In [None]:

# Relación entre superficie y precio
plt.figure(figsize=(10, 6))
sns.scatterplot(x='GrLivArea', y='SalePrice', hue='OverallQual', data=df)
plt.title('Superficie habitable vs Precio de venta (color según calidad)')
plt.show()


In [None]:

# Precio promedio por barrio (top 10)
top_neigh = df.groupby('Neighborhood')['SalePrice'].mean().sort_values(ascending=False).head(10)
sns.barplot(x=top_neigh.values, y=top_neigh.index)
plt.title('Top 10 barrios con mayor precio promedio')
plt.xlabel('Precio promedio')
plt.ylabel('Barrio')
plt.show()


In [None]:

# Distribución del precio por calidad general
plt.figure(figsize=(10, 5))
sns.boxplot(x='OverallQual', y='SalePrice', data=df)
plt.title('Precio de venta según calidad general')
plt.show()
