
---

# Examen Práctico: Ventas de Casas

**RealAgents** es una empresa inmobiliaria que se centra en la venta de casas.

RealAgents vende una variedad de tipos de viviendas en una misma área metropolitana.

Algunas casas se venden lentamente y, en ocasiones, es necesario reducir el precio para encontrar un comprador.

Con el fin de mantenerse competitiva, RealAgents desea optimizar los precios de lista de las casas que está tratando de vender.

Quieren lograrlo **prediciendo el precio de venta de una casa según sus características**.

Si pueden predecir el precio de venta con anticipación, podrán **reducir el tiempo de venta**.

---

## Datos

El conjunto de datos contiene registros de casas vendidas previamente en la zona.

| Nombre de columna  | Criterio                                                                                                                                                                                                               |
| ------------------ | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **house\_id**      | Nominal. </br> Identificador único de cada casa. </br>No se permiten valores faltantes.                                                                                                                                |
| **city**           | Nominal. </br>La ciudad en la que se encuentra la casa. Una de: *Silvertown*, *Riverford*, *Teasdale* o *Poppleton*. </br>Reemplazar valores faltantes por `"Unknown"`.                                                |
| **sale\_price**    | Discreta. </br>Precio de venta de la casa en dólares enteros. Puede ser cualquier número positivo mayor o igual a cero. </br>Eliminar entradas faltantes.                                                              |
| **sale\_date**     | Discreta. </br>Fecha de la última venta de la casa. </br>Reemplazar valores faltantes por `2023-01-01`.                                                                                                                |
| **months\_listed** | Continua. </br>Número de meses que la casa estuvo listada en el mercado antes de su última venta, redondeado a un decimal. </br>Reemplazar valores faltantes por la media del número de meses listados (a un decimal). |
| **bedrooms**       | Discreta. </br>Número de dormitorios de la casa. Cualquier valor positivo mayor o igual a cero. </br>Reemplazar valores faltantes por la media de dormitorios, redondeada al número entero más cercano.                |
| **house\_type**    | Ordinal. </br>Uno de: *Terraced* (dos paredes compartidas), *Semi-detached* (una pared compartida) o *Detached* (ninguna pared compartida). </br>Reemplazar valores faltantes por el tipo de casa más común.           |
| **area**           | Continua. </br>Área de la casa en metros cuadrados, redondeada a un decimal. </br>Reemplazar valores faltantes por la media (a un decimal).                                                                            |

---


---

# Tarea 1

El equipo de **RealAgents** sabe que la ciudad en la que se ubica una propiedad influye en el precio de venta.

Desafortunadamente, creen que este dato no siempre está registrado en la información.

Calcular el **número de valores faltantes** en la columna `city`.

* Debes usar los datos del archivo **"house\_sales.csv"**.
* Tu salida debe ser un objeto llamado **`missing_city`**, que contenga el número de valores faltantes en esta columna.

---


In [1]:
import pandas as pd 

df = pd.read_csv('/home/jefferssonds/Documentos/VSC/DSA_DATACAMP-20250806T020709Z-1-001/DSA_DATACAMP/certificado_examen/data/house_sales.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500 entries, 0 to 1499
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   house_id       1500 non-null   int64  
 1   city           1500 non-null   object 
 2   sale_price     1500 non-null   int64  
 3   sale_date      1500 non-null   object 
 4   months_listed  1469 non-null   float64
 5   bedrooms       1500 non-null   int64  
 6   house_type     1500 non-null   object 
 7   area           1500 non-null   object 
dtypes: float64(1), int64(3), object(4)
memory usage: 93.9+ KB


In [2]:
missing_city = len(df[df['city'] == '--'])


---

# Tarea 2

Antes de ajustar cualquier modelo, necesitas asegurarte de que los datos estén limpios.

La siguiente tabla muestra cómo deberían verse los datos.

Crea una versión limpia del **dataframe**.

* Debes comenzar con los datos del archivo **"house\_sales.csv"**.
* Tu salida debe ser un **dataframe** llamado **`clean_data`**.
* Todos los nombres de columnas y valores deben coincidir con lo indicado en la tabla.

| Nombre de columna  | Criterio                                                                                                                                                                                                     |
| ------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **house\_id**      | Nominal. </br> Identificador único para cada casa. </br>No se permiten valores faltantes.                                                                                                                    |
| **city**           | Nominal. </br>La ciudad en la que se encuentra la casa. Una de: *Silvertown*, *Riverford*, *Teasdale* o *Poppleton*. </br>Reemplazar valores faltantes por `"Unknown"`.                                      |
| **sale\_price**    | Discreta. </br>Precio de venta de la casa en dólares enteros. Puede ser cualquier número positivo mayor o igual a cero. </br>Eliminar registros con valores faltantes.                                       |
| **sale\_date**     | Discreta. </br>Fecha de la última venta de la casa. </br>Reemplazar valores faltantes por `2023-01-01`.                                                                                                      |
| **months\_listed** | Continua. </br>Número de meses que la casa estuvo listada en el mercado antes de su última venta, redondeado a un decimal. </br>Reemplazar valores faltantes con la media de meses listados (a un decimal).  |
| **bedrooms**       | Discreta. </br>Número de dormitorios de la casa. Cualquier valor positivo mayor o igual a cero. </br>Reemplazar valores faltantes con la media de dormitorios, redondeada al número entero más cercano.      |
| **house\_type**    | Ordinal. </br>Uno de: *Terraced* (dos paredes compartidas), *Semi-detached* (una pared compartida) o *Detached* (ninguna pared compartida). </br>Reemplazar valores faltantes con el tipo de casa más común. |
| **area**           | Continua. </br>Área de la casa en metros cuadrados, redondeada a un decimal. </br>Reemplazar valores faltantes con la media (a un decimal).                                                                  |

---


In [3]:
df['city'] = df['city'].replace('--', 'Unknown')
df['city'] = df['city'].astype('category')
df['city'].value_counts()

city
Silvertown    517
Teasdale      366
Poppleton     362
Riverford     182
Unknown        73
Name: count, dtype: int64

In [4]:
df['sale_date'] = pd.to_datetime(df['sale_date'])
df['sale_date']

0      2021-09-12
1      2021-01-17
2      2021-11-10
3      2020-04-13
4      2020-09-24
          ...    
1495   2022-02-17
1496   2020-10-10
1497   2022-11-01
1498   2021-04-03
1499   2021-12-06
Name: sale_date, Length: 1500, dtype: datetime64[ns]

In [20]:
df['months_listed'].fillna(df['months_listed'].mean(), inplace=True)
df['months_listed'] = round(df['months_listed'],1)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['months_listed'].fillna(df['months_listed'].mean(), inplace=True)


In [6]:
df['house_type'].unique()

df['house_type'] = df['house_type'].replace({'Det.':'Detached', 'Semi': 'Semi-detached', 'Terr.': 'Terraced'})

In [7]:
df['house_type'].unique()

array(['Semi-detached', 'Detached', 'Terraced'], dtype=object)

In [16]:
df['area'] = df['area'].str.split(' ').apply(lambda x: float(x[0]) if len(x) > 0 else None)

In [22]:
clean_data = df.copy()

In [23]:
clean_data

Unnamed: 0,house_id,city,sale_price,sale_date,months_listed,bedrooms,house_type,area
0,1217792,Silvertown,55943,2021-09-12,5.4,2,Semi-detached,107.8
1,1900913,Silvertown,384677,2021-01-17,6.3,5,Detached,498.8
2,1174927,Riverford,281707,2021-11-10,6.9,6,Detached,542.5
3,1773666,Silvertown,373251,2020-04-13,6.1,6,Detached,528.4
4,1258487,Silvertown,328885,2020-09-24,8.7,5,Detached,477.1
...,...,...,...,...,...,...,...,...
1495,1123892,Riverford,198661,2022-02-17,7.3,5,Detached,432.2
1496,1327295,Poppleton,358304,2020-10-10,6.2,6,Detached,599.8
1497,1058161,Riverford,176612,2022-11-01,6.8,4,Detached,359.1
1498,1822037,Teasdale,197827,2021-04-03,5.4,3,Detached,253.7



---

# Tarea 3

El equipo de **RealAgents** te ha comentado que siempre han creído que el **número de dormitorios** es el principal factor que determina el precio de una casa.

Genera una tabla que muestre la **diferencia en el precio promedio de venta según el número de dormitorios**, junto con la **varianza**, para investigar esta cuestión.

* Debes comenzar con los datos del archivo **"house\_sales.csv"**.
* Tu salida debe ser un **dataframe** llamado **`price_by_rooms`**.
* Debe incluir tres columnas: **`bedrooms`**, **`avg_price`**, **`var_price`**.
* Tus resultados deben estar **redondeados a 1 decimal**.

---


In [33]:
price_by_rooms = round(clean_data.groupby('bedrooms')['sale_price'].agg(['mean', 'var']),1)
price_by_rooms.columns = ['avg_price','var_price']
price_by_rooms

Unnamed: 0_level_0,avg_price,var_price
bedrooms,Unnamed: 1_level_1,Unnamed: 2_level_1
2,67076.4,565289600.0
3,154665.1,2378289000.0
4,234704.6,1725211000.0
5,301515.9,2484328000.0
6,375741.3,3924432000.0



---

# Tarea 4

Ajusta un **modelo base** para predecir el precio de venta de una casa.

1. Ajusta tu modelo usando los datos contenidos en **“train.csv”**. </br></br>
2. Usa **“validation.csv”** para predecir nuevos valores basados en tu modelo. Debes devolver un **dataframe** llamado **`base_result`**, que incluya las columnas **`house_id`** y **`price`**. La columna **`price`** debe contener tus valores predichos.

---



In [34]:
df_train = pd.read_csv('/home/jefferssonds/Documentos/VSC/DSA_DATACAMP-20250806T020709Z-1-001/DSA_DATACAMP/certificado_examen/data/train (1).csv')
df_train

Unnamed: 0,house_id,city,sale_price,sale_date,months_listed,bedrooms,house_type,area
0,1634561,Teasdale,401869,2021-12-14,7.0,6,Detached,519.7
1,1009770,Silvertown,372387,2022-09-11,8.1,6,Detached,507.8
2,1946667,Silvertown,325473,2020-08-19,5.4,5,Detached,466.8
3,1798290,Silvertown,349469,2022-12-10,6.4,5,Detached,499.4
4,1533461,Poppleton,199995,2020-04-07,4.3,4,Detached,335.0
...,...,...,...,...,...,...,...,...
1195,1598212,Teasdale,241139,2022-07-11,5.2,3,Detached,293.4
1196,1549200,Poppleton,255873,2020-01-17,8.8,5,Detached,407.8
1197,1919273,Silvertown,298012,2020-08-05,9.1,5,Detached,429.5
1198,1512003,Silvertown,280859,2022-12-21,6.1,4,Detached,369.3


In [59]:
def preprocesamiento(data):
    if 'sale_price' in data.columns:
        X= data.drop(['house_id','sale_price','sale_date'], axis=1)
    else:
        X= data.drop(['house_id','sale_date'], axis=1)

    # Variables categoricas ordinales
    from sklearn.preprocessing import OrdinalEncoder,LabelEncoder
    ordinal_cols = ['house_type']
    encoder = OrdinalEncoder()
    X[ordinal_cols] = encoder.fit_transform(X[ordinal_cols])
    
    # Variables categoricas nominales
    encoder = LabelEncoder()
    X['city'] = encoder.fit_transform(X['city'])
    
    # Estandarizacion de variables numericas
    from sklearn.preprocessing import StandardScaler
    
    sc = StandardScaler()
    X = pd.DataFrame(sc.fit_transform(X), columns=X.columns)
    return X


In [84]:

# Definimos X e y para entrenamiento
y = df_train['sale_price']
X = preprocesamiento(df_train)

# Entrenamos modelo base (Linear Regression)
from sklearn.linear_model import LinearRegression

base_model = LinearRegression()
base_model.fit(X, y)

# Preprocesamos validación
X_val = preprocesamiento(df_validacion)

# Predicciones
y_pred_val = base_model.predict(X_val)

# Resultado final requerido
base_result = pd.DataFrame({
    'house_id': df_validacion['house_id'],
    'price': y_pred_val
})
base_result


Unnamed: 0,house_id,price
0,1331375,103385.463191
1,1630115,291868.710129
2,1645745,379786.187131
3,1336775,113279.863303
4,1888274,265404.046631
...,...,...
295,1986255,346026.071919
296,1896276,365247.419324
297,1758223,253842.417880
298,1752010,147512.973163



---

# Tarea 5

Ajusta un **modelo de comparación** para predecir el precio de venta de una casa.

1. Ajusta tu modelo usando los datos contenidos en **“train.csv”**. </br></br>
2. Usa **“validation.csv”** para predecir nuevos valores basados en tu modelo. Debes devolver un **dataframe** llamado **`compare_result`**, que incluya las columnas **`house_id`** y **`price`**. La columna **`price`** debe contener tus valores predichos.

---


In [85]:


from sklearn.tree import DecisionTreeRegressor

compare_model = DecisionTreeRegressor(
    max_depth=5, 
    min_samples_split=10, 
    min_samples_leaf=5,
    random_state=42
)

compare_model.fit(X, y)

# Predicciones
y_pred_val_compare = compare_model.predict(X_val)

# Resultado final requerido
compare_result = pd.DataFrame({
    'house_id': df_validacion['house_id'],
    'price': y_pred_val_compare
})
compare_result


Unnamed: 0,house_id,price
0,1331375,83567.782609
1,1630115,268259.634146
2,1645745,398565.730159
3,1336775,113348.363636
4,1888274,243976.000000
...,...,...
295,1986255,334910.591549
296,1896276,398565.730159
297,1758223,243976.000000
298,1752010,152384.935484
