# **Unidad 1: Ejercicios de repaso**


## **Guía de apoyo para resolver los ejercicios**

A continuación encontrarás una tabla con los principales métodos y clases de las librerias Pandas, NumPy, Seaborn, sklearn, etc. que pueden ayudarte a resolver esta guía de actividades. La mayoría de estas herramientas ya fueron vistas durante las clases. Sin embargo, algunos ejercicios planteados en los notebooks podrían requerir conocimientos complementarios o combinaciones de métodos.

La tabla incluye:
-	El propósito o tipo de análisis que se desea realizar.
-	El método específico y un enlace directo a su documentación oficial.
-	La librería correspondiente.

### Exploración y estadísticos básicos

| Propósito / Tipo de Ejercicio | Método / Enlace a documentación | Librería |
|------------------------------|----------------------------------|----------|
| Medidas de tendencia central | [`mean()`, `median()`, `mode()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html) | Pandas |
| Medidas de dispersión | [`var()`, `std()`, `quantile()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.quantile.html) | Pandas |
| Resumen general | [`df.describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) | Pandas |
| Visualización de distribución | [`sns.histplot()`](https://seaborn.pydata.org/generated/seaborn.histplot.html) / [`sns.kdeplot()`](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) | Seaborn |

### Outliers y correlaciones

| Propósito / Tipo de Ejercicio | Método / Enlace a documentación | Librería |
|------------------------------|----------------------------------|----------|
| Visualización de outliers | [`sns.boxplot()`](https://seaborn.pydata.org/generated/seaborn.boxplot.html) | Seaborn |
| Filtrado de outliers | [`df[...]` con condiciones](https://pandas.pydata.org/docs/user_guide/indexing.html) | Pandas |
| Correlación entre variables | [`corr()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html) | Pandas |
| Heatmap de correlación | [`sns.heatmap()`](https://seaborn.pydata.org/generated/seaborn.heatmap.html) | Seaborn |

### Transformaciones de variables numéricas

| Propósito / Tipo de Ejercicio | Método / Enlace | Librería |
|------------------------------|-----------------|----------|
| Potencias y raíces | `df["x"] ** 2`, `df["x"] ** 0.5` | Pandas / NumPy |
| Inversa | `1 / df["x"]` | Pandas / NumPy |
| Transformaciones en pipeline | [`FunctionTransformer`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html) | Scikit-learn |
| Polinomiales | [`PolynomialFeatures`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html) | Scikit-learn |

## Imports y lectura de dataset


Cargaremos las librerías que el estudiante ya conoce.

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
import pandas as pd
import numpy as np

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder

Lectura del dataset

In [None]:
df = pd.read_csv('./SydneyHousePrices.csv')

In [None]:
df

## **EDA**

### Nivel Básico (Exploración general)
1.	¿Cuál es la casa más cara?
2.	¿Cuál es la casa más barata?
3.	¿Cuántas propiedades tipo “townhouse” hay en el código postal 2107?
4.	¿Qué variables tienen valores extremos (outliers)?
5.	¿Cuáles son los valores promedio de sellPrice, bed y bath?




In [None]:
# 1


In [None]:
# 2


In [None]:
# ¿Cuántas propiedades tipo “townhouse” hay en el código postal 2107?


In [None]:
# outliers según Tukey



### Nivel Intermedio (Análisis con filtrado y agrupamiento)
7.	¿Cómo cambian los resultados del describe() después de filtrar outliers?
8.	¿En qué barrio están la casa más cara y la más barata?
9.	¿Cuántos baños tienen esas casas?
10.	¿Cuál es el precio medio de venta (sellPrice) por barrio (suburb)?
11.	¿Cuál es el precio medio de venta por tipo de propiedad (propType)?



In [None]:
# ¿En qué barrio están la casa más cara y la más barata?


In [None]:
# ¿En qué barrio están la casa más cara y la más barata?


In [None]:
# ¿Cuántos baños tienen esas casas?



In [None]:
# Cuál es el precio medio de venta (sellPrice) por barrio (suburb)


In [None]:
# Cuál es el precio medio de venta (sellPrice) por el tipo de propiedad


### Nivel Avanzado (Relaciones entre variables y visualización avanzada)
13.	¿Cuál es la correlación entre sellPrice y bed por tipo de propiedad?
14.	¿Qué correlaciones existen entre sellPrice y otras variables dentro de los outliers?
15.	¿Cómo se distribuye propType en los 3 barrios más poblados? (tabla de contingencia + heatmap con frecuencias relativas)
17.	¿Cómo cambia el heatmap luego de filtrar outliers en las variables clave?

In [None]:
# ¿Cuál es la correlación entre sellPrice y bed por tipo de propiedad?


In [None]:
# ¿Qué correlaciones existen entre sellPrice y otras variables dentro de los outliers?


In [None]:
# ¿Qué correlaciones existen entre sellPrice y otras variables dentro de los outliers?


In [None]:
# ¿Cómo se distribuye propType en los 3 barrios más poblados? (tabla de contingencia + heatmap con frecuencias relativas)


## **Preprocesamiento**

### Nivel Básico: Transformaciones de variables numéricas




1. Elige una variable numérica y aplica dos transformaciones:
- $y = 1/x$
- $y = \sqrt{x}$
- $y = x^2$.

2. Para la variable original y las transformadas:
  - Grafica distribución y boxplot.
  - Calcula medidas de tendencia central (media, mediana, moda).
  - Compara los resultados.

In [None]:
# Selección de variable y transformación


In [None]:
# Para la variable original y las transformadas:
# Grafica distribución y boxplot.


In [None]:
# Calcula medidas de tendencia central (media, mediana, moda), y compara los resultados


### Nivel Intermedio: Tratamiento de datos faltantes y creación de nuevas variables.


3.	Imputación de datos faltantes
- Investiga un método de imputación distinto a los vistos (ej: KNNImputer, interpolación, regresión) -> utilizaremos KNNImputer.
- Aplícalo en el dataset.
4.	Creación de nuevas variables
-	Genera al menos 3 nuevas variables combinando variables existentes (ejemplo: suma, razón, producto, interacciones).

In [None]:
from sklearn.impute import KNNImputer, SimpleImputer

In [None]:
# 3


In [None]:
# 4


### Nivel Avanzado: Análisis más profundo y codificación de variables categóricas.


5.	Análisis de las nuevas variables. Evalúa su comportamiento mediante:
- Distribución y boxplot.
- Correlación con sellPrice.

6.	Codificación de variables categóricas (Encoding). Selecciona dos variables categóricas nuevas:
- Aplica One-Hot Encoding a una.
- Aplica Label Encoding o OrdinalEncdoing a la otra.
- Añade las columnas resultantes al df -> Investiga y aplica un método para integrarlas con el DataFrame (merge, join o concat).

In [None]:
# Distribución con histogramas  y boxplot

In [None]:
# Codificación columnas categorícas nominales


In [None]:
# Codificación columnas categorícas ordinales


In [None]:
# Ańadiendo columnas a dataframe


# Unidad 1: Ejercicios resueltos

## **EDA**

#### Solución EDA, nivel básico

In [None]:
# Casa más cara
max_price = df['sellPrice'].max()
casa_mas_cara = df[df['sellPrice'] == max_price]
print("Casa más cara:\n", casa_mas_cara

In [None]:
# Casa más barata
min_price = df['sellPrice'].min()
casa_mas_barata = df[df['sellPrice'] == min_price]
print("Casa más barata:\n", casa_mas_barata)

In [None]:
# Cantidad de “townhouse” en el código postal 2107
num_townhouse_2107 = df[(df['propType'] == 'townhouse') & (df['postalCode'] == 2107)].shape[0]
print("Cantidad de townhouses en 2107:", num_townhouse_2107)

In [None]:
num_cols.quantile(0.25)

In [None]:
# Variables con valores extremos
# Seleccionamos solo las columnas numéricas
num_cols = df.select_dtypes(include='number')

Q1 = num_cols.quantile(0.25)
Q3 = num_cols.quantile(0.75)
IQR = Q3 - Q1

# Calcular outliers solo en columnas numéricas
outliers = ((num_cols < (Q1 - 1.5*IQR)) | (num_cols > (Q3 + 1.5*IQR)))#.sum()
df[outliers]

In [None]:
# Valores promedio de sellPrice, bed y bath
promedios = df[['sellPrice', 'bed', 'bath']].mean()
print("Valores promedio:\n", promedios)

#### Solución EDA, nivel intermedio

In [None]:
# Filtrar outliers
Q1 = df[['sellPrice', 'bed', 'bath']].quantile(0.25)
Q3 = df[['sellPrice', 'bed', 'bath']].quantile(0.75)
IQR = Q3 - Q1

# Filtrar filas dentro del rango IQR
df_filtrado = df[~((df[['sellPrice', 'bed', 'bath']] < (Q1 - 1.5*IQR)) |
                   (df[['sellPrice', 'bed', 'bath']] > (Q3 + 1.5*IQR))).any(axis=1)]

In [None]:
# Cambios en describe() después de filtrar outliers
print("Describe - original:\n", df[['sellPrice', 'bed', 'bath']].describe())
print("\nDescribe - filtrado:\n", df_filtrado[['sellPrice', 'bed', 'bath']].describe())

In [None]:
# Barrios de la casa más cara y más barata
casa_mas_cara = df.loc[df['sellPrice'].idxmax()]
casa_mas_barata = df.loc[df['sellPrice'].idxmin()]

print("Casa más cara - barrio:", casa_mas_cara['suburb'])
print("Casa más barata - barrio:", casa_mas_barata['suburb'])

In [None]:
# Cantidad de baños de esas casas
print("Casa más cara - baños:", casa_mas_cara['bath'])
print("Casa más barata - baños:", casa_mas_barata['bath'])

In [None]:
# Precio medio de venta por barrio (suburb)
precio_medio_barrio = df.groupby('suburb')['sellPrice'].mean().sort_values(ascending=False)
print("Precio medio por barrio:\n", precio_medio_barrio)

In [None]:
# Precio medio de venta por tipo de propiedad (propType)
precio_medio_tipo = df.groupby('propType')['sellPrice'].mean().sort_values(ascending=False)
print("Precio medio por tipo de propiedad:\n", precio_medio_tipo)

#### Solución nivel Avanzado (Relaciones entre variables y visualización avanzada)

In [None]:
# Agrupar por tipo de propiedad y calcular correlación
corr_por_tipo = df.groupby('propType').apply(lambda x: x['sellPrice'].corr(x['bed']))
print("Correlación entre sellPrice y bed por tipo de propiedad:\n", corr_por_tipo)

In [None]:
# Correlaciones de sellPrice con otras variables dentro de los outliers
# Seleccionar solo variables numéricas
num_cols = df_outliers.select_dtypes(include='number').columns

# Correlación con sellPrice
corr_outliers = df_outliers[num_cols].corr()['sellPrice'].sort_values(ascending=False)
print("Correlaciones de sellPrice dentro de outliers:\n", corr_outliers)

In [None]:
# --- Distribución de propType en los 3 barrios más poblados ---

# 1. Calcular la cantidad de propiedades por barrio
conteo_barrios = df['suburb'].value_counts()

# 2. Seleccionar los 3 barrios con más propiedades
top3_barrios = conteo_barrios.head(3).index

# 3. Filtrar el DataFrame para incluir solo esos 3 barrios
df_top3 = df[df['suburb'].isin(top3_barrios)]

# 4. Crear tabla de contingencia suburb vs propType
tabla_contingencia = pd.crosstab(
    index=df_top3['suburb'],       # Filas = suburbios
    columns=df_top3['propType'],   # Columnas = tipos de propiedad
    normalize='index'              # Normalización por fila → frecuencias relativas
)

# 5. Mostrar resultados
print("Tabla de contingencia (frecuencias relativas):\n")
print(tabla_contingencia)

# Heatmap
plt.figure(figsize=(8,5))
sns.heatmap(tabla_contingencia, annot=True, fmt=".2f", cmap="YlGnBu")
plt.title('Distribución de propType en los 3 barrios más poblados')
plt.show()

In [None]:
# Heatmap luego de filtrar outliers en variables clave

# Seleccionar variables clave
vars_clave = ['sellPrice','bed','bath']

# Correlación antes y después de filtrar
plt.figure(figsize=(6,5))
sns.heatmap(df[vars_clave].corr(), annot=True, cmap='coolwarm')
plt.title('Correlación variables clave - original')
plt.show()

plt.figure(figsize=(6,5))
sns.heatmap(df_filtrado[vars_clave].corr(), annot=True, cmap='coolwarm')
plt.title('Correlación variables clave - filtrado de outliers')
plt.show()

In [None]:
# Efecto de cambiar la paleta de colores en la interpretación de un gráfico
plt.figure(figsize=(6,5))
sns.heatmap(df_filtrado[vars_clave].corr(), annot=True, cmap='Reds')
plt.title('Heatmap con paleta Reds')
plt.show()

plt.figure(figsize=(6,5))
sns.heatmap(df_filtrado[vars_clave].corr(), annot=True, cmap='coolwarm')
plt.title('Heatmap con paleta Coolwarm')
plt.show()

## **Preprocesamiento**

#### Soluciones Nivel Básico: Transformaciones de variables numéricas

In [None]:
# Crear transformaciones de la variable

# Variable original
x = df['sellPrice'].dropna()

# Transformaciones
y_inv = 1 / x           # y = 1/x
y_sqrt = np.sqrt(x)     # y = sqrt(x)
y_pow2 = x**2           # y = x^2

# Guardamos en un nuevo DataFrame para analizarlas juntas
df_transf = pd.DataFrame({
    'Original': x,
    'Inversa (1/x)': y_inv,
    'Raíz cuadrada (√x)': y_sqrt,
    'Cuadrado (x²)': y_pow2
})

In [None]:
# Graficar distribuciones y boxplots

plt.figure(figsize=(14,8))

# Distribuciones
for i, col in enumerate(df_transf.columns, 1):
    plt.subplot(2,4,i)
    sns.histplot(df_transf[col], kde=True, bins=30)
    plt.title(f"Distribución - {col}")

# Boxplots
for i, col in enumerate(df_transf.columns, 1):
    plt.subplot(2,4,i+4)
    sns.boxplot(x=df_transf[col])
    plt.title(f"Boxplot - {col}")

plt.tight_layout()
plt.show()

In [None]:
# Medidas de tendencia central

from scipy import stats

for col in df_transf.columns:
    media = df_transf[col].mean()
    mediana = df_transf[col].median()
    moda = stats.mode(df_transf[col], keepdims=True)[0][0]
    print(f"{col} → Media: {media:.2f}, Mediana: {mediana:.2f}, Moda: {moda:.2f}")

Comparación de resultados (interpretación)
- Original (sellPrice): suele estar sesgado a la derecha (casas muy caras influyen mucho en la media).
- Inversa (1/x): “aplana” los valores grandes, haciendo que las casas caras se vean más parecidas entre sí. La distribución se sesga hacia la izquierda.
- Raíz cuadrada (√x): reduce la asimetría, acercando media y mediana, útil para normalizar.
- Cuadrado (x²): amplifica los valores grandes (los outliers se vuelven aún más extremos).

#### Soluciones Nivel Intermedio: Tratamiento de datos faltantes y creación de nuevas variables.

In [None]:
# Imputación de datos faltantes con un método distinto -> KNNImputer
from sklearn.impute import KNNImputer

# Seleccionamos solo las columnas numéricas para imputar
num_cols = df.select_dtypes(include='number').columns
imputer = KNNImputer(n_neighbors=5)

# Aplicamos KNNImputer
df[num_cols] = imputer.fit_transform(df[num_cols])

In [None]:
# Creación de nuevas variables (feature engineering)

# 1. Relación precio por habitación
df['price_per_bed'] = df['sellPrice'] / df['bed']

# 2. Relación precio por baño
df['price_per_bath'] = df['sellPrice'] / df['bath']

# 3. Precio normalizado por tamaño (si existe la variable landSize o similar)
if 'landSize' in df.columns:
    df['price_per_m2'] = df['sellPrice'] / df['landSize']
else:
    # Si no está landSize, creamos una interacción alternativa
    df['bed_bath_ratio'] = df['bed'] / df['bath'].replace(0,1)

In [None]:
# Revisión rápida de nuevas variables

print(df[['price_per_bed','price_per_bath']].describe().T)

if 'price_per_m2' in df.columns:
    print(df['price_per_m2'].describe())
else:
    print(df['bed_bath_ratio'].describe())

#### Soluciones Nivel Avanzado: Análisis más profundo y codificación de variables categóricas.

In [None]:
# Análisis de las nuevas variables creadas

nuevas_vars = ['price_per_bed', 'price_per_bath']

if 'price_per_m2' in df.columns:
    nuevas_vars.append('price_per_m2')
else:
    nuevas_vars.append('bed_bath_ratio')

In [None]:
# Distribución y boxplot.
plt.figure(figsize=(12,6))
for i, col in enumerate(nuevas_vars, 1):
    plt.subplot(2, len(nuevas_vars), i)
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f"Distribución de {col}")

    plt.subplot(2, len(nuevas_vars), i+len(nuevas_vars))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot de {col}")

plt.tight_layout()
plt.show()

In [None]:
# Correlación con sellPrice

corrs = df[nuevas_vars + ['sellPrice']].corr()['sellPrice'].sort_values(ascending=False)
print("Correlación con sellPrice:\n", corrs)

In [None]:
# Scatterplot frente a sellPrice
plt.figure(figsize=(12,5))
for i, col in enumerate(nuevas_vars, 1):
    plt.subplot(1, len(nuevas_vars), i)
    sns.scatterplot(x=df[col], y=df['sellPrice'], alpha=0.5)
    plt.title(f"{col} vs sellPrice")

plt.tight_layout()
plt.show()

In [None]:
# Codificación de variables categóricas
# One-Hot Encoding
# pandas
# df_ohe = pd.get_dummies(df['propType'], prefix='propType')

# sklearn
from sklearn.preprocessing import OneHotEncoder



# Label Encoding
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder

le = LabelEncoder()
df['suburb_le'] = le.fit_transform(df['suburb'])

In [None]:
# Integrar nuevas columnas al DataFrame
# Concatenamos el One-Hot Encoding con el df original
df_final = pd.concat([df, df_ohe], axis=1)

---