# Data Science - ICARO
_________________________________
Clase: 01  
Tema: Análisis Exploratorio de Datos (EDA)
_________________________________


# Análisis exploratorio de datos

Iniciaremos nuestro proceso de EDA para:
- Conocer los defectos del dataset   
- Garantizar la calidad del dataset
- Familiarizarnos con el problema  

En esta primera clase, aún sin la posibilidad de usar estadística descriptiva ni generar visalizaciones, daremos el primer paso variable a variable y nos haremos las primeras preguntas de investigación.

En internet, podemos encontrar muchos datasets gratuitos para descargar en formato csv. Por ejemplo, en:
- Kaggle, una referencia importantísima de Data Science y Machine Learning: https://www.kaggle.com/datasets
- Google Dataset Search: https://datasetsearch.research.google.com/
- Datos abiertos de Argentina: https://datos.gob.ar/

En este caso, vamos a explorar un dataset simple que contiene datos sobre precios de casas en Sidney. La fuente original de los datos ha sido deshabilitada por Kaggle recientemente (https://www.kaggle.com/mihirhalai/sydney-house-prices), pero es una versión adaptada de https://www.kaggle.com/datasets/alexlau203/sydney-house-prices.


El dataset es amigable y está en un muy buen estado, en otros casos se requerirá un muy importante trabajo de limpieza y preprocesamiento. Se invita al estudiante a explorar por su cuenta otros datasets.

**Usamos SydneyHousePrices.csv**

Daremos estos tres pasos sobre el mismo dataset en las clases siguientes:
1. Evaluación de calidad
2. Overview y estadística descriptiva
3. Estudio y visualización de variables

-------------------------------------------------------------


# Imports


Cargaremos las librerías que el estudiante ya conoce.

In [2]:
import pandas as pd
import numpy as np

Montaremos la unidad de Drive para acceder al archivo. Alternativamente, podemos subirlo directamente desde la interfaz de Colab en esta misma sesión y utilizarlo desde aquí.

In [1]:
from google.colab import drive # La usamos para montar nuestra unidad de Google Drive
drive.mount('/content/drive') # Montamos nuestra unidad de Google Drive

Mounted at /content/drive


In [3]:
df = pd.read_csv('/content/drive/MyDrive/Ciencia de datos/SydneyHousePrices.csv')

# Exploración

Empecemos a explorar. Lo primero es saber con que datos contamos y que significa cada una de las columnas. Damos un vistazo a los primeros 4 registros para ver su forma.

In [None]:
df.head()

Unnamed: 0,Date,Id,suburb,postalCode,sellPrice,bed,bath,car,propType
0,2019-06-19,1,Avalon Beach,2107,1210000,4.0,2,2.0,house
1,2019-06-13,2,Avalon Beach,2107,2250000,4.0,3,4.0,house
2,2019-06-07,3,Whale Beach,2107,2920000,3.0,3,2.0,house
3,2019-05-28,4,Avalon Beach,2107,1530000,3.0,1,2.0,house
4,2019-05-22,5,Whale Beach,2107,8000000,5.0,4,4.0,house


Las columnas que tenemos son:

- Id: es simplemente un valor numérico que identifica a la propiedad. ¿Será útil para el análisis?
- Date: Fecha de publicación
- suburb: Barrio
- postalCode: Código postal
- sellPrice: Precio de venta
- bed: Cantidad de camas
- Car: Cantidad de lugares de estacionamiento
- propType: Tipo de propiedad

Ahora, ¿qué tipos de datos contienen las columnas?

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199504 entries, 0 to 199503
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   Date        199504 non-null  object 
 1   Id          199504 non-null  int64  
 2   suburb      199504 non-null  object 
 3   postalCode  199504 non-null  int64  
 4   sellPrice   199504 non-null  int64  
 5   bed         199350 non-null  float64
 6   bath        199504 non-null  int64  
 7   car         181353 non-null  float64
 8   propType    199504 non-null  object 
dtypes: float64(2), int64(4), object(3)
memory usage: 13.7+ MB


¿Puedes decir qué tipo de variable es cada una?

¿Cuántas filas tiene el dataset ?

In [None]:
df.shape[0]

199504

¿Tiene valores nulos?

In [None]:
df.isna().sum()

Unnamed: 0,0
Date,0
Id,0
suburb,0
postalCode,0
sellPrice,0
bed,154
bath,0
car,18151
propType,0


Dos variables tienen valores nulos. Se ve una cantidad de faltantes muy distinta para cada una de ellas. Para evaluar el impacto de este defecto del dataset, es importante contextualizar estas cantidades referenciándolas con el total de registros del dataset.

¿Qué porcentaje de nulos hay por columna?

In [None]:
df.isna().sum() / df.shape[0]

Unnamed: 0,0
Date,0.0
Id,0.0
suburb,0.0
postalCode,0.0
sellPrice,0.0
bed,0.000772
bath,0.0
car,0.090981
propType,0.0


¿Qué puede decir el estudiante sobre estas proporciones? ¿Qué podría hacer al respecto de estos datos? ¿Elimina los registros, los completa de algún modo?

Las separemos en variables numéricas y categóricas:

Numéricas (cuantitativas):
- sellPrice
- bed
- bath
- car

Categóricas:
- suburb
- postalCode
- propType

¿Por qué hemos clasificado a postalCode como una variable Categórica, si es un valor numérico?

## Análisis varibales categóricas

Exploramos las variables categóricas
¿Cuántos valores únicos hay en cada columna de las categóricas? Es decir, ¿cuántas categorías hay?

In [None]:
df['suburb'].nunique()

685

In [None]:
df['postalCode'].nunique()

235

In [None]:
df['propType'].nunique()

8

Proponga una forma de mirar algunas de esas categorías.

In [None]:
# Completa el código

# La variable Código Postal

In [None]:
df.postalCode.value_counts()

Unnamed: 0_level_0,count
postalCode,Unnamed: 1_level_1
2010,1251
2155,1250
2229,1250
2026,1250
2226,1250
...,...
3029,1
3350,1
2261,1
3057,1


## Análisis variables numéricas

¿Cómo se distribuyen? En este punto, y sin herramientas de estadística y visualización, es complejo estudiarlas. Por el momento, concentrémosnos en los máximos, mínimos y promedios (mean)

#### Sell Price

In [None]:
df.sellPrice.describe()

Unnamed: 0,sellPrice
count,199504.0
mean,1269776.0
std,6948239.0
min,1.0
25%,720000.0
50%,985000.0
75%,1475000.0
max,2147484000.0


#### Bed

In [None]:
df.bed.describe()

Unnamed: 0,bed
count,199350.0
mean,3.516479
std,1.066555
min,1.0
25%,3.0
50%,3.0
75%,4.0
max,99.0


#### Bath

In [None]:
df.bath.describe()

Unnamed: 0,bath
count,199504.0
mean,1.890669
std,0.926001
min,1.0
25%,1.0
50%,2.0
75%,2.0
max,99.0


#### Car

In [None]:
df.car.describe()

Unnamed: 0,car
count,179409.0
mean,1.917418
std,1.018431
min,1.0
25%,1.0
50%,2.0
75%,2.0
max,31.0


# Ejercicios

Responder las siguientes preguntas:

1- ¿Cuáles son las casas más cara y más barata?

2- ¿En qué barrio está cada una?

3- ¿Cuántos baños tiene cada una de ellas?

4- ¿Cuál es el suburb con el sellPrice medio más alto?

5- ¿Cómo haría para contestar si le preguntan cuál es el tipo de propiedad con menor precio?

6- ¿Cuántas "townhouse" hay en el postalCode 2107?

7 - Escribir una función que reciba una lista de propType y:
  - Primero valide que el propType sea válido (exista en el dataset, sea tipo sting y lo que consideren relevante validar). Si no es válido, imprimir un error explicativo (pueden investigar "Raise exception" en python) y finalizar.
  - Por cada elemento válido de la lista, calcular el precio promedio para ese tipo de propiedad.


###Pregunta 1

In [4]:
print("\n--- Pregunta 1: Casa más cara y más barata ---")
# Usamos idxmax() e idxmin() en la columna 'sellPrice' para encontrar el índice (loc)
# de las filas con el valor máximo y mínimo.
print("\n--- Pregunta 1: Casa más cara---")
casa_mas_cara = df.loc[df['sellPrice'].idxmax()]
print(casa_mas_cara)
print("\n--- Pregunta 1: Casa más barata ---")
casa_mas_barata = df.loc[df['sellPrice'].idxmin()]
print(casa_mas_barata)


--- Pregunta 1: Casa más cara y más barata ---

--- Pregunta 1: Casa más cara---
Date          2010-05-17
Id                 86957
suburb           Concord
postalCode          2137
sellPrice     2147483647
bed                  3.0
bath                   1
car                  2.0
propType           house
Name: 86956, dtype: object

--- Pregunta 1: Casa más barata ---
Date          2008-07-02
Id                  7657
suburb           Killara
postalCode          2071
sellPrice              1
bed                  4.0
bath                   3
car                  2.0
propType           house
Name: 7656, dtype: object


###Pregunta 2

In [5]:
# --- Pregunta 2: ¿En qué barrio está cada una? ---
print("\n--- Pregunta 2: Barrio de cada una ---")
# Accedemos a la columna 'suburb' de las Series que guardamos antes
print(f"Barrio de la más cara: {casa_mas_cara['suburb']}")
print(f"Barrio de la más barata: {casa_mas_barata['suburb']}")


--- Pregunta 2: Barrio de cada una ---
Barrio de la más cara: Concord
Barrio de la más barata: Killara


###Pregunta 3

In [6]:
print("\n--- Pregunta 3: Baños de cada una ---")
# ¡CORRECCIÓN! Ahora usamos la columna 'bath' que vimos en la imagen.
print(f"Baños de la más cara: {casa_mas_cara['bath']}")
print(f"Baños de la más barata: {casa_mas_barata['bath']}")


--- Pregunta 3: Baños de cada una ---
Baños de la más cara: 1
Baños de la más barata: 3


###Pregunta 4

In [11]:
print("\n--- Pregunta 4: Suburb con precio medio más alto ---")
# 1. Agrupamos por 'suburb'
# 2. Seleccionamos la columna 'sellPrice'
# 3. Calculamos la media (.mean())
# 4. Ordenamos de mayor a menor (.sort_values())
precio_medio_por_suburb = df.groupby('suburb')['sellPrice'].mean().sort_values(ascending=False)
print("Precio medio por suburb:")
print(precio_medio_por_suburb)

# Para obtener solo el nombre del suburb con el máximo:
suburb_mas_caro = precio_medio_por_suburb.idxmax()
precio_medio_maximo = precio_medio_por_suburb.max()
print(f"\nEl suburb con el precio medio más alto es '{suburb_mas_caro}' con un promedio de ${precio_medio_maximo:,.2f}")


--- Pregunta 4: Suburb con precio medio más alto ---
Precio medio por suburb:
suburb
Point Piper         1.090144e+07
Darling Point       5.262649e+06
Collaroy Beach      4.926500e+06
Watsons Bay         4.612878e+06
Woolwich            4.526818e+06
                        ...     
Eagle Vale          4.615049e+05
Tarneit             4.554000e+05
Macquarie Fields    4.544467e+05
Yanderra            4.283465e+05
Oxenford            3.405000e+05
Name: sellPrice, Length: 685, dtype: float64

El suburb con el precio medio más alto es 'Point Piper' con un promedio de $10,901,444.47


###Pregunta 5

In [15]:
# --- Pregunta 5: ¿Cómo haría para contestar si le preguntan cuál es el tipo de propiedad con menor precio? ---
print("\n--- Pregunta 5: Tipo de propiedad con menor precio (medio) ---")
# La lógica es idéntica a la pregunta 4, pero agrupando por 'propType' y buscando el mínimo (.idxmin())
precio_medio_por_tipo = df.groupby('propType')['sellPrice'].mean()
tipo_menor_precio_medio = precio_medio_por_tipo.idxmin()
precio_medio_minimo = precio_medio_por_tipo.min()
print(f"El tipo con el precio medio más bajo es '{tipo_menor_precio_medio}' con un promedio de ${precio_medio_minimo:,.2f}")


--- Pregunta 5: Tipo de propiedad con menor precio (medio) ---
El tipo con el precio medio más bajo es 'villa' con un promedio de $673,539.85


###Pregunta 6

In [17]:
# --- Pregunta 6: ¿Cuántas "townhouse" hay en el postalCode 2107? ---
print("\n--- Pregunta 6: Townhouses en el postalCode 2107 ---")
# 1. Creamos un filtro booleano para 'propType'
filtro_townhouse = df['propType'] == 'townhouse'
# 2. Creamos un filtro booleano para 'postalCode'
filtro_postalcode = df['postalCode'] == 2107

# 3. Combinamos ambos filtros usando el operador AND (&)
#    Usamos .shape[0] para contar el número de filas que cumplen la condición
cantidad = df[filtro_townhouse & filtro_postalcode].shape[0]

print(f"Hay {cantidad} propiedades tipo 'townhouse' en el postalCode 2107.")




--- Pregunta 6: Townhouses en el postalCode 2107 ---
Hay 25 propiedades tipo 'townhouse' en el postalCode 2107.


###Pregunta 7

In [19]:
# --- Pregunta 7: Escribir una función que reciba una lista de propType y valide/calcule ---
print("\n--- Pregunta 7: Definición y prueba de la función ---")

def calcular_precios_promedio_por_tipo(df_func, lista_tipos):
    """
    Valida una lista de tipos de propiedad y calcula el precio promedio para cada uno.
    Si algún tipo no es válido, lanza una excepción y finaliza.
    """
    print(f"\n--- Ejecutando función para lista: {lista_tipos} ---")

    # 1. Validación
    # Obtenemos los únicos tipos de propiedad válidos del DataFrame
    tipos_validos_dataset = set(df_func['propType'].unique())

    try:
        for tipo in lista_tipos:
            print(f"Validando: '{tipo}'...")

            # Validar tipo de dato (debe ser string)
            if not isinstance(tipo, str):
                raise TypeError(f"El elemento '{tipo}' no es un string. Se recibió {type(tipo)}.")

            # Validar existencia en el dataset
            if tipo not in tipos_validos_dataset:
                raise ValueError(f"El tipo de propiedad '{tipo}' no es un tipo válido en el dataset. Tipos válidos: {tipos_validos_dataset}")

        print("Validación exitosa.")

        # 2. Cálculo (solo se ejecuta si la validación fue exitosa)
        resultados = {}
        for tipo in lista_tipos:
            # Filtramos el df por el tipo y calculamos la media de 'sellPrice'
            precio_medio = df_func[df_func['propType'] == tipo]['sellPrice'].mean()
            resultados[tipo] = precio_medio
            print(f"Precio promedio para '{tipo}': ${precio_medio:,.2f}")

        return resultados

    except (TypeError, ValueError) as e:
        # Capturamos las excepciones lanzadas (TypeError o ValueError)
        print(f"\nERROR DE VALIDACIÓN: {e}")
        print("La función ha finalizado debido al error.")
        return None # Retornar None para indicar que hubo un fallo

# --- Pruebas de la función ---
# (Asegúrate de que los tipos en 'lista_ok' existan en tu DF real)
print("\n--- Prueba 1: Lista válida ---")
# Supongamos que 'house' y 'unit' existen en tus datos
lista_ok = ['house', 'villa']
resultados_ok = calcular_precios_promedio_por_tipo(df, lista_ok)
if resultados_ok:
    print(f"Resultados finales (dict): {resultados_ok}")

print("\n--- Prueba 2: Lista con tipo inválido (no existe) ---")
lista_invalida_1 = ['house', 'apartment'] # 'apartment' probablemente no existe
calcular_precios_promedio_por_tipo(df, lista_invalida_1)

print("\n--- Prueba 3: Lista con tipo inválido (no es string) ---")
lista_invalida_2 = ['house', 999] # 999 no es un string
calcular_precios_promedio_por_tipo(df, lista_invalida_2)


--- Pregunta 7: Definición y prueba de la función ---

--- Prueba 1: Lista válida ---

--- Ejecutando función para lista: ['house', 'villa'] ---
Validando: 'house'...
Validando: 'villa'...
Validación exitosa.
Precio promedio para 'house': $1,325,964.98
Precio promedio para 'villa': $673,539.85
Resultados finales (dict): {'house': np.float64(1325964.9756755645), 'villa': np.float64(673539.8468689703)}

--- Prueba 2: Lista con tipo inválido (no existe) ---

--- Ejecutando función para lista: ['house', 'apartment'] ---
Validando: 'house'...
Validando: 'apartment'...

ERROR DE VALIDACIÓN: El tipo de propiedad 'apartment' no es un tipo válido en el dataset. Tipos válidos: {'acreage', 'townhouse', 'other', 'house', 'duplex/semi-detached', 'villa', 'terrace', 'warehouse'}
La función ha finalizado debido al error.

--- Prueba 3: Lista con tipo inválido (no es string) ---

--- Ejecutando función para lista: ['house', 999] ---
Validando: 'house'...
Validando: '999'...

ERROR DE VALIDACIÓN: El e

# Hacer las preguntas correctas
Este tipo de preguntas nos permiten conocer más el dataset y junto con él, el problema subyacente. En las clases siguientes, con herramientas de visualización y estadítica descriptiva, conoceremos formas más sistemáticas de hacer éstas y más preguntas. Los profesionales de Data Science deben "seguir las pistas", e involucrarse para comprender profundamente el problema con el que están trabajando.