# ***HITO 1: Carga de Dataset y Lectura de columnas***

### ***Explicación del dataset***

Este dataset contiene información sobre el mercado inmobiliario residencial en Melbourne, Australia, y está compuesto por registros de propiedades que fueron vendidas entre los años 2016 y 2017. La base de datos fue recopilada para ayudar a entender cómo distintas características de una propiedad (como su ubicación, tamaño o tipo) influyen en su precio de venta.

In [None]:
# Importar las librerías necesarias para poder trabajar el dataset
import pandas as pd

In [None]:
# Lectura de dataset a trabajar
df = pd.read_csv('https://raw.githubusercontent.com/franzmrivera/ML-Educacion/refs/heads/main/PROYECTO/01database.csv')
df

### ***Explicación columnas del dataset***

Price --> La columna Price representa el precio final de venta de una propiedad residencial en euros. Es una variable numérica y uno de los elementos principales del análisis, ya que permite entender la relación entre el valor de una propiedad y sus distintas características como tamaño, ubicación, cantidad de habitaciones, entre otros. Es un tipo de dato FLOAT (número decimal) y sus valores típicos rondan entre 850000 y 7400000. También podemos observar que el valor mínimo es de 85000 y el máximo 9000000 (Mencionar también moda, mediana, etc.)










In [None]:
df['Price']

# ***HITO 2: Análisis, Preprocesamiento y Entrenamiento***

### ***Análisis de los datos***

In [None]:
# Estadística Descriptiva, Distribución de los datos #

#df.head() # visualización primeras columnas
#df.shape # tamaño del dataset (filas, columnas)
#df.info() # información del dataset
#df.describe() # estadísticas del dataset
#df.isnull().sum() # Conteo de valores nulos en cada columna
#df.isnull().sum() * 100 / len(df) # Porcentaje de valores nulos por columna
#df.mode().iloc[0] # Valor más frecuente por cada columna
#df.median(numeric_only=True)

In [None]:
# Gráficos

# Importar librerias para representar los datos a través de gráficos
import seaborn as sns
import matplotlib.pyplot as plt

# Seleccionar las columnas numéricas (omitimos coordenadas e ID)
numeric_cols = df.select_dtypes(include=['float64', 'int64']).drop(columns=['Unnamed: 0', 'Lattitude', 'Longtitude'], errors='ignore').columns

# Dando un poco de edición para valores outliers que aparezcan en los boxplots
outlier_style = dict(marker='o', markerfacecolor='red', markersize=5, linestyle='none')

# Graficar un boxplot por cada columna
for col in numeric_cols:
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=df[col], flierprops=outlier_style)
    plt.title(f'Boxplot de {col}')
    plt.grid(True)
    plt.show()


In [None]:
# Matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matriz de correlación")
plt.show()


### ***Preprocesamiento de los datos***

In [None]:
# Eliminar duplicados

print(f"Cantidad de filas duplicadas: {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)

In [None]:
# Ver valores faltantes x columna
print(df.isnull().sum())


In [None]:
# Existen muchas opciones para reemplazar los valores nulos, en este caso yo eliminaré aquellos datos que contengan algun valor nulo
df = df.dropna(axis=0)
df

In [None]:
# Transformar datos (en este caso, tomaré la columna RegionName)
print(df.dtypes)
print()

df['Regionname'].unique()


In [None]:
# Librería que permite hacer la codificación
from sklearn.preprocessing import LabelEncoder

# Asegurar que la variable pase a tipo string, para luego codificar de manera segura
df.loc[:, 'Regionname'] = df['Regionname'].astype(str)

# Codificación con LabelEncoder
le = LabelEncoder()
df.loc[:, 'Regionname_codificada'] = le.fit_transform(df['Regionname'])

# Mostrar tabla con la transformación hecha
print("\n".join([f"{i}: {region}" for i, region in enumerate(le.classes_)]))

df

In [None]:
# Ejemplo normalizacion

# Librería para importar el metodo de normalizacion MinMaxScaler
#from sklearn.preprocessing import MinMaxScaler

# Seleccionar columnas numéricas
#columnas_numericas = df.select_dtypes(include=['int64', 'float64']).drop(columns=['Unnamed: 0'], errors='ignore').columns

# Inicializar el normalizador
#scaler = MinMaxScaler()

# Aplicar normalización
#df[columnas_numericas] = scaler.fit_transform(df[columnas_numericas])

#df


### ***Entrenamiento***



***Objetivo del trabajo***

El objetivo de este trabajo es predecir el precio de una vivienda utilizando variables como el número de habitaciones, baños, dormitorios y el tamaño del lugar. Estas variables son características fundamentales que influyen directamente en el valor de una propiedad y también lo podemos analizar viendo la matriz de correlación realizada anteriormente.

En este caso, utilizaré un modelo de regresión (DecisionTreeRegressor) porque quiero predecir una variable numérica, que tambien me permite visualizar facilmente como se toman las decisiones y entender que variables influyen mas y en último lugar, porque es ideal para conjuntos de datos de tamaño mediano(agregar más justificación especifica). DecisionTree lo que hace es ir mirando característica x característica e irá dividiendo. Por ej: Tiene más de 2 baños, tiene más de 3 dormitorios, entonces valdrá x precio.


In [None]:
# Librerias necesarias para trabajar en el modelo de ML
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

# Defino variables predictoras (X) y variable objetivo (y)
X = df[['Rooms', 'Bedroom2', 'Bathroom', 'Landsize']]
y = df['Price']

# Inicializar el modelo a utilizar
melbourne_model = DecisionTreeRegressor()
melbourne_model.fit(X, y)

In [None]:
# Compruebo que el modelo esté entrenado

print("Predicciones para las 5 primeras casas:")
print(X.head())
print("El precio real es")
print(y.head())
print("Las predicciones del modelo son")
print(melbourne_model.predict(X.head()))
