# Ejercicio básico para carga de datos y tratamiento

Lee el siguiente archivo de datos csv.
Este archivo contiene datos de varias propiedades. Te en cuenta que este va a ser un problema supervisado.

1. Para interiorizarte en las características de los datos, lee el siguiente sitio: https://rdrr.io/cran/mosaicData/man/SaratogaHouses.html
2. Carga los datos en un dataframe (el archivo lo encontrarás en https://raw.githubusercontent.com/gustavovazquez/datasets/main/SaratogaHouses.csv
3. Muestra la información básica: tamaño, estadística descriptiva
4. Normaliza los datos numéricos y convierte los datos categóricos usando one-hot encoding


In [1]:

import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# URL del archivo CSV
url = 'https://raw.githubusercontent.com/gustavovazquez/datasets/main/SaratogaHouses.csv'

# Cargar los datos en un DataFrame
df = pd.read_csv(url)

# Mostrar la información básica del DataFrame
print("Tamaño del DataFrame:", df.shape)
print("\nEstadística descriptiva:\n", df.describe(include='all'))

# Identificar columnas numéricas y categóricas
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

# Crear transformadores para las columnas numéricas y categóricas
numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(sparse_output=False) # Set sparse_output=False to directly get a dense array

# Crear un preprocesador combinando los transformadores
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_cols),
        ('cat', categorical_transformer, cat_cols)])

# Aplicar el preprocesador a los datos
df_processed = preprocessor.fit_transform(df)

# Convertir el resultado a un DataFrame - This is likely unecessary now
df_processed = pd.DataFrame(df_processed) # Remove .toarray() call

print("\nDatos procesados:\n",df_processed.head())


Tamaño del DataFrame: (1728, 16)

Estadística descriptiva:
                 price      lotSize          age      landValue   livingArea  \
count     1728.000000  1728.000000  1728.000000    1728.000000  1728.000000   
unique            NaN          NaN          NaN            NaN          NaN   
top               NaN          NaN          NaN            NaN          NaN   
freq              NaN          NaN          NaN            NaN          NaN   
mean    211966.705440     0.500214    27.916088   34557.187500  1754.975694   
std      98441.391015     0.698680    29.209988   35021.168056   619.935553   
min       5000.000000     0.000000     0.000000     200.000000   616.000000   
25%     145000.000000     0.170000    13.000000   15100.000000  1300.000000   
50%     189900.000000     0.370000    19.000000   25000.000000  1634.500000   
75%     259000.000000     0.540000    34.000000   40200.000000  2137.750000   
max     775000.000000    12.200000   225.000000  412600.000000  5228.00