# **Código de ejemplo para aplicar preprocesamiento al dataset "apartments"**

In [29]:
import pandas as pd

Cargar el contenido de apartments a df

In [51]:
df = pd.read_csv('apartments.csv', encoding='cp1252')

  df = pd.read_csv('apartments.csv', encoding='cp1252')


1. Inspeccionar el dataset
Lo primero es revisar la estructura de los datos, los nombres de las columnas, y los tipos de datos, además de buscar valores faltantes.

In [52]:
# Mostrar las primeras filas del dataset para ver la estructura
print("Primeras filas del dataset:")
print(df.head())

# Verificar los tipos de datos y la cantidad de valores faltantes
print("Información general del dataset:")
print(df.info())

# Revisar las estadísticas generales del dataset
print("Estadísticas generales del dataset:")
print(df.describe())

# Verificar valores faltantes en cada columna
print("Valores faltantes por columna:")
print(df.isnull().sum())

Primeras filas del dataset:
           id                category                            title  \
0  5668640009  housing/rent/apartment       One BR 507 & 509 Esplanade   
1  5668639818  housing/rent/apartment      Three BR 146 Lochview Drive   
2  5668639686  housing/rent/apartment  Three BR 3101 Morningside Drive   
3  5668639659  housing/rent/apartment            Two BR 209 Aegean Way   
4  5668639374  housing/rent/apartment         One BR 4805 Marquette NE   

                                                body amenities  bathrooms  \
0  This unit is located at 507 & 509 Esplanade, R...       NaN        1.0   
1  This unit is located at 146 Lochview Drive, Ne...       NaN        1.5   
2  This unit is located at 3101 Morningside Drive...       NaN        2.0   
3  This unit is located at 209 Aegean Way, Vacavi...       NaN        1.0   
4  This unit is located at 4805 Marquette NE, Alb...       NaN        1.0   

   bedrooms currency fee  has_photo  ... price_display  price_ty

2. Manejo de valores faltantes
En este paso, buscamos las columnas que contienen valores NaN y decidimos cómo manejarlos. Puedes elegir entre eliminar las filas o columnas que contienen demasiados valores faltantes, o rellenar estos valores con un valor apropiado (como la media o una categoría por defecto).

In [53]:
# Verificar cuántos valores faltantes hay por columna
#print(df.isnull().sum())

# Ejemplo: Rellenar valores faltantes en la columna "amenities" con "No disponible"
#df['amenities'].fillna('No disponible', inplace=True)
df['amenities'] = df['amenities'].fillna('No disponible')
# Eliminar filas con valores faltantes en columnas críticas como "price_display"
df.dropna(subset=['price_display'], inplace=True)

#Verificamos otra vez los valores faltantes para ambas columnas
print("Valores faltantes por columna:")
print(df.isnull().sum())



Valores faltantes por columna:
id                   0
category             0
title                0
body                 0
amenities            0
bathrooms           63
bedrooms           124
currency             0
fee                  0
has_photo            0
pets_allowed     60738
price                0
price_display        0
price_type           0
square_feet          0
address          92050
cityname           302
state              302
latitude            25
longitude           25
source               0
time                 0
dtype: int64


3. Conversión de tipos de datos
Asegúrate de que las columnas numéricas, como bathrooms, bedrooms, y price_display, estén en el formato correcto (por ejemplo, float o int). Algunas columnas pueden tener mezclas de tipos de datos que debes corregir.


In [54]:
# Convertir la columna 'price_display' y 'square_feet' a numérico, manejando errores
df['price_display'] = pd.to_numeric(df['price_display'], errors='coerce')
df['square_feet'] = pd.to_numeric(df['square_feet'], errors='coerce')

#Imprimimos los tipos de datos de las columnas
print("Tipos de datos de las columnas:")
print(df.dtypes)

Tipos de datos de las columnas:
id                 int64
category          object
title             object
body              object
amenities         object
bathrooms        float64
bedrooms         float64
currency          object
fee               object
has_photo         object
pets_allowed      object
price            float64
price_display    float64
price_type        object
square_feet      float64
address           object
cityname          object
state             object
latitude         float64
longitude        float64
source            object
time             float64
dtype: object


4. Codificación de variables categóricas
Las columnas categóricas, como cityname, state, currency, pueden ser convertidas en variables numéricas mediante la codificación one-hot o label encoding para que los algoritmos de machine learning puedan manejarlas.

In [55]:
# Ejemplo de codificación one-hot de la columna 'state'
df = pd.get_dummies(df, columns=['state', 'currency'], drop_first=True)

# Ahora veremos que el dataset elimino las columnas 'state' y 'currency' y agrego nuevas columnas con la codificación one-hot
print("Columnas del dataset:")
print(df.columns)

Columnas del dataset:
Index(['id', 'category', 'title', 'body', 'amenities', 'bathrooms', 'bedrooms',
       'fee', 'has_photo', 'pets_allowed', 'price', 'price_display',
       'price_type', 'square_feet', 'address', 'cityname', 'latitude',
       'longitude', 'source', 'time', 'state_AL', 'state_AR', 'state_AZ',
       'state_CA', 'state_CO', 'state_CT', 'state_DC', 'state_DE', 'state_FL',
       'state_GA', 'state_HI', 'state_IA', 'state_ID', 'state_IL', 'state_IN',
       'state_KS', 'state_KY', 'state_LA', 'state_MA', 'state_MD', 'state_ME',
       'state_MI', 'state_MN', 'state_MO', 'state_MS', 'state_MT', 'state_NC',
       'state_ND', 'state_NE', 'state_NH', 'state_NJ', 'state_NM', 'state_NV',
       'state_NY', 'state_OH', 'state_OK', 'state_OR', 'state_PA', 'state_RI',
       'state_SC', 'state_SD', 'state_TN', 'state_TX', 'state_UT', 'state_VA',
       'state_VT', 'state_WA', 'state_WI', 'state_WV', 'state_WY'],
      dtype='object')


5. Manejo de outliers (valores atípicos)
Es importante detectar y manejar los valores atípicos, especialmente en columnas numéricas como price_display o square_feet, ya que pueden distorsionar los resultados. Puedes usar métodos como el Z-score o el rango intercuartílico (IQR) para detectarlos.

In [56]:
print("Valores en la columna 'price_display', antes del filtrado:")
print(df['price_display'])
# Detectar outliers usando el rango intercuartílico
Q1 = df['price_display'].quantile(0.25)
Q3 = df['price_display'].quantile(0.75)
IQR = Q3 - Q1
# Filtrar valores que están fuera de 1.5 veces el IQR
df = df[~((df['price_display'] < (Q1 - 1.5 * IQR)) | (df['price_display'] > (Q3 + 1.5 * IQR)))]

# Verificar valores atípicos en la columna 'price_display'
print("Valores en la columna 'price_display', despues del filtrado:")
print(df['price_display'])

Valores en la columna 'price_display', antes del filtrado:
0        2195.0
1        1250.0
2        1395.0
3        1600.0
4         975.0
          ...  
99995     780.0
99996     813.0
99997    1325.0
99998     931.0
99999    1595.0
Name: price_display, Length: 99992, dtype: float64
Valores en la columna 'price_display', despues del filtrado:
0        2195.0
1        1250.0
2        1395.0
3        1600.0
4         975.0
          ...  
99995     780.0
99996     813.0
99997    1325.0
99998     931.0
99999    1595.0
Name: price_display, Length: 95280, dtype: float64


6. Normalización o estandarización
Si vas a usar algoritmos que son sensibles a la escala de los datos, como regresión logística o redes neuronales, es importante normalizar las columnas numéricas como price_display y square_feet.

In [11]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['price_display', 'square_feet']] = scaler.fit_transform(df[['price_display', 'square_feet']])

# Verificar los valores normalizados
print("Valores normalizados:")
print(df[['price_display', 'square_feet']])

7. Manejo de la columna de tiempo
La columna time puede ser convertida a un formato de fecha y hora más útil, además de extraer características como el año, mes o día de la semana.

In [12]:
# Convertir la columna 'time' a formato de fecha
df['time'] = pd.to_datetime(df['time'], unit='s')

# Extraer año, mes y día de la semana
df['year'] = df['time'].dt.year
df['month'] = df['time'].dt.month
df['day_of_week'] = df['time'].dt.dayofweek

8. Eliminar columnas irrelevantes
Algunas columnas no serán necesarias para el análisis, como source. Puedes eliminarlas para reducir el ruido en los datos.

In [13]:
# Eliminar columnas irrelevantes
df.drop(['source'], axis=1, inplace=True)

9. Validar el dataset final
Realiza una validación final para asegurarte de que no quedan valores faltantes, que los tipos de datos son correctos, y que los datos están listos para el análisis.

In [14]:
# Verificar nuevamente la estructura final
print(df.info())

# Comprobar si hay valores faltantes después de los cambios
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 95280 entries, 0 to 99999
Data columns (total 72 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             95280 non-null  int64         
 1   category       95280 non-null  object        
 2   title          95280 non-null  object        
 3   body           95280 non-null  object        
 4   amenities      95280 non-null  object        
 5   bathrooms      95221 non-null  float64       
 6   bedrooms       95160 non-null  float64       
 7   fee            95280 non-null  object        
 8   has_photo      95280 non-null  object        
 9   pets_allowed   37785 non-null  object        
 10  price          95280 non-null  float64       
 11  price_display  95248 non-null  float64       
 12  price_type     95280 non-null  object        
 13  square_feet    95280 non-null  float64       
 14  address        7475 non-null   object        
 15  cityname       95047 non