# Limpieza del Dataset

En esta notebook, abordaremos el proceso de limpieza del dataset obtenido del sitio web "Inmuebles Clarín" mediante la técnica de web scraping.
El objetivo principal es transformar y preparar los datos para análisis posteriores. A continuación, se detallan las tareas que se realizarán:

- Corrección de inconsistencias o errores y Conversión de formatos de datos:
1. **Cambio de Nombres y Orden de Columnas**
2. **Filtrado y Extracción de Información**
3. **Desglose de Características**
4. **Tranformar datos**
5. **Eliminación de Columnas Innecesarias**


Este enfoque metódico y estructurado nos permitirá obtener un dataset limpio y organizado, listo para su posterior análisis y modelado predictivo.


-------------------------------------------------------------------

In [57]:
#Importando las librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import re
import math

In [58]:
df = pd.read_csv('C:\\Users\\PC\\Desktop\\DataScience-Inmuebles\\data\\01-inmuebles_caba.csv')

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13806 entries, 0 to 13805
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Barrio            13806 non-null  object
 1   Precio Venta USD  13806 non-null  object
 2   Precio Expensas   13806 non-null  object
 3   Características   13805 non-null  object
 4   ID                13806 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 539.4+ KB


In [61]:
df.head()

Unnamed: 0,Barrio,Precio Venta USD,Precio Expensas,Características,ID
0,"Villa Devoto, Capital Federal",USD 149.000,+ $97.700 expensas,DepartamentoDepartamento; 72 m² Cubierta 72 m²...,16603204
1,"Villa Devoto, Capital Federal",USD 90.000,No disponible,DepartamentoDepartamento; 42 m² Cubierta 42 m²...,16706445
2,"Villa Devoto, Capital Federal",USD 365.000,No disponible,DepartamentoDepartamento; 95 m² Cubierta 95 m²...,16756779
3,"Villa Devoto, Capital Federal",USD 137.500,+ $95.000 expensas,DepartamentoDepartamento; 65 m² Cubierta 65 m²...,16871293
4,"Villa Devoto, Capital Federal",USD 235.000,No disponible,DepartamentoDepartamento; 68 m² Cubierta 68 m²...,16199205


# Observaciones Iniciales del Dataset

El dataset analizado consta de 5 columnas y 13806 filas. A continuación, se presenta una descripción de cada columna:
- **`Barrio`**: Detalle de la localidad y barrio.
- **`Precio Venta USD`**: valor de venta del departamento expresado en USD
- **`Precio Expensas`**: Valor de las expensas del departamento en pesos Argentinos 
- **`Caracteristicas`**: Características de la propiedad (años de antigüedad, metros cuadrados totales, cantidad de dormitorios, cantidad de baños, entre otros).
- **`ID`**: Identificador único de la propiedad.

------------------------------------------------------------------------------------------

### 1. Cambio de Nombres y Orden de Columnas

#### 1.1  Cambio de Nombres de Columnas
Se realizaron los siguientes cambios en los nombres de las columnas para mejorar la claridad y consistencia de los datos:

| Columna Anterior | Nuevo Nombre      |
|------------------|-------------------|
| `ID`              | `id`          |
| `Barrio`           | `barrio`            |
| `Precio Venta USD`      | `precio_venta_usd`       |
| `Precio Expensas`       | `precio_expensas`        |
| `Caracteristicas`         | `caracteristicas`           |




In [62]:
df.columns = ['barrio', 'precio_venta_usd', 'precio_expensas', 'caracteristicas', 'id']

In [63]:
print(df.columns)

Index(['barrio', 'precio_venta_usd', 'precio_expensas', 'caracteristicas',
       'id'],
      dtype='object')


### 1.2 Cambio en el Orden de las Columnas
El orden de las columnas fue modificado para facilitar la lectura y análisis de los datos. El nuevo orden de las columnas es el siguiente:

1. `id`
2. `barrio`
3. `precio_venta_usd`
4. `precio_expensas`
5. `caracteristicas`


In [64]:
df.head()

Unnamed: 0,barrio,precio_venta_usd,precio_expensas,caracteristicas,id
0,"Villa Devoto, Capital Federal",USD 149.000,+ $97.700 expensas,DepartamentoDepartamento; 72 m² Cubierta 72 m²...,16603204
1,"Villa Devoto, Capital Federal",USD 90.000,No disponible,DepartamentoDepartamento; 42 m² Cubierta 42 m²...,16706445
2,"Villa Devoto, Capital Federal",USD 365.000,No disponible,DepartamentoDepartamento; 95 m² Cubierta 95 m²...,16756779
3,"Villa Devoto, Capital Federal",USD 137.500,+ $95.000 expensas,DepartamentoDepartamento; 65 m² Cubierta 65 m²...,16871293
4,"Villa Devoto, Capital Federal",USD 235.000,No disponible,DepartamentoDepartamento; 68 m² Cubierta 68 m²...,16199205


### 2. Filtrar y Extraer Datos de la Columna "Barrio"

- La columna `barrio` incluye el  barrio y la localidad, solo se extraerán el barrio de los datos incluidos de esta columna 


In [65]:
#Observamos los valores de la columna "Barrio"
print(df['barrio'].unique())

['Villa Devoto, Capital Federal' 'No disponible'
 'Palermo, Capital Federal' 'Versalles, Capital Federal'
 'Constitucion, Capital Federal' 'Agronomia, Capital Federal'
 'Almagro, Capital Federal' 'Balvanera, Capital Federal'
 'Barracas, Capital Federal' 'Flores, Capital Federal'
 'Floresta, Capital Federal' 'Liniers, Capital Federal'
 'Villa Lugano, Capital Federal' 'Mataderos, Capital Federal'
 'Paternal, Capital Federal' 'Pompeya, Capital Federal'
 'Saavedra, Capital Federal' 'San Telmo, Capital Federal'
 'Belgrano, Capital Federal' 'Boca, Capital Federal'
 'Villa Luro, Capital Federal' 'Villa Crespo, Capital Federal'
 'Boedo, Capital Federal' 'Caballito, Capital Federal']


In [66]:
#Obtenemos solo los barrios , lo que esta antes de la coma
df['barrio'] = df['barrio'].apply(lambda x: x.split(',')[0])

In [67]:
print(df['barrio'].unique())

['Villa Devoto' 'No disponible' 'Palermo' 'Versalles' 'Constitucion'
 'Agronomia' 'Almagro' 'Balvanera' 'Barracas' 'Flores' 'Floresta'
 'Liniers' 'Villa Lugano' 'Mataderos' 'Paternal' 'Pompeya' 'Saavedra'
 'San Telmo' 'Belgrano' 'Boca' 'Villa Luro' 'Villa Crespo' 'Boedo'
 'Caballito']


### 3. Desglosar Datos de la Columna "caracteristicas"

- La columna contiene múltiples descripciones de la propiedad. Se sugiere crear columnas separadas para cada descripción importante, tales como `antigüedad`, `sup_total`, `dormitorios`, `baños`, entre otras.


In [68]:
#Observamos los valores de la columna caracteristicas
caracteristicas = df['caracteristicas'].unique()
caracteristicas

array(['DepartamentoDepartamento; 72 m² Cubierta 72 m² cubie.; 2 dormitorios 2 dorm.; 60 años 60 años; 1 baño 1 baño; 3 ambientes 3 ambientes',
       'DepartamentoDepartamento; 42 m² Cubierta 42 m² cubie.; 1 dormitorio 1 dorm.; 1 baño 1 baño; 2 ambientes 2 ambientes; Contra frente Contra frente; Noroeste Noroeste',
       'DepartamentoDepartamento; 95 m² Cubierta 95 m² cubie.; 2 dormitorios 2 dorm.; 3 baños 3 baños; 3 ambientes 3 ambientes; 1 cocheras 1 cocheras; Bueno Bueno; Frente Frente; Noreste Noreste; Per. mascota Per. mascota',
       ...,
       'DepartamentoDepartamento; 42 m² Cubierta 42 m² cubie.; 7 años 7 años; Apto profesi. Apto profesi.',
       'DepartamentoDepartamento; 52 m² Cubierta 52 m² cubie.; 1 dormitorio 1 dorm.; A Estrenar A Estrenar; 2 ambientes 2 ambientes; Excelente Excelente; Contra frente Contra frente; Norte Norte',
       'DepartamentoDepartamento; 100 m² Cubierta 100 m² cubie.; 4 dormitorios 4 dorm.; 20 años 20 años; 3 baños 3 baños; 4 ambientes 4 ambie

In [69]:

# Creamos las  columnas vacías para los atributos
df['dormitorios'] = np.nan
df['antiguedad'] = np.nan
df['baños'] = np.nan
df['ambientes'] = np.nan
df['cocheras'] = np.nan
df['sup_cubierta'] = np.nan
df['estado'] = np.nan
df['apto_profesional'] = np.nan
df['apto_mascotas'] = np.nan
df['orientacion'] = np.nan

# Función para extraer y asignar valores a las columnas correspondientes
def extraer_atributos(row):
    if pd.isna(row['caracteristicas']):
        return row
    
    atributos = row['caracteristicas'].split(';')
    for atributo in atributos:
        atributo = atributo.strip().lower()
        
        if 'dormitorio' in atributo:
            row['dormitorios'] = atributo
        elif ' año' in atributo or 'años' in atributos:
            row['antiguedad'] = atributo
        elif 'baño' in atributo:
            row['baños'] = atributo
        elif 'ambiente' in atributo or 'monoambiente' in atributo:
            row['ambientes'] = atributo
        elif 'cochera' in atributo:
            row['cocheras'] = atributo
        elif 'cubierta' in atributo:
            row['sup_cubierta'] = atributo
        elif 'per. mascota' in atributo:
            row['apto_mascotas'] = atributo
        elif 'apto profesi' in atributo:
            row['apto_profesional'] = atributo
        elif any(estado in atributo for estado in ['bueno', 'muy bueno', 'excelente', 'a estrenar', 'a refaccionar']):
            row['estado'] = atributo
        elif any(orientacion in atributo for orientacion in ['noroeste', 'norte', 'este', 'oeste', 'suroeste','sur']):
            row['orientacion'] = atributo

    return row

# Aplicacion de la función a cada fila del DataFrame
df = df.apply(extraer_atributos, axis=1)

In [70]:
#observamos como quedo el df
df.head()

Unnamed: 0,barrio,precio_venta_usd,precio_expensas,caracteristicas,id,dormitorios,antiguedad,baños,ambientes,cocheras,sup_cubierta,estado,apto_profesional,apto_mascotas,orientacion
0,Villa Devoto,USD 149.000,+ $97.700 expensas,DepartamentoDepartamento; 72 m² Cubierta 72 m²...,16603204,2 dormitorios 2 dorm.,60 años 60 años,1 baño 1 baño,3 ambientes 3 ambientes,,72 m² cubierta 72 m² cubie.,,,,
1,Villa Devoto,USD 90.000,No disponible,DepartamentoDepartamento; 42 m² Cubierta 42 m²...,16706445,1 dormitorio 1 dorm.,,1 baño 1 baño,2 ambientes 2 ambientes,,42 m² cubierta 42 m² cubie.,,,,noroeste noroeste
2,Villa Devoto,USD 365.000,No disponible,DepartamentoDepartamento; 95 m² Cubierta 95 m²...,16756779,2 dormitorios 2 dorm.,,3 baños 3 baños,3 ambientes 3 ambientes,1 cocheras 1 cocheras,95 m² cubierta 95 m² cubie.,bueno bueno,,per. mascota per. mascota,noreste noreste
3,Villa Devoto,USD 137.500,+ $95.000 expensas,DepartamentoDepartamento; 65 m² Cubierta 65 m²...,16871293,2 dormitorios 2 dorm.,50 años 50 años,2 baños 2 baños,3 ambientes 3 ambientes,,65 m² cubierta 65 m² cubie.,,,,
4,Villa Devoto,USD 235.000,No disponible,DepartamentoDepartamento; 68 m² Cubierta 68 m²...,16199205,2 dormitorios 2 dorm.,,1 baño 1 baño,3 ambientes 3 ambientes,1 cocheras 1 cocheras,68 m² cubierta 68 m² cubie.,a estrenar a estrenar,apto profesi. apto profesi.,,


## 4.Conversión de formatos de datos:
**Tranformar los atributos**: Indentificar y transformar  según el formato que correspondan (numéricos, categóricos o booleanos )

- El atributo `estado`  deben estar en formato categorico:

In [71]:
#Observamos los valores unicos de 'estado'
print(df['estado'].unique())

[nan 'bueno bueno' 'a estrenar a estrenar' 'muy bueno muy bueno'
 'excelente excelente' 'a refaccionar a refac.']


In [72]:
# Función para limpiar y transformar los valores en la columna 'estado' cuando esté la cadena 'a estrenar' se le dara un valor de '0 años ' para  la columna antiguedad ya que si el departamento es a estreanar tiene 0 años de antiguedad
def limpiar_estado(valor):
    if pd.isna(valor):
        return np.nan
    elif valor == 'a estrenar a estrenar':
        return 'a estrenar'
    else:
        partes = valor.split()
        if len(partes) > 1 and partes[0] == partes[1]:
            return partes[0]
        elif len(partes) > 2 and partes[0] == partes[2]:
            return partes[0] + ' ' + partes[1]
        else:
            return ' '.join(partes[:2])

# Aplicar la función a la columna 'estado'
df['estado'] = df['estado'].apply(limpiar_estado)

# Actualizar la columna 'antiguedad' cuando el estado sea 'a estrenar'
df.loc[df['estado'] == 'a estrenar', 'antiguedad'] = '0 años'

# Mostrar los valores únicos de la columna 'estado'
print(df['estado'].unique())


[nan 'bueno' 'a estrenar' 'muy bueno' 'excelente' 'a refaccionar']


In [73]:
df['orientacion'].unique()

array([nan, 'noroeste noroeste', 'noreste noreste', 'este este',
       'norte norte', 'oeste oeste', 'sureste sureste',
       'suroeste suroeste', 'sur sur', 'sudoeste sudoeste',
       'sudeste sudeste'], dtype=object)

In [74]:
# Función para limpiar y transformar los valores en la columna 'orientacion'
def limpiar_orientacion(valor):
    if pd.isna(valor):
        return np.nan
    else:
        partes = valor.split()
        return partes[0]

# Aplicar la función a la columna 'orientacion'
df['orientacion'] = df['orientacion'].apply(limpiar_orientacion)

# Mostrar los valores únicos de la columna 'orientacion'
print(df['orientacion'].unique())


[nan 'noroeste' 'noreste' 'este' 'norte' 'oeste' 'sureste' 'suroeste'
 'sur' 'sudoeste' 'sudeste']


In [75]:
#Unificando criterios de la columna 'orientacion'
# Diccionario de mapeo para unificar valores
mapeo_orientacion = {
    'sudoeste':'suroeste',
    'sudeste':'sureste'
}

# Función para limpiar y transformar los valores en la columna 'orientacion'
def limpiar_orientacion(valor):
    if pd.isna(valor):
        return np.nan
    else:
        partes = valor.split()[0]
        return mapeo_orientacion.get(partes, partes)

# Aplicar la función a la columna 'orientacion'
df['orientacion'] = df['orientacion'].apply(limpiar_orientacion)

# Mostrar los valores únicos de la columna 'orientacion'
print(df['orientacion'].unique())


[nan 'noroeste' 'noreste' 'este' 'norte' 'oeste' 'sureste' 'suroeste'
 'sur']


- Los atributos `precio_venta_usd`,`precio_expensas` `Sup_total`, `ambientes`, `sup_cubierta`, `dormitorios`, ` antiguedad`, `cocheras`, `Toilettes` deben estar en formato numerico:

- `precio_expensas`:

In [76]:
df['precio_expensas'].unique()

array(['+ $97.700 expensas', 'No disponible', '+ $95.000 expensas',
       '+ $83.000 expensas', '+ $130.000 expensas', '+ $115.000 expensas',
       '+ $110.000 expensas', '+ $105.000 expensas',
       '+ $100.000 expensas', '+ $80.000 expensas', '+ $104.000 expensas',
       '+ $140.000 expensas', '+ $90.000 expensas', '+ $168.000 expensas',
       '+ $712.000 expensas', '+ $510.000 expensas', '+ $30.000 expensas',
       '+ $150.000 expensas', '+ $125.000 expensas', '+ $45.000 expensas',
       '+ $900.000 expensas', '+ $180.000 expensas', '+ $25.000 expensas',
       '+ $490.000 expensas', '+ $120.000 expensas',
       '+ $175.000 expensas', '+ $12.800 expensas', '+ $70.000 expensas',
       '+ $100.100 expensas', '+ $75.000 expensas', '+ $600.000 expensas',
       '+ $261.000 expensas', '+ $250.000 expensas',
       '+ $181.344 expensas', '+ $17.800 expensas', '+ $145.000 expensas',
       '+ $400.000 expensas', '+ $32.000 expensas', '+ $62.000 expensas',
       '+ $190.000 expens

In [77]:

df['precio_expensas'] = df['precio_expensas'].str.replace('+ $', '')  # Elimina '+ $'
df['precio_expensas'] = df['precio_expensas'].str.replace('.', '')  # Elimina puntos
df['precio_expensas'] = df['precio_expensas'].str.replace(' expensas', '')  # Elimina 'expensas'
df['precio_expensas'] = pd.to_numeric(df['precio_expensas'], errors='coerce')  # Convierte a numérico
df['precio_expensas'] = df['precio_expensas'].astype('Int64')  # Convertiendo a Int64 permitiendo valores NaN

- `precio_venta_usd`:

In [78]:
#4.1 Observamos los valores de la columna precio_venta_usd
df['precio_venta_usd'].unique()

array(['USD 149.000', 'USD 90.000', 'USD 365.000', ..., 'USD 165.800',
       'USD 165.500', 'USD 158.600'], shape=(1876,), dtype=object)

In [79]:
df['precio_venta_usd'] = df['precio_venta_usd'].str.replace('USD ', '')  # Elimina 'USD '
df['precio_venta_usd'] = df['precio_venta_usd'].str.replace('.', '')  # Eliminar puntos
df['precio_venta_usd'] = pd.to_numeric(df['precio_venta_usd'], errors='coerce')  # Convertir a numérico, NaN para valores no convertibles
df['precio_venta_usd'] = df['precio_venta_usd'].astype('Int64')  # Convertir a Int64 permitiendo valores NaN

- `sup_cubierta`:

In [80]:
#Observamos los valore uicos de la columna 'sup_cubierta' para extrer de ella solo los numeros
df['sup_cubierta'].unique()

array(['72 m² cubierta 72 m² cubie.', '42 m² cubierta 42 m² cubie.',
       '95 m² cubierta 95 m² cubie.', '65 m² cubierta 65 m² cubie.',
       '68 m² cubierta 68 m² cubie.', '69 m² cubierta 69 m² cubie.',
       '71 m² cubierta 71 m² cubie.', '29 m² cubierta 29 m² cubie.',
       '58 m² cubierta 58 m² cubie.',
       '112,81 m² cubierta 112,81 m² cubie.',
       '47,97 m² cubierta 47,97 m² cubie.',
       '543 m² cubierta 543 m² cubie.', '80 m² cubierta 80 m² cubie.',
       '51,04 m² cubierta 51,04 m² cubie.',
       '63,50 m² cubierta 63,50 m² cubie.',
       '152 m² cubierta 152 m² cubie.', '197 m² cubierta 197 m² cubie.',
       '59,96 m² cubierta 59,96 m² cubie.', '77 m² cubierta 77 m² cubie.',
       '44 m² cubierta 44 m² cubie.', nan, '63 m² cubierta 63 m² cubie.',
       '40 m² cubierta 40 m² cubie.', '147 m² cubierta 147 m² cubie.',
       '74 m² cubierta 74 m² cubie.', '57 m² cubierta 57 m² cubie.',
       '48 m² cubierta 48 m² cubie.', '110 m² cubierta 110 m² cubie.',
    

In [81]:
# Reemplazamos las comas por puntos
df['sup_cubierta'] = df['sup_cubierta'].str.replace(',', '.')

# Usamos la función str.extract() para extraer el primer número de la cadena
df['sup_cubierta'] = df['sup_cubierta'].str.extract(r'(\d+\.\d+|\d+)', expand=False).astype(float)


- Los atributos  `ambientes`, `dormitorios`, ` antiguedad`, se le aplicaran los siguinetes criterios:

|Dormitorios  | Ambientes  |Antiguedad  | 
|------------|------------|------------|
| 0 (No posee,ya que es un monoambiente) |   Monoambiente  | A estreanar    | 
| 1 dorm.     | 2 amb.   | 1-5 Años    | 
| 2 dorm.    | 3 amb.    | 5-10 Años  | 
| 3 dorm.     | 4 amb.  | 10-15 Años  |
| 4 dorm.     | 5 amb.   | 15-20 Años  |
| 5 dorm.    |  6 amb.  | 20-25 Años   | 
| + 6 dorm.     | +7 amb.   |30-35 Años   |
|      |   |40-45 Años   |
|      |   | 50-100 Años   |
|      |   | + 100 Años   |





- `dormitorios` y `ambientes`:

In [82]:
#Observamos los valores unicos de la columna 'dormitorios' y 'ambientes' para poder transformarlos en numericos
print(df['dormitorios'].unique())
print(df['ambientes'].unique())

['2 dormitorios 2 dorm.' '1 dormitorio 1 dorm.' nan
 '3 dormitorios 3 dorm.' '4 dormitorios 4 dorm.' '5 dormitorios 5 dorm.'
 '6 dormitorios 6 dorm.' '9 dormitorios 9 dorm.' '10 dormitorios 10 dorm.'
 '7 dormitorios 7 dorm.' '8 dormitorios 8 dorm.']
['3 ambientes 3 ambientes' '2 ambientes 2 ambientes'
 'monoambiente monoam.' '4 ambientes 4 ambientes'
 '5 ambientes 5 ambientes' nan '6 ambientes 6 ambientes'
 '7 ambientes 7 ambientes' '9 ambientes 9 ambientes'
 '8 ambientes 8 ambientes' '12 ambientes 12 ambientes'
 '1 ambiente 1 ambiente' '10 ambientes 10 ambientes'
 'ambientes ambientes ambientes ambientes' '11 ambientes 11 ambientes']


In [83]:
# en la columna 'ambientes' si esta presente la cadena 'monoambiente' se aplicara un 1 en la columna 'ambiente' y un 0 en la columna 'dormitorios'
df.loc[df['ambientes'] == 'monoambiente monoam.', ['ambientes', 'dormitorios']] = ['1', '0']

In [84]:
print(df['ambientes'].unique())

['3 ambientes 3 ambientes' '2 ambientes 2 ambientes' '1'
 '4 ambientes 4 ambientes' '5 ambientes 5 ambientes' nan
 '6 ambientes 6 ambientes' '7 ambientes 7 ambientes'
 '9 ambientes 9 ambientes' '8 ambientes 8 ambientes'
 '12 ambientes 12 ambientes' '1 ambiente 1 ambiente'
 '10 ambientes 10 ambientes' 'ambientes ambientes ambientes ambientes'
 '11 ambientes 11 ambientes']


In [85]:
# Función para extraer el número de las columnas 'dormitorios' y 'ambientes'
def extraer_numero(valor):
    if pd.isna(valor):
        return np.nan
    elif valor == 'monoambiente monoam.':
        return 1
    else:
        try:
            return int(valor.split()[0])
        except (ValueError, AttributeError):
            return np.nan


# Aplicar la función para extraer los números a las columnas
df['dormitorios'] = df['dormitorios'].apply(extraer_numero)
df['ambientes'] = df['ambientes'].apply(extraer_numero)

# Aplicar la transformación: convertir todos los valores mayores a 7 en 7
df['dormitorios'] = df['dormitorios'].apply(lambda x: 7 if x > 7 else x).astype('Int64')
df['ambientes'] = df['ambientes'].apply(lambda x: 7 if x > 7 else x).astype('Int64')


In [86]:
print(df['ambientes'].unique())

<IntegerArray>
[3, 2, 1, 4, 5, <NA>, 6, 7]
Length: 8, dtype: Int64


In [87]:
#Observamos los valores y como esta compuesta la columna 'antuguedad' para transformarla en numérica
print(df['antiguedad'].unique())

['60 años 60 años' nan '50 años 50 años' '0 años' '55 años 55 años'
 '15 años 15 años' '40 años 40 años' '14 años 14 años' '42 años 42 años'
 '8 años 8 años' '12 años 12 años' '20 años 20 años' '2 años 2 años'
 '10 años 10 años' '23 años 23 años' '43 años 43 años' '1 año 1 año'
 '30 años 30 años' '31 años 31 años' '3 años 3 años' '25 años 25 años'
 '45 años 45 años' '7 años 7 años' '35 años 35 años' '13 años 13 años'
 '11 años 11 años' '49 años 49 años' '41 años 41 años' '6 años 6 años'
 '5 años 5 años' '54 años 54 años' '70 años 70 años' '39 años 39 años'
 '18 años 18 años' '48 años 48 años' '46 años 46 años' '80 años 80 años'
 '38 años 38 años' '32 años 32 años' '9 años 9 años' '4 años 4 años'
 '69 años 69 años' '24 años 24 años' '29 años 29 años' '100 años 100 años'
 '47 años 47 años' '22 años 22 años' '58 años 58 años' '44 años 44 años'
 '64 años 64 años' '53 años 53 años' '33 años 33 años' '62 años 62 años'
 '28 años 28 años' '36 años 36 años' '51 años 51 años' '61 años 61 años'
 

In [88]:
# Función para extraer el número de años
def extraer_antiguedad(valor):
    if pd.isna(valor):  # Si es NaN, lo dejamos como está
        return np.nan
    try:
        # Extraer el primer número en la cadena
        return int(valor.split()[0])
    except (ValueError, AttributeError):
        return np.nan

# Aplicar la función para extraer el número
df['antiguedad'] = df['antiguedad'].apply(extraer_antiguedad)

# Función para agrupar según los rangos especificados
def categorizar_antiguedad(valor):
    if pd.isna(valor):
        return np.nan
    elif valor == 0:
        return "A estrenar"
    elif 1 <= valor <= 5:
        return "1-5 años"
    elif 6 <= valor <= 10:
        return "5-10 años"
    elif 11 <= valor <= 15:
        return "10-15 años"
    elif 16 <= valor <= 20:
        return "15-20 años"
    elif 21 <= valor <= 25:
        return "20-25 años"
    elif 26 <= valor <= 50:
        return "25-50 años"
    elif 51 <= valor <= 100:
        return "50-100 años"
    else:
        return "+100 años"

# Aplicar la función para categorizar
df['antiguedad'] = df['antiguedad'].apply(categorizar_antiguedad)

# Mostrar el DataFrame resultante
print (df['antiguedad'])


0        50-100 años
1                NaN
2                NaN
3         25-50 años
4         A estrenar
            ...     
13801            NaN
13802      5-10 años
13803            NaN
13804     15-20 años
13805            NaN
Name: antiguedad, Length: 13806, dtype: object


In [89]:
print(df['antiguedad'].unique())

['50-100 años' nan '25-50 años' 'A estrenar' '10-15 años' '5-10 años'
 '15-20 años' '1-5 años' '20-25 años' '+100 años']


In [90]:
df.head(5)

Unnamed: 0,barrio,precio_venta_usd,precio_expensas,caracteristicas,id,dormitorios,antiguedad,baños,ambientes,cocheras,sup_cubierta,estado,apto_profesional,apto_mascotas,orientacion
0,Villa Devoto,149000,97700.0,DepartamentoDepartamento; 72 m² Cubierta 72 m²...,16603204,2,50-100 años,1 baño 1 baño,3,,72.0,,,,
1,Villa Devoto,90000,,DepartamentoDepartamento; 42 m² Cubierta 42 m²...,16706445,1,,1 baño 1 baño,2,,42.0,,,,noroeste
2,Villa Devoto,365000,,DepartamentoDepartamento; 95 m² Cubierta 95 m²...,16756779,2,,3 baños 3 baños,3,1 cocheras 1 cocheras,95.0,bueno,,per. mascota per. mascota,noreste
3,Villa Devoto,137500,95000.0,DepartamentoDepartamento; 65 m² Cubierta 65 m²...,16871293,2,25-50 años,2 baños 2 baños,3,,65.0,,,,
4,Villa Devoto,235000,,DepartamentoDepartamento; 68 m² Cubierta 68 m²...,16199205,2,A estrenar,1 baño 1 baño,3,1 cocheras 1 cocheras,68.0,a estrenar,apto profesi. apto profesi.,,


In [91]:

# Función para extraer los números de baños y cocheras
def extraer_numeros(texto, keyword):
    import re
    if pd.isna(texto):
        return None
    resultado = re.search(rf'(\d+) {keyword}', texto, re.IGNORECASE)
    return float(resultado.group(1)) if resultado else None

df['baños'] = df['baños'].apply(lambda x: extraer_numeros(x, 'baño[s]?')).astype('Int64') 
df['cocheras'] = df['cocheras'].apply(lambda x: extraer_numeros(x, 'cocheras[s]?')).astype('Int64')

print(df[[ 'baños','cocheras']])


       baños  cocheras
0          1      <NA>
1          1      <NA>
2          3         1
3          2      <NA>
4          1         1
...      ...       ...
13801      2      <NA>
13802   <NA>      <NA>
13803   <NA>      <NA>
13804      3         1
13805      1      <NA>

[13806 rows x 2 columns]


In [92]:
df.head(8)

Unnamed: 0,barrio,precio_venta_usd,precio_expensas,caracteristicas,id,dormitorios,antiguedad,baños,ambientes,cocheras,sup_cubierta,estado,apto_profesional,apto_mascotas,orientacion
0,Villa Devoto,149000,97700.0,DepartamentoDepartamento; 72 m² Cubierta 72 m²...,16603204,2,50-100 años,1,3,,72.0,,,,
1,Villa Devoto,90000,,DepartamentoDepartamento; 42 m² Cubierta 42 m²...,16706445,1,,1,2,,42.0,,,,noroeste
2,Villa Devoto,365000,,DepartamentoDepartamento; 95 m² Cubierta 95 m²...,16756779,2,,3,3,1.0,95.0,bueno,,per. mascota per. mascota,noreste
3,Villa Devoto,137500,95000.0,DepartamentoDepartamento; 65 m² Cubierta 65 m²...,16871293,2,25-50 años,2,3,,65.0,,,,
4,Villa Devoto,235000,,DepartamentoDepartamento; 68 m² Cubierta 68 m²...,16199205,2,A estrenar,1,3,1.0,68.0,a estrenar,apto profesi. apto profesi.,,
5,Villa Devoto,197000,83000.0,DepartamentoDepartamento; 69 m² Cubierta 69 m²...,16199203,2,A estrenar,1,3,,69.0,a estrenar,,,
6,Villa Devoto,495000,,DepartamentoDepartamento; 71 m² Cubierta 71 m²...,16384763,1,A estrenar,1,2,,71.0,a estrenar,,,
7,Villa Devoto,107300,,DepartamentoDepartamento; 29 m² Cubierta 29 m²...,11312007,0,A estrenar,1,1,,29.0,a estrenar,,,noreste


- Los atributos `apto_profesional` y `apto_mascotas` deben estar en formato booleano:

In [93]:
#Observalos los valores de las columnas apto_profesional y apto_mascotas
print(df['apto_profesional'].unique())
print(df['apto_mascotas'].unique())

[nan 'apto profesi. apto profesi.']
[nan 'per. mascota per. mascota']


In [94]:

# Función para transformar en booleanos, manteniendo NaN
def transformar_booleano(valor):
    if pd.isna(valor):
        return np.nan
    elif valor == 'apto profesi. apto profesi.':
        return 1
    elif valor == 'per. mascota per. mascota':
        return 1
    else:
        return 0

# Aplicar la función a las columnas 'apto_profesional' y 'apto_mascotas'
df['apto_profesional'] = df['apto_profesional'].apply(transformar_booleano).astype('Int64')
df['apto_mascotas'] = df['apto_mascotas'].apply(transformar_booleano).astype('Int64')

# Mostrar los valores únicos de las columnas transformadas
print(df['apto_profesional'].unique())
print(df['apto_mascotas'].unique())

<IntegerArray>
[<NA>, 1]
Length: 2, dtype: Int64
<IntegerArray>
[<NA>, 1]
Length: 2, dtype: Int64


## 5. Eliminación de Columnas Innecesarias

Una vez realizado el primer procesamiento de datos, se debe proceder a:

- Identificar y eliminar las columnas que no aportan valor significativo al análisis, optimizando así la estructura del dataset.

In [95]:
# Eliminando la columna
df = df.drop(['caracteristicas'], axis=1)

## Observación Final de las transformaciones realizadas y el resultado  final del dataset:

In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13806 entries, 0 to 13805
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   barrio            13806 non-null  object 
 1   precio_venta_usd  13662 non-null  Int64  
 2   precio_expensas   6796 non-null   Int64  
 3   id                13806 non-null  int64  
 4   dormitorios       13515 non-null  Int64  
 5   antiguedad        8785 non-null   object 
 6   baños             12875 non-null  Int64  
 7   ambientes         13398 non-null  Int64  
 8   cocheras          1817 non-null   Int64  
 9   sup_cubierta      12959 non-null  float64
 10  estado            8497 non-null   object 
 11  apto_profesional  3159 non-null   Int64  
 12  apto_mascotas     1998 non-null   Int64  
 13  orientacion       4032 non-null   object 
dtypes: Int64(8), float64(1), int64(1), object(4)
memory usage: 1.6+ MB


In [131]:
df.head(8)

Unnamed: 0,id,barrio,precio_venta_usd,precio_expensas,dormitorios,antiguedad,baños,ambientes,cocheras,sup_cubierta,estado,apto_profesional,apto_mascotas,orientacion
0,16603204,Villa Devoto,149000,97700.0,2,50-100 años,1,3,,72.0,,,,
1,16706445,Villa Devoto,90000,,1,,1,2,,42.0,,,,noroeste
2,16756779,Villa Devoto,365000,,2,,3,3,1.0,95.0,bueno,,1.0,noreste
3,16871293,Villa Devoto,137500,95000.0,2,25-50 años,2,3,,65.0,,,,
4,16199205,Villa Devoto,235000,,2,A estrenar,1,3,1.0,68.0,a estrenar,1.0,,
5,16199203,Villa Devoto,197000,83000.0,2,A estrenar,1,3,,69.0,a estrenar,,,
6,16384763,Villa Devoto,495000,,1,A estrenar,1,2,,71.0,a estrenar,,,
7,11312007,Villa Devoto,107300,,0,A estrenar,1,1,,29.0,a estrenar,,,noreste


In [42]:
# Guardando  el DataFrame resultante en un nuevo archivo CSV
df.to_csv('C:\\Users\\PC\\Desktop\\Ml-deptos\\notebook\\data\\2-inmuebles.csv',  index=False)

---------------------------------