In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
import plotly.express as px
import re
from datetime import datetime

ModuleNotFoundError: No module named 'plotly'

In [7]:
file_path = 'relevant_listings.csv'  
# Load the dataset with low_memory=False to handle mixed types
df = pd.read_csv(file_path, low_memory=False)

In [9]:
# Basic information
print(f"Dataset shape: {df.shape}")
print(f"Total properties: {df.shape[0]}")
print(f"Total features: {df.shape[1]}")

Dataset shape: (110228, 30)
Total properties: 110228
Total features: 30


In [13]:
# View first rows and column names
print(df.head())

  Administración Area Construida Area Privada Area Terreno  \
0       $656.000             NaN          NaN          NaN   
1            NaN             NaN          NaN          NaN   
2            NaN             NaN          NaN          NaN   
3            NaN             NaN          NaN          NaN   
4       $361.000             NaN          NaN          NaN   

   Año de construcción Baño medio Baños                  Ciudad Estado  \
0                  NaN        NaN     3              El Retiro.  Usado   
1               2021.0        NaN     0               Envigado.  Nuevo   
2                  1.0        NaN     1               Medellín.  Usado   
3                  1.0        NaN     4               Medellín.  Usado   
4                  NaN        NaN     2  Santa Fe de Antioquia.  Usado   

  Estrato  ...                                  detalles_exterior  \
0       5  ...  Acceso pavimentado | Ascensor | Cochera / Gara...   
1       5  ...  Acceso pavimentado | Bosque 

In [15]:
print(df.columns.tolist())

['Administración', 'Area Construida', 'Area Privada', 'Area Terreno', 'Año de construcción', 'Baño medio', 'Baños', 'Ciudad', 'Estado', 'Estrato', 'Garaje', 'Habitaciones', 'Negocio', 'Nivel', 'País', 'Provincia', 'Terreno', 'Tipo Inmueble', 'Zona', 'descripcion', 'detalles_exterior', 'detalles_interior', 'moneda', 'precio', 'url', 'Área / metros / rural / Privada', 'Área / metros / rural / Terreno', 'Área Construida', 'Área Privada', 'Área Terreno']


In [17]:
print(df.dtypes)

Administración                      object
Area Construida                     object
Area Privada                        object
Area Terreno                        object
Año de construcción                float64
Baño medio                          object
Baños                               object
Ciudad                              object
Estado                              object
Estrato                             object
Garaje                             float64
Habitaciones                        object
Negocio                             object
Nivel                              float64
País                                object
Provincia                           object
Terreno                             object
Tipo Inmueble                       object
Zona                                object
descripcion                         object
detalles_exterior                   object
detalles_interior                   object
moneda                              object
precio     

In [19]:
# Check for missing values
missing_values = df.isnull().sum()
missing_percent = (missing_values / len(df)) * 100
missing_data = pd.concat([missing_values, missing_percent], axis=1)
print(missing_data[missing_data['Missing Values'] > 0])

KeyError: 'Missing Values'

In [21]:
print(df.head(5))

  Administración Area Construida Area Privada Area Terreno  \
0       $656.000             NaN          NaN          NaN   
1            NaN             NaN          NaN          NaN   
2            NaN             NaN          NaN          NaN   
3            NaN             NaN          NaN          NaN   
4       $361.000             NaN          NaN          NaN   

   Año de construcción Baño medio Baños                  Ciudad Estado  \
0                  NaN        NaN     3              El Retiro.  Usado   
1               2021.0        NaN     0               Envigado.  Nuevo   
2                  1.0        NaN     1               Medellín.  Usado   
3                  1.0        NaN     4               Medellín.  Usado   
4                  NaN        NaN     2  Santa Fe de Antioquia.  Usado   

  Estrato  ...                                  detalles_exterior  \
0       5  ...  Acceso pavimentado | Ascensor | Cochera / Gara...   
1       5  ...  Acceso pavimentado | Bosque 

In [23]:
display(df.head(5))

Unnamed: 0,Administración,Area Construida,Area Privada,Area Terreno,Año de construcción,Baño medio,Baños,Ciudad,Estado,Estrato,...,detalles_exterior,detalles_interior,moneda,precio,url,Área / metros / rural / Privada,Área / metros / rural / Terreno,Área Construida,Área Privada,Área Terreno
0,$656.000,,,,,,3,El Retiro.,Usado,5,...,Acceso pavimentado | Ascensor | Cochera / Gara...,Adosado | Armarios Empotrados | Baño auxiliar ...,COP,1400000000.0,https://info.wasi.co/casa-campestre-venta-pant...,,,178 m²,,
1,,,,,2021.0,,0,Envigado.,Nuevo,5,...,Acceso pavimentado | Bosque nativos | Centros ...,Gas domiciliario | Vista panorámica,COP,1575000000.0,https://info.wasi.co/casa-campestre-venta-pant...,,,,,2757 m²
2,,,,,1.0,,1,Medellín.,Usado,3,...,Parques cercanos | Trans. público cercano,Balcón | Cocina integral | Gas domiciliario,COP,1700000.0,https://info.wasi.co/casa-campestre-venta-pant...,,,34 m²,34 m²,34 m²
3,,,,,1.0,,4,Medellín.,Usado,3,...,Acceso pavimentado | Trans. público cercano | ...,Clósets | Zona de lavandería,COP,750000000.0,https://info.wasi.co/casa-campestre-venta-pant...,,,255.8 m²,,91.20 m²
4,$361.000,,,,,,2,Santa Fe de Antioquia.,Usado,4,...,Acceso pavimentado | Cancha de futbol | Garaje...,Balcón | Baño en habitación principal | Barra ...,COP,320000000.0,https://info.wasi.co/casa-campestre-venta-pant...,,,58 m²,4.8 m²,


In [27]:
unique_cities = df['Ciudad'].unique()

In [29]:
# Print the unique values
print(unique_cities)

['El Retiro.' 'Envigado.' 'Medellín.' 'Santa Fe de Antioquia.' 'Rionegro.'
 'Bello.' 'Jardín.' 'Girardota.' 'Sabaneta.' 'San Jerónimo.' 'Itagui.'
 'El Carmen de Viboral.' 'Marinilla.' 'Caldas.' 'Olaya.' 'Barbosa.'
 'San Rafael.' 'Sopetran.' 'El Peñol.' 'Guarne.' 'La Pintada.' 'La Ceja.'
 'Copacabana.' 'Apartadó.' 'San Antonio de Prado.' 'Anorí.' 'Támesis.'
 'La Unión.' 'La Estrella.' 'Guatapé.' 'San Roque.' 'Gómez Plata.'
 'Sonsón.' 'Cocorná.' 'Santa Elena.' 'Angelopolis.' 'Fredonia.'
 'Santuario.' 'San Vicente.' 'Santa Bárbara.' 'Vegachi.' 'Amagá.'
 'Santo Domingo.' 'Santa Rosa de Osos.' 'Hispania.' 'Betania.' 'Necoclí.'
 'Turbo.' 'Titiribí.' 'San José de la Montaña.' 'Alejandría.'
 'Entrerrios.' 'San Pedro de los Milagros.' 'Ciudad Bolivar.' 'Abejorral.'
 'Venecia.' nan 'Amalfi.' 'Jerico.' 'Sabanalarga.' 'Montebello.'
 'Heliconia.' 'Ebejico.' 'Andes.' 'Caucasia.' 'Valparaiso.' 'Belmira.'
 'Urrao.' 'Puerto Triunfo.' 'Caracoli.' 'San Juan de Urabá.'
 'Puerto Berrio.' 'Yolombo.' 'Tarso.

In [None]:
area_metropolitana = [
    'Medellín.', 
    'Bello.', 
    'Envigado.', 
    'Itagui.', 
    'Sabaneta.', 
    'La Estrella.', 
    'Caldas.', 
    'Copacabana.', 
    'Girardota.', 
    'Barbosa.'
]