# Análisis de precios de apartamentos de Bogotá

# Importacion de librerías y funciones auxiliares

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('C:/Users/jmriv/Documents/Ciencia de Datos - Repos/Tutorial regresión/apartamentos.csv')

In [8]:
def ver_datos(data, col_name, categorica=False):
    print(data[col_name].describe())
    print('--'*10)
    print(f'Número de datos nulos: {data[col_name].isnull().sum()}')
    if categorica:
        print('--'*10)
        print(data[col_name].value_counts(dropna=False))

# Caracterización de los datos

In [3]:
df.shape

(43013, 46)

In [5]:
df.sample(2)

Unnamed: 0,_id,codigo,tipo_propiedad,tipo_operacion,precio_venta,area,habitaciones,banos,administracion,parqueaderos,...,vigilancia,coords_modified,localidad,barrio,estacion_tm_cercana,distancia_estacion_tm_m,is_cerca_estacion_tm,parque_cercano,distancia_parque_m,is_cerca_parque
7645,66d86ca2ceda690e8550a53d,346-M5028748,APARTAMENTO,VENTA,9950000000.0,462.0,4.0,4.0,2500000.0,4.0,...,1.0,False,CHAPINERO,S.C. BELLAVISTA,Flores – Areandina,1582.63,0,PARQUE ZONAL GUSTAVO URIBE BOTERO,423.05,1
35607,66d86e1bceda690e85511277,10159-M5128305,APARTAMENTO,VENTA,290000000.0,71.0,3.0,2.0,270000.0,1.0,...,0.0,False,ENGATIVA,S.C. EL GACO,Portal 80,3212.97,0,PARQUE METROPOLITANO PLANTA DE TRATAMIENTO SAL...,1256.6,0


In [None]:
# Información básica del dataset
print('Dimensiones del dataset (filas, columnas):', df.shape)
print('\nTipos de datos:')
print(df.dtypes)
print('\nEstadísticas descriptivas:')
print(df.describe())

Dimensiones del dataset (filas, columnas): (43013, 46)

Tipos de datos:
_id                         object
codigo                      object
tipo_propiedad              object
tipo_operacion              object
precio_venta               float64
area                       float64
habitaciones               float64
banos                      float64
administracion             float64
parqueaderos               float64
sector                      object
estrato                    float64
antiguedad                  object
latitud                    float64
longitud                   float64
direccion                   object
descripcion                 object
website                     object
last_view                   object
datetime                    object
url                         object
timeline                    object
estado                      object
compañia                    object
precio_arriendo            float64
jacuzzi                    float64
piso              

In [7]:
df['tipo_operacion'].value_counts()

tipo_operacion
VENTA               27270
ARRIENDO            15515
VENTA Y ARRIENDO      228
Name: count, dtype: int64

## Completitud
Se eliminarán algunas variables teniendo en cuenta el número de nulos que presentan

In [13]:
print('\nValores nulos por columna:')
print(df.isnull().sum().sort_values(ascending=False))


Valores nulos por columna:
closets                    43013
piso                       43013
url                        42219
direccion                  42219
precio_arriendo            27184
precio_venta               15429
timeline                   13586
administracion              7925
compañia                    4530
sector                      1641
estado                       796
barrio                       193
antiguedad                    10
website                        2
salon_comunal                  2
terraza                        2
conjunto_cerrado               2
ascensor                       2
vigilancia                     2
piscina                        2
gimnasio                       2
datetime                       2
chimenea                       2
permite_mascotas               2
last_view                      2
jacuzzi                        2
parqueaderos                   1
habitaciones                   1
banos                          1
estrato        

Se deciden eliminar las variables:
- Closets
- Piso
- URL
- Dirección

In [None]:
df.drop(columns=['closets', 'piso','url','direccion'], inplace=True)

## Relevancia
Se decide seleccionar un subconjunto de los datos para trabajar con ellos

In [24]:
selected_cols = [
    'precio_arriendo',
    'precio_venta',
    'salon_comunal',
    'terraza',
    'vigilancia',
    'piscina',
    'ascensor',
    'conjunto_cerrado',
    'gimnasio',
    'jacuzzi',
    'chimenea',
    'permite_mascotas',
    'estrato',
    'habitaciones',
    'banos',
    'parqueaderos',
    'tipo_operacion',
    'tipo_propiedad',
    'area',
    'localidad',
    'distancia_estacion_tm_m',
    'is_cerca_estacion_tm',
    'distancia_parque_m',
    'is_cerca_parque'
    ]

In [25]:
df=df[selected_cols]

In [18]:
print(df.isnull().sum().sort_values(ascending=False))

precio_arriendo            27184
precio_venta               15429
timeline                   13586
administracion              7925
compañia                    4530
sector                      1641
estado                       796
barrio                       193
antiguedad                    10
website                        2
salon_comunal                  2
terraza                        2
vigilancia                     2
piscina                        2
ascensor                       2
conjunto_cerrado               2
gimnasio                       2
last_view                      2
datetime                       2
jacuzzi                        2
chimenea                       2
permite_mascotas               2
estrato                        1
habitaciones                   1
banos                          1
parqueaderos                   1
tipo_operacion                 0
tipo_propiedad                 0
area                           0
codigo                         0
_id       

In [None]:
df.drop(columns=['closets', 'piso','url','direccion'], inplace=True)

In [19]:
ver_datos(df, 'timeline', True)

count     29427
unique     2047
top          []
freq      27381
Name: timeline, dtype: object
--------------------
Número de datos nulos: 13586
--------------------
timeline
[]                                                                                                                                                              27381
NaN                                                                                                                                                             13586
[{'fecha': {'$date': '2024-08-09T04:04:00.755Z'}, 'precio_arriendo': 1400000}, {'fecha': {'$date': '2024-08-14T01:21:15.179Z'}, 'precio_arriendo': 1450000}]        1
[{'fecha': {'$date': '2024-08-09T04:08:04.288Z'}, 'precio_arriendo': 1400000}, {'fecha': {'$date': '2024-08-14T00:19:49.669Z'}, 'precio_arriendo': 1200000}]        1
[{'fecha': {'$date': '2024-08-09T04:10:15.704Z'}, 'precio_arriendo': 3360000}, {'fecha': {'$date': '2024-08-14T01:12:42.803Z'}, 'precio_arriendo': 2997000}]      

In [15]:
df.columns

Index(['_id', 'codigo', 'tipo_propiedad', 'tipo_operacion', 'precio_venta',
       'area', 'habitaciones', 'banos', 'administracion', 'parqueaderos',
       'sector', 'estrato', 'antiguedad', 'latitud', 'longitud', 'descripcion',
       'website', 'last_view', 'datetime', 'timeline', 'estado', 'compañia',
       'precio_arriendo', 'jacuzzi', 'chimenea', 'permite_mascotas',
       'gimnasio', 'ascensor', 'conjunto_cerrado', 'piscina', 'salon_comunal',
       'terraza', 'vigilancia', 'coords_modified', 'localidad', 'barrio',
       'estacion_tm_cercana', 'distancia_estacion_tm_m',
       'is_cerca_estacion_tm', 'parque_cercano', 'distancia_parque_m',
       'is_cerca_parque'],
      dtype='object')