<a href="https://colab.research.google.com/github/VINY1958/polars/blob/main/propiedades_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


#<font color="DeepPink">**Análisis de datos de propiedades inmuebles**</font>

- http://blog.properati.com.ar/properati-tools/
- https://www.properati.com.ar/data

![](https://blog.properati.com.ar/wp-content/uploads/2023/01/barrio-norte-buenos-aires-1128x484.jpg)

# <font color="DeepPink">**Limpiar y graficar...**

<p align="justify">
👀 Nos encontramos iniciando un nuevo proyecto, nuestra empresa es una pequeña inmobiliaria que quiere fusionar el potencial del manejo de datos con la venta/alquiler de propiedades.
<br><br>
Al ser una pequeña empresa el <mark>Departamento de Datos</mark> esta compuesto por una persona: nosotros 🥶 .
<br><br>
Esto quiere decir que vamos a absorber los roles de:

- Ingeniero de Datos, y
- Analista de Datos.


## <font color="DeepPink">**Ingesta de datos de propiedades**

<p align="jusfify">
✅ El dataset central de este proyecto de propiedades de Argentina, tiene la siguientes columnas:
<br><br>

- **id** - Identificador del aviso. No es único: si el aviso es actualizado por la inmobiliaria (nueva versión del aviso) se crea un nuevo registro con la misma id pero distintas fechas: de alta y de baja.
- **ad_type** - Tipo de aviso (Propiedad, Desarrollo/Proyecto).
- **start_date** - Fecha de alta del aviso.
- **end_date** - Fecha de baja del aviso.
- **created_on** - Fecha de alta de la primera versión del aviso.
- **lat** - Latitud.
- **lon** - Longitud.
- **l1** - Nivel administrativo 1: país.
- **l2** - Nivel administrativo 2: usualmente provincia.
- **l3** - Nivel administrativo 3: usualmente ciudad.
- **l4** - Nivel administrativo 4: usualmente barrio.
- **l5** - sin informacion
- **l6** - sin informacion
- **rooms** - Cantidad de ambientes
- **bedrooms** - Cantidad de dormitorios
- **bathrooms** - Cantidad de baños.
- **surface_total** - Superficie total en m².
- **surface_covered** - Superficie cubierta en m².
- **price** - Precio publicado en el anuncio.
- **currency** - Moneda del precio publicado.
- **price_period** - Periodo del precio (Diario, Semanal, Mensual)
- **title** - Título del anuncio.
- **description** - Descripción del anuncio.
- **property_type**: - Caracteristicas de la propiedad
- **operation_type**: - Caracteristicas de la operacion ['Venta', 'Alquiler', 'Alquiler temporal']

## <font color="DeepPink">**Habilitando módulos para el proyecto**

###<font color="DeepPink">**Para analisis de datos**

In [1]:
import pandas as pd
import numpy as np

###<font color="DeepPink">**Para gráficos**

In [2]:
import plotly.express as px

# <font color="DeepPink">**Ingesta de los datos...**

## <font color="DeepPink">**Conexión y lectura de los datos...**

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## <font color="DeepPink">**Dataframe de Pandas 🐼**

In [6]:
prop = pd.read_csv('/content/drive/MyDrive/polars/ar_properties.csv.gz',
                   #compression='gzip',
                   header=0,
                   sep=',',
                   quotechar='"')

In [None]:
prop

In [7]:
prop.head()

Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,...,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
0,DyVXfkpKygVBKuUk5olH+A==,Propiedad,2020-08-22,2020-09-03,2020-08-22,-34.407468,-58.957367,Argentina,Bs.As. G.B.A. Zona Norte,Pilar,...,,133139.0,,,,Mensual,VENTA - Lote Industrial 130.000m2 - Parque Ind...,Lote (Nro.50) mide 133.139 m2\n<br>Valor: U$S ...,Lote,Venta
1,9naojilaMecJN4jlQiTkGg==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-37.996039,-57.542509,Argentina,Buenos Aires Costa Atlántica,Mar del Plata,...,,687.0,687.0,,,Mensual,Casa - Santa Cecilia,Conjunto edilicio de casa y departamentos en b...,Otro,Venta
2,tlCPRJPjoDEUzuuCelemAQ==,Propiedad,2020-08-22,2020-08-31,2020-08-22,-31.380187,-58.009182,Argentina,Entre Ríos,Concordia,...,1.0,80.0,80.0,,,Mensual,Casa - Concordia,"Casa de un dormitorio, cocina, baño, living co...",Casa,Alquiler
3,Zw3b91glQUO3HNrM5fPYlQ==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-27.494106,-55.123455,Argentina,Misiones,Oberá,...,1.0,,,,,Mensual,Terreno - Obera,IMPORTANTE PROPIEDAD EN VENTA EN OBERA MISIONE...,Lote,Venta
4,bsU81gm9JEgtZCbTYgvykg==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-32.948856,-60.630464,Argentina,Santa Fe,Rosario,...,1.0,76.0,66.0,,,Mensual,Departamento - Rosario,PORTAL DE LOS MARINOS<br>Es un complejo de viv...,Departamento,Venta


In [9]:
prop.tail()

Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,...,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
999995,jMYhwydKqUje8HCx7RzwJQ==,Propiedad,2020-12-04,9999-12-31,2020-12-04,-32.958863,-60.665633,Argentina,Santa Fe,Rosario,...,7.0,400.0,300.0,400000.0,USD,Mensual,Se vende imponente casa a minutos del centro d...,Esta excelente propiedad se encuentra ubicada ...,Casa,Venta
999996,FsP7ornzqnK1CvUL8quQ9Q==,Propiedad,2020-12-04,9999-12-31,2020-12-04,-34.596587,-58.376893,Argentina,Capital Federal,Retiro,...,5.0,465.0,465.0,3700.0,USD,Mensual,Edificio Comercial - Retiro,GRAN EDIFICIO PETIT HOTEL ESTILO FRANCÉS CON ...,Local comercial,Alquiler
999997,fJLVUIziPl31ACoaE/fj1g==,Propiedad,2020-12-04,9999-12-31,2020-12-04,-34.576445,-58.432603,Argentina,Capital Federal,Palermo,...,2.0,615.0,425.0,570000.0,USD,Mensual,Edificio Comercial en excelente zona de Paler...,Edificio Comercial CON ENTRADA INDEPENDIENTE S...,Local comercial,Venta
999998,7mW3bUSJFA0RBOj2xtBi+w==,Propiedad,2020-12-04,9999-12-31,2020-12-04,-32.866636,-68.841144,Argentina,Mendoza,,...,20.0,450.0,450.0,800000.0,USD,Mensual,Edificio Comercial - Capital,"Local 450m² con Cloaca en 25 de mayo, Argentin...",Local comercial,Venta
999999,rEynGyGrrsxNeG0ib5vUBA==,Propiedad,2020-12-04,2020-12-21,2020-12-04,-34.447524,-58.631552,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,...,4.0,350.0,300.0,7000.0,USD,Mensual,INCREÍBLE ECASA A LA LAGUNA DESDE DIC a FEBRER...,ESPECTACULAR CASA A LA LAGUNA -BARRIO SANTA B...,Casa,Alquiler temporal


In [None]:
# Constatando la dimensionalidad del dataframe
prop.shape
print(f"El conjunto de datos contiene {prop.shape[0]} filas y {prop.shape[1]} columnas")

In [None]:
# Resumen del dataframe
prop.info()

### <font color="DeepPink">**DataFrame de Polars**

### <font color="DeepPink">**Transformo el Dataset de Pandas a Polars**

In [13]:
import polars as pl ## importo modulo polars

In [12]:
# Convertir  dataset de Pandas  a  dataset de Polars
prop_polars = pl.from_pandas(prop)

In [14]:
prop_polars.head(3)

id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
str,str,str,str,str,f64,f64,str,str,str,str,str,f64,f64,f64,f64,f64,f64,f64,str,str,str,str,str,str
"""DyVXfkpKygVBKuUk5olH+A==""","""Propiedad""","""2020-08-22""","""2020-09-03""","""2020-08-22""",-34.407468,-58.957367,"""Argentina""","""Bs.As. G.B.A. Zona Norte""","""Pilar""",,,,,,,133139.0,,,,"""Mensual""","""VENTA - Lote Industrial 130.00…","""Lote (Nro.50) mide 133.139 m2 …","""Lote""","""Venta"""
"""9naojilaMecJN4jlQiTkGg==""","""Propiedad""","""2020-08-22""","""2020-09-04""","""2020-08-22""",-37.996039,-57.542509,"""Argentina""","""Buenos Aires Costa Atlántica""","""Mar del Plata""",,,,8.0,,,687.0,687.0,,,"""Mensual""","""Casa - Santa Cecilia""","""Conjunto edilicio de casa y de…","""Otro""","""Venta"""
"""tlCPRJPjoDEUzuuCelemAQ==""","""Propiedad""","""2020-08-22""","""2020-08-31""","""2020-08-22""",-31.380187,-58.009182,"""Argentina""","""Entre Ríos""","""Concordia""",,,,2.0,1.0,1.0,80.0,80.0,,,"""Mensual""","""Casa - Concordia""","""Casa de un dormitorio, cocina,…","""Casa""","""Alquiler"""


In [15]:
print(f"El conjunto de datos contiene {prop_polars.shape[0]} filas y {prop_polars.shape[1]} columnas") ## detalle de filas y columnas en polars

El conjunto de datos contiene 1000000 filas y 25 columnas


In [16]:
prop_polars.tail() ## ultimas cinco filas del dataset de polars

id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
str,str,str,str,str,f64,f64,str,str,str,str,str,f64,f64,f64,f64,f64,f64,f64,str,str,str,str,str,str
"""jMYhwydKqUje8HCx7RzwJQ==""","""Propiedad""","""2020-12-04""","""9999-12-31""","""2020-12-04""",-32.958863,-60.665633,"""Argentina""","""Santa Fe""","""Rosario""",,,,,9.0,7.0,400.0,300.0,400000.0,"""USD""","""Mensual""","""Se vende imponente casa a minu…","""Esta excelente propiedad se en…","""Casa""","""Venta"""
"""FsP7ornzqnK1CvUL8quQ9Q==""","""Propiedad""","""2020-12-04""","""9999-12-31""","""2020-12-04""",-34.596587,-58.376893,"""Argentina""","""Capital Federal""","""Retiro""",,,,12.0,12.0,5.0,465.0,465.0,3700.0,"""USD""","""Mensual""","""Edificio Comercial - Retiro""","""GRAN EDIFICIO PETIT HOTEL ESTI…","""Local comercial""","""Alquiler"""
"""fJLVUIziPl31ACoaE/fj1g==""","""Propiedad""","""2020-12-04""","""9999-12-31""","""2020-12-04""",-34.576445,-58.432603,"""Argentina""","""Capital Federal""","""Palermo""",,,,14.0,13.0,2.0,615.0,425.0,570000.0,"""USD""","""Mensual""","""Edificio Comercial en excelen…","""Edificio Comercial CON ENTRADA…","""Local comercial""","""Venta"""
"""7mW3bUSJFA0RBOj2xtBi+w==""","""Propiedad""","""2020-12-04""","""9999-12-31""","""2020-12-04""",-32.866636,-68.841144,"""Argentina""","""Mendoza""",,,,,,20.0,20.0,450.0,450.0,800000.0,"""USD""","""Mensual""","""Edificio Comercial - Capital""","""Local 450m² con Cloaca en 25 d…","""Local comercial""","""Venta"""
"""rEynGyGrrsxNeG0ib5vUBA==""","""Propiedad""","""2020-12-04""","""2020-12-21""","""2020-12-04""",-34.447524,-58.631552,"""Argentina""","""Bs.As. G.B.A. Zona Norte""","""Tigre""","""Santa Barbara Barrio Cerrado""",,,5.0,40.0,4.0,350.0,300.0,7000.0,"""USD""","""Mensual""","""INCREÍBLE ECASA A LA LAGUNA DE…","""ESPECTACULAR CASA A LA LAGUNA …","""Casa""","""Alquiler temporal"""


In [17]:
print(prop_polars) #### Imprimir el dataset en polars

shape: (1_000_000, 25)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ id        ┆ ad_type   ┆ start_dat ┆ end_date  ┆ … ┆ title     ┆ descripti ┆ property_ ┆ operatio │
│ ---       ┆ ---       ┆ e         ┆ ---       ┆   ┆ ---       ┆ on        ┆ type      ┆ n_type   │
│ str       ┆ str       ┆ ---       ┆ str       ┆   ┆ str       ┆ ---       ┆ ---       ┆ ---      │
│           ┆           ┆ str       ┆           ┆   ┆           ┆ str       ┆ str       ┆ str      │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ DyVXfkpKy ┆ Propiedad ┆ 2020-08-2 ┆ 2020-09-0 ┆ … ┆ VENTA -   ┆ Lote      ┆ Lote      ┆ Venta    │
│ gVBKuUk5o ┆           ┆ 2         ┆ 3         ┆   ┆ Lote Indu ┆ (Nro.50)  ┆           ┆          │
│ lH+A==    ┆           ┆           ┆           ┆   ┆ strial    ┆ mide      ┆           ┆          │
│           ┆           ┆           ┆           ┆   ┆ 130.00…   ┆ 13

In [18]:
prop_polars.schema # detalle de columna y su tipo de dato

Schema([('id', String),
        ('ad_type', String),
        ('start_date', String),
        ('end_date', String),
        ('created_on', String),
        ('lat', Float64),
        ('lon', Float64),
        ('l1', String),
        ('l2', String),
        ('l3', String),
        ('l4', String),
        ('l5', String),
        ('l6', Float64),
        ('rooms', Float64),
        ('bedrooms', Float64),
        ('bathrooms', Float64),
        ('surface_total', Float64),
        ('surface_covered', Float64),
        ('price', Float64),
        ('currency', String),
        ('price_period', String),
        ('title', String),
        ('description', String),
        ('property_type', String),
        ('operation_type', String)])

In [19]:
prop_polars.shape # detalle de filas y columnas

(1000000, 25)

In [20]:
out = prop_polars.select(pl.col("*"))

# Is equivalent to
out = prop_polars.select(pl.all())
print(out)

shape: (1_000_000, 25)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ id        ┆ ad_type   ┆ start_dat ┆ end_date  ┆ … ┆ title     ┆ descripti ┆ property_ ┆ operatio │
│ ---       ┆ ---       ┆ e         ┆ ---       ┆   ┆ ---       ┆ on        ┆ type      ┆ n_type   │
│ str       ┆ str       ┆ ---       ┆ str       ┆   ┆ str       ┆ ---       ┆ ---       ┆ ---      │
│           ┆           ┆ str       ┆           ┆   ┆           ┆ str       ┆ str       ┆ str      │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ DyVXfkpKy ┆ Propiedad ┆ 2020-08-2 ┆ 2020-09-0 ┆ … ┆ VENTA -   ┆ Lote      ┆ Lote      ┆ Venta    │
│ gVBKuUk5o ┆           ┆ 2         ┆ 3         ┆   ┆ Lote Indu ┆ (Nro.50)  ┆           ┆          │
│ lH+A==    ┆           ┆           ┆           ┆   ┆ strial    ┆ mide      ┆           ┆          │
│           ┆           ┆           ┆           ┆   ┆ 130.00…   ┆ 13

In [22]:
out = prop_polars.select(pl.col("*").exclude("logged_at", "index"))
print(out)

shape: (1_000_000, 25)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ id        ┆ ad_type   ┆ start_dat ┆ end_date  ┆ … ┆ title     ┆ descripti ┆ property_ ┆ operatio │
│ ---       ┆ ---       ┆ e         ┆ ---       ┆   ┆ ---       ┆ on        ┆ type      ┆ n_type   │
│ str       ┆ str       ┆ ---       ┆ str       ┆   ┆ str       ┆ ---       ┆ ---       ┆ ---      │
│           ┆           ┆ str       ┆           ┆   ┆           ┆ str       ┆ str       ┆ str      │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ DyVXfkpKy ┆ Propiedad ┆ 2020-08-2 ┆ 2020-09-0 ┆ … ┆ VENTA -   ┆ Lote      ┆ Lote      ┆ Venta    │
│ gVBKuUk5o ┆           ┆ 2         ┆ 3         ┆   ┆ Lote Indu ┆ (Nro.50)  ┆           ┆          │
│ lH+A==    ┆           ┆           ┆           ┆   ┆ strial    ┆ mide      ┆           ┆          │
│           ┆           ┆           ┆           ┆   ┆ 130.00…   ┆ 13

In [27]:
import polars.selectors as cs

out = prop_polars.select(cs.integer(), cs.string())
print(out)

shape: (1_000_000, 16)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ id        ┆ ad_type   ┆ start_dat ┆ end_date  ┆ … ┆ title     ┆ descripti ┆ property_ ┆ operatio │
│ ---       ┆ ---       ┆ e         ┆ ---       ┆   ┆ ---       ┆ on        ┆ type      ┆ n_type   │
│ str       ┆ str       ┆ ---       ┆ str       ┆   ┆ str       ┆ ---       ┆ ---       ┆ ---      │
│           ┆           ┆ str       ┆           ┆   ┆           ┆ str       ┆ str       ┆ str      │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ DyVXfkpKy ┆ Propiedad ┆ 2020-08-2 ┆ 2020-09-0 ┆ … ┆ VENTA -   ┆ Lote      ┆ Lote      ┆ Venta    │
│ gVBKuUk5o ┆           ┆ 2         ┆ 3         ┆   ┆ Lote Indu ┆ (Nro.50)  ┆           ┆          │
│ lH+A==    ┆           ┆           ┆           ┆   ┆ strial    ┆ mide      ┆           ┆          │
│           ┆           ┆           ┆           ┆   ┆ 130.00…   ┆ 13

### <font color="DeepPink">**Análisis descriptivo de variables numéricas...**

In [None]:
# analisis descriptivo del archivo
prop.describe().round(2).T

### <font color="DeepPink">**Análisis descriptivo de variables numéricas en Polars.**

In [None]:
print(prop_polars.describe())

In [None]:
print(prop_polars.describe().transpose())

### <font color="DeepPink">**Análisis descriptivo de variables categóricas...**

In [None]:
# analisis descriptivo del archivo con variables no numéricas
prop.describe(include=[object]).T

In [None]:
categorical_cols = prop_polars.select(
    [
        pl.col(name)
        for name, dtype in prop_polars.schema.items()
        if dtype == pl.Utf8
    ]
).columns
# Calcular estadísticas para cada columna categórica
for col in categorical_cols:
    print(f"Columna: {col}")
    print(f"Valores únicos: {prop_polars[col].n_unique()}")
    ###print(f"Valor más frecuente: {prop_polars[col].mode()[col][0]}")
    print(f"Conteo de cada valor:\n{prop_polars[col].value_counts()}")
    print("-" * 20)

### <font color="DeepPink">**Verificando valores nulos...**

In [None]:
# Verificar valores nulos del dataframe prop
nulos =  prop.isna().sum().sort_values(ascending = False)
nulos.name = "Cantidad de nulos"
nulos

### <font color="DeepPink">**Verificando valores nulos. an Polars..**

In [None]:
prop_polars.null_count()  ### verificando valores nulos en dataset de Polars

### <font color="DeepPink">**Verificando valores duplicados...**

In [None]:
# Verificar si hay duplicados
prop.duplicated().sum()

### <font color="DeepPink">**Verificando valores duplicados.. en Polars.**

In [None]:
prop_polars.is_duplicated().sum() ## verificando valores duplicados en Polars

#<font color="DeepPink">**Limpieza de los Datos**

#<font color="DeepPink">**Porcentaje de nulos**

In [None]:
# Porcentaje de los nulos
porcentaje_nulo = round((prop.isna().sum()/prop.shape[0])*100, 2).sort_values(ascending = False)
porcentaje_nulo.name = "Porcentaje de nulos"
porcentaje_nulo

#<font color="DeepPink">**Porcentaje de nulos en Polars**

In [None]:
porcentaje_nulo_polars = (prop_polars.null_count()/prop_polars.shape[0] )*100 ### verificando valores nulos en dataset de Polars
porcentaje_nulo_polars

### <font color="DeepPink">**Tratamiento de nulos...**

✅ **Eliminar columnas que tengan mas del $30$% de nulos**

In [None]:
# Elimino columnas que tienen mas del 30% de nulos (análisis por columna)
prop.dropna(axis=1, thresh = (1000000*0.7), inplace = True)

In [None]:
# Porcentaje de los nulos
porcentaje_nulo = round((prop.isna().sum()/prop.shape[0])*100, 2).sort_values(ascending = False)
porcentaje_nulo.name = "Porcentaje de nulos"
porcentaje_nulo

In [None]:
prop.info()

In [None]:
for i in prop_polars.columns:
    new_var = prop_polars.filter(pl.col(i).is_null()>0.7)
    new_var

In [None]:
prop_polars

In [None]:
prop_polars.select(
    [(pl.col(name).is_null().sum() / prop_polars.shape[0]) > 0.7 for name in prop_polars.columns]
)

In [None]:
query = prop_polars.select(
    [pl.col(name).is_null() for name in prop_polars.columns]
)

In [None]:
query

In [None]:
query = prop_polars.filter(
    [pl.col(name).is_null() for name in prop_polars.columns]
)

In [None]:
query

In [None]:
query2 = prop_polars.filter(
    [
        (pl.col(name).is_null() > 0.70)
        for name in prop_polars.columns
    ]
)




In [None]:
query2

✅ **Quedarse con solo los registros que tienen un $90$%**

In [None]:
prop.dropna(axis = 0, inplace = True, thresh = int(18 * 0.9))

In [None]:
prop.shape

In [None]:
prop.info()

### <font color="DeepPink">**Filtrando a Mendoza...**

✅ **El analisis se realizará sobre la Provincia de Mendoza**

In [None]:
# Valores unicos de la serie l2 (localidad 2)
prop.l2.unique()

In [None]:
# filtrado por localidad = Mendoza
prop = prop.query('l2 == "Mendoza"')

In [None]:
# Otra forma de filtrar
# prop = prop[(prop.l2 == "Mendoza")]

In [None]:
# dimensionalidad del dataframe
prop.shape

In [None]:
prop

✅ **El analisis se realizará sobre la Provincia de Mendoza en Polars**

In [None]:
prop_polars.columns

In [None]:
prop_polars['l2'].unique()

In [None]:
# filtrado por localidad = Mendoza
prop_polars_Mendoza = prop_polars.filter(prop_polars["l2"] == "Mendoza")

In [None]:
prop_polars_Mendoza

✅ **Chequear que en columna l1 que representa al pais, deberia existir solo un valor: Argentina. Si hay otros valores eliminarlos...***

In [None]:
# Chequeando que solo exista el valor Argentina
prop.l1.unique()

In [None]:
prop.l1.value_counts()

✅ **Chequear que en columna l1 que representa al pais, deberia existir solo un valor: Argentina. Si hay otros valores eliminarlos..en Polars.***

In [None]:
prop_polars_Mendoza.filter(prop_polars_Mendoza["l1"] == "Argentina")

In [None]:
(prop_polars_Mendoza.null_count()/prop_polars_Mendoza.shape[0])>0.9

✅ **Eliminar las columnas:**

- **id** porque ya sabemos que todos los registros son diferentes y no vamos a usar esta columna para identificarlos.
- **l1** porque solo tiene un valor: Argentina. No aporta informacion a los datos.
- **description** y **title** porque no contamos con herramientas de NLP para volverlas informacion para visualizar o modelizar.


In [None]:
prop.shape

In [None]:
prop.columns

In [None]:
# Eliminando las columnas
prop = prop.drop(columns=["id","l1","description","title"])

In [None]:
prop.columns

In [None]:
prop.shape

✅ **Sospechamos que las columnas ```start_date``` y ```created_on``` en este caso tienen los mismos valores, chequearlo, si son iguales eliminar la columna ```created_on```...**

In [None]:
prop.columns

In [None]:
prop.shape

In [None]:
(prop.loc[:,'start_date'] == prop.loc[:,'created_on']).sum()

In [None]:
prop = prop.drop(columns=["created_on"]) # por mas que sea un solo elemento, colocarlo como lista

In [None]:
prop.shape

✅ **Vamos a analizar la columna ```ad_type```, que tipos de datos unicos tiene, si solo tiene un tipo de dato categorico eliminarla porque no aporta información...**

In [None]:
prop.ad_type.unique()

In [None]:
prop.ad_type.value_counts()

In [None]:
prop = prop.drop(columns=["ad_type"])

In [None]:
prop.shape

In [None]:
prop.info()

## <font color="DeepPink"> **Latitud y longitud**

✅ **Vamos a analizar la calidad de los datos en las columnas de lat y lon. Buscaremos posibles outliers o datos incorrectos, para eso calcula para Mendozas columnas: el promedio, el maximo y el minimo...**

In [None]:
round(prop.lat.describe(),2)

In [None]:
round(prop.lon.describe(),2)

In [None]:
px.box(prop, y="lat", template="gridon")

In [None]:
px.box(prop, y="lon", template="gridon")

✅ **Evidentemente hay ciertos puntos que son incorrectos, sus coordenadas caen fuera de la Provincia de Mendoza. Para eso buscamos cuales son los valores frontera para la latitud y longitud**

✅ **Estimamos un segmentos de latitudes de [-34, -32] y longitudes de [-69 a -68]**

✅ **Eliminar todo lo que este fuera de esos rangos (no eliminar valores NaN)**

In [None]:
prop = prop[prop.lat.between(-34, -32) & prop.lon.between(-69, -68)]

In [None]:
prop.shape

In [None]:
round(prop.lat.describe(),2)

In [None]:
round(prop.lon.describe(),2)

In [None]:
px.box(prop, y="lat", template="gridon")

In [None]:
px.box(prop, y="lon", template="gridon")

## <font color="DeepPink">**Otras tareas puntuales de limpieza...**

✅ **Vamos a eliminar los NaN de la columna l3**

In [None]:
prop.isna().sum().sort_values(ascending = False)

In [None]:
round((prop.isna().sum()*100/prop.shape[0]),2).sort_values(ascending = False)

In [None]:
prop.shape

In [None]:
# Eliminar una columna
prop.dropna(subset=["l3"], inplace = True)

In [None]:
prop.shape

In [None]:
6301-777

✅ **Volvemos a ver el porcentaje de nulos de cada columna...**

In [None]:
round((prop.isna().sum()*100/prop.shape[0]),2).sort_values(ascending = False)

✅ **Veamos los valores unicos de la columna ```property_type```**

In [None]:
prop.property_type.unique()

In [None]:
prop.property_type.value_counts()

✅ **La columna se ve bien, hacemos lo mismo con ```operation_type```**

In [None]:
prop.operation_type.unique()

In [None]:
prop.operation_type.value_counts()

✅ **La columna se ve bien. Nos quedan price, currency, bathrooms y rooms.**

✅ **Vamos a currency, veamos los valores unicos de esta columna...**

In [None]:
prop.currency.unique()

In [None]:
prop.currency.value_counts()

✅ **Tenemos el peso argentino y el dolar. Veamos los registros con NaN.**

In [None]:
prop[(prop.currency != "ARS") & (prop.currency != "USD")]

✅ **Decidimos eliminar los registros con NaN de la columna currency.**

In [None]:
prop.dropna(subset=["currency"], inplace = True)

In [None]:
prop.currency.unique()

In [None]:
prop.shape

In [None]:
prop.currency.value_counts()

✅ **Volvemos a analizar el porcentaje de NaN de cada columna.**

In [None]:
round((prop.isna().sum()*100/prop.shape[0]),2).sort_values(ascending = False)

✅ **Ahora vamos a crear una nueva columna llamada precio con el valor de las propiedades en dolares. Utilizar estas cotizaciones**

1 dolar = $ 1280 pesos argentinos

In [None]:
cotizacion = 1280

In [None]:
prop.currency.unique()

In [None]:
condicion = [(prop.currency == "ARS"),
             (prop.currency == "USD")]

In [None]:
eleccion = [(prop.price / cotizacion), (prop.price)]

In [None]:
prop["precio"] = np.select(condicion, eleccion)

In [None]:
prop.shape

## <font color="DeepPink"> **Alquiler y Alquiler temporal**

✅ **Vamos a centrar el analisis en Venta, eliminamos los registros de Alquiler y Alquiler temporal...**

In [None]:
prop.operation_type.unique()

In [None]:
prop = prop.query("operation_type == 'Venta'")

In [None]:
prop.operation_type.unique()

In [None]:
prop.shape

## <font color="DeepPink"> **Precios de las propiedades**

✅ **Ordenar por la columna precio de forma tanto ascendente como descendente y ver los registros mas caros y mas baratos para buscar posibles datos incorrectos...**

In [None]:
prop.sort_values(by=["precio"], ascending=False)

In [None]:
prop.sort_values(by=["precio"], ascending=True)

## <font color="DeepPink"> **Registros entre 20000 dolares o 120000**

In [None]:
precio_describe = round(prop.precio.describe(),2)

In [None]:
precio_describe

In [None]:
precio_describe["25%"]

In [None]:
precio_describe["75%"]

✅ **Eliminar los registros cuyo precio sea inferior a 20000 dolares o mayor a 120000 dolares...**

In [None]:
prop.shape

In [None]:
prop = prop[~((prop.precio <= precio_describe["25%"]) | (prop.precio >= precio_describe["75%"]))]

In [None]:
prop.shape

In [None]:
prop.precio.describe()

## <font color="DeepPink"> **Analizando otras variables...**

✅ **Vamos ahora a la columna bathrooms, eliminamos los registros cuyo valor en bathrooms sea mayor al de rooms + 1**

In [None]:
prop.rooms.unique()

In [None]:
prop.bathrooms.unique()

In [None]:
prop = prop[~(prop.bathrooms > (prop.rooms + 1))]

In [None]:
prop.shape

✅ **Ordenar el dataset por la cantidad de baños tanto ascendente como de forma descendente para ver posibles registros incorrectos...**

In [None]:
prop.sort_values(by=["bathrooms"], ascending=False)

In [None]:
prop.sort_values(by=["bathrooms"], ascending=True)

✅ **Eliminar los registros que tengan mas de $6$ baños o mas de $10$ habitaciones...**

In [None]:
prop.shape

In [None]:
prop = prop.loc[~((prop.bathrooms > 6) | (prop.rooms > 10)),:]

✅ **Eliminar la columna ```price``` y ```currency```, ya que vamos a utilizar la columna precio...**

In [None]:
prop = prop.drop(columns=["price", "currency"])

In [None]:
prop.shape

## <font color="DeepPink"> **Rellenando valores faltantes**


✅ **Rellenar los NaN de bathrooms con la mediana de la columna bathrooms, hacer lo mismo con la columna rooms con la mediana de la columna rooms...**

In [None]:
prop.bathrooms.unique()

In [None]:
median_bathrooms = prop.bathrooms.median()

In [None]:
median_rooms = prop.rooms.median()

In [None]:
prop.bathrooms.fillna(value=median_bathrooms, inplace = True)
prop.rooms.fillna(value=median_rooms, inplace = True)

In [None]:
prop.bathrooms = prop.bathrooms.astype(int)
prop.rooms = prop.rooms.astype(int)

In [None]:
prop.info()

✅ **Volvemos a analizar el porcentaje de NaN de cada columna. No deberia de existir ningun NaN en nuestro dataframe...**

In [None]:
round((prop.isna().sum()*100/prop.shape[0]),2).sort_values(ascending = False)

In [None]:
prop.shape

✅ **Parece ser que el formato se encuentra correcto, vamos a aplicar una pequeña comprobacion logica: la fecha start_date puede ser igual o menor que end_date, nunca mayor. Si ocurre esto, eliminar los registros que contienen estos errores.**

In [None]:
prop[(prop.start_date <= prop.end_date)]

✅ **Vamos a pasar las columnas start_date y end_date, que son strings, a formato datetime. Recorda que el formato de fecha que tenemos en nuestras columnas de fecha es %Y/%m/%d**

In [None]:
prop.info()

In [None]:
prop.start_date = pd.to_datetime(prop["start_date"], format = "mixed")

In [None]:
prop.end_date = pd.to_datetime(prop["end_date"], format = "mixed")

⏰ **Al tratar de pasar la columna end_date a datetime nos sale un error, hay un registro que lo esta causando, investigar que registro causa este error...**

**Hay muchos registros que tienen como end_date 9999-12-31, como la documentacion es de mala calidad, la misma no especifica que significa que el end_date tenga este valor, pero aplicando un poco de sentido comun deducimos que los registros que tienen esta fecha significa que el aviso no se dio de baja, por lo cual no se vendio.**

✅ **Cambiar los registros con esta fecha, cambiandola a la fecha de la primera publicacion de python por parte de Guido van Rossum: 1991-02-20**.

✅ **Los registros con esta fecha seran los que aun no se vendieron.**

In [None]:
prop['end_date'].replace('9999-12-31', '1991-02-20', inplace=True)

✅ **Ahora si pasar la columna end_date a datetime...**

In [None]:
prop.end_date = pd.to_datetime(prop["end_date"], format = "mixed")

In [None]:
prop.info()

✅ **Vamos a cambiar el nombre de las columnas de la siguiente manera:...**

- start_date => inicio
- end_date => fin
- lat => lat
- lon => lon
- l2 => zona
- l3 => departamento
- rooms => ambientes
- bathrooms => baños
- property_type => tipo
- operation_type => operacion
- precio => precio


In [None]:
columnas = ['Inicio',
           'Fin',
           'Lat',
           'Lon',
           'Zona',
           'Departamento',
           'Ambientes',
           'Baños',
           'Tipo',
           'Operacion',
           'Precio']

In [None]:
prop.columns = columnas

In [None]:
prop.head(3)

✅ **Por ultimo, reinicia el indice...**

In [None]:
prop.reset_index(drop=True, inplace=True)
prop.head(5)

In [None]:
prop.shape

#<font color="DeepPink"> **Análisis gráfico de los Datos**

✅ **El dueño de la inmobiliaria donde pertencemos no sabe lo que quiere, tampoco entiende que datos interesantes podriamos sacar de este dataset.**

**Por eso nuestro objetivo es encontrar posibles datos curiosos sobre el mismo. Algunos ejemplos de datos curiosos podrian ser:**

- cantidad de propiedades por Departamento
- media de precios por Departamento
- media de precios por Departamento
- promedio de precio por tipo de propiedad
- cantidad de ventas
- cualquier cosa que te parezca interesante




In [None]:
prop.columns

In [None]:
prop.head(3)

##<font color="DeepPink"> **Gráfico de Dispersión Geográfico**

###<font color="DeepPink"> **Todas las propiedades**

In [None]:
px.scatter_mapbox(prop,
                  title="Todas las propiedades",
                  lat="Lat",
                  lon="Lon",
                  color="Precio",
                  size="Precio",
                  template="gridon",
                  ).update_layout(mapbox_style="open-street-map")

In [None]:
fig = px.scatter_mapbox(prop,
                        title="Todas las propiedades",
                        lat="Lat",
                        lon="Lon",
                        color="Precio",
                        size="Precio",
                        template="gridon",
                        )

fig.update_layout(mapbox_style="open-street-map")
fig.show()

In [None]:
fig = px.scatter_mapbox(prop,
                        title="Todas las propiedades",
                        lat="Lat",
                        lon="Lon",
                        color="Tipo",
                        size="Precio",
                        template="gridon",
                        )

fig.update_layout(mapbox_style="open-street-map")
fig.show()

###<font color="DeepPink"> **Propiedades Casas**

In [None]:
prop.query("Tipo == 'Casa'").head(3)

In [None]:
prop.query("Tipo == 'Casa'").shape

In [None]:
fig = px.scatter_mapbox(prop.query("Tipo == 'Casa'"),
                        title="Todas las Casas",
                        lat="Lat",
                        lon="Lon",
                        color="Precio",
                        size="Precio",
                        template="gridon"
                        )

fig.update_layout(mapbox_style="open-street-map")
fig.show()

##<font color="DeepPink"> **Histograma**

In [None]:
prop.columns

###<font color="DeepPink"> **Cantidad de Ambientes**

In [None]:
fig = px.histogram(prop.Ambientes.sort_values(),
                   x="Ambientes",
                   color="Ambientes",
                   text_auto=True,
                   title="Cantidad de Ambientes",
                   template="gridon").update_layout(bargap=0.2)

fig.show()

###<font color="DeepPink"> **Cantidad de Baños**

In [None]:
fig = px.histogram(prop.Baños.sort_values(),
                   x="Baños",
                   color="Baños",
                   text_auto=True,
                   title="Cantidad de Baños",
                   template="gridon").update_layout(bargap=0.2)

fig.show()

###<font color="DeepPink"> **Tipo de Propiedades**

In [None]:
fig = px.histogram(prop.Tipo,
                   x="Tipo",
                   color="Tipo",
                   text_auto=True,
                   title="Tipo de Propiedades",
                   template="gridon").update_layout(bargap=0.2)

fig.show()

##<font color="DeepPink"> **Gráfico Sunburst**

In [None]:
prop.head(3)


In [None]:
df = prop.query("Departamento == 'Mendoza' | Departamento == 'Godoy Cruz' | Departamento == 'Las Heras'")

In [None]:
fig = px.sunburst(df,
                  path=['Zona', 'Departamento','Tipo'],
                  values='Precio',
                  color='Tipo',
                  title="Sunburst por Departamento y Tipo de Propiedad",
                  template="gridon")
fig.show()

In [None]:
df = df.query("Tipo == 'Lote' or Tipo == 'Departamento' or Tipo == 'Casa'")

In [None]:
fig = px.sunburst(df,
                  path=['Operacion','Departamento','Tipo'],
                  values='Precio',
                  color='Tipo',
                  title="Sunburst por Departamento y Tipo de Propiedad",
                  template="gridon")
fig.show()