<a href="https://colab.research.google.com/github/cristiandarioortegayubro/UNI/blob/main/colab/dc_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![](https://github.com/cristiandarioortegayubro/UNI/blob/main/UNI%2039%20Aniversario.jpg?raw=true)

# **Limpieza de datos**

Nos encontramos iniciando un nuevo proyecto, nuestra empresa es una pequeña inmobiliaria que quiere fusionar el potencial del manejo de datos con la venta/alquiler de propiedades. Al ser una pequeña empresa el ***departamento de datos*** esta compuesto por una persona: nosotros. 

Esto quiere decir que vamos a absorber los roles de:

- Ingeniero de Datos, y 
- Analista de Datos.


## **Ingesta de datos de propiedades**

***El dataset central de este proyecto de propiedades de Argentina, tiene la siguientes columnas:***

- **id** - Identificador del aviso. No es único: si el aviso es actualizado por la inmobiliaria (nueva versión del aviso) se crea un nuevo registro con la misma id pero distintas fechas: de alta y de baja.
- **ad_type** - Tipo de aviso (Propiedad, Desarrollo/Proyecto).
- **start_date** - Fecha de alta del aviso.
- **end_date** - Fecha de baja del aviso.
- **created_on** - Fecha de alta de la primera versión del aviso.
- **lat** - Latitud.
- **lon** - Longitud.
- **l1** - Nivel administrativo 1: país.
- **l2** - Nivel administrativo 2: usualmente provincia.
- **l3** - Nivel administrativo 3: usualmente ciudad.
- **l4** - Nivel administrativo 4: usualmente barrio.
- **l5** - sin informacion
- **l6** - sin informacion
- **rooms** - Cantidad de ambientes
- **bedrooms** - Cantidad de dormitorios
- **bathrooms** - Cantidad de baños.
- **surface_total** - Superficie total en m².
- **surface_covered** - Superficie cubierta en m².
- **price** - Precio publicado en el anuncio.
- **currency** - Moneda del precio publicado.
- **price_period** - Periodo del precio (Diario, Semanal, Mensual)
- **title** - Título del anuncio.
- **description** - Descripción del anuncio.
- **property_type**: - Caracteristicas de la propiedad
- **operation_type**: - Caracteristicas de la operacion ['Venta', 'Alquiler', 'Alquiler temporal']

## **Habilitando bibliotecas**

Habilitar las bibliotecas necesarias para generar un dataframe, hacer limpieza de datos, y generar gráficos.

### **Instalando bibliotecas necesarias**

### **Para analisis de datos**

In [1]:
import pandas as pd

### **Para limpieza de datos**

In [2]:
import numpy as np

### **Para gráficos**

In [3]:
import seaborn as sns
import plotly.express as px

## **Análisis Exploratorio de los Datos**

Leer el archivo  ```.csv``` con Pandas y guardarlo en una variable llamada ```prop```

In [4]:
#prop = pd.read_csv("/content/drive/MyDrive/Notebooks/Workshop/propiedades.csv")

***Observar los primeros 8 registros***

***Observar los últimos 5 registros***

***Imprimir la cantidad de filas y columnas del dataframe***

***Usar info***

***Usar describe para variables cuantitativas y mostrar el resumen con dos decimales y transpuesto (transposicion)***

***Usar describe para variables cualitativas y mostrar resumen transpuesto***

***Ver si existen valores nulos***

***Ver si existen valores duplicados***

## **Limpieza de los Datos**

***Ver si los nombres de las columnas tienen algun espacio oculto que nos dificulte al tratar de invocarlas, si encontras espacios ocultos eliminar esos espacios ocultos.***

***Generar un dataframe o una serie de pandas con el porcentaje de nulos (nan) que tiene cada columna, ordenado del mayor al menor.***

***Eliminar columnas que tengan mas del $30$% de nulos (nans), luego de este paso deberian quedar $18$ columnas si lo hiciste bien.***

***Quedarse con solo los registros que tienen un $90$% de sus celdas libres de nulos (nans), luego de este paso deberia quedarte $922772$ registros.***

***El analisis se realizará sobre el *AMBA*, eliminar todo lo que no sea parte del mismo. Luego de este paso deberian quedarte $617747$ registros.***

AMBA es Area Metropolitana de Buenos Aires y comprende:
+ Bs. As. Zona Oeste
+ Bs. As. Zona Norte
+ Bs. As. Zona Sur
+ Capital Federal

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (617747, 18)**

***Chequear la columna l1 que representa al pais, deberia existir solo un valor: Argentina. Si hay otros valores eliminarlos***

***Los registros que tienen el mismo id son de la misma propiedad pero actualizado, quedarse con el mas actualizado, los demas eliminarlos.***

***Eliminar las columnas:***

- id porque ya sabemos que todos los registros son diferentes y no vamos a usar esta columna para identificarlos.
- l1 porque solo tiene un valor: Argentina. No aporta informacion a los datos.
- description y title porque no contamos con herramientas de NLP para volverlas informacion para visualizar o modelizar.


***Ver los primeros registros del dataframe.***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (617747, 14)**

***Sospechamos que las columnas start_date y created_on en este caso tienen los mismos valores, chequearlo, si son iguales eliminar la columna created_on***

***Ver los primeros registros del dataframe.***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (617747, 13)**

***Vamos a analizar la columna ad_type, que tipos de datos unicos tiene, si solo tiene un tipo de dato categorico eliminarla porque no aporta información.***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (617747, 12)**

# **AMBA**

***Vamos a analizar la columna l3, para eso primero vamos a filtrar solo los lugares que pertenecen al AMBA, los cuales son:***
    
```python
municipios = ['Ciudad Autónoma de Buenos Aires', 'Almirante Brown', 'Avellaneda', 'Berazategui', 'Esteban Echeverría', 'Ezeiza', 'Florencio Varela', 'General San Martín', 'Hurlingham', 'Ituzaingó', 'José C. Paz', 'La Matanza', 'Lanús', 'Lomas de Zamora', 'Malvinas Argentinas', 'Merlo', 'Moreno', 'Morón', 'Quilmes', 'San Fernando', 'San Isidro', 'San Miguel', 'Tigre', 'Tres de Febrero', 'Vicente López']
```


In [5]:
municipios = ['Ciudad Autónoma de Buenos Aires', 'Almirante Brown', 'Avellaneda', 'Berazategui', 'Esteban Echeverría', 'Ezeiza', 'Florencio Varela', 'General San Martín', 'Hurlingham', 'Ituzaingó', 'José C. Paz', 'La Matanza', 'Lanús', 'Lomas de Zamora', 'Malvinas Argentinas', 'Merlo', 'Moreno', 'Morón', 'Quilmes', 'San Fernando', 'San Isidro', 'San Miguel', 'Tigre', 'Tres de Febrero', 'Vicente López']

**Sacar de la seleccion anterior los que pertenecen a Capital Federal y los valores NaN, luego ver cuales son los valores unicos de l3 para ver si queda alguno que pertenece a los municipios pero se escribio con alguna diferencia**

***Ahora, eliminar todos los registros que no pertenezcan al AMBA, ojo: no eliminar los que tengan valor NaN***

In [6]:
ambant = ['General Rodríguez',
 'La Plata',
 'Escobar',
 'Pilar',
 'San Vicente',
 'Marcos Paz',
 'Presidente Perón',
 'Cañuelas']

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (528442, 12)**

# **Latitud y Longitud**

***Vamos a analizar la calidad de los datos en las columnas de lat y lon. Buscaremos posibles outliers o datos incorrectos, para eso calcula para ambas columnas: el promedio, el maximo y el minimo.***

***Evidentemente hay ciertos puntos que son incorrectos, sus coordenadas caen fuera del AMBA. Para eso buscamos cuales son los valores frontera para la latitud y longitud en el AMBA.***

***Estimamos un segmentos de latitudes de [-35, -34] y longitudes de [-59 a -58]***

***Eliminar todo lo que este fuera de esos rangos (no eliminar valores NaN)***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (499739, 12)**

***Volver a chequear estadisticos de lat y lon para ver si ya saque valores incorrectos***

***Eliminar los NaN de la columna l3***

***Volvamos a ver el porcentaje de nulos de cada columna***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (499633, 12)**

***Veamos los valores unicos de la columna property_type***

***La columna se ve bien, hacemos lo mismo con operation type***

***La columna se ve bien. Nos quedan price, currency, bathrooms y rooms.***

***Vamos a currency, veamos los valores unicos de esta columna***

***Tenemos el peso argentino, el dolar, el peso colombiano y NaN. Veamos los registros con NaN.***

***Vemos que la cantidad de NaN en esta columna es del 1%, sin esta columna no podremos saber en que moneda esta el precio, por lo que tampoco sabremos el precio (el precio es la columna mas interesante de este dataset). Decidimos eliminar los registros con NaN de la columna currency.***

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (494382, 12)**

***Volver a analizar el porcentaje de NaN de cada columna.***

***Vemos que se eliminaron los NaN de price al eliminar los de currency, matamos 2 pajaros de un tiro.***

***Ahora si crear una nueva columna llamada precio con el valor de las propiedades en dolares. Utilizar estas cotizaciones***

1 dolar = $283 pesos argentinos

1 dolar = $4637 pesos colombianos

**PUNTO DE REVISION**

**A esta altura el dataframe tiene (499382, 13)**