<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Visualización y limpieza con Pandas

Visualización de los datos del dataset propiedades\
v1.1

### Objetivos: Asociados al preprocesamiento  y visualización de los datos.


*   Implemetar el código de descarga de un archivo csv.
*   Comprender la lectura de un archivo csv con Pandas.
*   Realizar la descripción estadística con Pandas.
*   Identificar y eliminar datos faltantes.
*   Explorar los datos y aplicar filtros.
*   Representar graficamente los datos para observar su dispersión.



In [None]:
# Módulo os (sistema operativo)
import os
# Módulo platform, acceso a los datos identificativos de la plataforma subyacente.
import platform
import matplotlib.pyplot as plt
import pandas as pd

# Recolectar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline1.png" width="1000" align="middle">

## Código de descarga del archivo csv.

In [None]:
# Código que permite acceder al archivo propiedades.csv, en caso no tenga acceso al archivo,
# El condicional propone identificar la plataforma, si es Windows va a buscar el archivo en github de Inove y lo descargará.
# En caso sea una plataforma diferente va a buscar el archivo en la ruta especificada.

if os.access('propiedades.csv', os.F_OK) is False:
    if platform.system() == 'Windows':
        !curl https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/propiedades.csv > propiedades.csv
    else:
        !wget propiedades.csv https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/propiedades.csv

# Procesar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline2.png" width="1000" align="middle">

## Lectura de un archivo csv con Pandas

In [None]:
# Una vez descargado el archivo en Colab.
# Leerlo con Pandas y el método read_csv
# Una vez extraida toda la información se almacena en df
# A partir de df y el método describe(), mostrará la descripción estadistica básica del archivo que se guardará en des
df = pd.read_csv("propiedades.csv")
df

## Descripción estadística con Pandas.

In [None]:
des = df.describe()
des

## Identificar y eliminar datos faltantes.

In [None]:
# Contar cuantos datos tipo Nan posee el DataFrame para cada columna.
df.isna().sum()

In [None]:
# Crear una fila nueva llamada Nan en el DataFrame  des,
# que indica la cantidad de datos tipo Nan que tiene cada columna.
# Para crear una nueva fila, se utilizará el operador loc, donde se indica el nombre
# de la nueva fila y con que valores se completará.
# La información será de los datos faltantes df.isna().sum()
des.loc['Nan'] = df.isna().sum()
des

In [None]:
# Crear una fila nueva llamada %Nan en el DataFrame des,
# Esta fila se completará con los porcentajes de Nan encontrados en cada columna.
des.loc['%Nan'] = (df.isna().mean()) * 100
des

In [None]:
# Muestra las 5 primeras filas del DataFrame df
df.head() 

In [None]:
df_clean = df.copy()

# Sacamos todas las filas de la tabla las cuales el campo "m2" o "ambientes" se encuentre vacío.
df_clean.dropna(subset=['m2'], inplace=True)
df_clean.dropna(subset=['ambientes'], inplace=True)

# Otra manera de obtener el mismo resultado:
#df_clean = df[df['m2'].notna()]
#df_clean = df_clean[df_clean['ambientes'].notna()]

In [None]:
# ¿Cuántos datos quedaron para analizar?
# Con shape muestra las filas y columnas disponibles en df_clean
df_clean.shape

## Fin de la limpieza
Se finalizó la limpieza sacando aquellas filas que no eran de interes, se puede observar que la cantidad de filas hasta el momento es menor a la cantidad de filas con la que se comnezó el análisis

In [None]:
print('Cantidad de datos en observacion:', df_clean.shape[0])

# Explorar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline3.png" width="1000" align="middle">

In [None]:
df_clean.head()

Se puede observar que hay alquileres en dolares, solo nos quedaremos con aquellos alquileres en pesos

## Explorar los datos y aplicar filtros.

In [None]:
# Filtramos el dataframe, solos nos quedamos con los alquileres en pesos
df_ars = df_clean[df_clean['moneda'] == 'ARS']
print('Cantidad de datos en observacion:', df_ars.shape[0])

## Representar graficamente los datos para detectar outliers y observar tendencia.

In [None]:
# Renderizamos el gráfico utilizando el diagrama de cajas
df_ars.boxplot(column=['m2'])
plt.show()

Se puede observar que hay muchos alquileres "outliers", es decir que se escapan de la tendencia. Filtraremos aquellos que no aportan al análisis

In [None]:
# Nos quedamos solamente con los deparamentos menor a 200m2 y mayor a 50m2
# Utilizamos el concepto de "máscara" tal cual fue visto en Numpy
# para filtrar el dataframe de propiedads deseado
propiedades = df_ars[(df_ars['m2'] < 200) & (df_ars['m2'] > 50)]

In [None]:
print('Cantidad de datos en observacion:', propiedades.shape[0])

In [None]:
# Graficar la tendencia
propiedades.plot.scatter(x=['m2'], y=['precio'], color='b')
plt.show()

## Conclusión
Escondido entre los datos se puede apreciar una relación lineal entre los precios de las propiedades, se puede ver como esa nube de puntos azul tiene una tendencia, al aumentar los m2 claramente aumenta el precio del alquiler.
Los próximos pasos son crear un modelo base, el cual sería el primer modelo que podríamos crear sin inteligencia artificial para comparar nuestros próximos modelos de inteligencia artificial