#***Análisis de datos con Python Santander 2023***
*(Data Analysis with Python)*

#***Determinación del precio de la propiedad Airbnb***


> (Una pregunta recurrente para alguien que desea ofertar la propiedad en la plataforma es: ¿Cuánto debo cobrar por alquilar mi propiedad en Airbnb?)


<BR>

##*Equipo 8*

##*Fase3-Módulo 4*

##*Integrantes:*

* Isidro Amaro
* Francisco Gómez
* Tomás Antonio Hernández Pineda
* José Luis Herrera Gallardo
* Christian E. Millán Hernández


##<div class="markdown-google-sans"><a name="contenido">Contenido</a></div> 

* [Introducción](#introduccion)
* [Importación de librerías](#librerias)
* [Carga y revisión del conjunto de datos](#carga-revision)
* País: Estados Unidos
* Análisis de 6 ciudades
  * Boston
  * Chicago
  * Los Angeles
  * Nueva York
  * San Francisco
  * Washington DC



* [Estimados de Locación y Variabilidad.](#estimados)
* [Introducción a la visualización de datos.](#visualizacion-datos)
* [Exploración de Variables Categóricas y Análisis Multivariable.](#var-cat)
* [Correlaciones y Regresión Linear Simple.](#corr-reg-lin)
* [Distribuciones muestrales y técnicas de evaluación de modelos.](#dist-eval-mods)
* [Visualización de Datos Avanzada.](#visualizacion-avanzada)
* [Pruebas A/B y Procesamiento de Lenguaje Natural.](#nlp)
* [Introducción a Machine Learning: Clasificación No Supervisada y Supervisada.](#ml)

* [Conclusiones y siguientes pasos](#conclusiones)

## Extras:

* [Obtención de datos adicionales con WebScraping](#webscraping)

## Enlaces
   
* [Presentación](https://docs.google.com/presentation/d/15a6yKehSkqinzb1_AUu4_btrAqpmGeVi/edit?usp=share_link&ouid=114487294612860477624&rtpof=true&sd=true)

* [Google Drive del Proyecto](https://drive.google.com/drive/folders/1qBsX0362VeaOsYH5vePxzqEwFHYvtC2_?usp=share_link)


* [Github repo del Proyecto](https://github.com/BeduDSEquipo9/C2DSF3_DAwPython)

* [Web Scraping Colab](https://colab.research.google.com/drive/19HFEGmKSxEVSvJzStKxA1V0jfRXFas8T?usp=share_link)



#<div class="markdown-google-sans"><a name="introduccion">Introducción</a></div>

De acuerdo a un análisis preliminar a los datos de la empresa Airbnb, se identificó el problema de la determinación del precio de las propiedades en arrendamiento, debido a una pregunta recurrente ¿Cuánto se debe cobrar por el alquiler de la propiedad?

Tras plantear una serie de preguntas, se recolectaron de fuentes públicas diversos conjuntos de datos con información proveniente de Airbnb. Las principales diferencias entre ellos son las fechas de extracción, las zonas geográficas, el número de observaciones y la cantidad de variables incluidas. 

Después de un análisis preliminar, se terminó por elegir un conjunto de datos, obtenido de Kaggle, que posee información de 6 de las ciudades más importantes de Estados Unidos: Boston, Chicago, San Francisco, Los Ángeles, Nueva York y Washington DC, mismo que ayudará a responder las preguntas de investigación planteadas.

Cabe señalar que dicho conjunto de datos ya fue preprocesado en los módulos anteriores.

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="librerias">Importación de librerías</a></div> 
Se importan las librerías para el proyecto de análisis de datos.


In [None]:
!pip install contractions

In [None]:
# Data wrangling
import pandas as pd
import numpy as np
from scipy import stats

# Data Visualization
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import nltk
from nltk.corpus import stopwords
from wordcloud import WordCloud
import urllib.request
import math
from scipy.stats import skew, kurtosis
import matplotlib as mpl
import matplotlib.font_manager as fm
import folium

# Dimensionality reduction
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.feature_selection import SelectKBest, f_regression

# Statistics
from scipy.stats import ks_2samp
from scipy.stats import chisquare
from sklearn.linear_model import Lasso, LinearRegression, Ridge, Lars, ElasticNet, BayesianRidge
from sklearn.model_selection import cross_val_score, train_test_split, GridSearchCV
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OrdinalEncoder
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import precision_recall_curve, precision_score, recall_score, classification_report
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_validate

#Librerías necesarias para la limpieza de texto
import string
import nltk
from nltk.corpus import stopwords
from nltk.util import ngrams
import contractions
import re

#Librerías necesarias para abrir imágenes, generar nube de palabras y plot
import urllib.request
from PIL import Image
from wordcloud import ImageColorGenerator

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="carga-revision">Carga y revisión del conjunto de datos</a></div> 
Se realiza la carga del conjunto de datos y un rápido análisis exploratorio.

El conjunto de datos se encuentra almacenado en el Repositorio de Github que precede este análisis y en sus Google Drive. 

Si se quiere acceder vía Drive, es necesario habilitar el acceso a Google Colaboratory con la finalidad de cargar los datos. Enseguida, ejecute el siguiente par de celdas.

In [None]:
#from google.colab import drive
#drive.mount('/content/drive/')

In [None]:
#Archivo local en GDrive

#Clean Dataset as Entry data to this analysis.
#/content/drive/MyDrive/BEDU/BEDUDS2022/BEDUDSF3M4PythonDataAnalisys2023Class/Gdrive_DAwPython/Datasets/airbnb_clean_F2M4_PostworkX.csv

#GDrive_Path='/content/drive/MyDrive/BEDU/BEDUDS2022/BEDUDSF3M4PythonDataAnalisys2023Class/Gdrive_DAwPython/'
#Datasets_Folder=GDrive_Path+'Datasets/'
#file_path=Datasets_Folder+filename
#print('Usando GDrivePath:'+file_path)

Sin embargo, como también se encuentra en Github, se recomienda acceder directamente desde este repositorio. De hecho, este notebook se ejecuta leyendo desde esta última fuente.

Nótese que el conjunto de datos está almacenado en formato `csv`, por lo que se utiliza `pd.read_csv()` para crear un objeto de tipo DataFrame.

In [None]:
#Dataset filename
filename='airbnb_clean_F2M4_Postwork7.csv'
#imagename='airbnbBW.png'

In [None]:
#Ruta al repo del archivo Github de Procesamiento de Datos con Python

Github_path = 'https://raw.githubusercontent.com/BeduDSEquipo9/C2DSF3ML/main/Datasets/'
#Github_path_image = 'https://raw.githubusercontent.com/BeduDSEquipo9/C2DSF3ML/main/images/'

file_path=Github_path+filename
#file_path_image=Github_path_image+imagename

print('Usando GithubPath: '+file_path)
#print('Usando GithubPath image: '+file_path_image)

In [None]:
data=pd.read_csv(file_path) 

Una vez cargados los datos en un DataFrame, se revisan. 

Hay que recordar que el conjunto de datos contiene información de diversas propiedades en algunas de las ciudades más importantes de Estados Unidos y que están listadas en la plataforma Airbnb para rentar.

Para revisar la estructura y ejemplos de los primeros y últimos registros, se utilizan las funciones `head()` y `tail()`.


In [None]:
data.head()

In [None]:
data.tail()

El conjunto de datos contiene 59,288 observaciones y 26
 variables, de acuerdo con el resultado obtenido con el atributo `shape`.

In [None]:
data.shape

Para conocer más detalles de la información se utiliza el método `info()`. Se distingue que ninguna de las variables contiene valores nulos y que la mayoría son valores numéricos (con excepción de los tipo *object*).

In [None]:
data.info()

Otra opción para revisar los tipos de dato es con el atributo `dtypes`.

In [None]:
data.dtypes

Como confirmación, con `isnull()` se verifica si existen valores ausentes o nulos.

In [None]:
data.isnull().values.any()

Asimismo, se corrobora cuántos casos de `NaN` existen por columna con la ayuda de `isna()` y la función de agregación `sum()`.

In [None]:
data.isna().sum()

De forma similar, se presenta un resumen del número de `NaN`en cada fila.

In [None]:
data.isna().sum(axis=1)

Para conocer qué proporción del total representan los `Nan` se realiza lo siguiente:

In [None]:
nulos_porcentaje=(data.isnull().sum()/len(data))*100 #Porcentaje de valores nulos
nulos_porcentaje.sort_values(ascending= False)

 **Como todos está en ceros, se confirma la presencia de un conjunto de datos completo y sin registros ni campos faltantes.**

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="estimados"> Postwork 1: ESTIMADOS DE LOCACIÓN Y VARIABILIDAD</a></div> 

En esta sección vamos a usar estimados de locación y variabilidad para describir el conjunto de datos y extraer información útil de él. Como recordatorio, sólo se puede obtener estimados de locación y variabilidad de datos numéricos, sean  discretos o continuos.

In [None]:
#Generamos una copia del Dataframe en df. En data se conservará la información original.
df=data
df.info()

A continuación se resumen las 26 variables del DataFrame clasificadas por tipo y se presentan en un orden de relevancia para responder las preguntas (este orden se definió de manera previa con una investigación documental):

### Datos numéricos

* `price`: especifica el costo de renta de la propiedad. Es una variable que está representada por un dato de tipo `float64`.
*  `accommodates`: indica el número de personas máximo que pueden ser alojadas en la propiedad. El valor es un número entero positivo de tipo `int64`.
* `bedrooms`: indica el número de habitaciones de la propiedad y está representado por una número de tipo `float64`.
* `beds`:  esta variable indica el número de camas en la propieda y está representado por una número de tipo `float64`.
* `bathrooms`: indica el número de baños que se disponen en la propiedad, el dato esta representado con `float64`.
* `host_response_rate`: mide la frecuencia con que el host responde a las consultas y las solicitudes que recibe. Está representado por `float64` y representa el porcentaje de respuesta; ejemplo: 100 es el 100%.
* `number_of_reviews`: indica el número de reseñas que ha tenido la propiedad. El valor es un número entero positivo de tipo `int64`.
* `review_scores_rating`: especifica la calificación de las reseñas dada en una escala de 0 a 100. Esta variable está representada con un valor de  tipo `float64`.
* Las variables `latitude` y `longitude` determinan la posición geospacial de la propiedad; está con cierto rango de desviación por fines de propiedad. Ambas columnas están representadas con un dato de tipo `float64`.



* `n_days_lastrev`: número entero que indica el total de días que han pasado desde la última reseña que un usuario escribió en la plataforma acerca de la propiedad.
* `n_days_ashost`: especifica el número de días que el dueño ha estado registrado en Airbnb; es un número entero.

### Datos categóricos

* `city`: es un valor categórico ordinal que indica la ciudad donde se encuentra la propiedad: `NYC`, `LA`, `Chicago`, `Boston`, `SF`, `DC`. El valor está representado por una cadena de caracteres.
* `zipcode`: el código postal de la dirección de la propiedad. Es un valor entero de hasta cinco dígitos que está representado por un valor de tipo cadena de caracteres.
* `neighbourhood`: indica el vecindario (colonia) de la propiedad. Está en formato de cadena de caracteres. 
* `property_type`: es una variable categórica nominal que indica el tipo de propiedad: `House`, `Apartment`, `Townhouse`, `Condominium`, `Villa`, `Loft`, `Bed & Breakfast`, `Guesthouse`, `Other`, `Boutique hotel`,  `Bungalow`, `Cabin`, `Boat`, `Hostel`, `Camper/RV`, `Guest suite`,  `Dorm`, `Vacation home`, `In-law`, `Tent`, `Treehouse`,  `Timeshare`, `Castle`, `Yurt`, `Tipi`, `Earth House`,  `Serviced apartment`, `Hut`, `Island`, `Chalet`, `Train`, `Cave`,  `Lighthouse`. Es de tipo cadena de caracteres.
*  `room_type`: es una variable categórica nominal, representada como número, que indica el tipo de habitación, donde `3: Entire home/apt`, `2: Private room` y `1: Shared room`.
* `amenities`: las amenidades  son todos aquellos espacios o instalaciones dentro de una propiedad capaces de proporcionar una mejor calidad de vida. Por ende, son características que proporcionan un mayor valor al inmueble. La variable está almacenada en una cadena encerrada entre llaves, donde se separan por coma cada una de las amenidades. Ejemplo: `{"TV", "Wireless Internet", "Air conditioning", "Wheelchair accessible", "Kitchen", "Breakfast"}.`
*  `bed_type`: especifica numéricamente el tipo de cama, donde `1: Real bed` y `0: Other`.
* `cleaning_fee`: indica si existe tarifa de limpieza. Está representado por un tipo número donde `1: True` o `0: False`.
* `cancellation_policy`: es un valor categórico ordinal que indica la política de cancelación; aquí `1: flexible`, `2: moderate`, `3: strict`,  `4: super_strict_30` `5: super_strict_60`.
* `instant_bookable`: indica si la propiedad puede ser reservada de manera inmediata sin tener que enviar una solicitud al anfitrión y esperar a que la apruebe.  El dato está representado por enteros `1` o `0`.
* `description`: cadena de texto libre donde el dueño describe la propiedad en renta.
* `name`: es una cadena de caracteres donde el host nombra brevemente su propiedad.
* `host_has_profile_pic`: esta variable indica si el host ha subido una foto de perfil a la plataforma de Airbnb. El dato está representado por números enteros donde `1` es True o `0` es False.
* `host_identity_verified`: esta columna indica si el host ha verificado su identidad en la plataforma de Airbnb. El dato está representado por enteros `1` o `0` para True o False, respectivamente.







Se crea un nuevo DataFrame quitando las variables categóricas, así como latitud y longitud, ya que por el momento no se usarán.

In [None]:
#Dataframe para calcular estimados.
df_estimados = data.drop(columns=['city', 'neighbourhood', 'property_type', 'room_type', 'zipcode', 'amenities','bed_type', 'cleaning_fee', 'cancellation_policy', 'instant_bookable', 'description', 'name', 'host_has_profile_pic', 'host_identity_verified', 'longitude', 'latitude'])
#Recordar que 'data' aun los tiene para ver algunos tipos graficas como Mapas.
df_estimados.shape

Se listan y cuentan las columnas en el conjunto de datos.
El atributo `columns` permite obtener el nombre de cada una de las columnas del conjunto de datos.

In [None]:
#Lista los titulos de columnas como una columna, para identificar las estructuras
print('\nSon '+str(len(df_estimados.columns))+' columnas en total')

#(Convertimos el arreglo de data.columns a un dataframe para facilitar la visualización de las mismas)
pd.DataFrame(df_estimados.columns, columns=['Lista de columnas']) 

Un ejemplo del dataframe generado, donde muetra los valores de cada columna para el registro 179.

In [None]:
df_estimados.iloc[179, :]

 Se identifican las columnas que tienen datos numéricos para calcular estimados de locación y variabilidad.

In [None]:
print('Son '+ str(len(df_estimados._get_numeric_data().columns))+' columnas de tipo número (numeric)')
pd.DataFrame(df_estimados._get_numeric_data().columns, columns=['Lista de columnas de tipo número'])

En conclusión, con la primera exploración se han determinado que columnas son 
númericas, ahora se procede a revisar los siguientes estimados de locación y variabilidad de las columnas numéricas:

* Promedio
* Mediana
* Media Truncada
* Desviación estándar
* Rango
* Percentiles 25 y 75
* Rango intercuartílico (IQR)

Para ello, se creó una función que denominamos <b>estimados</b>.


In [None]:
def estimados ():
  #df2 = df_estimados
  #df2 = df._get_numeric_data().columns
  df2 = df_estimados._get_numeric_data().columns
  #df2 = df_estimados.columns.values
  
  
  columnas = ['Promedio','Mediana','Media Truncada','Std', 'Rango','25%',"50%", "75%", "IQR"]

  dfEstimados = pd.DataFrame()

  for indice in df2:

    aux = []

    aux.append(df[indice].mean())
    aux.append(df[indice].median())
    aux.append(stats.trim_mean(df[indice], 0.1))  
    aux.append(df[indice].std())
    aux.append(df[indice].max() - df[indice].min())
    aux.append(df[indice].quantile(.25))
    aux.append(df[indice].quantile(.50))
    aux.append(df[indice].quantile(.75))
    aux.append(df[indice].quantile(0.75) - df[indice].quantile(0.25))
    dfEstimados[indice]  = aux 
    
  dfEstimados.index=columnas
  dfEstimados = dfEstimados.transpose()
  return dfEstimados    

## Análisis Macro (nivel país)

In [None]:
estimados()

En general, se observan variables con distribuciones que no son normales, pues la media y la mediana difieren significativamente. Tal hecho, sumado a que la media truncada también cambia respecto a la media, es indicador de valores atípicos en muchas variables. En términos de variabilidad, se observan desviaciones estándar grandes particulamente para el número de días como host y desde la última revisión; esto, a su vez, se traduce en rangos grandes.

Llama la atención, por ejemplo, que tanto en el número de baños como el de camas, el rango intercuartílico sea cero. Esto indica que hay pocas propiedades (menos del 25%) que presentan más de una de estas habitaciones en renta (los outliers están hacia los valores altos); por el contrario, en el score de la reseña se visualiza que los outliers están hacia los valores bajos, pues en menos del 25% de los datos ya se alcanzó una calificación de 80.

A continuación se retoman algunos de los planteamientos realizados en la fase anterior del curso:

**¿Cuál es costo promedio de una propiedad en Airbnb (todo el conjunto de datos)?**

Como se observa en la tabla anterior, el precio promedio de una propiedad es de \$159.95 mientras que la mediana representa un precio de \$110.00. El IQR y el tercer cuartil muestran la presencia de propiedades que presentan datos atípicos. 

**¿Cuál es el costo promedio por ciudad, cuál es la más cara y cuál es el ranking de ciudades de acuerdo al costo promedio de la propiedad?**



In [None]:
df.groupby('city')['price'].mean().sort_values(ascending=False)

In [None]:
df.groupby('city')['price'].median().sort_values(ascending=False)

Hay que recordar que el promedio es sensible a datos atípicos, por lo que si se considera la mediana hay un cambio en el ranking de ciudades; sin embargo, San Francisco se mantiene como la ciudad más costosa.

**¿Cuál es el top 10 de costo promedio de una renta de acuerdo al tipo de propiedad?**



In [None]:
df.groupby('property_type')['price'].mean().sort_values(ascending=False)[0:10]

In [None]:
df.groupby('property_type')['price'].median().sort_values(ascending=False)[0:10]

Si se mitiga el efecto de los datos atípicos, el top de propiedades cambia respecto al cálculo considearando la media. Por ejemplo, una Villa, de ser la segunda propiedad más cara, ya no aparece en la lista.

**¿Los costos promedio varían si se consideran juntos la ciudad y el tipo de propiedad?**

In [None]:
df.groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

In [None]:
df.groupby(['city', 'property_type'])['price'].agg('median').sort_values(ascending = False)

Nótese como para el top de ciudad-tipo de propiedad no cambia el precio de referencia. Eso indica que para esta combinación la media y la mediana son cercanas y los datos podrían tener una distribución normal. No así para los valores bajos.

**Pregunta 5. ¿Cuáles son los vecindarios más costosos y en qué ciudad se encuentran?**

In [None]:
df.groupby(['city','neighbourhood'])['price'].mean().sort_values(ascending=False)

In [None]:
df.groupby(['city','neighbourhood'])['price'].median().sort_values(ascending=False)

Nuevamente si se realiza un análisis con la mediana los vecindarios más costosos cambiarían ligeramente respecto a los que consideran la media. En este caso el primer lugar, **Wilmington** en **Los Angeles** tiene un costo promedio de \$1,300.00, seguido por **Chevy Chase, MD** en **Washington, DC** con un costo promedio de \$1,250.00. Importante notar que primero se agrupa por ciudad y después por barrio para asegurar que, en caso de haber nombres repetidos de vecindarios en ciudades distintas, se tomen por separado.

**Pregunta 6. ¿Cuáles son las 10 propiedades más caras?**

In [None]:
df.groupby(['property_type'])['price'].mean().sort_values(ascending=False).head(10)

In [None]:
df.groupby(['property_type'])['price'].median().sort_values(ascending=False).head(10)

El análisis muestra que la posición de las propiedades más caras cambia con respecto a la media y la mediana. Como éstas son las propiedas con mayor costo promedio y mediana, significa que son también las que más le convienen al dueño, lo que responde otra de las preguntas de investigación.

**Pregunta 7. ¿Cuáles son los destinos más visitados?**

Esto se logra contando el número de registros de una agregación por ciudad.

In [None]:
df.groupby(['city'])['price'].agg('count').sort_values(ascending = False)

Se tiene que Nueva York es, con diferencia, el lugar que más reservas tiene, seguido de Los Ángeles. Esto es indicador de que la ciudad es una variable importante a considerar para determinar el precio.




**Pregunta 8. ¿Cuál es la mejor opción en precio (el más alto), entre casa y departamento, por ciudad?**

Para responder esta pregunta, primero se filtran los datos para que sólo incluyan los dos tipos de propiedad deseados.

In [None]:
df[(df['property_type'] == 'House') | (df['property_type'] == 'Apartment')].head()

A continuación se calcula el costo promedio de propiedad agrupados por  tipo de propiedad y ciudad.

In [None]:
df[(df['property_type'] == 'House') | (df['property_type'] == 'Apartment')].groupby(['property_type', 'city'])['price'].mean().sort_values(ascending=False)

También se calcula la mediana del costo de propiedad agrupados por  tipo de propiedad y ciudad. Con la finalidad de comparar media y mediana.

In [None]:
data[(data['property_type'] == 'House') | (data['property_type'] == 'Apartment')].groupby(['property_type', 'city'])['price'].median().sort_values(ascending=False)

Así, se aprecia cómo, a pesar de haber muchos más departamentos en renta, en promedio es más caro rentar una casa (excepto en Chicago).

##### ***Nota:*** Casi el 90% de los datos son sólo para estos dos tipos de propiedad. De ellas, la mayoría corresponde a departamentos `Apartments`.

In [None]:
df[(df['property_type'] == 'House') | (df['property_type'] == 'Apartment')]['property_type'].value_counts(1)

Para esto debemos recordar de la fase anterior como era la composición de los primeros Datasets que procesamos hasta llegar a la versión limpia (clean)


####Diferencias de filtrado entre Raw Dataset y Dataset el Limpio(Filtrado) 

El dataset Origen tenia 143 Tipos de propiedades, se agrupan y reducen a 33 diferentes tipos. Como mas adelante se observará el 90% de los datos se encuentran en 'House' y 'Apartment' en los tipos.

***(La siguiente información fue obtenida durante el proceso de análisis y limpieza)***

Código ejecutado:
```
#Dataset de 6 ciudades Raw actualizado al 2022
data_count=data['property_type'].unique()
print("Número de tipos de propiedades en AirBnB:"+str(len(data_count))+'\n')
data_count
```


Salida del código ejecutado:
```
Número de tipos de propiedades en AirBnB:143

array(['Entire home/apt', 'Private room in residential home',
       'Entire rental unit', 'Entire condominium (condo)',
       'Private room in rental unit',
       'Private room in condominium (condo)', 'Entire townhouse',
       'Entire residential home', 'Entire serviced apartment',
       'Room in hostel', 'Room in aparthotel',
       'Private room in bed and breakfast',
       'Shared room in bed and breakfast', 'Private room in townhouse',
       'Private room in home', 'Private room in villa',
       'Private room in condo', 'Entire condo', 'Entire loft',
       'Private room in guest suite', 'Entire guest suite', 'Entire home',
       'Room in hotel', 'Entire guesthouse',
       'Private room in casa particular', 'Room in boutique hotel',
       'Shared room in rental unit', 'Private room', 'Entire cottage',
       'Entire villa', 'Boat', 'Private room in cottage',
       'Private room in bungalow', 'Shared room in condo',
       'Entire bungalow', 'Tiny home', 'Private room in guesthouse',
       'Lighthouse', 'Private room in serviced apartment',
       'Entire vacation home', 'Houseboat',
       'Private room in vacation home', 'Entire bed and breakfast',
       'Shared room in home', 'Private room in loft', 'Entire place',
       'Shared room in townhouse', 'Shared room in boutique hotel', nan,
       '1125.0', 'Casa particular', 'Private room in minsu',
       'Shared room in vacation home', 'Private room in hostel',
       'Shared room in residential home', 'Room in serviced apartment',
       'Private room in cabin', 'Private room in tower',
       'Shared room in hostel', 'Private room in tiny home',
       'Private room in farm stay', 'Room in bed and breakfast',
       'Shared room in bungalow', 'Shared room in loft', 'Camper/RV',
       'Dome house', 'Treehouse', 'Tipi', 'Shared room in guesthouse',
       'Entire cabin', 'Shared room in boat', 'Campsite', 'Hut',
       'Entire chalet', 'Private room in boat', 'Tent',
       'Shared room in serviced apartment',
       'Shared room in condominium (condo)', 'Minsu', 'Yurt', '365.0',
       'Private room in tent', 'Shared room in villa',
       'Shared room in earthen home', 'Shared room in dorm', 'Barn',
       'Private room in resort', 'Private room in nature lodge',
       'Shared room in camper/rv', 'Private room in castle',
       'Private room in camper/rv', 'Shared room', 'Shared room in tent',
       'Farm stay', 'Private room in island', 'Private room in treehouse',
       'Shipping container', 'Shared room in guest suite',
       'Shared room in farm stay', 'Tower', 'Bus', 'Private room in hut',
       'Ranch', 'Entire resort', 'Island', 'Castle', 'Room in resort',
       'Shared room in resort', 'Shared room in tiny home',
       'Earthen home', 'Private room in yurt', '91.0', 'Floor',
       'Shared room in cabin', 'Private room in earthen home', 'Train',
       'Private room in tipi', 'Shared room in dome',
       'Private room in dome', 'Private room in barn',
       'Shared room in cottage', 'Cave', 'Shared room in casa particular',
       'Dome', 'Private room in ranch', 'Riad',
       'Shared room in tiny house', 'Private room in floor',
       'Private room in tiny house', 'Private room in cycladic house',
       'Tiny house', 'Private room in houseboat',
       'Private room in religious building', 'Shared room in floor',
       'Private room in in-law', 'Private room in dorm',
       'Private room in train', 'Private room in lighthouse',
       'Private room in kezhan', "Shared room in shepherd's hut",
       'Entire in-law', 'Cycladic home', 'Shared room in hotel'],
      dtype=object)





In [None]:
#Dataset de 6 ciudades Procesado F2M3 y pasado a F3M4DAwPython
data_count_filtered_1=data['property_type'].unique()
print("Número de tipos de propiedades en AirBnB:"+str(len(data_count_filtered_1))+'\n')
data_count_filtered_1

Aún con 33 tipos de propiedades, a qué se refiere con tantas diferentes clasificaciónes de alojamiento. Si agrupamos unicamente en 3 clases 'House' y 'Apartment' y 'Others' facilitamos la legibilidad de las gráficas, con la posibilidad de perder varios resultados.

Por favor observe las gráficas de boxplots y barras de las diferentes ciudades y obsérvese las representatividad de los datos por ciudad. En el caso de Nueva York, "***la ciudad de los rascacielos***" la concentración de departamentos vs los otras 5 ciudades de la muestra. 
 - - [Diagramas del tipos de propiedades por region](#barras-property_type)

**Pregunta 9. ¿Cuál es la ciudad que más le conviene a Airbnb para generar más ingresos?**

Esto se responde sumando los precios por ciudad, para ver dónde hubo más ingresos para la plataforma.

In [None]:
df.groupby(['city'])['price'].agg('sum').sort_values(ascending=False).head(20)

Con ello, se responde que NY es la ciudad de mayor interés para la plataforma; esto sin duda se debe al número de visitas (de hecho el ranking es el mismo que en la pregunta 7).

Ahora que los datos han sido ajustados a un tipo de dato adecuado para un modelo de predicción, se retoma el planteamiento de una de las preguntas hechas al inicio de este trabajo.


**Pregunta 10. ¿Cuál es es el tipo de habitación con mejor ranking por ciudad?**

In [None]:
df.groupby(['city', 'room_type'])['review_scores_rating'].mean().sort_values(ascending=False)

In [None]:
df.groupby(['city', 'room_type'])['review_scores_rating'].median().sort_values(ascending=False)

El `room_type` de tipo 3 es el departamento o casa entero, el tipo 2 es habitación privada y el tipo 1 es la habitación compartida. Se observa que los usuarios califican mejor las propiedades no compartidas, ya sean enteras o únicamente una habitación.

**Pregunta 11. ¿Cuáles son los vecindarios que tienen mejor calificación?**

In [None]:
df.groupby(['city','neighbourhood'])['review_scores_rating'].mean().sort_values(ascending=False).head(20)

In [None]:
df.groupby(['city','neighbourhood'])['review_scores_rating'].median().sort_values(ascending=False).head(20)

Nuevamente el hecho de identificar datos atípicos en `review_scores_rating` realiza cambios al análisis que se realizan sobre estos datos.

Sólo como referencia, se crea la siguiente función que identifica valores atípicos de acuerdo a 3 diferentes métodos: IQR, Z_score y descartando cuantiles.

In [None]:
def detect_outlier(serie, method):
    if method == "iqr":
        q1 = serie.quantile(.25)
        q3 = serie.quantile(.75)
        iqr = q3-q1
        upper_fence = q3 + 1.5*iqr
        lower_fence = q1 - 1.5*iqr
    elif method == "z-score":
        mean = serie.mean()
        std = serie.std()
        upper_fence = mean + 3*std
        lower_fence = mean - 3*std
    else:
        upper_fence = serie.quantile(.99)
        lower_fence = serie.quantile(.01)
    return ~serie.between(lower_fence, upper_fence, inclusive="both")

In [None]:
for variable in df_estimados.columns:
    if max(detect_outlier(df[variable], "z-score").mean(), detect_outlier(df[variable], "iqr").mean(), detect_outlier(df[variable], "other").mean()) > 0.05:
        print("\n La máxima proporción de atípicos en la variable '{0}' es {1}".format(variable, max(detect_outlier(df[variable], "z-score").mean(), detect_outlier(df[variable], "iqr").mean(), detect_outlier(df[variable], "other").mean())))

In [None]:
for variable in df_estimados.columns:
    if max(detect_outlier(df[variable], "z-score").mean(), detect_outlier(df[variable], "iqr").mean(), detect_outlier(df[variable], "other").mean()) > 0.05:
        print("\n La proporción de atípicos en la variable '{0}' con el método 'z-score' es {1}, con 'iqr' es {2} y con 'other' es {3}".format(variable, detect_outlier(df[variable], "z-score").mean(), detect_outlier(df[variable], "iqr").mean(), detect_outlier(df[variable], "other").mean()))

Pese a que el % de outliers utilizando cualquier método es mayor a 5% en varias variables, en todos los casos, es usando el IQR. Por la naturaleza del método y porque los otros dos métodos no rebasan el 5% de outliers para esas variables, así como para facilitar los posteriores entrenamiento y validación, no se dará ningún tratamiento a los atípicos. Además, estas variaciones grandes se deben, en gran medida, a la naturaleza misma de los datos, pues es lógico pensar que una Villa tendrá muchas más habitaciones y baños que un departamento.

## Análisis de 6 ciudades

    Boston
    Chicago
    Los Angeles
    Nueva York
    San Francisco
    Washington DC



###Boston

In [None]:
df[df.city == 'Boston'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

###Chicago

In [None]:
df[df.city == 'Chicago'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

###Los Angeles

In [None]:
df[df.city == 'LA'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

###Nueva York

In [None]:
df[df.city == 'NYC'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

###San Francisco

In [None]:
df[df.city == 'SF'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

Se nota cómo en San Francisco el costo promedio por propiedad sube debido a que rentan `Service Apartment` y los ¡Botes!

###Washington DC

In [None]:
df[df.city == 'DC'].groupby(['city', 'property_type'])['price'].agg('mean').sort_values(ascending = False)

---

#<div class="markdown-google-sans"><a name="visualizacion-datos">Postwork 2: INTRODUCCIÓN A LA VISUALIZACIÓN DE DATOS - DISTRIBUCIONES</a></div> 
Objetivo

    Identificar qué es una distribución y por qué nos interesa conocer la distribución de nuestros datos.
    Utilizar la librería Seaborn.
    Conocer los boxplots y entender cómo se generan.
    Conocer las tablas de frecuencias y los histogramas como maneras de visualizar distribuciones.
    Clasificar algunas de las formas que generan los histogramas.
    Conocer las gráficas de densidad como una alternativa a los histogramas clásicos.

Desarrollo

    1. Distribuciones

    3. Seaborn

    4. Boxplots

    5. Tabla de frecuencias

    6. Histogramas

    7. Describiendo histogramas

    8. Simétrica

    9. Normal

    10. Asimétrica

    11. Cola Larga

    12. Cola Corta

    13. Uniforme (o Aproximadamente Uniforme)

    14. Bimodal

    15. Gráficas de densidad


    Postwork
    
Desarrollo

En este Postwork vamos a explorar las distribuciones de las variables numéricas que tengamos en nuestro dataset. Realiza los siguientes procesos en los casos en los que tenga sentido aplicarlos:

    Utiliza boxplots para analizar la distribución de tus variables numéricas. Piensa acerca de cuáles son los valores típicos y atípicos y dónde están concentrados el grueso de tus datos.
    Utiliza el Score de Rango Intercuartílico para filtrar tus valores atípicos. Compara tus medianas, medias y desviaciones estándares antes y después de realizar la filtración y ve cuánto cambiaron.
    Utiliza tablas de frecuencia e histogramas para observar la distribución de tus variables. Caracteriza cada una de las distribuciones usando los términos que aprendiste durante la sesión. Obtén medidas de asimetría y curtosis para ver qué tan alejadas de la distribución normal están tus variables.
    Utiliza gráficas de densidad para comparar una variable numérica que pueda ser segmentada en dos o más categorías. Usa esta técnica para entender mejor cómo están distribuidos tus datos en cada uno de los grupos presentes.



## Boxplots

Se utilizan boxplots para analizar la distribución de las variables numéricas. Se identifican cuáles son los valores típicos y atípicos y dónde están concentrados el grueso de tus datos.

Para ello, primero se definen algunas funciones que ayuden a automatizar las labores.


In [None]:
def graficar(lista):

  fig, axes = plt.subplots((len(lista)//3), 3, figsize=(10, 8), sharex=True, sharey=True)
  fila = 0
  columna = 0
 
  for indice in lista:
    sns.boxplot(x=df[indice],ax=axes[fila,columna]) 
    columna = columna + 1
    if columna == 3:
      columna = 0
      fila = fila + 1 	

In [None]:
def boxplots (parte = 1):
  
  import math
  sns.set(style="whitegrid")
  df2 = df_estimados._get_numeric_data().columns
  numeroVariables = len(df2)
  
  #Divide el número de variables en dos para que la misma figura no incluya muchos gráficos
  rango = numeroVariables//2

  lista = []

  if parte == 1:
    lista = []
    for valor in range(rango+1):
      lista.append(df2[valor])
    graficar(lista) 
  elif parte == 2: 
    for valor in range(rango, len(df2),1):
      lista.append(df2[valor])
    graficar(lista) 

In [None]:
#boxplots()

In [None]:
#boxplots(parte=2)

In [None]:
# Boxplots
%matplotlib inline
for variable in df_estimados:
    sns.boxplot(y=df[variable])
    plt.title('Boxplot de la variable {0}'.format(variable))
    plt.show()

Como se comentó previamente, en las boxplot se observan variables con muchos datos atípicos. También, hay variables con rango intercuartílico 0, como bedrooms, donde el grueso de los datos está en un solo valor, o bien, otras con gran variabilidad como host_response_rate, que tienen una caja muy ancha.

Utiliza el Score de Rango Intercuartílico para filtrar tus valores atípicos. Compara tus medianas, medias y desviaciones estándares antes y después de realizar la filtración y ve cuánto cambiaron.


In [None]:
plt.figure(figsize=(8,8))
sns.boxplot(x='price', data =df,
            color="orange",
            fliersize = 10, # Tamaño de los atípicos
            linewidth = 3,  # Grosor de las líneas
            saturation = 0.95).set_title("Boxplot del Precio con atípicos") #Saturación de color

In [None]:
# Score de Rango Intercuartílico (IQR-Score) para la variable price, que es la de mayor interés.
iqr = df['price'].quantile(0.75) - df['price'].quantile(0.25)
filtro_inferior = df['price'] > df['price'].quantile(0.25) - (iqr * 1.5)
filtro_superior = df['price'] < df['price'].quantile(0.75) + (iqr * 1.5)

df_filtrado = df[filtro_inferior & filtro_superior]

In [None]:
plt.figure(figsize=(8,8))
sns.boxplot(x='price', data =df_filtrado,
            color="orange",
            fliersize = 10, # Tamaño de los atípicos
            linewidth = 3,  # Grosor de las líneas
            saturation = 0.95).set_title("Boxplot del Precio sin atípicos") #Saturación de color

In [None]:
#Ahora comparamos ambas en la misma figura
fig, (ax1, ax2) = plt.subplots(1,2, figsize=(20,4), sharey=True)

# rectangular box plot
bplot1 = ax1.boxplot(x='price', data =df,
                     vert = False,
                     patch_artist=True) #Saturación de color

ax1.set_title("Boxplot del Precio con atípicos")

# notch shape box plot
bplot2 = ax2.boxplot(x='price', data =df_filtrado,
                    vert = False,
                     patch_artist=True) #Saturación de color

ax2.set_title("Boxplot del Precio sin atípicos")

colors = ['pink', 'lightblue', 'lightgreen']
for bplot in (bplot1, bplot2):
    for patch, color in zip(bplot['boxes'], colors):
        patch.set_facecolor(color)

# adding horizontal grid lines
for ax in [ax1, ax2]:
    ax.yaxis.grid(True)
    ax.set_xlabel('Precio de la propiedad')
    ax.set_ylabel('Valor observado')

plt.show()

Gracias a las boxplots, visualmente es claro cómo los valores atípicos en el precio son muchos. Originalmente, podría decirse que arriba de $300 USD ya es un outlier y hay muchos puntos que superar ese límite, seguramente de tipos de propiedades muy caras. Eliminando los registros con atípicos según IQR, se siguen apreciando outliers en lo alto, pero en mucha menor proporción.

In [None]:
def visualize(dataframe, column, title_plot, whiskers=1.5):
    sns.boxplot(data=dataframe, x=column, whis=whiskers)
    plt.title(title_plot)
    print(dataframe[column].describe().T)

### Visulización del precio por ciudad

In [None]:
sns.set(style="whitegrid")  
plt.figure(figsize=(15,15))
group_means = df.groupby(['city'])['price'].median().sort_values(ascending=False)
ax = sns.boxplot(data=df, x='city', y='price', order=group_means.index)
ax.set_title('Visualización del precio por ciudad')
ax.set_xticklabels(ax.get_xticklabels(), rotation = 90)
ax.set_xlabel("Ciudades en el Dataset", size = 12)
ax.set_ylabel("Precio", size = 12)
group_means

In [None]:
sns.set(style="whitegrid")  
plt.figure(figsize=(15,15))
group_means = df_filtrado.groupby(['city'])['price'].median().sort_values(ascending=False)
ax = sns.boxplot(data=df_filtrado, x='city', y='price', order=group_means.index)
ax.set_title('Visualización del precio por ciudad sin datos atípicos')
ax.set_xticklabels(ax.get_xticklabels(), rotation = 90)
ax.set_xlabel("Ciudades en el Dataset", size = 12)
ax.set_ylabel("Precio", size = 12)
group_means

En los dos graficos anteriores se puede observar el valor que tiene una propiedad en las disntintas ciudades, en el gráfico dos se tiene una apreciación más clara de la caja y los bigotes, después de eleminar los valores atípicos.

### Visualización del precio por tipo de propiedad

In [None]:
sns.set(style="whitegrid")  
plt.figure(figsize=(15,15))
group_means = df.groupby(['property_type'])['price'].median().sort_values(ascending=False)
ax = sns.boxplot(data=df, x='property_type', y='price', order=group_means.index)
ax.set_title('Visualización del precio por tipo de propiedad')
ax.set_xlabel("Tipo de propiedad", size = 12)
ax.set_ylabel("Precio", size = 12)
ax.set_xticklabels(ax.get_xticklabels(), rotation = 90)
group_means 

In [None]:
sns.set(style="whitegrid")  
plt.figure(figsize=(15,15))
group_means = df_filtrado.groupby(['property_type'])['price'].median().sort_values(ascending=False)
ax = sns.boxplot(data=df_filtrado, x='property_type', y='price', order=group_means.index)
ax.set_title('Visualización del precio por tipo de propiedad')
ax.set_xlabel("Tipo de propiedad", size = 12)
ax.set_ylabel("Precio", size = 12)
ax.set_xticklabels(ax.get_xticklabels(), rotation = 90)
group_means

En los dos gráficos anteriores se muestran los precios de las propiedades de los distintos tipos de propiedades disponibles en airbnb. Nuevamente, en el gráfico dos se tiene una apreciación más clara de la caja y los bigotes, después de eleminar los valores atípicos.

### Cantidad de propiedades en renta en cada ciudad del dataset estudiado.

In [None]:
# Número de propiedades por ciudad
data.groupby(['city'])['city'].count()

In [None]:
# Gráfica de barras verticales usando `city`
ax = sns.countplot(data=df,
              x='city',
              order = df['city'].value_counts().index.to_list())
ax.set_title("Número de propiedades por ciudad", fontsize = 15)
ax.set_xlabel("Ciudad", size = 12)
ax.set_ylabel("Cantidad de propiedades", size = 12)

En el gráfico anterior se observa que la ciudad de Nueva York y Los Angeles son las ciudades con mayor cantidad de propiedaes en retan, del conjunto de datos estudiado.

Como se mencionó anteriormente, casi el 90% de los datos son dos tipos de propiedad (House y Apartment). De acuerdo a la visualización solo en el caso de New York City la mayor parte corresponde a departamentos. Esto lo podeos visualizar en la siguiente gráfica.

In [None]:
ax = sns.histplot(data=df[df['property_type'].isin(['House', 'Apartment'])],
              x='city',
              hue='property_type',
              stat = 'count')
ax.set_title("Número de tipo de propiedades por ciudad", fontsize = 15)
ax.set_xlabel("Ciudad", size = 12)
ax.set_ylabel("Cantidad de propiedades", size = 12)
sns.move_legend(ax, "upper left", bbox_to_anchor=(1,1))

In [None]:
df_property_count=data.groupby(['city','property_type'])['property_type'].count()
df_property_count.head(20)
df_property_count.info()

## Tablas de Frecuencias e Histogramas

Utiliza tablas de frecuencia e histogramas para observar la distribución de tus variables. Caracteriza cada una de las distribuciones usando los términos que aprendiste durante la sesión. Obtén medidas de asimetría y curtosis para ver qué tan alejadas de la distribución normal están tus variables.

Intervalos de clase. Regla de Sturges

k = 1 + 3.3 log n

A = R/K   -> Amplitud

donde: 

k => intervalo de clases

R => Rango

In [None]:
def tablafrecuencias(variable = 'price'):
  var = df_estimados[variable]
  total = df_estimados[variable].count()
  k = math.ceil(1 + 3.3 * math.log(total,10))
  rango = var.max() - var.min()
  amplitud = rango/k

  segmentos = pd.cut(var,k)

  tabla = df[variable].groupby(segmentos).count()
  return  tabla

In [None]:
def generarTablas ():

  df2 = df_estimados._get_numeric_data().columns

  for indice in df2:
    print(tablafrecuencias(indice))

In [None]:
generarTablas()

In [None]:
def histogramas2(variable):
  sns.set_style('whitegrid')
  #sns.histplot(data=df_estimados, x=variable, binwidth=100, bins=200)
  sns.distplot(df_estimados[variable], kde=False, norm_hist=False, bins=20)

In [None]:
histogramas2('accommodates')
# Muestra sesgo a la derecha

In [None]:
histogramas2('bathrooms')

In [None]:
histogramas2('host_response_rate')

In [None]:
histogramas2('number_of_reviews')
# Muestra sesgo a la derecha

In [None]:
histogramas2('review_scores_rating')
# Muestra sesgo a la izquierda

In [None]:
histogramas2('bedrooms')

In [None]:
histogramas2('beds')
# Muestra sesgo a la derecha

In [None]:
histogramas2('price')
# Muestra sesgo a la derecha

In [None]:
histogramas2('n_days_lastrev')

In [None]:
histogramas2('n_days_ashost')
# Esta variable se distribuye parecido a una variable normal

Se ve que muchas de las variables numéricas presentan sesgo a la derecha (hacia valores bajos), pero hay otras como review_scores_rating sesgadas a la izquierda. La variable cuya distribución se parece más a una normal es n_days_ashost.

## Asimetría (skewness) y Curtosis (kurtosis)

In [None]:
def kurtosisAsimetria():
  df2 = df_estimados._get_numeric_data().columns

  for indice in df2:
    print(f"La Curtosis de {indice} es:  {kurtosis(df_estimados[indice])}")
    print(f"La Asimetría de {indice} es:  {skew(df_estimados[indice])}")
    print()

In [None]:
kurtosisAsimetria()

Viendo la asimetría positiva, se corrobora que beds, price, number_of_reviews, entre otras, están sesgadas a la derecha. Cuando la asimetría es negativa, como en review_scores_rating, se indica cierto sesgo a la izquierda.

Por otro lado, vemos que la curtosis es grande en variables como el precio (leptocúrtica), esto significa que el histograma es "puntiagudo" y los datos se concentran alrededor de la media; por otro lado, en variables como n_days_lastrev, se tienen distribuciones "aplanadas" y los datos no se concentran en algún valor.

## Gráficas de densidad

In [None]:
# Gráfica de densidad de precios por ciudad
sns.set(style="whitegrid")  
plt.figure(figsize=(15,15))
ax = sns.kdeplot(data=df, x ='price', hue='city',fill = True, shade=False)
ax.set_title('Visualización de precio por ciudad')
ax.set_xlabel("Precio", size = 12)

En la grafica anterios se muestran nuevamente los precios por ciudad, donde las ciudades de Nueva York y Los Angeles tienen mayor densidad dado que existen más propiedades en renta en ambas ciudades.

In [None]:
def densidades2(variable):
  sns.set_style('whitegrid')
  sns.kdeplot(x = df_estimados[variable], fill = True, color = "red", alpha=0.5)
  #sns.distplot(df_estimados[variable], hist=False)

In [None]:
densidades2('accommodates')

In [None]:
densidades2('bathrooms')

In [None]:
densidades2('host_response_rate')

In [None]:
densidades2('number_of_reviews')

In [None]:
densidades2('review_scores_rating')

In [None]:
densidades2('bedrooms') 

In [None]:
densidades2('beds') 

In [None]:
densidades2('price') 

In [None]:
densidades2('n_days_lastrev') 

In [None]:
densidades2('n_days_ashost') 

Finalmente, las gráficas de densidad permiten ratificar concentraciones en valores para algunas variables.

In [None]:
sns.distplot(df_estimados['price'], hist=False)
sns.distplot(df_estimados['n_days_ashost'], hist=False)

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="var-cat">Postwork 3: EXPLORACIÓN DE VARIABLES CATEGÓRICAS Y ANÁLISIS MULTIVARIABLE</a></div> 
Objetivo

    Identificar distintas técnicas para explorar y visualizar variables categóricas.
    Añadir anotaciones a nuestras gráficas para hacerlas más comprensibles.
    Utilizar gráficas de barras.
    Graficar un conjunto de datos agrupado de acuerdo a dos variables categóricas.
    Producir más de una gráfica al mismo tiempo para compararlas.
    Graficar un conjunto de datos numéricos agrupados de acuerdo a una variable categórica.

Desarrollo

    1. Introducción

    2. Gráficas anotadas

    3. Títulos

    4. Nombres de ejes

    5. Leyendas

    6. Tamaño de la gráfica

    7. Gráficas de barras

    8. Gráficas de pie

    9. Moda

    10. Tablas de contingencia

    11. Boxplots

    12. Violinplots


    Postwork

EXPLORACIÓN DE VARIABLES CATEGÓRICAS Y ANÁLISIS MULTIVARIABLE

Objetivo

    Agregar anotaciones y títulos a las gráficas que hemos hecho hasta el momento.
    Realizar gráficas de barras para explorar la distribución de variables categóricas.
    Realizar tablas de contingencia y gráficas con múltiples axes para explorar dos o más variables categóricas.
    Usar boxplots y violinplots para explorar variables numéricas segmentadas por variables categóricas.


Desarrollo
Requisitos:

    Tener un dataset limpio.
    Tener una serie de preguntas que queremos contestar usando nuestro dataset.
    Haber explorado ya la distribuciones de nuestras variables numéricas.

Desarrollo:

En este Postwork vamos a explorar las distribuciones de las variables categóricas de nuestro dataset. En el postwork pasado exploramos las variables numéricas y ya deberías de tener una idea general bastante buena de cómo están organizadas. Ahora es momento de hacer análisis de variables categóricas y análisis multivariable. Realiza los siguientes pasos si tiene sentido aplicarlos a tu conjunto de datos:

    Si ya tienes gráficas realizadas en Postworks anteriores, agrega títulos, anotaciones y leyendas donde sea necesario. También cambia el tamaño de las gráficas donde tenga sentido hacerlo.
    Identifica todas las variables categóricas en tu dataset.
    Utiliza gráficas de barras para explorar la distribución de tus variables categóricas.
    Planea tu análisis multivariable: ¿qué combinaciones de variables categóricas podrían darme información útil acerca de la distribución de mis datos? ¿qué combinaciones de una variable numérica con una variable categórica podrían ser interesantes?
    Utiliza tablas de contingencia y múltiples gráficas en la misma figure para explorar combinaciones de variables categóricas.
    Utiliza boxplots y violinplots para explorar combinaciones de variables numéricas con variables categóricas.
    De preferencia ve registrando por escrito (ahí mismo en tu Notebook) todos tus hallazgos. Describe qué vas descubriendo y qué podría significar.



In [None]:
for variable in ['city', 'neighbourhood', 'property_type', 'room_type', 'zipcode', 'bed_type', 'cleaning_fee', 'cancellation_policy', 'instant_bookable', 'host_has_profile_pic', 'host_identity_verified']:
    print("\n La variable '{0}' tiene {1} valores y son:".format(variable, len(np.unique(df[variable]))))
    print(np.unique(df[variable]))

In [None]:
%matplotlib inline
for variable in ['city', 'neighbourhood', 'property_type', 'room_type', 'zipcode', 'bed_type', 'cleaning_fee', 'cancellation_policy', 'instant_bookable', 'host_has_profile_pic', 'host_identity_verified']:
  print(f'Distribución de la variable: {variable}')
  df[variable].value_counts().reset_index()  
  data = (df[variable].value_counts().reset_index())[variable]
  keys = (df[variable].value_counts().reset_index())['index']
  palette_color = sns.color_palette('bright')
  plt.pie(data, labels=keys, colors=palette_color, autopct='%.0f%%')
  plt.show()
  #.iplot(kind="pie", labels="index", values=variable, title=f'Distribución de la variable {variable}')

Analizando la frecuencia de variables categóricas, vemos que zipcode y vecindarios tienen muchos posibles valores, alcanzando más de 600 para esta última variable. Por otro lado, hay variables unarias que tienen el 100% (o algo muy muy cercano a eso) de sus valores iguales. Tal es el caso de las booleanas instant_bookeable, host_identitity_verified y host_has_profile_pic. Así, estas variables no serán de utilidad para análisis posteriores pues no presentan gran variabilidad.

Ahora, tiene mérito conocer cómo se distribuyen los tipos de propiedad para cada ciudad. Como tenemos más de 100 tipos de propiedad, y dado que el 90% de ellas están son únicamente casas y departamentos, se agruparán todas las demás en un solo valor 'Others'. 

Enseguida se crea una tabla de contingencias de las variables tipo de propiedad y ciudad

In [None]:
df['new_prop_type'] = df["property_type"].map(lambda x: 'Others' if x not in ['House', 'Apartment'] else x)

In [None]:
# 1. Crear una tabla de contigencia de ciudad por tipo de propiedad
df_city = pd.crosstab(df['city'], df['new_prop_type'], normalize = True)
df_city

Acá se puede notar que la mayoría de propiedades en el conjunto de datos son departamentos en Nueva York, seguido por ese mismo tiepo de propiedad en Los Angeles. El resto de combinaciones se ve relativamente balanceadas con muy poco porcentaje del total.

####<div class="markdown-google-sans"><a name="barras-property_type">Diagramas de barras de tipos de propiedades por región</a></div> 


In [None]:
#fig, ax = plt.subplots(nrows=3, ncols=2, #figsize = (10,10),sharex=True, sharey=True)
fig, ((ax1,ax2),(ax3,ax4),(ax5,ax6)) = plt.subplots(nrows=3, ncols=2,
                                                                  figsize = (20,20),
                                                                  sharex=True, sharey=True)
#fig.subplots_adjust(wspace=0.9)

sns.barplot(y = df_city.loc['Boston'].index,
            x = df_city.loc['Boston'],
            ax=ax1)
sns.barplot(y = df_city.loc['Chicago'].index,
            x = df_city.loc['Chicago'],
            ax=ax2)
sns.barplot(y = df_city.loc['DC'].index,
            x = df_city.loc['DC'],
            ax=ax3)
sns.barplot(y = df_city.loc['LA'].index,
            x = df_city.loc['LA'],
            ax=ax4)
sns.barplot(y = df_city.loc['NYC'].index,
            x = df_city.loc['NYC'],
            ax=ax5)
sns.barplot(y = df_city.loc['SF'].index,
            x = df_city.loc['SF'],
            ax=ax6)


ax1.tick_params(length = 0)
ax2.tick_params(length = 0)
ax3.tick_params(length = 0)
ax4.tick_params(length = 0)
ax5.tick_params(length = 0)
ax6.tick_params(length = 0)


sns.despine(left=True, right=True, top=True, bottom=False)

ax1.set_ylabel(None)
ax2.set_ylabel(None)
ax3.set_ylabel(None)
ax4.set_ylabel(None)
ax5.set_ylabel(None)
ax6.set_ylabel(None)



fig.suptitle("Número de tipos de propiedad por Ciudad", y = 0.935, fontsize = 20)

En todos los casos, predominan los apartamentos con gran diferencia, sobre todo en Nueva York. Llama la atención que ni siquiera agrupando todos los demás tipos de propiedad se alcanza a la segunda categoría más repetida. 

In [None]:
# Crear figure
fig, (ax1,ax2,ax3,ax4,ax5) = plt.subplots(nrows=5, ncols=1, figsize = (20,20), sharex=True)
fig.subplots_adjust(hspace = 0.1)
fig.suptitle("Distribución de precios en tipos\nde vivienda en 6 ciudades de Estados Unidos", fontsize = 20, y = 0.935)
sns.despine()

# 2. y 3. Crear boxplot con eje x en 'type' y y en 'price' asi como titulo y anotaciones
sns.boxplot(data = df, x = 'price', y = 'new_prop_type', ax = ax1)
ax1.set_ylabel('Tipo de propiedades')
ax1.set_xlabel('Precio')

# 2. y 3. Crear boxplot con eje x en 'type' y y en 'price' asi como titulo y anotaciones
sns.boxplot(data = df, x = 'price', y = 'city', ax = ax2)
ax2.set_ylabel('Ciudades')
ax2.set_xlabel('Precio')

# 4. y 5. Crear violin plot con mismas variables y anotar titulo y anotaciones
sns.violinplot(data = df, x = 'price', y = 'new_prop_type', ax = ax3)
ax3.set_ylabel('Tipo de propiedades')
ax3.set_xlabel('Precio')

# 4. y 5. Crear violin plot con mismas variables y anotar titulo y anotaciones
sns.violinplot(data = df, x = 'price', y = 'city', ax = ax4)
ax4.set_ylabel('Ciudades')
ax4.set_xlabel('Precio')

# 6. Comparar
sns.violinplot(data = df, x = 'price', y = 'city', ax = ax5)
sns.boxplot(data = df, x = 'price', y = 'city', ax = ax5)
ax5.set_ylabel('Ciudades')
ax5.set_xlabel('Precio')

Tiene todo el mérito analizar variables numéricas segmentadas por alguna variable categórica y nó sólo frencuencias de éstas últimas. En este caso, es muy útil visualizar cómo varia el precio tanto por tipo de propiedad como por ciudad. 

Tanto los boxplots como los violinplots destacan la presencia de valores atípicos, sobre todo hacia lo alto, reflejados tanto en los puntos de las boxplots como en los picos tan largos de los violines (se está analizando el conjunto de datos sin filtrar). En general, la media de precio es similar para todos los tipos de propiedad y entre ciudades, excepto en San Francisco, donde se aprecia un precio más caro. 

Las últimas dos imágenes muestran una superposición de ambos tipos de gráficos y es posible notar como, en esencia, los dos cuentan la misma historia.

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="corr-reg-lin">Postwork 4: CORRELACIONES Y REGRESIÓN LINEAL SIMPLE</a></div> 
Objetivo

    Entender el concepto de correlación entre variables y por qué es relevante.
    Identificar el significado del coeficiente de correlación e interpretarlo.
    Hacer matrices de correlaciones y graficarlas usando heatmaps.
    Hacer gráficas de dispersión e interpretarlas.
    Aprender el concepto de Gráficas de Pares.
    Aprender el concepto de Regresión Linear Simple y cómo funciona el proceso de entrenamiento e interpretación.

Desarrollo

    1. Introducción:

    2. ¿Qué es entonces una correlación?

    3. Coeficiente de correlación

    4. Matriz de correlaciones

    5. Heatmaps o Mapas de Calor

    6. Scatterplots o Gráficas de Dispersión

    7. Pairplots o Gráficas de Pares

    8. Regresión Linear Simple


    Postwork

    CORRELACIONES Y REGRESIÓN LINEAR SIMPLE

Objetivo

    Realizar análisis bivariado con variables numéricas
    Identificar valores atípicos y decidir qué hacer con ellos
    Explorar las relaciones existentes entre nuestras variables numéricas
    Entrenar modelos de regresión lineal para realizar predicciones

Desarrollo

En este Postwork vamos a hacer análisis bivariado de nuestras variables numéricas. Si tu dataset sólo tiene variables categóricas o datos no estructurados (texto libre), entonces puedes pedirle a tu experta que te comparta algún dataset con el que puedas realizar estos ejercicios.
Utilizando tu dataset, realiza las siguientes actividades:

    Identifica cuáles son las variables numéricas en tu dataset.
    Asegúrate de que tengan el tipo de dato correcto y que no haya NaNs por ahí escondidos.
    Genera una matriz de correlaciones y un pairplot para visualizar de manera general las relaciones entre tus variables numéricas.
    Utilizando gráficas de dispersión y tus medidas de locación y dispersión, identifica dónde hay valores atípicos y decide qué hacer con ellos.
    Revisa si tu revisión de valores atípicos cambió de alguna manera las relaciones existentes.
    Donde consideres necesario, entrena modelos de Regresión Lineal con un o más pares de variables. Incluso si no te parece que realizar predicciones entre pares de variables tiene sentido para tu proyecto, prueba realizar un par de regresiones para que practiques el procedimiento.


A continuación se va a analizar la correlación entre variables numéricas del conjunto de datos, con la intención de aproximar el precio de las propiedades con un modelo de regresión lineal simple al que se le irá añadiendo complejidad.

In [None]:
#Retomamos el DataFrame con variables numéricas
df_estimados

In [None]:
df_estimados.corr()

In [None]:
#Matriz de correlaciones
plt.figure(figsize=(10, 10))
plt.suptitle("Matriz de correlaciones", size = 17, y = 0.95)

ax = sns.heatmap(df_estimados.corr(), vmin=-1, vmax=1, annot=True, cmap="YlGnBu", linewidths=.5,cbar_kws = {'orientation': 'vertical',
                                       'pad': 0.1},);
                                       
ax.tick_params(axis='both', length=0, labelsize=10)
cbar_corr = ax.collections[0].colorbar
cbar_corr.set_label('Correlación de Pearson', size=10)
cbar_corr.ax.tick_params(axis='both', length=0, labelsize=10, pad=5)

En la matriz de correlaciones se aprecian tanto relaciones directas (positivas) como inversas (negativas). Los únicos pares de variables con alta correlación son bedrooms-accommodates, beds-accommodates y n_days_ashost-review_scores_rating. Esto hace mucho sentido porque mientras más camas o recámaras haya, es lógico pensar que acepta más huéspedes. De igual manera, es lógico pensar que mientras más días hayan pasado desde la última revisión es porque la propiedad casi no se renta y, por ende, podría tener pocas reseñas y con bajas calificaciones.

In [None]:
sns.pairplot(df_estimados)

En la gráfica de pares se confirma lo visto en la matriz de correlaciones, con la ventaja de que visualmente se distingue la relación lineal (o no) existente entre las variables. Analizando la variable precio, la que mayor correlación tiene con ella es el número de huéspedes, sin embargo, no se aprecia alguna relación lineal entre ambas.

Identificando las variables que más pudieran explicar el precio de acuerdo a los gráficos, se hace un análisis por separado.

In [None]:
#Testing:
# Variables prometedoras
vars_prom = ['beds', 'bedrooms', 'accommodates']
# Variables personales
vars_pers = ['price']

df_1 = df[vars_prom + vars_pers]
df_1.sample(3)

In [None]:
# Visualizar scatter plots

fig, (ax1,ax2, ax3) = plt.subplots(nrows = 1, ncols = 3, figsize = (10,5))

sns.scatterplot(data = df_1, x = vars_prom[0], y = vars_pers[0], ax = ax1, color = 'olive')
sns.scatterplot(data = df_1, x = vars_prom[1], y = vars_pers[0], ax = ax2)
sns.scatterplot(data = df_1, x = vars_prom[2], y = vars_pers[0], ax = ax3, color = 'red')

## Regresión Lineal Simple

Una vez que se ha concluido con la exploración, el análisis y la interpretación de los datos disponibles, se quiere identificar qué de todo lo disponible es realmente importante en la determinación del precio de renta de la propiedad e intentar desarrollar un modelo predictivo del mismo. Para ello, se han de aplicar metodologías estadísticas para seleccionar las variables importantes y un modelo de regresión lineal para predecir el precio.

Importante mencionar que, como no se aprecia una relación lineal visual en los gráficos, es altamente probable que cualquier modelo linear generalizado (entre ellos, la regresión) no tenga buenos resultados prediciendo el precio con ninguna de las variables disponibles; sin embargo, para este apartado se entrenará un modelo donde la variable dependiente u objetivo será el precio y la dependiente, el número de huéspedes, ya que tienen la correlación más alta.

In [None]:
#Regresión Lineal Simple
tgt = 'price'
predictors = ['accommodates']
#Seleccionamos únicamente las variables del DataFrame que vamos a utilizar y creamos uno nuevo, llamado X
X = df[predictors].copy()
y = df[tgt].copy()

In [None]:
#Estandarización
sc = StandardScaler()
sc.fit(X)

Xsc = sc.transform(X)

In [None]:
Xt, Xv, yt, yv = train_test_split(X, y, test_size=.2, random_state = 580)

In [None]:
#Estandarización
sc = StandardScaler()
sc.fit(Xt)

Xtsc = sc.transform(Xt)
Xvsc = sc.transform(Xv)

In [None]:
models = {'linreg': LinearRegression()
}

In [None]:
for c in models:
    models.get(c).fit(Xtsc, yt)

In [None]:
print("MÉTRICAS PARTIENDO EL CONJUNTO ORIGINAL EN ENTRENAMIENTO Y VALIDACIÓN")
print("para la variable 'price' vs 'accommodates'\n")
for c in models:
  print(c)
  print(f"R2_t: {r2_score(yt, models.get(c).predict(Xtsc))}")
  print(f"R2_v: {r2_score(yv, models.get(c).predict(Xvsc))}")
  print(f"MAE_t: {mean_absolute_error(yt, models.get(c).predict(Xtsc))}")
  print(f"MAE_v: {mean_absolute_error(yv, models.get(c).predict(Xvsc))}")
  print(f"MSE_t: {mean_squared_error(yt, models.get(c).predict(Xtsc))}")
  print(f"MSE_v: {mean_squared_error(yv, models.get(c).predict(Xvsc))}")
  print(f"RMSE_t: {mean_squared_error(yt, models.get(c).predict(Xtsc),squared=False)}")
  print(f"RMSE_v: {mean_squared_error(yv, models.get(c).predict(Xvsc),squared=False)}")
  print(f"ACCURACY_t: {models.get(c).score(Xtsc, yt)}")
  print(f"ACCURACY_v: {models.get(c).score(Xvsc, yv)}")
  scores = cross_val_score(models.get(c), Xsc, y, cv=50)
  print("%0.2f ACCURACY con desviación estándar de %0.2f" % (scores.mean(), scores.std()))
  print('\n')

Los resultados no son alentadores, pues las variable seleccionada apenas explican poco más del 25% de la varianza del modelo. Esto indica que hay información que no está disponible en el conjunto de datos original, o bien que sí está pero no se está considerando, y que es muchísimo más importante para el cálculo del precio de la propiedad.

Nótese que, además, los diversos errores no son pequeños y el accuracy tampoco rebasa el 30%, incluso haciendo validación cruzada con 50 diferentes muestras de entrenamiento.

Gráficamente, se tiene que:

In [None]:
plt.figure(figsize=(7,7))

# 1:1 line
eje_x = np.linspace(0,2500,10)
eje_y = eje_x

# Scatter plot predicted vs. actual
plt.scatter(yv, models.get('linreg').predict(Xvsc))
plt.plot(eje_x, eje_y, c='r')
plt.gca().set_aspect('equal')
plt.xlabel('Valor Real', size=12)
plt.ylabel('Valor Estimado', size=12)
plt.title('Real vs. Estimado', size=20)
plt.xlim(0,2000)
plt.ylim(0,2000)
plt.show()

Resulta evidente que el modelo con sólo una variable predice de manera poco aceptable el precio. Para precios bajos la diferencia es menor, pero no significa que sea una predicción buena. Llama la atención que el máximo precio estimado no rebasa los 750 USD, siendo que hay precios reales mucho mayores. Quizá esto se deba a que una mayoría de precios de las propiedades no rebasan los 500 USD y, entonces, el modelo no aprende relaciones ni patrones para precios mayores.

In [None]:
print(f'Valor de las pendientes o coeficiente "a" {models.get("linreg").coef_}')

In [None]:
print(f'Valor de la intersección o coeficiente "b": {models.get("linreg").intercept_}')

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="dist-eval-mods">Postwork 5: DISTRIBUCIONES MUESTRALES Y TÉCNICAS DE EVALUACIÓN DE MODELOS</a></div> 
Objetivo

    Distinguir la diferencia entre población y muestra.
    Entender el concepto de 'sesgos' y por qué es tan importante estar conscientes de ellos.
    Aprender el concepto de muestreo aleatorio y cómo puede protegernos parcialmente de los sesgos.
    Utilizar la técnica 'bootstrap' como medio para explorar la distribución muestral de una estadística.
    Crear y utilizar histogramas, errores estándar e intervalos de confianza para evaluar la incertidumbre de una medida estadística.
    Utilizar técnicas para evitar sesgos en el entrenamiento de modelos, como la división de datasets y la validación cruzada.

Desarrollo

    1. Introducción

    2. Poblaciones y muestras

    3. Sesgos en nuestros conjuntos de datos

    4. Muestreo aleatorio o randomizado

    5. Distribuciones muestrales de estadísticas

    6. Bootstrap

    7. Histogramas

    8. Error estándar

    9. Intervalo de confianza

    10. Técnicas de evaluación de modelos

    11. Datasets de Entrenamiento y Prueba

    12. Validación cruzada


    Postwork
    
    DISTRIBUCIONES MUESTRALES Y TÉCNICAS DE EVALUACIÓN DE MODELOS

Objetivo

    Explorar las distribuciones muestrales de estadísticas de las variables numéricas en nuestro dataset
    Practicar el entrenamiento de modelos de Regresión Lineal Múltiple


    Desarrollo

En este Postwork vamos a analizar la incertidumbre y los sesgos que existen en las medidas de locación y dispersión de nuestras variables numéricas. También vamos a practicar el entrenamiento de modelos de Regresión Lineal Múltiple, aunque eso no sea el objetivo de tu proyecto. Realiza los siguientes pasos:

    Identifica las variables numéricas en tu dataset y revisa las medidas de locación y dispersión que ya has realizado de ellas.

    Utilizando la técnica de bootstrap, explora las distribuciones muestrales de las estadísticas que obtuviste anteriormente y reporta:
        La distribución, su asimetría y curtosis
        El error estándar
        El intervalo de confianza que te parezca más apropiado

    Si tiene sentido, elige algunas de tus variables numéricas para entrenar uno o más modelos de Regresión Lineal Múltiple. Utiliza las técnicas de división de dataset y validación cruzada de K-iteraciones para asegurarte de que tu modelo generalice.

    Comparte con tus compañeros y la experta tus hallazgos.


Seguimos analizando la variable precio, que es nuestro objetivo. Para seguir entendiendo su distribución, aplicamos bootstrapping.

Hay que recordar que la idea básica de bootstrap es que la inferencia sobre una población desconocida, asumiendo que ésta está conformada por tu muestra o conjunto de datos total, para luego armar muestras más pequeñas que se irán remuestreando para aproximar el sesgo, la varianza y hacer intervalos de confianza.

In [None]:
def bootstrap():
  price = df['price']
  means = []
  for i in range(100000):
    sample = price.sample(n=50, replace=True)
    means.append(sample.mean())
    
  return pd.Series(means)

In [None]:
serie_means = bootstrap()

In [None]:
sns.distplot(serie_means, kde=False, norm_hist=False);

In [None]:
serie_means.skew()

In [None]:
serie_means.kurtosis()


Vemos como, en efecto, el precio pudiera ser aproximado (remuestreando los datos) con una variable normal con media cercana a 150 USD, un ligero sesgo a la derecha (reflejado en la asimetría positiva) y siendo una distribución leptocúrtica (alargada) con datos algo concentrados alrededor de la media.

**Error Estándar**

In [None]:
print(f'Error estándar: {serie_means.std()}')

In [None]:
print(f'Valor mínimo: {serie_means.min()}')
print(f'Valor máximo: {serie_means.max()}')
print(f'Rango: {serie_means.max() - serie_means.min()}')

In [None]:
sns.boxplot(data =serie_means,
            color="orange",
            fliersize = 10, # Tamaño de los atípicos
            linewidth = 3,  # Grosor de las líneas
            saturation = 0.95) #Saturación de color


Llama la atención como el bootstrapping ayudó a que ya no hubieran valores atípicos tan altos (el precio máximo apenas y supera los 300 USD, cuando antes superaba hasta los 2000 USD.

**Intervalos de Confianza**

Con un intervalo de confianza del 95%, se remueve el 2.5% de valores al principio y al final, y se deben obtener los nuevos valores mínimos  y máximos.

In [None]:
limite_inferior = serie_means.quantile(0.025)
limite_superior = serie_means.quantile(0.975)

In [None]:
precio = df['price']
print(f'Intervalo de 95% confianza de la media: {limite_inferior} < {precio.mean()} < {limite_superior}')

In [None]:
media_de_intervalos = ((precio.mean() - limite_inferior) + (limite_superior - precio.mean())) / 2

print(f'Intervalo de 95% confianza de la media: {precio.mean()} +/- {media_de_intervalos}')

In [None]:
sns.distplot(serie_means, kde=False, norm_hist=False)
plt.axvline(limite_inferior)
plt.axvline(limite_superior);

Finalmente, se puede distinguir cómo el intervalo de confianza al 95% deja la gran mayoría de los datos dentro y nos indica que el precio de una propiedad de Airbnb en Estados Unidos oscila, con un 95% de confianza, entre los 114 y los 206 USD, aproximadamente.

**Regresión Lineal Múltiple**

En apartados anteriores se entrenó un modelo de regresión lineal con pobres resultados, de modo que tiene mérito intentar añadir variables para ver si el desempeño y el poder predictivo mejoran.

Recordemos la matriz de correlaciones para ver qué variables añadir:

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(df_estimados.corr(), annot=True);

Las variables que mayor correlación tienen con el precio son accommodates, beds, bedrooms y bathrooms; sin embargo, nótese que beds y bedrooms están altamente correlacionadas con el número de huéspedes y, por tanto, incluirlas en el mismo modelo podría ocasionar un problema de colinealidad. De tal manera, se añadirá únicamente el número de baños al modelo.

In [None]:
#Regresión Lineal Múltiple
tgt = 'price'
predictors = ['accommodates', 'bathrooms']
#Seleccionamos únicamente las variables del DataFrame que vamos a utilizar y creamos uno nuevo, llamado X
X = df[predictors].copy()
y = df[tgt].copy()

In [None]:
#Estandarización - Esto elimina el efecto de la escala
sc = StandardScaler()
sc.fit(X)

Xsc = sc.transform(X)

In [None]:
Xt, Xv, yt, yv = train_test_split(X, y, test_size=.2, random_state = 580)

In [None]:
#Estandarización
sc = StandardScaler()
sc.fit(Xt)

Xtsc = sc.transform(Xt)
Xvsc = sc.transform(Xv)

In [None]:
models = {'linreg': LinearRegression()
}

In [None]:
for c in models:
  models.get(c).fit(Xtsc, yt)

In [None]:
print("MÉTRICAS PARTIENDO EL CONJUNTO ORIGINAL EN ENTRENAMIENTO Y VALIDACIÓN")
print("para la variable 'price' vs 'accommodates'\n")
for c in models:
  print(c)
  print(f"R2_t: {r2_score(yt, models.get(c).predict(Xtsc))}")
  print(f"R2_v: {r2_score(yv, models.get(c).predict(Xvsc))}")
  print(f"MAE_t: {mean_absolute_error(yt, models.get(c).predict(Xtsc))}")
  print(f"MAE_v: {mean_absolute_error(yv, models.get(c).predict(Xvsc))}")
  print(f"MSE_t: {mean_squared_error(yt, models.get(c).predict(Xtsc))}")
  print(f"MSE_v: {mean_squared_error(yv, models.get(c).predict(Xvsc))}")
  print(f"RMSE_t: {mean_squared_error(yt, models.get(c).predict(Xtsc),squared=False)}")
  print(f"RMSE_v: {mean_squared_error(yv, models.get(c).predict(Xvsc),squared=False)}")
  print(f"ACCURACY_t: {models.get(c).score(Xtsc, yt)}")
  print(f"ACCURACY_v: {models.get(c).score(Xvsc, yv)}")
  scores = cross_val_score(models.get(c), Xsc, y, cv=50)
  print("%0.2f ACCURACY con desviación estándar de %0.2f" % (scores.mean(), scores.std()))
  print('\n')

In [None]:
plt.figure(figsize=(7,7))

# 1:1 line
eje_x = np.linspace(0,2500,10)
eje_y = eje_x

# Scatter plot predicted vs. actual
plt.scatter(yv, models.get('linreg').predict(Xvsc))
plt.plot(eje_x, eje_y, c='r')
plt.gca().set_aspect('equal')
plt.xlabel('Valor Real', size=12)
plt.ylabel('Valor Estimado', size=12)
plt.title('Real vs. Estimado', size=20)
plt.xlim(0,2000)
plt.ylim(0,2000)
plt.show()

Nótese como agregar una variable al modelo mejora, aunque sea un poco, todas las métricas: bajan los errores y aumentan tanto el R2 como el score/accuracy, incluso haciendo validación cruzada. 

No obstante, el modelo sigue siendo muy malo y requiere añadir más variables explicativas. No obstante, como el resto de variables disponibles tienen muy poca correlación con el precio, se presume que añadirlas no tendrá un gran impacto en el modelo y, más bien, se necesita recurrir a variables externas que puedan explicar mejor dicho comportamiento.

Se tiene también que el modelo mejora para precios bajos pues los puntos se aprecian ligeramente más cercanos a la recta identidad, además de que se difumina el efecto de la variable predictora discreta (la nube de puntos se ve más continua).

In [None]:
y_predict = models.get('linreg').predict(Xvsc)

In [None]:
y_predict

In [None]:
print(f'Valor de las pendientes o coeficiente "a": {models.get("linreg").coef_}')

In [None]:
print(f'Valor de la intersección o coeficiente "b": {models.get("linreg").intercept_}') 
#Nótese como el intercepto coincide con la media calculada por bootstrap

**Validación Cruzada de K-Iteraciones**

Este método nos permite evaluar nuestro modelo de regresión lineal multiple. Sin cross validation se tiene que el score en el conjunto de validación es:

In [None]:
print(models.get("linreg").score(Xvsc,yv))

Se realiza la validación del modelo utilizando cross validation para conocer como se comporta el modelo ante datos que nunca ha visto.

In [None]:
scores = cross_validate(models.get("linreg"), X, y, scoring='r2')

**En el test score se puede observar las cinco iteraciones que realizó el validador y se encuentra cierta variablididad en ellos debido a los datos de prueba que utiliza**

In [None]:
scores

**Se calcula el promedio de las iteraciones para obtener el score del modelo, en donde podemos observar que este modelo no es adecuado para la predicción del precio ya que está muy por debajo del 1**

In [None]:
print(f'Score del modelo: {scores["test_score"].mean():.3f} +/- {scores["test_score"].std():.3f}')

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="visualizacion-avanzada">Postwork 6: VISUALIZACIÓN DE DATOS AVANZADA</a></div> 
Objetivo

Aprender a modificar los estilos predeterminados de nuestras gráficas

Desarrollo

    1. Introducción

    2. Estilos

    3. Treemaps

    4. Scatterplots por categorías

    5. Scatterplots con variables condicionantes

    6. Binning Hexagonal

    7. Un binning hexagonal hace lo siguiente:

    8. Mapas Coropléticos

    9. Gráficas de barras apiladas

    Postwork

VISUALIZACIÓN DE DATOS AVANZADA

Objetivo

    Realizar nuevos tipos de gráficas que nos ayuden a explorar y entender mejor nuestros datos
    Estilizar nuestras gráficas para que sean agradables a la vista y llamen la atención



##Treemap

Se agrega una visualización treemap, en donde se describe la cantidad de propiedades por su tipo por ciudad, modificando el tamaño de los rectángulos proporcionalmente al tamaño de la variable numérica total.

Primero leeremos el archivo limpio, y vamos a resetear su índice.

In [None]:
df = pd.read_csv(file_path) 
df.reset_index()

Agrupamos las columnas necesarias para la creación de nuestro treemap, y renombramos la columna por total, que será nuestra variable numérica.

In [None]:
df_treemap = df.query("index").groupby(['city','property_type'])[['city']].count()
df_treemap.rename(columns = {'city':'total'}, inplace = True)
df_treemap

In [None]:
fig = px.treemap(df_treemap.reset_index(), path=[px.Constant("CIUDADES"), 'city', 'property_type'], values='total',
                 color='total', color_continuous_scale='RdBu',
                 title="Cantidad de tipos de propiedades por CIUDAD")

fig.show()

In [None]:
#Agrupando las propiedades que no son departamentos ni casas en un solo tipo
df['new_prop_type'] = df["property_type"].map(lambda x: 'Others' if x not in ['House', 'Apartment'] else x)

In [None]:
df_treemap2 = df.query("index").groupby(['city','new_prop_type'])[['city']].count()
df_treemap2.rename(columns = {'city':'total'}, inplace = True)

In [None]:
fig = px.treemap(df_treemap2.reset_index(), path=[px.Constant("CIUDADES"), 'city', 'new_prop_type'], values='total',
                 color='total', color_continuous_scale='RdBu',
                 title="Cantidad de tipos de propiedades por CIUDAD")

fig.show()

Esta visualización es muy útil porque nos permite identificar de inmediato la propiedad que las propiedades más enlistadas en Airbnb son departamentos en Nueva York, pues cuentan con más de 20 mil propiedades y la mayoría de otras combinaciones ya se visualiza con la escala de color rojo (menor). 

Por un lado, como dueño esto te indica que tú departamento tendría mucha competencia para ser rentado  pero, por otro lado, la gran demanda en dicha ciudad sugiere que se rentaría a buen precio.

Nótese que, al ser las cajas más grandes, Nueva York y Los Angeles tienen más Airbnb y las otras ciudades menos, de modo que igual podría ser conveniente rentar ahí por la baja oferta.

Por último el treemap sin agrupar el resto de propiedades en "Otros", permite ver que un Loft sería el tipo de propiedad que sigue.

En general, este tipo de gráficos sirve para mostrar cómo se componen y distribuyen los datos.

##Mapa de Estados Unidos por tipos de propiedad

In [None]:
#Sea local en VSCode o Colab de manera remota no usar >20000 datos porque Ambos son colapsan los equipos.
#El maximo número de datos probado exitosamente fue 10,000 datos.
#Probamos con los 5000 primeros datos 
#datamap = data[:5000] 
#Usamos una muestra de 5000 datos
#datamap=data.sample(n=5000, random_state=1)

#Sacamos 10% del dataset original para no colapsar el Colab
#5929 out of 59288
#datamap=data.sample(frac=0.1)

#Sacamos 2% del dataset original para no colapsar el Colab
#1186 out of 5988
datamap=df.sample(frac=0.02)


In [None]:
#Check dataset size 
#datamap.info()
#datamap

In [None]:
#Comentarlo, dejar únicamente el lambda con apply
#Locating Properties in United States maps
#Mapa de property_types es Estados Unidos
mapa = folium.Map(width='75%',height='75%',location=[38,-98],zoom_start=4)

#Plot locations - method 1 -with a FOR-Loop
for (index,row) in datamap.iterrows():
  if datamap.property_type[index] == "Apartment":
      type_color = "green"
  elif datamap.property_type[index] == "House":
      type_color = "red"
  else:
      type_color = "blue"
  folium.Marker(location = [row.loc['latitude'], row.loc['longitude']], 
              popup='Prop#:'+str(index)+'\nPrice: $'+str(round(row.loc['price'],2))+'USD\n '+row.loc['neighbourhood']+','+row.loc['city']+'\n '+row.loc['amenities'], 
              #popup=index,
              tooltip=row.loc,
              icon=folium.Icon(icon="glyphicon-home", prefix="glyphicon",color="%s" % type_color)).add_to(mapa)


In [None]:
#Código para aplicar leyendas al mapa.
item_txt = """<br> &nbsp; {item} &nbsp; <i class="fa fa-map-marker fa-2x" style="color:{col}"></i>"""
html_itms1 = item_txt.format( item= "Apartment" , col= "green")
html_itms2 = item_txt.format( item= "House" , col= "red")
html_itms3 = item_txt.format( item= "Others" , col= "blue")
legend_html = """
     <div style="
     position: fixed;
     top: 200px; left: 50px; width: 230px; height: 130px; 
     border:2px solid grey; z-index:9999; 
     
     background-color:white;
     opacity: .85;
     
     font-size:14px;
     font-weight: bold;
     
     ">
     &nbsp; {title} 
     
     {itm_txt}

      </div> """.format( title = "US Map with property types", itm_txt= html_itms1+html_itms2+html_itms3)

mapa.get_root().html.add_child(folium.Element( legend_html ))

In [None]:
mapa

El mapa permite ubicar geográficamente dónde están ubicadas las 6 ciudades analizadas. Esto parece trivial, pero si se considerara un conjunto de datos con más ciudades y/o más países del mundo, sería súper útil ubicar todos los lugares y los tipos de propiedad que más abundan en cada uno de una manera inmediata.

Adicional, el mapa nos permite ver la distancia entre cada ciudad y sólo eso nos da información. Por ejemplo, las ciudades más cercanas es más probable que pudieran tener comportamientos parecidos en la renta de propiedades, pues influyen factores geográficos como el clima, el relieve, etc. En este caso, Washington, NY y Boston podrían tener patrones similares tan sólo por su ubicación geográfica; esto, en efecto, se corrobora con el treemap donde la distribución de tipos de propiedad, número de propiedades en renta y precios son parecidas para Boston y Washington.

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="nlp">Postwork 7: PRUEBAS A/B Y PROCESAMIENTO DE LENGUAJE NATURAL</a></div> 
Objetivo

    Entender la teoría alrededor de las Pruebas A/B, los tests de permutaciones, el Valor P y el Alfa
    Aprender el concepto de Procesamiento de Lenguaje Natural y en qué tipo de datos se aplica

Desarrollo

    1. Introducción

    2. Pruebas A/B

    3. Test de hipótesis o prueba de significación

    4. Test de permutación

    5. Significación estadística

    6. Valor P

    7. Alfa (Alpha)

    8. Procesamiento de Lenguaje Natural

    9. ¿Reglas o estadística?


    Postwork
    
    Desarrollo
Requisitos

Tener un dataset limpio que contenga una columna con datos no estructurados.

En caso de que tu dataset no contenga datos no estructurados, date una vuelta por Kaggle y busca algún dataset apropiado. Lo que nos interesa es que practiques estas herramientas durante la clase para que puedas expresar tus dudas a la experta.
Desarrollo:

En esta sesión aprendimos dos cosas: Pruebas A/B y Procesamiento de Lenguaje Natural. No podemos practicar Pruebas A/B en nuestro proyecto, porque en realidad los proyectos que estamos realizando no se prestan a esto. No pasa nada, ¡ya tendrás oportunidad de practicar eso en tu primer trabajo como científico de datos!

Por lo pronto en este Postwork vamos a practicar las técnicas de Procesamiento de Lenguaje Natural que hemos aprendido. Si tu dataset no contiene datos no estructurados, busca un dataset apropiado y realiza los siguientes ejercicios. Si tu dataset contiene datos no estructurados, entonces éste es el momento de agregar PLN a tu proyecto.

Realiza los siguientes procedimientos en caso de que apliquen a tu dataset:

    Utiliza patrones Regex para limpiar tus datos estructurados.
    Dado que debes de conocer bien tu dataset (excepto si es un nuevo dataset que buscaste para este Postwork), es probable que tengas una idea de las palabras que son relevantes para tu tema. Genera un objeto Text con la librería nltk y explora los contextos de las palabras que elegiste. Utiliza el método similar para obtener palabras que tengan contextos similares a las palabras originales. Puede que descubras nuevas palabras que tengan relevancia para tu proyecto.
    Utiliza el objeto FreqDist de nltk para hacer análisis estadístico de tu dataset. Explora las palabras y los bigramas más comunes de tu dataset.
    Realiza visualizaciones de tus conteos de frecuencias utilizando gráficas de barras.
    Realiza visualizaciones de las distribuciones de frecuencias de las longitudes de las palabras o de las oraciones.
    Realiza nubes de palabras para detectar los temas más importantes de tu conjunto de datos.
    Haz un análisis de sentimientos de tu conjunto de datos, de preferencia utilizando una variable categórica para segmentar tus datos y poder comparar las distribuciones de polaridades entre cada segmento.


Para este apartado, haremos uso de la biblioteca de Procesamiento de Lenguaje
Natural NLTK de Python, que nos servirá para realizar algunos estadísticos en relación a las descripciones de las propiedades y las amenidades con las que cuentan.

Como primer punto, nos enfocaremos en las amenidades, que en el conjunto de datos vienen guardadas como una lista de Python (entre llaves y separadas por comas).

In [None]:
#Primero actualizamos la librerías
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
#Procedemos a realizar un análisis de palabras en base a las amenidades ofrecidas por las distintas propiedades de nuestro dataset
#Leemos nuestro dataset y obtenemos la columna de amenidades
df = pd.read_csv(file_path) 
amenidades = df['amenities']
amenidades[0]

In [None]:
#Generación de lista de signos de puntuación

punctuation=[]
for s in string.punctuation:
    punctuation.append(str(s))
sp_punctuation = ["¿", "¡", "“", "”", "…", ":", "–", "{", "}"]    

punctuation += sp_punctuation
punctuation  = ['¿', '¡', '"', '...', ':', '–', '{', '}']    
punctuation

Nota: Hay que ir probando a incluir más o menos palabras y signos de puntuación en las listas puesto que hay veces que puede aparecer un emoji o caracter raro que es necesario incluir para eliminarlo. Por ahora, ya se probó con las que están incluidas.

In [None]:
#Hacemos una conversión de nuestros datos
amenidades_lista = amenidades.tolist()
amenidades_string = "".join(amenidades_lista)

#Reemplazamos signos de puntuación por "":

clean_amenidades1 = amenidades_string.replace('"','')
clean_amenidades2 = clean_amenidades1.replace('{','')
clean_amenidades = clean_amenidades2.replace('}','')

#No se reemplazan signos como "/" ó "_" porque algunas amenidades las incluyen como separadores que sustituyen los espacios.

In [None]:
clean_amenidades

Ya con nuestra información limpia, resulta evidente que con el fin de identificar qué palabras tendrán un mayor tamaño en nuestra nube de palabras, o en nuestros gráficos, es conveniente contabilizar la frecuencia de aparición de las mismas.

In [None]:
#Empezamos separando la información; cada amenidad está separada por una ",".
lista_texto = clean_amenidades.split(",")

palabras = []

#Paso intermedio para eliminar palabras muy cortas (emoticonos,etc) y muy largas (ulr o similar) que se nos hayan pasado:

for palabra in lista_texto:
    if (len(palabra)>=3 and len(palabra)<18):
        palabras.append(palabra)
        
#Generamos un diccionario para contabilizar las palabras:

word_count={}

for palabra in palabras:
    if palabra in word_count.keys():
        word_count[palabra][0]+=1
    else:
        word_count[palabra]=[1]
        
word_count

#Convertimos el diccionario en un pandas DataFrame para ordernarlo:

df = pd.DataFrame.from_dict(word_count).transpose()
df.columns=["freq"]
df.sort_values(["freq"], ascending=False, inplace=True)
df.head(20)

In [None]:
#Se puede generar un Top 10 de las amenidades más frecuentes
def plot_bar(data=df,top=10):
  fig = plt.figure()
  ax = fig.add_axes([0,0,2,1])
  ax.bar(x = df.iloc[:top,:].index,height = df.iloc[:top,0].values,color = sns.color_palette("Spectral",len(df.iloc[:top,:].index)))
  ax.set_title('Top 10 de la frecuencia de amenidades más comunes', pad=10)
  ax.set_ylabel('Cantidad')
  ax.set_xlabel('Amenidad')
  ax.tick_params(axis='x', rotation=80)
  plt.show()

In [None]:
plot_bar(data=df, top=10)

La gráfica nos muestra que prácticamente todas las propiedades cuentan con cocina y calefacción, seguido por internet y detector de humo. Esto hace sentido porque las ciudades de Estados Unidos (sobre todo las del norte como Washington y NY) son muy frías.

Ya que hemos validado las amenidades más frecuentes de nuestro texto, vale la pena visualizar no sólo ésas si no todas. Como es una lista grande, una gráfica de barras resulta poco atractiva para visualizarlas, de modo que recurrimos a una mejor y más bonita manera: una nube de palabras. Se mostrará una simple y una donde se aplique una máscara.

In [None]:
#Primero obtenemos la frecuencia de las palabras
datos = {}
for k in range(len(df)):
    nombre = df.index[k]
    valor = df['freq'][k]
    datos[nombre] = int(valor)

In [None]:
datos

In [None]:
#Después generamos una wordcloud. El valor de la escala relativo es ajustar la importancia de una frecuencia de palabra.
wordcloud = WordCloud(width=900,height=900, max_words=300,relative_scaling=1,normalize_plurals=False).generate_from_frequencies(datos)

plt.figure(figsize=(10,8))
plt.tight_layout(pad=0)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Nótese cómo no se visualizan en la nube todas las amenidades por la grandísima diferencia entre las amenidades top y las menos repetidas. Algunas amenidades fuera del top 10 pero que están presentes en muchas propiedades son Iron y Dryer.

Ahora aplicaremos una máscara a la nube para hacer más presentable la visualización. Usaremos el logo de Airbnb para que tenga sentido de negocio:

In [None]:
#Utilizamos una función para transformar todas las imágenes PNG con fondo transparente a fondo blanco
#de no ser así, WordCloud rellenará aquellos espacios que NO estén de color blanco. Hay que tener cuidado con imágenes PNG con el fondo transparente, primero debemos incluir un fondo blanco.

def transform_white_backgroud(png_path):
    picture = Image.open(png_path).convert("RGBA")
    image = Image.new("RGB", picture.size, "RED")
    image.paste(picture, (0, 0), picture)

    plt.imshow(image)
    
    mask = np.array(image)
    
    return mask

In [None]:
#En caso de que NO se tenga que realizar este paso intermedio, directamente se crea la máscara con la imagen PNG con fondo blanco:

#image = Image.open('https://raw.githubusercontent.com/BeduDSEquipo9/C2DSF3_DAwPython/main/images/airbnbBW.png')
#print(file_path_image)
urllib.request.urlretrieve(file_path_image,"airbnbBW.png")
 
image = Image.open("airbnbBW.png")

In [None]:
plt.imshow(image)

mask = np.array(image)

In [None]:
mask = transform_white_backgroud("airbnbBW.png")

In [None]:
#Por último agregamos los datos de frecuencia
word_cloud = WordCloud(mask=mask, background_color='black', contour_width=1, contour_color='white', max_words=200, min_font_size=5, collocation_threshold=10).generate_from_frequencies(datos)

plt.figure(figsize=(10,8))
plt.imshow(word_cloud)
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

La visualización es una parte esencial del análisis de datos, y por ello se decidió analizar la descripción de las propiedades, generando algunos análisis estadísticos de palabras, bigramas, trigramas, etc.

A continuación se muestran algunos hallazgos interesantes.

In [None]:
#Como ya se mencionó en algunos puntos anteriores, se va a extraer una muestra de la información total
#ya que este proceso de análisis de lenguaje natural toma aproximadamente 2 horas con toda la información.
#Sacamos 10% del dataset original
#5929 out of 59288
df = pd.read_csv(file_path) 
datamap=df.sample(frac=0.1)

In [None]:
#Se obtienen la muestra de las descripciones
descripcion = datamap['description']
descripcion

In [None]:
#Actualizamos librerías
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
#Se realiza una conversión de datos para preparar la información; esto se hace con expresiones regulares.
descripcion_lista = descripcion.tolist()
descripcion_string = ''.join(descripcion_lista)
descripcion = descripcion.str.lower()
descripcion = descripcion.str.strip()
descripcion = descripcion.str.replace('[^\w\s]', '')
descripcion = descripcion.str.replace('\d', '')
descripcion = descripcion.str.replace('\\n', '')
descripcion = descripcion.dropna()
descripcion

In [None]:
#Se procede a realizar el tokenizado de la información
tokenized = descripcion.apply(nltk.word_tokenize)
all_words = tokenized.sum()

english_stop_words = stopwords.words('english')
all_words_except_stop_words = [word for word in all_words if word not in english_stop_words]

freq_dist = nltk.FreqDist(all_words_except_stop_words)

In [None]:
# Podemos visualizar la frecuencia de las palabras más comunes
# Un top 20 por ejemplo

most_common_20 = np.array(list(map(lambda x: list(x), freq_dist.most_common(20))))
df_most_common_20 = pd.DataFrame(most_common_20, columns = ['name','freq'])
fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot()

sns.barplot(x=df_most_common_20['name'], y=pd.to_numeric(df_most_common_20['freq']), ax=ax, palette='rocket');
ax.set_title('Top 20 de palabras más comunes en descripciones', pad=10)
ax.set_ylabel('Frecuencia')
ax.set_xlabel('Palabra')
ax.tick_params(axis='x', rotation=80)

In [None]:
# Se puede visualizar la frecuencia de los bigramas más comunes

text = nltk.Text(all_words)
freq_dist_bigrams = nltk.FreqDist(list(nltk.bigrams(text)))

freq_dist_bigrams

In [None]:
most_common_20 = np.array(list(map(lambda x: list(x), freq_dist_bigrams.most_common(20))))

fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot()

sns.barplot(x=most_common_20[:,0], y=pd.to_numeric(most_common_20[:,1]), ax=ax, palette='muted');
ax.set_title('Frecuencia de las 20 bigramas más comunes', pad=10)
ax.set_ylabel('Frecuencia')
ax.set_xlabel('Palabra')
ax.tick_params(axis='x', rotation=80)

In [None]:
# Se puede hacer lo mismo pero eliminando las stop_words, lo que tiene mucho más sentido.

text = nltk.Text(all_words_except_stop_words)
freq_dist_bigrams = nltk.FreqDist(list(nltk.bigrams(text)))

freq_dist_bigrams

In [None]:
most_common_20 = np.array(list(map(lambda x: list(x), freq_dist_bigrams.most_common(20))))

fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot()

sns.barplot(x=most_common_20[:, 0], y=pd.to_numeric(most_common_20[:, 1]), ax=ax, palette='deep');
ax.set_title('Frecuencia de las 20 bigramas más comunes sin palabras vacías', pad=10)
ax.set_ylabel('Frecuencia')
ax.set_xlabel('Palabra')
ax.tick_params(axis='x', rotation=80)

In [None]:
# Inclusive se puede hacer uso de NGRAMS con o sin stop_words
text = nltk.Text(all_words)
freq_dist_trigrams = nltk.FreqDist(list(ngrams(text, 3)))

most_common_20 = np.array(list(map(lambda x: list(x), freq_dist_trigrams.most_common(20))))

fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot()

sns.barplot(x=most_common_20[:, 0], y=pd.to_numeric(most_common_20[:, 1]), ax=ax, palette='dark');
ax.set_title('Frecuencia de las 20 trigramas más comunes con palabras vacías', pad=10)
ax.set_ylabel('Palabras')
ax.set_ylabel('Frecuencia')
ax.tick_params(axis='x', rotation=80)

In [None]:
text = nltk.Text(all_words_except_stop_words)
freq_dist_trigrams = nltk.FreqDist(list(ngrams(text, 3)))

most_common_20 = np.array(list(map(lambda x: list(x), freq_dist_trigrams.most_common(20))))

fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot()

sns.barplot(x=most_common_20[:, 0], y=pd.to_numeric(most_common_20[:, 1]), ax=ax, palette='mako');
ax.set_title('Frecuencia de las 20 trigramas más comunes sin palabras vacías', pad=10)
ax.set_ylabel('Palabras')
ax.set_ylabel('Frecuencia')
ax.tick_params(axis='x', rotation=80)

In [None]:
# En este mismo análisis de palabras, se pueden generar histogramas para visualizar la frecuencia de longitudes de palabras y oraciones.

word_lengths = [len(w) for w in all_words_except_stop_words]

In [None]:
fig, ax = plt.subplots()
sns.distplot(word_lengths, kde=False, norm_hist=False,color='red').set(title='Frecuencia de longitudes de PALABRAS')
ax.set_xlim(1, 25);
ax.set_xlabel('Longitud')
ax.set_ylabel('# de palabras')

Se aprecia cómo la mayoría de las palabras no rebasa 10 caracteres, la más grande sería 16. Sería interesante ver cuál es esa palabra y si efectivamente existe o fue alguna secuencia de caracteres o error de ortografía.

In [None]:
#Longitud de reseñas
sentence_lengths = descripcion.apply(lambda x: len(x))
sns.distplot(sentence_lengths, kde=False, norm_hist=False,bins=5,color='green').set(title='Frecuencia de longitudes de DESCRIPCIONES')
ax.set_xlim(1, 1000);
ax.set_xlabel('Longitud')
ax.set_ylabel('Longitud de la descripción')

Vemos cómo predominan las descripciones largas, con muchos caracteres. Esto es bueno porque significa que los dueños le echan ganas a cómo venden su propiedad.

In [None]:
#Palabras por descripción
num_of_words = descripcion.str.split(' ').str.len()
sns.distplot(num_of_words, kde=False, norm_hist=False,bins=20,color='yellow').set(title='Frecuencia de palabras por descripción')
ax.set_xlim(1, 1000);
ax.set_xlabel('Cantidad')
ax.set_ylabel('Palabras por descripción')

Se confirma un sesgo a la izquierda con alta curtosis de las palabras por descripción. Eso significa que la mayoría de dueños se explayan en explicar las ventajas y características de su propiedad en renta. Eso ayuda a que la pueda dar a un precio más caro.

In [None]:
# y de la misma manera, se puede trabajar con la nube de pabras
wordcloud = WordCloud(max_font_size=100, background_color="white").generate(' '.join(all_words_except_stop_words))

plt.figure(figsize=(15, 15))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## Análisis con PLN para la columna `name` y `description`

En esta sección se instala el módulo contractions para realizar el reemplazo de contracciones del idioma inglés por la palabra completa. Por ejemplo: *I'm* por *I am*.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

Creamos una columna nueva que une el texto de la columna `name` con la columna `description`

In [None]:
data_clean = df
data_clean['text'] = data_clean['name'].map(str) + ' ' + data_clean['description']
data_clean['text']

A continuación se realiza una normalización del texto:

* Eliminar todos los símbolos distintos de letras y espacios. 
* Representar todo en minúsculas
* Sustituir contracciones
* Tokenizar
* Eliminar `stopwords`

Dado que el conjunto de datos es muy grande, y por limitaciones de memoria en Colab, se realiza el análisis solo en una submuestra de 1500 registros.

In [None]:
stop_words = stopwords.words('english')

def normalized_text(text):
  text = re.sub(r'[^a-zA-Z\s]', ' ', text, re.I|re.A)
  text = text.lower()
  text = text.strip()
  text = contractions.fix(text)
  tokens = nltk.word_tokenize(text)
  filtered_tokens = [token for token in tokens if token not in stop_words]
  text = ' '.join(filtered_tokens)
  return text


normalized_corpus = np.vectorize(normalized_text)

sample_data_clean_df = data_clean.sample(n=1500, random_state=1)
sample_data_clean_df.head()

In [None]:
sample_data_clean = sample_data_clean_df['text']
sample_data_clean.head()

Se aplica la función para normalizar el texto.

In [None]:
norm_corpus = normalized_corpus(list(sample_data_clean))
len(norm_corpus)

In [None]:
norm_corpus

Se realiza una representación del texto en [TFIDF](https://es.wikipedia.org/wiki/Tf-idf). La Frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa que tan relevante es una palabra para un documento en una colección.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tf= TfidfVectorizer(ngram_range=(1,2), min_df=2)
tfidf_matrix = tf.fit_transform(norm_corpus)

tfidf_matrix.shape

A continuación se calcula la [similitud coseno](https://es.wikipedia.org/wiki/Similitud_coseno) entre la matrix tdidf para conocer la similitud que tienen las descripciónes en cuanto a contenido. La similitud coseno es un valor quese encuentra entre -1 y 1. Para indicar el parecido de la representación vectorial creada por TFIDF.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

doc_sim = cosine_similarity(tfidf_matrix)
doc_sim_df = pd.DataFrame(doc_sim)
doc_sim_df.head()


A continuación utilizaremos el resultado anterior para encontrar propiedades parecidas de acuerdo al nombre + la descripción de la propiedad.

Para fines prácticos se utiliza la primera propiedad del conjunto de datos:

* `name`: "AFFORDABLE & COZY IN SUNSET PARK T"

In [None]:
properties_list = normalized_corpus(list(data_clean['name']))
properties_list, properties_list.shape

In [None]:
property_idx = np.where(properties_list == 'affordable cozy sunset park')[0][0]
property_idx

El resultado de la propiedad con `name`: "AFFORDABLE & COZY IN SUNSET PARK T" contra toda la colección de propiedades se almacena en una variable.



In [None]:
property_similarities = doc_sim_df.iloc[property_idx].values
property_similarities

Se busca solo listar las 5 propiedades que presentaron similitud en la descripción con respecto a `name`: "AFFORDABLE & COZY IN SUNSET PARK T"

In [None]:
similar_property_idxs = np.argsort(-property_similarities)[1:6]
similar_property_idxs

De acuerdo a los índices anteriores las propiedades que tienen una similitud son:

In [None]:
similar_properties = properties_list[similar_property_idxs]
similar_properties

Esta es la descripción de la propiedad `name`: "AFFORDABLE & COZY IN SUNSET PARK T"



In [None]:
normalized_corpus(data_clean['description'].iloc[0])

Si se compara la descripción de esta propiedad contra las 5 propiedades que mostraron similitud (listadas a continuación), se tiene que:

In [None]:
normalized_corpus(data_clean['description'].iloc[similar_property_idxs[0]])

In [None]:
normalized_corpus(data_clean['description'].iloc[similar_property_idxs[1]])

In [None]:
normalized_corpus(data_clean['description'].iloc[similar_property_idxs[2]])

In [None]:
normalized_corpus(data_clean['description'].iloc[similar_property_idxs[3]])

In [None]:
normalized_corpus(data_clean['description'].iloc[similar_property_idxs[4]])

Aunque en este caso la aplicación de la similitud no parece tomar mucho sentido para encontrar que propiedades mostraron similitud en la columna `description`, en otro tipo de bases de datos puede ser el principio de un predictor para realizar la recomendación de otros elementos parecidos, por ejemplo, un recomendador de películas.

Finalmente, en este apartado se evalúa también la realización de una prueba A/B; sin embargo, para nuestro problema de investigación no se considera necesario hacer una. Ni siquiera se presta nuestro conjunto de datos para ello, pues el proyecto no abarca experimentos, temas de marketing ni de experiencia/conversión de usuarios.

Vale la pena recordar que hacer pruebas A/B es una de las formas más comunes para el análisis de datos en marketing digital y consiste, entre otras cosas, en evaluar dos variables independientes para probar dos opciones (A y B) con dos diferentes grupos.

Involucran una metodología establecida, pruebas estadísticas, programación y conocimiento de mercadotecnica digital.

#####([Regresar a la tabla de contenidos.](#contenido))

#<div class="markdown-google-sans"><a name="ml">Postwork 8: INTRODUCCIÓN A MACHINE LEARNING: CLASIFICACIÓN NO SUPERVISADA Y SUPERVISADA</a></div> 
Objetivo

    Identificar la definición de Machine Learning, qué es y cómo se utiliza
    Identificar cuándo es buena idea aplicar un algoritmo de K-Medias
    Interpretar los resultados de K-Medias
    Identificar cuándo es buena idea aplicar un algoritmo de Regresión Logística
    Evaluar un modelo de Regresión Logística utilizando matriz de confusión y curva ROC / AUC

Desarrollo

    1. Introducción

    2. ¿Qué es Machine Learning?

    3. Clasificación usando Machine Learning

    4. Agrupamiento por K-Medias (Clasificación No Supervisada)

    5. Regresión Logística (Clasificación Supervisada)

    6. Matriz de confusión

    7. Curva ROC / AUC

  
Postwork

Desarrollo
Requsitos

Tener un dataset limpio que contenga una variable dependiente binaria.

En caso de que tu dataset no contenga una variable dependiente binaria, date una vuelta por Kaggle y busca algún dataset apropiado. Lo que nos interesa es que practiques estas herramientas durante la clase para que puedas expresar tus dudas a la experta.
Desarrollo

¡Bienvenid@ a tu último Postwork! En este Postwork haremos dos cosas: practicar la aplicación del algoritmo de Regresión Logística y resolver dudas generales sobre tu proyecto. Realiza los siguientes pasos:

    Si hay un problema de clasificación binaria en tu proyecto, ¡genial! Aplica lo aprendido en esta sesión y entrena un modelo de Regresión Logística con tu dataset.
    Si no hay un problema de clasificación binaria en tu proyecto, pídele ayuda a la experta para conseguir un dataset con el que puedas practicar.
    Evalúa tu modelo de Regresión Logística utilizando matriz de confusión; medidas de precisión, exactitud, sensibilidad y especificidad; y curva ROC / AUC.

Ojo: si tu proyecto tiene un problema de clasificación multiclase (es decir, la variable dependiente no es binaria sino que contiene más de 2 categorías posibles), pídele ayuda a la experta para aplicar el algoritmo de Regresión Logística Multiclase.

Después de haber realizado esta práctica, aprovecha que es el último Postwork para plantear dudas generales acerca de tu proyecto. Recuerda que tu proyecto será presentado en público ante líderes de la industria y expert@s, así que es una buena idea que te sientas muy cómodo con lo que estás presentando.

Recuerda también que presentar un trabajo de ciencia de datos no trata solamente sobre lo técnico y las evaluaciones estadísticas que realicemos, sino que también requiere de mucho cuidado en la presentación. Aprovecha el tiempo restante para trabajar sobre la presentación de tu proyecto, de manera que se vea atractivo y que presente tus hallazgos con la mayor claridad posible.



De acuerdo a [Oracle](https://www.oracle.com/mx/artificial-intelligence/machine-learning/what-is-machine-learning/), el aprendizaje automático o Machine Learning (ML) es "el subapartado de la inteligencia artificial (IA) que se centra en desarrollar sistemas que aprenden, o mejoran el rendimiento, en función de los datos que consumen".

En otras palabras, es una rama que desarrolla sistemas y algoritmos que capturan las relaciones presentes en un conjunto de datos. Hay varios tipos de ML, pero los más conocidos son:

* Modelación supervisada: Se centra en utilizar información conocida para predecir resultados, ya sea un dato continuo mediante una regresión (u otro modelo lineal generalizado), o categórico, vía un algoritmo de clasificación (como k-medias o regresión logística). Aquí se tiene una variable objetivo.
* Modelación no supervisada: No se tiene variable objetivo. Son algoritmos de agrupación, en su mayoría, donde no se conocen a priori los grupos o clústeres, ni siquiera el número de ellos. El algoritmo aprende sin ninguna guía sobre los patrones en los datos y requiere validación externa para comprobar que los resultados tengan sentido.

En este estudio la variable objetivo es el precio que, al ser continuo, se estimó mediante modelos supervisados de regresión lineal, tanto simple como múltiple. Como los resultados de estimar el precio exacto de una propiedad no fueron los óptimos, tiene mérito intentarlo estimar mediante un algoritmo de clasificación como la regresión logística.

Para ello, la variable objetivo debe ser categórica, por lo que creamos una variable nueva donde el se indica si el precio es Alto si está por arriba de la mediana (denotado con 1) o Bajo, si es menor a la mediana (denotado por 0).

Se elige la mediana y no la media para mitigar el efecto de los valores atípicos, lo que permite que no exista tanto desbalance entre las dos categorías.

In [None]:
precio_prom = df['price'].median()
precio_prom
#Para efectos prácticos se dejará en 110

In [None]:
df['new_price'] = df['price'].map(lambda x: 1 if x >= 110 else 0)

In [None]:
df['new_price'].value_counts()

Se nota como tanto los precios altos como los bajos se presentan en proporciones parecidas. Esto ayudará al modelo pues variables objetivos con desbalances muy marcados son difíciles de predecir (incluso si se le aplican técnicas propias para mitigarlo).

Ahora, procedemos a entrenar el modelo de regresión logística.

In [None]:
#Regresión Logística - Usaremos las mismas variables predictoras que en el modelo de regresión lineal múltiple 
tgt = 'new_price'
predictors = ['accommodates', 'bathrooms']
#Seleccionamos únicamente las variables del DataFrame que vamos a utilizar y creamos uno nuevo, llamado X
X = df[predictors].copy()
y = df[tgt].copy()

In [None]:
#Estandarización - Esto elimina el efecto de la escala
sc = StandardScaler()
sc.fit(X)

Xsc = sc.transform(X)

In [None]:
Xt, Xv, yt, yv = train_test_split(X, y, test_size=.2, random_state = 580)

In [None]:
#Estandarización
sc = StandardScaler()
sc.fit(Xt)

Xtsc = sc.transform(Xt)
Xvsc = sc.transform(Xv)

In [None]:
models = {'logreg': LogisticRegression(C=.5)
}

In [None]:
for c in models:
  models.get(c).fit(Xtsc, yt)

In [None]:
print("MÉTRICAS")
print(f"precision yt: {precision_score(yt, models.get(c).predict(Xtsc))}")
print(f"precision yv: {precision_score(yv, models.get(c).predict(Xvsc))}")
print(f"recall yt: {recall_score(yt, models.get(c).predict(Xtsc))}")
print(f"recall yv: {recall_score(yv, models.get(c).predict(Xvsc))}\n")
print("REPORTE DE CLASIFICACIÓN - CONJUNTO DE ENTRENAMIENTO")
print(f"{classification_report(yt, models.get(c).predict(Xtsc))}\n")
print("REPORTE DE CLASIFICACIÓN - CONJUNTO DE VALIDACIÓN")
print(f"{classification_report(yv, models.get(c).predict(Xvsc))}")
print('\n')

In [None]:
plt.figure(figsize=(12,8))
sns.heatmap(confusion_matrix(yv, models.get(c).predict(Xvsc), normalize='all'), annot=True, cmap="Blues", fmt=".3g");

In [None]:
confusion_matrix(yv, models.get(c).predict(Xvsc))

Como Regresión Logística es un algoritmo de clasificación, su desempeño no se evalúa calculando errores sino con una matriz de confusión o su correspondiente reporte de clasificación. En la matriz de confusión se muestra el número de casos de ambas categorías que fueron clasificados correctamente por el modelo y los que no, para después calcular ciertas métricas que conforman el reporte de clasificación.

En este caso, vemos que nuestro modelo de regresión logística tiene mucho mejor desempeño que la regresión lineal. En parte porque ya no estamos prediciendo un valor exacto, pero también porque las categorías estaban balanceadas. 

Por otro lado, se puede apreciar que el modelo es bueno y no está sobreajustado (es decir, que únicamente está aprendiendo las relaciones presentes en el conjunto de entrenamiento pero tiene un mal desempeño con datos nuevos), porque las métricas para el conjunto de entrenamiento y el de validación con muy cercanas.

A grandes rasgos, se tiene una mayor precisión para los precios altos y un mayor recall para los bajos. Globalmente, el modelo predice precios altos y bajos con un accuracy poco mayor a 70%, lo cual es un buen resultado. Esto se ve también en la matriz de confusión si se suman los porcentajes de la diagonal azul.

#####([Regresar a la tabla de contenidos.](#contenido))

##<div class="markdown-google-sans"><a name="webscraping"> Extras:  Webscraping.</a></div>
###Obtención de datos adicionales con WebScraping

  
 Airbnb no brinda acceso a su API a terceros debido a la privacidad de la información de sus usuarios y la protección de sus datos. Para este proyecto se encontró que las APIs de AirBnb están cerradas a menos que seas dueño de una propiedad en la plataforma o un proveedor de servicios para mantenimiento y administración de inmuebles.

También surgió otra pregunta, ¿cómo se compara una renta de corto plazo contra una renta de largo plazo? Para responderla se quiere comparar el valor de la renta de corto plazo de Airbnb, obtenido en el modelo predictor contra el valor de la renta mensual, para lo cual se exploraron otras API de empresas de anuncios de renta de inmuebles. Entre ellas, había dos API sin costo, pero el proceso para la liberación de los accesos toma tiempo. Una de ellas es Zillow, el portal de inmuebles más reconocido en el mercado estadounidense. Para analisis futuros sería posible usar los datos de Inmuebles24.com, un homólogo de Zillow en nuestro país.

En lugar de explotar un API, se optó por realizar un barrido de datos Webscraping del portal `Zillow.com` con Python. Esta estrategia permite tener acceso a los datos necesarios para la comparación sin tener que depender de una API externa y, por lo tanto, puede ser una solución más asequible y controlable.

El código de Webscraping se encuentra en el repo en Github; no se agregó a este Notebook por los problemas que pueden ocurrir por IP-Blocking cuando AWS, proveedor de los servicios de Nube para Zillow, se da cuenta que alguien está haciendo un barrido de su página.

* [Web Scraping Colab](https://colab.research.google.com/drive/19HFEGmKSxEVSvJzStKxA1V0jfRXFas8T?usp=share_link)

En él se detalla un ejercicio de limpieza, proceso de datos paralelo para reponder a preguntas como la siguiente:

**¿Cuáles son los vecindarios más costosos, en promedio, y en qué ciudad se encuentran?** 

Entre los vecindarios más costosos, en primer lugar encontramos [**Century City**](https://www.google.com.mx/maps/place/Century+City,+California+90067,+EE.+UU./@34.0565614,-118.4181749,16z/data=!4m6!3m5!1s0x80c2bbf2ed672da7:0x4bf91367c431a816!8m2!3d34.0571327!4d-118.4148498!16s%2Fm%2F01zh8td), en **Los Angeles** con un costo promedio de **\$18,800.00**.

Sigue [**Nueva York, 10022**](https://www.google.com.mx/maps/place/Nueva+York,+10022,+EE.+UU./@40.7594581,-73.9694822,16.87z/data=!4m6!3m5!1s0x89c258e415b9da19:0x3e3afecde594d34a!8m2!3d40.7593941!4d-73.9697795!16s%2Fm%2F020cmyr) en en la ciudad de **Nueva York** con un costo promedio de **\$12,146.00**. 

Para ver más de este proceso, pasa al Colab de Webscraping.

#####([Regresar a la tabla de contenidos.](#contenido))

##<div class="markdown-google-sans"><a name="conclusiones">Conclusiones y siguientes pasos</a></div> 

Una vez finalizado el análisis y la manipulación del conjunto de datos inicial, es posible concluir lo siguiente:
* La información filtrada y transformada para su mejor aprovechamiento únicamente explica menos 30% del comportamiento del precio de una propiedad listada en Airbnb. 
* Al descartar variables por no tener una correlación tan alta, se perdió información que abonaba a la explicación de la varianza. No obstante, esa ganancia no era significativa en comparación a la complejidad que ganaba el modelo con tantas variables más.
* Al ser tan bajo el porcentaje de la explicación de la variabilidad, se evidencia que seguramente existen variables que no aparecen en el conjunto de datos original y que podrían tener mayor influencia en el comportamiento del precio, por ejemplo: tamaño de la propiedad, superficie en metros cuadrados, cercanía a sitios de interés turístico, día de la semana de la reserva, si es un día festivo o no, si es temporada vacacional o no, etc.
* Otra variable que puede agregar información importante tiene que ver con la presencia de amenidades en la propiedad. Como la variable original lista las amenidades entre llaves, se propone la creación de funciones que permitan convertir a `dummy`cada amenidad existente. Lo anterior podría abonar a la explicación del precio.
* Para precios bajos, el modelo de regresión lineal tiene un desempeño pobre, pero mejor que para precios altos, pues la predicción es más parecida al precio real. Esto corresponde con lo observado en el análisis exploratorio, pues únicamente el 3% de las observaciones originales tenía dicho rango de precios y, con tan pocos datos, ningún modelo tiene los elementos suficientes para predecir correctamente precios concretos. 
* Aproximar el precio de las propiedades clasificándolos en "Alto" y "Bajo" tiene un mucho mejor desempeño y precisión, incluso con pocas variables predictoras. 
* El análisis de texto para las descripciones, reseñas y amenidades abonó para entender cómo la frecuencia y repetición de ciertas palabras arrojan una explicación al por qué una propiedad es más cara o más barata.

Por lo anterior, tiene mérito establecer como siguiente paso el desarrollo de modelos con mejor desempeño en la predicción de precios, ya sea utilizando diferentes algoritmos o predictores disponibles (como las amenidades), o bien, buscando fuentes de información con más variables de las observaciones existentes o nuevos registros de propiedades con precios altos para correr el modelo sugerido. 

También puede intentarse correr otros modelos con la misma información, pero esto será posible hasta módulos posteriores, donde se aprenda sobre modelos de aprendizaje supervisado más avanzados que una Regresión Lineal.

#####([Regresar a la tabla de contenidos.](#contenido))