Teniendo en cuenta el caso de uso de Airbnb, se desea desarrollar un proyecto basado en ciencia de datos que permita caracterizar los distintos puntos de alojamientos que dispone la plataforma para la ciudad de Ámsterdam.  Para tal fin se tiene un conjunto de hipótesis que deben ser validados mediante el uso de análisis exploratorio, le invitamos a poner en práctica sus conocimientos.

1. ¿Entre que puntajes está el 53% de las calificaciones de revisión más bajas de la plataforma?

**Para responder a esta pregunta te invitamos a seguir los siguientes pasos:**

Revisar el caso de uso de Airbnb, aquí podrás encontrar un diccionario de variables y los datos de la tabla “listing.csv” que esta previamente procesada.

1. Cargar los datos de la tabla “listing.csv” que esta previamente procesada.
2. Buscar la variable “review_scores_rating”.
3. Excluir los valores nulos de la variable “review_scores_rating”.
4. Construir la siguiente tabla de frecuencia.r

In [1]:
# Librerias
import pandas as pd
import os

In [2]:
# carga de datos en csv
data = pd.read_csv('listing.csv', sep = ',', encoding = 'latin-1')


In [9]:
# Se eliminan los valores nulos de la variable 'review_scores_rating'
data = data[data['review_scores_rating'].notna()]



In [10]:
## Tabla de frecuencia univariada 
frec_data = data['review_scores_rating'].value_counts().reset_index()
frec_data


Unnamed: 0,index,review_scores_rating
0,100.0,4582
1,98.0,1557
2,97.0,1274
3,96.0,1162
4,95.0,956
5,99.0,931
6,93.0,916
7,90.0,650
8,94.0,616
9,80.0,398


In [11]:
# Tabla de frecuencia relativa 
frec_data['porcentaje_review_scores_rating'] = frec_data['review_scores_rating'].apply(lambda x: x/frec_data['review_scores_rating'].sum())


In [12]:
## Tabla de frecuencia absoluta y relativa acumulada con cumsum()
#Frecuencia absoluta acumulada
frec_data['acumulada_review_scores_rating'] = frec_data['review_scores_rating'].cumsum()

# Frecuencia relativa acumulada
frec_data['acumulada_porcentaje_review_scores_rating'] = frec_data['porcentaje_review_scores_rating'].cumsum()


In [13]:
frec_data.head()

Unnamed: 0,index,review_scores_rating,porcentaje_review_scores_rating,acumulada_review_scores_rating,acumulada_porcentaje_review_scores_rating
0,100.0,4582,0.301705,4582,0.301705
1,98.0,1557,0.102522,6139,0.404227
2,97.0,1274,0.083888,7413,0.488115
3,96.0,1162,0.076513,8575,0.564628
4,95.0,956,0.062949,9531,0.627576


2. ¿Cuál es el precio promedio de alquiler de un inmueble qué se situé por encima del 78%? 

Para responder a esta pregunta te invitamos a seguir los siguientes pasos:
* Buscar la variable “price”. 
* Transformar la variable “price” de carácter a numérica. 
* Excluir los valores nulos e iguales a 0.
* Calcular el percentil 78.
* Filtrar la base de precios con el percentil 78.
* Calcular la media de la variable. 

In [14]:
## Se eliminan los valores Na de la variable 'price'
data = data[data['price'].notna()]


In [15]:
# Se obtiene el percentil 78 de la variable 'price'
data['price'].quantile(0.78)

190.0

In [16]:
# Se obtiena la media de la variabble 'price'
round(data['price'].mean(),2)

151.58

3. ¿Qué porcentaje de inmuebles en la ciudad se alquilan por debajo del promedio de la ciudad? 

In [17]:
data['price'] = pd.to_numeric(data['price'])
data['price'].mean()

151.5823401593468

4. Se desea alquilar un inmueble en la ciudad de Ámsterdam que sea 100 euros más costoso que el promedio distrital, ¿a cuantas desviaciones estaría este inmueble del promedio global?

**Para responder a esta pregunta te invitamos a seguir los siguientes pasos:**
* Calcular la media y la desviación estándar de la variable “Price”.
* Sumar la media y la desviación estándar comparar con el valor objetivo de alquiler
* Sumar la media y 100 euros. 
* Si la suma obtenida en el paso 6 es mayor a la suma en el paso 7, entonces está a una desviación estándar.
* Si la suma obtenida en el paso 6 es menor a la suma en el paso 7, entonces está a más una desviación estándar.

In [65]:
# Se obtine la desviación estándar de la varible 'price'
data['price'].std()

135.5540046337238

In [67]:
# Sumar la media y deviación estándar 
round(data['price'].mean() + data['price'].std(),2)

287.14

In [68]:
# Sumar la media y 100 euros
data['price'].mean() + 100

251.5823401593468