In [676]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from janitor import clean_names #consola : pip install pyjanitor
from unidecode  import unidecode #pip install unidecode
import scipy.stats as stats

'''
importo el archivo separado por ; y selecciono las columnnas que estamos interesadas
'''
df = pd.read_csv('/Users/laura/Desktop/Proyecto final KeepCoding Tella Group/airbnb-listings.csv',sep=';') 

df_airbnb = pd.DataFrame(df , columns =['ID','Host ID','Host Since','Host Location','Host Response Time','Host Response Rate',
'Host Listings Count','Host Total Listings Count','First Review','Last Review','Neighbourhood Cleansed', 'Neighbourhood Group Cleansed', 
'City','State', 'Zipcode', 'Market', 'Smart Location', 'Country Code','Country','Latitude', 'Longitude', 
'Property Type', 'Room Type','Accommodates', 'Bathrooms', 'Bedrooms', 'Beds', 'Bed Type','Amenities','Price',
'Weekly Price','Monthly Price','Security Deposit','Cleaning Fee', 'Guests Included', 'Extra People','Minimum Nights','Maximum Nights',
'Number of Reviews','Review Scores Rating', 'Review Scores Accuracy','Review Scores Cleanliness','Review Scores Checkin', 
'Review Scores Communication','Review Scores Location','Review Scores Value', 'Cancellation Policy','Calculated host listings count','Reviews per Month','Features'] )

####################################
#   FAMILIARIZACIÓN DE LOS DATOS   #
####################################


In [677]:
'''
Compruebo el número de columnas y filas que he importado. 
'''

df_airbnb.shape

#print(df_airbnb.head())

#print('filas:',len(df_airbnb.axes[0])," ",'columnas', len(df_airbnb.axes[1]))  #14780 filas & 48 columnas


(14780, 50)

In [678]:

'''
Compruebo los tipos de datos de las columnas y verifico si tienen sentido o hay que modificarlos. 
Cambio Host Since porque aparece como object, lo transformo en fecha 

'''

df_airbnb.dtypes # las que son de tipo character o string en pandas me las marca como object que indica que pueden ser str o mixed. --> OK 

df_airbnb['Host Since'] = pd.to_datetime(df_airbnb['Host Since'], format='%Y-%m-%d') 
df_airbnb['First Review'] = pd.to_datetime(df_airbnb['First Review'], format='%Y-%m-%d') 
df_airbnb['Last Review'] = pd.to_datetime(df_airbnb['Last Review'], format='%Y-%m-%d') 

df_airbnb['Host Since'].dtypes #Compruebo -->  dtype('<M8[ns]')


dtype('<M8[ns]')

In [679]:
'''
Compruebo si ID es una PK 
'''

print(df_airbnb['ID'].is_unique) # True --> ID es una PK

print(df_airbnb['Host ID'].is_unique) # False , hay host que se repiten --> No sería PK 

True
False




#####################################
# NORMALIZACIÓN Y LIMPIEZA DE DATOS #
#####################################


In [680]:
'''
Limpio los nombres de las columnas: Elimino espacios por '_'  y elimino posibles filas vacías
'''

df_airbnb = df_airbnb.clean_names().remove_empty()

'''
Transformo los nombres de columnas a mayúsculas para más legilibilidad 
'''

df_airbnb.columns = map(str.upper, df_airbnb.columns)
df_airbnb

Unnamed: 0,ID,HOST_ID,HOST_SINCE,HOST_LOCATION,HOST_RESPONSE_TIME,HOST_RESPONSE_RATE,HOST_LISTINGS_COUNT,HOST_TOTAL_LISTINGS_COUNT,FIRST_REVIEW,LAST_REVIEW,...,REVIEW_SCORES_ACCURACY,REVIEW_SCORES_CLEANLINESS,REVIEW_SCORES_CHECKIN,REVIEW_SCORES_COMMUNICATION,REVIEW_SCORES_LOCATION,REVIEW_SCORES_VALUE,CANCELLATION_POLICY,CALCULATED_HOST_LISTINGS_COUNT,REVIEWS_PER_MONTH,FEATURES
0,15141125,96019257,2016-09-20,"Madrid, Community of Madrid, Spain",within an hour,100.0,2.0,2.0,2016-10-15,2017-03-31,...,10.0,10.0,10.0,10.0,10.0,10.0,moderate,2.0,5.11,"Host Is Superhost,Host Has Profile Pic,Host Id..."
1,9470166,9885245,2013-11-08,"Madrid, Community of Madrid, Spain",within an hour,100.0,13.0,13.0,2015-12-01,2017-04-04,...,8.0,8.0,9.0,9.0,9.0,8.0,strict,13.0,5.88,"Host Has Profile Pic,Host Identity Verified,Re..."
2,17444981,118059488,2017-02-25,Spain,within an hour,100.0,1.0,1.0,2017-03-06,2017-04-07,...,9.0,10.0,9.0,10.0,10.0,10.0,moderate,1.0,6.18,"Host Has Profile Pic,Host Identity Verified,Re..."
3,3284565,1892467,2012-03-09,"Madrid, Madrid, Spain",within a few hours,100.0,3.0,3.0,2014-08-18,2016-08-25,...,9.0,9.0,10.0,10.0,9.0,9.0,strict,3.0,0.19,"Host Has Profile Pic,Host Identity Verified,Is..."
4,499911,2467212,2012-05-26,"Madrid, Madrid, Spain",within an hour,100.0,1.0,1.0,2013-01-04,2017-03-21,...,10.0,10.0,10.0,10.0,10.0,10.0,strict,1.0,1.39,"Host Is Superhost,Host Has Profile Pic,Host Id..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14775,15694640,3773809,2012-10-06,"Barcelona, Catalonia, Spain",within an hour,100.0,1.0,1.0,2016-12-07,2017-04-02,...,10.0,10.0,10.0,10.0,10.0,10.0,flexible,1.0,3.66,"Host Has Profile Pic,Host Identity Verified,Is..."
14776,17475363,78570341,2016-06-19,"London, England, United Kingdom",within an hour,100.0,1.0,1.0,2017-02-28,2017-03-25,...,9.0,10.0,9.0,9.0,9.0,9.0,flexible,1.0,3.00,"Host Has Profile Pic,Host Identity Verified,Is..."
14777,17584727,102947901,2016-11-08,"Barcelona, Catalonia, Spain",within an hour,100.0,162.0,162.0,NaT,NaT,...,,,,,,,super_strict_30,106.0,,"Host Has Profile Pic,Requires License,Instant ..."
14778,6453584,5637692,2013-03-26,"Berlin, Berlin, Germany",within an hour,100.0,3.0,3.0,2015-06-01,2015-08-14,...,9.0,10.0,10.0,10.0,10.0,10.0,moderate,3.0,0.21,"Host Has Profile Pic,Host Identity Verified"



#############################
# LIMPIEZA DE VALORES NULOS #
#############################


In [681]:

'''
Observamos qué columnas son las que más valores nulos contienen y decidimos como tratarlos ya que necesitamos tener un DF sin NANs para que no interfiera luego en el análisis.
Hago esto antes de normalizar/limpiar/transformar los datos a ASCII & Uppercase porque si no pierdo los NaNs
'''

print(df_airbnb.isna().sum())

'''
Para los campos:

- BEDROOMS - 25 Nans
- BEDS - 49
- BATHROOMS -55

- SECURITY DEPOSIT - 8524
- CLEANING_FEE - 6093
- AMENITIES - 170
- FEATURES - 1 

transformaremos el NAN a 0 puesto que el no tener un valor NaN supone que no dispone de esas facilidades, que esa propiedad no tiene coste extra de limpieza o fianza
o que el usuario no ha querido dejar review.

'''

df_airbnb[['BEDROOMS','BEDS','BATHROOMS','SECURITY_DEPOSIT','CLEANING_FEE','AMENITIES', 'FEATURES']] = df_airbnb[['BEDROOMS','BEDS','BATHROOMS','SECURITY_DEPOSIT','CLEANING_FEE','AMENITIES','FEATURES']].fillna(0)

# Volvemos a convertirlos a int porque al quitarle los NaN lo pasa a object directamente

cols = ['BEDROOMS','BEDS','BATHROOMS','SECURITY_DEPOSIT','CLEANING_FEE']
df_airbnb[cols] = df_airbnb[cols].astype({col: float for col in cols})


print('**comprobación de NAs en 0 aquí**')
print(df_airbnb.isna().sum())  #Compruebo que me los ha quitado correctamente.


ID                                    0
HOST_ID                               0
HOST_SINCE                            3
HOST_LOCATION                        43
HOST_RESPONSE_TIME                 1899
HOST_RESPONSE_RATE                 1899
HOST_LISTINGS_COUNT                   3
HOST_TOTAL_LISTINGS_COUNT             3
FIRST_REVIEW                       3162
LAST_REVIEW                        3163
NEIGHBOURHOOD_CLEANSED                0
NEIGHBOURHOOD_GROUP_CLEANSED       1020
CITY                                  6
STATE                               144
ZIPCODE                             506
MARKET                               57
SMART_LOCATION                        0
COUNTRY_CODE                          0
COUNTRY                               1
LATITUDE                              0
LONGITUDE                             0
PROPERTY_TYPE                         0
ROOM_TYPE                             0
ACCOMMODATES                          0
BATHROOMS                            55


In [682]:
"""
'Review Scores Checkin', 
'Review Scores Communication','Review Scores Location','Review Scores Value'
"""
#MODIFICO VERSIÓN ANTERIOR. DEVUELVO LOS NAN A LAS COLUMNAS REVIEWS.COMPRUEBO LOS NAN DE LAS REVIEWS 

df_airbnb['REVIEW_SCORES_VALUE'].isna().sum()   #3341
df_airbnb['REVIEW_SCORES_CHECKIN'].isna().sum() #3337
df_airbnb['REVIEW_SCORES_COMMUNICATION'].isna().sum() #3320
df_airbnb['REVIEW_SCORES_LOCATION'].isna().sum()  #3340


3340

In [683]:

'''
para los campos:

- WEEKLY PRICE - 11190 Nans
- MONTHLY PRICE - 11219  Nans 

Asumimos que el campo es nulo puesto que el propietario no ofrece de ninguna oferta/descuento de alquiler mensual o semanal. 
Por lo tanto, completaremos ambos campos asumiendo que el coste total sería el precio diario * los dias de alquiler (precio diario * 7 o precio diario * 30) y lo guardaremos en una nueva columna ya limpia 

'''

df_airbnb['WEEKLY_PRICE_CLEANSED'] = np.where(df_airbnb['WEEKLY_PRICE'].isnull(), df_airbnb['PRICE'] * 7, df_airbnb['WEEKLY_PRICE'])

df_airbnb['MONTHLY_PRICE_CLEANSED'] = np.where(df_airbnb['MONTHLY_PRICE'].isnull(), df_airbnb['PRICE'] * 30, df_airbnb['MONTHLY_PRICE'])


print(df_airbnb.columns) #comprobamos que nos ha creado la columna
print(df_airbnb.isna().sum())  #y que no tienen Nans.



Index(['ID', 'HOST_ID', 'HOST_SINCE', 'HOST_LOCATION', 'HOST_RESPONSE_TIME',
       'HOST_RESPONSE_RATE', 'HOST_LISTINGS_COUNT',
       'HOST_TOTAL_LISTINGS_COUNT', 'FIRST_REVIEW', 'LAST_REVIEW',
       'NEIGHBOURHOOD_CLEANSED', 'NEIGHBOURHOOD_GROUP_CLEANSED', 'CITY',
       'STATE', 'ZIPCODE', 'MARKET', 'SMART_LOCATION', 'COUNTRY_CODE',
       'COUNTRY', 'LATITUDE', 'LONGITUDE', 'PROPERTY_TYPE', 'ROOM_TYPE',
       'ACCOMMODATES', 'BATHROOMS', 'BEDROOMS', 'BEDS', 'BED_TYPE',
       'AMENITIES', 'PRICE', 'WEEKLY_PRICE', 'MONTHLY_PRICE',
       'SECURITY_DEPOSIT', 'CLEANING_FEE', 'GUESTS_INCLUDED', 'EXTRA_PEOPLE',
       'MINIMUM_NIGHTS', 'MAXIMUM_NIGHTS', 'NUMBER_OF_REVIEWS',
       'REVIEW_SCORES_RATING', 'REVIEW_SCORES_ACCURACY',
       'REVIEW_SCORES_CLEANLINESS', 'REVIEW_SCORES_CHECKIN',
       'REVIEW_SCORES_COMMUNICATION', 'REVIEW_SCORES_LOCATION',
       'REVIEW_SCORES_VALUE', 'CANCELLATION_POLICY',
       'CALCULATED_HOST_LISTINGS_COUNT', 'REVIEWS_PER_MONTH', 'FEATURES',
      

In [684]:
''' Comprobamos que las nuevas columnas weekly y monthly price cleansed no contienen NaNs
'''
df_airbnb['WEEKLY_PRICE_CLEANSED'].isna
df_airbnb['MONTHLY_PRICE_CLEANSED'].isna

<bound method Series.isna of 0        1500.0
1        1500.0
2        2310.0
3         740.0
4        2850.0
          ...  
14775     900.0
14776    2970.0
14777    3000.0
14778    2250.0
14779    2400.0
Name: MONTHLY_PRICE_CLEANSED, Length: 14780, dtype: float64>

In [685]:
"""Comprobamos si tiene sentido calcular los precios por noche a partir de monthly o weekly price. Pare ello represento aquellos valores de price que son NaN y que weekly o monthly tienen algún valor junto con
minimum nights. 
    De esta forma, podemos observar si hay concordancia entre los alojamientos que no tiene precio por noche y su minimum night. """


df_filtered = df_airbnb.loc[    (df_airbnb['PRICE'].isnull()) &
    ((df_airbnb['WEEKLY_PRICE'].notnull()) | (df_airbnb['MONTHLY_PRICE'].notnull()))
]

df_filtered[['PRICE', 'WEEKLY_PRICE', 'MONTHLY_PRICE', 'MINIMUM_NIGHTS']]


"""Obtenemos:

	    PRICE	WEEKLY_PRICE	MONTHLY_PRICE	MINIMUM_NIGHTS
4353	NaN	    NaN	            1843.0	            1
6071	NaN	    NaN	            20000.0	            6
6975	NaN	    910.0	        2910.0          	5
10238	NaN	    910.0	        2910.0	            5


Aquí se puede observar que por ejemplo, que los que no tienen precios por noche , no es porque los host sólo quieran alquilarlos por largos periodos de tiempo. Es decir, si tu sólo tienes precio por mes, 
    deberías tener un mínimum nights acorde con ello. Sin embargo en los registros mostrados, representa mínimum nights de 1,5 y 6 días , por lo que deberían dar un precio por noche.
    Conclusión: damos por ok, el cálculo de obtener el precio por noche de dividir weekly/7 y monthly/30.
 """


'Obtenemos:\n\n\t    PRICE\tWEEKLY_PRICE\tMONTHLY_PRICE\tMINIMUM_NIGHTS\n4353\tNaN\t    NaN\t            1843.0\t            1\n6071\tNaN\t    NaN\t            20000.0\t            6\n6975\tNaN\t    910.0\t        2910.0          \t5\n10238\tNaN\t    910.0\t        2910.0\t            5\n\n\nAquí se puede observar que por ejemplo, que los que no tienen precios por noche , no es porque los host sólo quieran alquilarlos por largos periodos de tiempo. Es decir, si tu sólo tienes precio por mes, \n    deberías tener un mínimum nights acorde con ello. Sin embargo en los registros mostrados, representa mínimum nights de 1,5 y 6 días , por lo que deberían dar un precio por noche.\n    Conclusión: damos por ok, el cálculo de obtener el precio por noche de dividir weekly/7 y monthly/30.\n '

In [686]:

'''
Miramos también el caso contrario, si PRICE es NaN y WEEKLY_PRICE o MONTHLY_PRICE tienen datos, calculamos la inversa. (Consigo 4 campos más de 17 NaN a 13)
Después de calcular los que faltan, quitamos del modelo los siguen faltando/NaN ya que esté campo es clave para nuestro analisis y no tenemos suficiente información para inferirlo 

'''
condition = (df_airbnb['PRICE'].isnull()) & ((df_airbnb['WEEKLY_PRICE'].notnull()) | (df_airbnb['MONTHLY_PRICE'].notnull()))
result = df_airbnb[condition]
result

df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['WEEKLY_PRICE_CLEANSED'] / 7, df_airbnb['PRICE'])
df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['MONTHLY_PRICE_CLEANSED'] / 30, df_airbnb['PRICE'])


In [687]:

"""AÑADO LA COLUMNA TOTAL_PRICE QUE SEA LA SUMA DE LA COLUMNA PRICE_CLEANSED Y EL CLEANING FEE
EN ESTE CASO NO INTERESA SUMAR AL PRECIO TOTAL EL DEPÓSITO PORQUE ES UN DINERO RECUPERABLE
"""
#Compruebo que la columna cleaning fee no tiene Nans
df_airbnb['CLEANING_FEE'].isna().sum() # 0 NaN OK

#Realizo la operación
df_airbnb["TOTAL_PRICE"] = df_airbnb["PRICE_CLEANSED"] + df_airbnb["CLEANING_FEE"]

df_airbnb.columns #comprobamos que nos ha creado la columna


#Compruebo que la suma se ha hecho correctamente. Para ello calculo las medias de las columnas
# TOTAL_PRICE y PRICE_CLEANSED  y compruebo que TOTAL_PRICE es superior

df_airbnb['TOTAL_PRICE'].mean() #92.18

df_airbnb['PRICE_CLEANSED'].mean()  #73.60   #OK


df_airbnb.dropna(subset=['PRICE_CLEANSED'],inplace = True) #elimino todas las fillas con NaN, el inplace es para que me lo haga sobre el df.


df_airbnb.isna().sum()

ID                                    0
HOST_ID                               0
HOST_SINCE                            3
HOST_LOCATION                        43
HOST_RESPONSE_TIME                 1898
HOST_RESPONSE_RATE                 1898
HOST_LISTINGS_COUNT                   3
HOST_TOTAL_LISTINGS_COUNT             3
FIRST_REVIEW                       3157
LAST_REVIEW                        3158
NEIGHBOURHOOD_CLEANSED                0
NEIGHBOURHOOD_GROUP_CLEANSED       1013
CITY                                  6
STATE                               142
ZIPCODE                             505
MARKET                               57
SMART_LOCATION                        0
COUNTRY_CODE                          0
COUNTRY                               1
LATITUDE                              0
LONGITUDE                             0
PROPERTY_TYPE                         0
ROOM_TYPE                             0
ACCOMMODATES                          0
BATHROOMS                             0


#############################################################################################
# CREAR NUEVA COLUMNA QUE INDIQUE SI LA PROPIEDAD TIENE DESCUENTO POR MEDIA/LARGA TEMPORADA #
############################################################################################

In [688]:
''' Voy a observar unas 5-10 entradas donde no haya valores Nan y ver si generalmente 
los precios weekly y monthly ofrecen descuento, o si simplemente son proporcionales en el tiempo
'''
    #Para ello, creo un df donde elimino los Nan de estas 3 columnas y presento las 10-20 primeras entradas
df_prueba_Nan = df_airbnb[['PRICE', 'WEEKLY_PRICE', 'MONTHLY_PRICE']].dropna()
df_prueba_Nan.head(20)

# Creo yo las mismas columnas calculadas y compruebo si son proporcionales

df_prueba_Nan['WEEKLY_PRICE_CALCULATED']=df_prueba_Nan['PRICE']*7

#Ahora hago una comprobación para ver si generalmente todos los que ofrecen un precio semanal , tienen descuento

df_prueba_Nan["WEEKLY_PRICE_CALCULATED"] > df_prueba_Nan["WEEKLY_PRICE"] 

(df_prueba_Nan["WEEKLY_PRICE_CALCULATED"] > df_prueba_Nan["WEEKLY_PRICE"]).value_counts()

#Hay 2158 apartamentos que muestran descuento semanal frente el diario

#Sin embargo hay 798 registros que el precio semanal no ofrece descuento sobre el diario

#Esto genera dudas. Compruebo los casos en los que el weekly_price sean precios mayores que el PRICE*7
df_prueba_Nan[['WEEKLY_PRICE_CALCULATED','WEEKLY_PRICE']]
df_prueba_Nan[df_prueba_Nan['WEEKLY_PRICE'] > df_prueba_Nan['WEEKLY_PRICE_CALCULATED']]

#Efectivamente hay casos en los que el precio de alquilar la vivienda semanalmente es muy superior que alquilarla por días sueltos
"""
Por ejemplo: 

        PRICE	WEEKLY_PRICE	MONTHLY_PRICE	WEEKLY_PRICE_CALCULATED
19	    95.0	750.0	        3000.0	        665.0
108	    65.0	500.0	        2400.0	        455.0
128	    20.0	273.0	        1092.0	        140.0

"""

#Por lo tanto, calcular los valores de weekly y monthly de manera proporcional al precio diario, no sería lo más acertado


"""Conclusión: Rellenar Nans con valores calculados de PRICE*7 o PRICE*30 no sería muy preciso. Por ello, creamos una nueva
columna, que diga si el HOST presenta descuentos por reservar semanalmente y/o mensualmente. 

    Para ello, crear una nueva columna llamada 'WEEKLY_DISCOUNT' QUE DEVUELVA UN BOOLEANO SI LA COLUMNA 'WEEKLY_PRICE' ES MENOR QUE LA COLUMNA 'PRICE'*7
"""
df_airbnb['WEEKLY_DISCOUNT'] = df_airbnb['WEEKLY_PRICE'] < df_airbnb['PRICE'] * 7

df_airbnb['WEEKLY_DISCOUNT'].value_counts()

#Hay 12148 entradas en las que el ANFITRIÓN ofrece descuento por alquiler semanal 

"""Ahora realizamos lo mismo para los precios mensuales"""

df_airbnb['MONTHLY_CALCULATED']=df_airbnb['PRICE'] * 30

df_airbnb['MONTHLY_DISCOUNT'] = df_airbnb['MONTHLY_PRICE'] < df_airbnb['MONTHLY_CALCULATED']

df_airbnb['MONTHLY_DISCOUNT'].value_counts()


# EN ESTE CASO HAY 3267 ENTRADAS EN LAS QUE EL MONTHLY_PRICE ofrece descuento sobre el diario*30 días


False    11500
True      3267
Name: MONTHLY_DISCOUNT, dtype: int64

##############################################
# LIMPIEZA NANS EN OTRAS COLUMNAS#
##############################################

In [689]:

'''
otros campos a limpiar

HOST_RESPONSE_RATE - 1899 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_RESPONSE_TIME - 1899 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_LISTINGS_COUNT - 3 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_TOTAL_LISTINGS_COUNT - 3 Nans (cambiar a 0 no tenemos suficientes datos)
CALCULATED_HOST_LISTINGS_COUNT -4 Nans (cambiar a 0 no tenemos suficientes datos)
LO DEJAMOS COMO ESTÁ: HOST_SINCE - 3 (cambiar a 0 no tenemos suficientes datos)

No disponemos de suficiente información para inferir el campo por lo que lo transformamos en 0. Posiblemente lo excluiremos del analisis 
'''

#df_airbnb['HOST_SINCE'] = df_airbnb['HOST_SINCE'].astype(str) 
#df_airbnb['FIRST_REVIEW'] = df_airbnb['FIRST_REVIEW'].astype(str) 
#df_airbnb['LAST_REVIEW'] = df_airbnb['LAST_REVIEW'].astype(str) 

df_airbnb[['HOST_RESPONSE_RATE','HOST_RESPONSE_TIME','HOST_LISTINGS_COUNT','HOST_TOTAL_LISTINGS_COUNT','CALCULATED_HOST_LISTINGS_COUNT']] = df_airbnb[['HOST_RESPONSE_RATE','HOST_RESPONSE_TIME','HOST_LISTINGS_COUNT','HOST_TOTAL_LISTINGS_COUNT','CALCULATED_HOST_LISTINGS_COUNT']].fillna(0)

#Me aseguro de que no pierden su anterior tipo de dato porque float/datetime/int no pierden el tipo de dato porque al quitarle el NaN me lo ha pasado a object otra vez. En el caso de Host Since Primero he tenido que pasarlo a string porque me daba error

#df_airbnb['HOST_SINCE'] = pd.to_datetime(df_airbnb['HOST_SINCE'], format='%Y-%m-%d') 
#df_airbnb['FIRST_REVIEW'] = pd.to_datetime(df_airbnb['FIRST_REVIEW'], format='%Y-%m-%d') 
#df_airbnb['LAST_REVIEW'] = pd.to_datetime(df_airbnb['LAST_REVIEW'], format='%Y-%m-%d') 

cols = ['HOST_RESPONSE_RATE', 'HOST_LISTINGS_COUNT','HOST_TOTAL_LISTINGS_COUNT','CALCULATED_HOST_LISTINGS_COUNT']
df_airbnb[cols] = df_airbnb[cols].astype({col: float for col in cols})

df_airbnb.isna().sum()  #Compruebo que me los ha quitado correctamente.

#Comento parte del código ya que no es necesario transformar nos Nan de columnas tipo fecha a '0's, ya que al retransformar la columna de strig a fecha, estos '0's vuelven a convertirnse en NaT (not a time)

#df_airbnb['HOST_SINCE'].dtype
#df_airbnb['LAST_REVIEW'] .isna().sum()

ID                                    0
HOST_ID                               0
HOST_SINCE                            3
HOST_LOCATION                        43
HOST_RESPONSE_TIME                    0
HOST_RESPONSE_RATE                    0
HOST_LISTINGS_COUNT                   0
HOST_TOTAL_LISTINGS_COUNT             0
FIRST_REVIEW                       3157
LAST_REVIEW                        3158
NEIGHBOURHOOD_CLEANSED                0
NEIGHBOURHOOD_GROUP_CLEANSED       1013
CITY                                  6
STATE                               142
ZIPCODE                             505
MARKET                               57
SMART_LOCATION                        0
COUNTRY_CODE                          0
COUNTRY                               1
LATITUDE                              0
LONGITUDE                             0
PROPERTY_TYPE                         0
ROOM_TYPE                             0
ACCOMMODATES                          0
BATHROOMS                             0



###################################################
# AÑADIENDO COLUMNA DE PRECIO POR PERSONA #
#####################################################

In [690]:
'''Recordatorio del cálculo de la columna PRICE_CLEANSED 
    df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['WEEKLY_PRICE_CLEANSED'] / 7, df_airbnb['PRICE'])
    df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['MONTHLY_PRICE_CLEANSED'] / 30, df_airbnb['PRICE'])

La columna se calcula de dividir el precio semanal/mensual por días.

    '''

    
#El valor de la columna se obtiene dividiendo el precio entre las personas que puede acomodar la vivienda

df_airbnb['PRICE_PER_PERSON']=round(df_airbnb["PRICE_CLEANSED"] / df_airbnb["ACCOMMODATES"],2)


##############################################
# AÑADIENDO COLUMNA RATIO CAMA VS PERSONA #
##############################################

In [691]:

df_airbnb['RATIO_BEDS_PERS']=round(df_airbnb["BEDS"] /df_airbnb["ACCOMMODATES"] ,2)



###########################################################
#  TASA DE N_VECES_ALQUILADO Y OCUPACIÓN MÁXIMA #
###########################################################


In [692]:
"""Con la intención de analizar la rentabilidad de los alojamientos, creamos un campo/columna calculada que defina esta rentabilidad. Para ello, necesitaremos saber las veces que un alojamiento 
puede haber sido alquilado desde que está activo en la plataforma, y las veces que ha sido alquilado.

1. Calculamos los dias publicados a partir de la diferencia entre last_review y first review

2. Calcularemos el máximo de ocupación: días publicado / mínimum nights . Es decir, si el alojamiento lleva publicado 30 días, y su mínimum nights es de 10 días, el máximo de veces que el alojamiento 
puede alquilarse es de 3 veces.

3. Calcularemos el ratio_nveces_alquilado, que representará las veces que el alojamiento ha sido alquilado vs las que podría haber sido alquilado. Es decir, si el alojamiento, según el máximo de ocupación, 
podía alquilarse 3 veces y se ha alquilado 2, el ratio será de un 66,6% """


"""Creamos la columna de días publicado (alojamiento), calculando la diferencia de la primer review y la última"""

df_airbnb['DAYS_POSTED'] = (df_airbnb['LAST_REVIEW'] - df_airbnb['FIRST_REVIEW']).dt.days   #Devuelve el resultado en días

#Para evitar valores infinitos en cálculos posteriores , aseguramos que como mínimo todos los alojamientos han estado publicados por un día, para ello sustituimos todos los que sena igual a 0 por 1
    #Hay casos que la first_review y last_review son el mismo día. Esto hace que la diferencia sea 0. 

df_airbnb['DAYS_POSTED'] = df_airbnb['DAYS_POSTED'].replace(0, 1)

#PARA CALCULAR LA TASA DE OCUPACIÓN MÁXIMA DIVIDO LOS DÍAS QUE EL ALOJAMIENTO HA ESTADO PUBLICADO Y LOS DÍAS MÍNIMOS PERMITIDOS PO REL HOST

df_airbnb['MAX_OCCUPANCY'] = df_airbnb['DAYS_POSTED'] / df_airbnb['MINIMUM_NIGHTS']

#AHORA CALCULAMOS LA TASA DE OCUPACIÓN. ASUMIENDO QUE EL NÚMERO DE REVIEWS EQUIVALE A NVECES ALQUILADO. OBTENDRÍAMOS 
# EL NÚMERO DE VECES QUE SE HA ALQUILADO LA PROPIEDAD FRENTE AL MÁXIMO DE VECES QUE SE PODRÍA HABER ALQUILADO

df_airbnb['RATIO_NVECES_ALQUILADO'] = df_airbnb['NUMBER_OF_REVIEWS'] / df_airbnb['MAX_OCCUPANCY']

df_airbnb[['RATIO_NVECES_ALQUILADO','NUMBER_OF_REVIEWS','MAX_OCCUPANCY','DAYS_POSTED']]



#PARA COMPROBAR INFINITOS
#df_airbnb[np.isinf(df_airbnb['OCCUPANCY_RATE'])]




Unnamed: 0,RATIO_NVECES_ALQUILADO,NUMBER_OF_REVIEWS,MAX_OCCUPANCY,DAYS_POSTED
0,0.359281,30,83.500000,167.0
1,0.197959,97,490.000000,490.0
2,0.218750,7,32.000000,32.0
3,0.056911,6,105.428571,738.0
4,0.187378,72,384.250000,1537.0
...,...,...,...,...
14775,0.258621,15,58.000000,116.0
14776,0.160000,4,25.000000,25.0
14777,,0,,
14778,0.067568,5,74.000000,74.0


###########################################################
#  AÑADIENDO COLUMNA RATIO  BEDROOMS VS  ACCOMMODATES#
###########################################################


In [693]:
df_airbnb['RATIO_ROOMS_PERS']=round( df_airbnb["BEDROOMS"] / df_airbnb["ACCOMMODATES"],2)

#Hay valores que dan infinito. i.e el caso en el que no hay dormitorios.


#############################
#  LIMPIEZA DE LOCALIZACIÓN #
#############################


In [694]:

'''
Compruebo que columna de localización es más efectiva para filtrar nuestro df por Madrid. Mirando cual tiene menos NaNs y cual identifica mejor Madrid
'''
print(df_airbnb.isna().sum()) #Latitude no tiene ningún NaN, le seguiría City(6) y luego Market (57). NEIGHBOURHOOD_CLEANSED sería el campo para utilizar para Barrio puesto que no tiene NaNs



ID                           0
HOST_ID                      0
HOST_SINCE                   3
HOST_LOCATION               43
HOST_RESPONSE_TIME           0
                          ... 
RATIO_BEDS_PERS              0
DAYS_POSTED               3158
MAX_OCCUPANCY             3158
RATIO_NVECES_ALQUILADO    3158
RATIO_ROOMS_PERS             0
Length: 63, dtype: int64


In [695]:

'''
elimino NEIGHBOURHOOD_GROUP_CLEANSED puesto que tiene muchos NaNs y ya tengo NEIGHBOURHOOD_CLEANSED para poder analizar sin NaNs.
'''

df_airbnb = df_airbnb.drop(columns = ['NEIGHBOURHOOD_GROUP_CLEANSED'])


In [696]:

'''
Transformo todos los NaNs en 0 de momento para poder analizar qué campo me interesa más para filtrar mi df por Madrid.

'''

df_airbnb[['HOST_LOCATION','CITY','STATE','ZIPCODE','MARKET','COUNTRY']] = df_airbnb[['HOST_LOCATION','CITY','STATE','ZIPCODE','MARKET','COUNTRY']].fillna(0)


print('**RECUENTO DE COLUMNAS CON NANS**')
print(df_airbnb.isna().sum()) 


**RECUENTO DE COLUMNAS CON NANS**
ID                           0
HOST_ID                      0
HOST_SINCE                   3
HOST_LOCATION                0
HOST_RESPONSE_TIME           0
                          ... 
RATIO_BEDS_PERS              0
DAYS_POSTED               3158
MAX_OCCUPANCY             3158
RATIO_NVECES_ALQUILADO    3158
RATIO_ROOMS_PERS             0
Length: 62, dtype: int64


In [697]:

'''
Normalizo y transformo los datos en ASCII para aquellas columnas que son objects - asi podemos tratar mejor y unificar ciudades, barrios etc. 
Primero las transformo en strings ya que al intentar pasarlas a ASCII (unidecode) me da error porque alguna de ellas podrían contener números u otro tipo de datos.
Luego las transformo a ASCII para eliminar acentos, simbolos raros,etc
Luego lo transformo todo a mayúsculas también para que se visualice mejor en Tableau más tarde y para unificar y posiblemente unir campos iguales pero escritos en Mayus/Minus
'''

#Transformo las columnas nuevas de First review y last reviw a datetime64

df_airbnb['LAST_REVIEW'] = pd.to_datetime(df_airbnb['LAST_REVIEW'])
df_airbnb['FIRST_REVIEW'] = pd.to_datetime(df_airbnb['FIRST_REVIEW'])


df_airbnb_string_cols = df_airbnb.select_dtypes(include=['object'], exclude=['datetime64[ns]','int64', 'float64'])  #Me seguía cogiendo Host Since y otras variables numéricas incluso al haberle cambiado de tipo, lo excluyo a proposito para asegurarme

df_airbnb_string_cols = df_airbnb_string_cols.astype(str)
df_airbnb_string_cols = df_airbnb_string_cols.applymap(lambda x: unidecode(x))
df_airbnb_string_cols = df_airbnb_string_cols.applymap(lambda x: x.upper())
df_airbnb[df_airbnb_string_cols.columns] = df_airbnb_string_cols




print('**RECUENTO DE COLUMNAS AFECTADAS CON LA LIMPIA**') #me aseguro que las variables numericas/fechas no están aquí
print(df_airbnb_string_cols.columns)

**RECUENTO DE COLUMNAS AFECTADAS CON LA LIMPIA**
Index(['HOST_LOCATION', 'HOST_RESPONSE_TIME', 'NEIGHBOURHOOD_CLEANSED', 'CITY',
       'STATE', 'ZIPCODE', 'MARKET', 'SMART_LOCATION', 'COUNTRY_CODE',
       'COUNTRY', 'PROPERTY_TYPE', 'ROOM_TYPE', 'BED_TYPE', 'AMENITIES',
       'CANCELLATION_POLICY', 'FEATURES'],
      dtype='object')


In [698]:

'''State '''

filtered_state = df_airbnb[df_airbnb['STATE'].str.contains("MADR|MAD", case=False)]
count_state = filtered_state['STATE'].count()
print('Hay', count_state, 'resultados para State conteniendo Madr o Mad') #13205



Hay 13205 resultados para State conteniendo Madr o Mad


In [699]:
'''City'''

filtered_city = df_airbnb[df_airbnb['CITY'].str.contains("MADR|MAD", case=False)]
count_city = filtered_city['CITY'].count()
print('Hay', count_city, 'resultados para City conteniendo Madr o Mad') #13241


Hay 13241 resultados para City conteniendo Madr o Mad


In [700]:
'''Smart Location'''

filtered_smart_loc = df_airbnb[df_airbnb['SMART_LOCATION'].str.contains("MADR|MAD", case=False)]
count_smart_loc = filtered_smart_loc['SMART_LOCATION'].count()
print('Hay', count_smart_loc, 'resultados para Smart Location conteniendo Madr o Mad') #13243


Hay 13243 resultados para Smart Location conteniendo Madr o Mad


In [701]:
'''Market'''

filtered_market = df_airbnb[df_airbnb['MARKET'].str.contains("MADR|MAD", case=False)]
count_market= filtered_market['MARKET'].count()
print('Hay', count_market, 'resultados para Market  conteniendo Madr o Mad') #13268

Hay 13268 resultados para Market  conteniendo Madr o Mad


In [702]:

'''
Latitude

todas las latitudes de Madrid empiezan por 40. Esta sería la mejor opción porque aparte de dar más resultados (13399), 
recoge también las ciudades de Madrid que no contienen MADR como Aravaca que hemos visto que el resto de campos no lo recogen bien i.e. City '''

filtered_latitude = df_airbnb[(df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) ]

count_latitude = filtered_latitude["LATITUDE"].count()

print('Hay', count_latitude, 'resultados para Latitud empezando por 40') #13399 --> la mejor forma de identificar Madrid

Hay 13399 resultados para Latitud empezando por 40


In [703]:

'''
Identificamos aquellos datos que en City o Market no ponía Madrid pero por Latitud si lo son para ver si es un dato que se puede cambiar a Madrid o si por lo contrario se puede descartar.
'''

df_airbnb[(df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) & ~(df_airbnb['CITY'].str.contains("MADR|MAD", case=False))]



Unnamed: 0,ID,HOST_ID,HOST_SINCE,HOST_LOCATION,HOST_RESPONSE_TIME,HOST_RESPONSE_RATE,HOST_LISTINGS_COUNT,HOST_TOTAL_LISTINGS_COUNT,FIRST_REVIEW,LAST_REVIEW,...,TOTAL_PRICE,WEEKLY_DISCOUNT,MONTHLY_CALCULATED,MONTHLY_DISCOUNT,PRICE_PER_PERSON,RATIO_BEDS_PERS,DAYS_POSTED,MAX_OCCUPANCY,RATIO_NVECES_ALQUILADO,RATIO_ROOMS_PERS
285,17954933,123207186,2017-03-29,CN,0,0.0,1.0,1.0,NaT,NaT,...,404.0,False,12120.0,False,202.0,0.5,,,,0.5
445,11607461,58045417,2016-02-09,"ONIL, COMUNIDAD VALENCIANA, SPAIN",0,0.0,1.0,1.0,NaT,NaT,...,579.0,False,17370.0,False,289.5,1.0,,,,0.5
452,17965378,123372706,2017-03-30,CN,0,0.0,1.0,1.0,NaT,NaT,...,411.0,False,12330.0,False,205.5,0.5,,,,0.5
677,17959345,123264069,2017-03-29,CN,0,0.0,1.0,1.0,NaT,NaT,...,406.0,False,12180.0,False,203.0,0.5,,,,0.5
679,17958269,123242574,2017-03-29,CN,0,0.0,1.0,1.0,NaT,NaT,...,408.0,False,12240.0,False,204.0,0.5,,,,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14516,11456077,56480695,2016-01-28,"NEW YORK, NEW YORK, UNITED STATES",WITHIN AN HOUR,100.0,1.0,1.0,2016-03-09,2017-04-30,...,80.0,False,1500.0,False,25.0,1.0,417.0,208.5,0.105516,0.5
14625,17956695,123225895,2017-03-29,CN,0,0.0,1.0,1.0,NaT,NaT,...,406.0,False,12180.0,False,203.0,0.5,,,,0.5
14638,18105783,124717208,2017-04-07,TW,0,0.0,1.0,1.0,NaT,NaT,...,477.0,False,14310.0,False,238.5,0.5,,,,0.5
14691,11208701,44861669,2015-09-22,"MADRID, COMMUNITY OF MADRID, SPAIN",WITHIN AN HOUR,100.0,6.0,6.0,2016-03-16,2017-03-13,...,12.0,False,360.0,False,6.0,1.0,362.0,362.0,0.060773,0.5


In [704]:

'''
Conclusión: Los que no son City Madrid pero Latitud 40, son todos Madrid menos los de State NY , la Latitud está mal puesto que todos son de NY. Se puede filtrar por Country SPAIN para no considerarlos.
Creamos una nueva variable/columna = CITY_CLEANSED, que sea MADRID para todas las latitudes 40 con Country SPAIN, para tener un dato limpio. 
'''

df_airbnb['CITY_CLEANSED'] = np.where((df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) & (df_airbnb['COUNTRY'] == 'SPAIN'), 'MADRID', df_airbnb['CITY'])



#############################
#  LIMPIEZA ZIPCODES ERRÓNEOS #
#############################

In [705]:
'''
Realizando el análisis en R , encontramos 4 filas en las que el ZIPCODE :row

2661	14	a double	MADRID 28004	
3132	14	a double	2802\n28012	
4980	14	a double	28002\n28002	
8396	14	a double	28051\n28051

modico el csv'''

df_airbnb['ZIPCODE'] = df_airbnb['ZIPCODE'].str.extract(r'(\d+)') #extraer solo los números
df_airbnb['ZIPCODE'].loc[df_airbnb['ZIPCODE'].isin(['28004', '28012', '28002', '28051'])] = df_airbnb['ZIPCODE'].loc[df_airbnb['ZIPCODE'].isin(['28004', '28012', '28002', '28051'])].str[-5:] #sustituir por los últimos 5 dígitos


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_airbnb['ZIPCODE'].loc[df_airbnb['ZIPCODE'].isin(['28004', '28012', '28002', '28051'])] = df_airbnb['ZIPCODE'].loc[df_airbnb['ZIPCODE'].isin(['28004', '28012', '28002', '28051'])].str[-5:] #sustituir por los últimos 5 dígitos



#############################
#  SEPARACIÓN EN COLUMNAS AMENITIES #
#############################

In [706]:

"""Se crean columnas separadas para las amenities más relevantes/populares. De forma que si la propiedad la ofrece, devuelve un booleano"""

#COLUMNA INTERNET BOOLEANA
df_airbnb["INTERNET"] = df_airbnb["AMENITIES"].str.contains("INTERNET")

#COLUMNA AIR CONDITIONING BOOLEANO
df_airbnb["AC"] = df_airbnb["AMENITIES"].str.contains("AIR CONDITIONING")

#COLUMNA 24H_CHECKING BOOLEANO
df_airbnb["24H_CHECKING"] = df_airbnb["AMENITIES"].str.contains("24-HOUR CHECK-IN")

#COLUMNA WASHER BOOLEANO
df_airbnb["WASHER"] = df_airbnb["AMENITIES"].str.contains("WASHER")

#COLUMNA SMOKING ALLOWED BOOLEANO
df_airbnb["SMOKING ALLOWED"] = df_airbnb["AMENITIES"].str.contains("SMOKING ALLOWED")

#COLUMNA PETS ALLOWED BOOLEANO
df_airbnb["PETS ALLOWED"] = df_airbnb["AMENITIES"].str.contains("PETS ALLOWED")

#COLUMNA ELEVATOR BOOLEANO
df_airbnb["ELEVATOR IN BUILDING"] = df_airbnb["AMENITIES"].str.contains("ELEVATOR IN BUILDING")



In [707]:
#Compruebo que las columnas se han creado correctamente
    #Aleatoriamente:

df_airbnb["ELEVATOR IN BUILDING"]

        #Es correcto

0         True
1        False
2         True
3        False
4         True
         ...  
14775     True
14776     True
14777     True
14778    False
14779     True
Name: ELEVATOR IN BUILDING, Length: 14767, dtype: bool

In [708]:
"""
También podemos utilizar la siguiente función para generar estas columnas"""

"""
def find_internet(amenities):
    return "Internet" in amenities

df_airbnb["Internet"] = df_airbnb["Amenities"].apply(find_internet)
"""


'\ndef find_internet(amenities):\n    return "Internet" in amenities\n\ndf_airbnb["Internet"] = df_airbnb["Amenities"].apply(find_internet)\n'


#############################
#  AÑADIENDO COLUMNA BOOLEANA SECUTIRY DEPOSIT #
#############################

In [709]:
"""Crear una columna "SECURITY_DEPOSIT_BOOL" que devuelva un booleano si la columna 
"SECURITY_DEPOSIT" es >0
"""

#Primero compruebo que security_deposit no contiene Nans

df_airbnb['SECURITY_DEPOSIT'].isna().sum()   #0   ok

#Creamos la columna SECURITY_DEPOSIT_BOOL

df_airbnb['SECURITY_DEPOSIT_BOOL'] = df_airbnb['SECURITY_DEPOSIT'] > 0




#############################################
#  NORMALIZANDO POLÍTICAS DE CANCELACIÓN  #
#############################################

In [710]:
'''Con la intención de hacer más sencillo el posterior análisis sobre políticas de cancelación, normalizamos los valores únicos
['MODERATE', 'STRICT', 'FLEXIBLE', 'SUPER_STRICT_60',
       'SUPER_STRICT_30', 'FLEXIBLE_NEW', 'MODERATE_NEW', 'STRICT_NEW']

       En este caso, flexible_new, moderate_new y strict_new los convertimos a flexible, moderate y strict ya que no tendremos ninguna diferencia entre ellas.
       Por otro lado, codificaremos del 1 al 5, de menos estricto a más estricto los tipo de cancelaión
'''
df_airbnb['CANCELLATION_POLICY'].unique()

array(['MODERATE', 'STRICT', 'FLEXIBLE', 'SUPER_STRICT_60',
       'SUPER_STRICT_30', 'FLEXIBLE_NEW', 'MODERATE_NEW', 'STRICT_NEW'],
      dtype=object)

In [711]:
#Primero unificamos criterios: Sustituir 'FLEXIBLE_NEW', 'MODERATE_NEW', 'STRICT_NEW' de la column CANCELLATION_POLICY por  'FLEXIBLE' ,'MODERATE', 'STRICT' respectivamente
df_airbnb['CANCELLATION_POLICY'].replace({"FLEXIBLE_NEW": "FLEXIBLE", 
                                          "MODERATE_NEW": "MODERATE", 
                                          "STRICT_NEW": "STRICT"}, inplace=True)

#Comprobamos la sustitución

df_airbnb['CANCELLATION_POLICY'].unique()       #ok

#Hacemos recuento para comprobar posteriormente que la codificación se realiza satisfactoriamente

df_airbnb['CANCELLATION_POLICY'].value_counts()

      #      STRICT             5773
     #        FLEXIBLE           4680
     #       MODERATE           4263
      #      SUPER_STRICT_60      32
       #     SUPER_STRICT_30      19

#Ahora codificamos los niveles

# crear el diccionario de mapeo
map_dict = { 'FLEXIBLE': 1, 'MODERATE': 2, 'STRICT': 3, 'SUPER_STRICT_30': 4, 'SUPER_STRICT_60': 5}

# aplicar el método map en la columna "CANCELLATION_POLICY"
df_airbnb['CANCELLATION_POLICY'] = df_airbnb['CANCELLATION_POLICY'].map(map_dict)

#Comprobamos recuento

df_airbnb['CANCELLATION_POLICY'].value_counts()

                #3    5773
                #1    4680
                #2    4263
                #5      32
                #4      19      Correcto


3    5773
1    4680
2    4263
5      32
4      19
Name: CANCELLATION_POLICY, dtype: int64

###################################
#   ANÁLISIS RATIO_NVECES_ALQUILADO #
###################################

In [712]:
#COMPROBACIÓN DE QUE EL RATIO_NVECES_ALQUILADO PUEDA TENER VALORES MAYORES QUE 1
df_airbnb.sort_values("RATIO_NVECES_ALQUILADO", ascending=False).head(20)[["ID","NUMBER_OF_REVIEWS", "MAX_OCCUPANCY", "MINIMUM_NIGHTS", "DAYS_POSTED","RATIO_NVECES_ALQUILADO"]]

#FILTRO POR LOS CASOS DE ID DEFINIDOS PARA VER MÁS DETENIDAMENTE LA EXPLICACIÓN DE POR QUÉ LOS RESULTADOS

filtered_df = df_airbnb[df_airbnb['ID'].isin([844856, 755184, 4532131])]

filtered_df[['FIRST_REVIEW','LAST_REVIEW', 'MINIMUM_NIGHTS', 'DAYS_POSTED','NUMBER_OF_REVIEWS']]

#CON ESTA REPRESENTACIÓN SE PUEDE CONFIRMAR QUE HAY ALOJAMIENTOS QUE TIENEN UN MINIMUM NIGHTS QUE NO SE HA CUMPLIDO. POSIBLEMENTE PORQUE HABRÁN HECHO EL CAMBIO A POSTERIORI DEL ALQUILER DEL ALOJAMIENTO.
#ES DECIR, EL CASO EN EL QUE TIENE MÍNIMO DE NOCHES DE 60 , Y SE HA ALQUILADO EN 2 OCASIONES. SIN EMBARGO EL ALOJAMIENTI
# NO HA ESTADO PUBLICADO MÁS DE 15 DÍAS. 

#df_airbnb[['FIRST_REVIEW','LAST_REVIEW', 'MINIMUM_NIGHTS', 'DAYS_POSTED']]

Unnamed: 0,FIRST_REVIEW,LAST_REVIEW,MINIMUM_NIGHTS,DAYS_POSTED,NUMBER_OF_REVIEWS
2912,2015-01-19,2015-02-03,60,15.0,2
2959,2013-09-01,2013-09-01,185,1.0,1
9361,2016-08-10,2016-08-19,1125,9.0,2


In [713]:
#COMPRUEBO TIPO DATOS 

df_tipo_datos = df_airbnb.dtypes.to_frame().reset_index()
df_tipo_datos.columns = ['Nombre columna', 'Tipo dato']

df_tipo_datos.head(30)


Unnamed: 0,Nombre columna,Tipo dato
0,ID,int64
1,HOST_ID,int64
2,HOST_SINCE,datetime64[ns]
3,HOST_LOCATION,object
4,HOST_RESPONSE_TIME,object
5,HOST_RESPONSE_RATE,float64
6,HOST_LISTINGS_COUNT,float64
7,HOST_TOTAL_LISTINGS_COUNT,float64
8,FIRST_REVIEW,datetime64[ns]
9,LAST_REVIEW,datetime64[ns]


#########################################
# ANÁLISIS RATIO_NVECES_ALQUILADO >1 #
#########################################

In [714]:
'''En la visualización de datos de tableau, se observa una gran cantidad de datos con un occupancy rate superior a 1. 

    En por ello que nos adentramos en los casos y estudiamos los motivos de ello'''

#Sacamos recuento de casos con occupancy rate mayor que 1 en df_airbnb
mask = df_airbnb['RATIO_NVECES_ALQUILADO'] > 1
count = df_airbnb[mask].shape[0]
print("Hay", count, "registros con RATIO_NVECES_ALQUILADO mayor a 1")

# Hay 911 registros con RATIO_NVECES_ALQUILADO mayor a 1


Hay 911 registros con RATIO_NVECES_ALQUILADO mayor a 1


In [715]:
#Analizamos un pedazo de estos registros para ver como podemos solventar este inconveniente

df_airbnb.loc[df_airbnb['RATIO_NVECES_ALQUILADO'] > 1, ['ID', 'DAYS_POSTED', 'MINIMUM_NIGHTS', 'NUMBER_OF_REVIEWS','RATIO_NVECES_ALQUILADO']]


#EN ESTE CASO, SE MUESTRAN ALOJAMIENTOS QUE TIENEN UN RATIO_NVECES_ALQUILADO MAYOR QUE 1.
#  1. EL ALOJAMIENTO LLEVA PUBLICADO 1 DÍA ,TIENE UN MINIMUM NIGHTS DE 3 Y POR TANTO, UN RATIO_NVECES_ALQUILADO DE 3. ESTO SE DEBE A QUE EL MIN. NIGHTS SEA MAYOR QUE LOS DÍAS PUBLICADOS. HABRÍA QUE MANIPULAR LOS DATOS DE DAYS_POSTED O LA DE MINIMUM NIGHTS PARA QUE FUESE MÁXIMO 1.
# . COMO EL TIEMPO PUBLICADO ES UN VALOR CALCULADO EN FUNCIÓN DE FIRST REVIEW Y LAST REVIEW, SERÍA MÁS RAZONABLE MODIFICAR EL MINIMUM NIGHTS DE TODOS AQUELLOS QUE NO CUADREN CON LAS VECES QUE HA SIDO ALQUILADO
# . PROBABLEMENTE, LOS ALOJAMIENTOS HAYAN TENIDO MODIFICADO EL MINIMUM NIGHTS A POSTERIORI DE HABER SIDO ALQUILADOS, POR ESO LOS RATES SOBREPASAN 1
#   ¿SOLUCIÓN? 1. A TODOS AQUELLOS QUE TENGAN 1 DAY_POSTED Y 1 REVIEW= TENDRÁN EL RATIO_NVECES_ALQUILADO = 100%



df_airbnb.loc[(df_airbnb['DAYS_POSTED'] == 1) & (df_airbnb['NUMBER_OF_REVIEWS'] == 1), 'RATIO_NVECES_ALQUILADO'] = 1

df_airbnb.loc[df_airbnb['RATIO_NVECES_ALQUILADO'] > 1, ['ID', 'DAYS_POSTED', 'MINIMUM_NIGHTS', 'NUMBER_OF_REVIEWS','RATIO_NVECES_ALQUILADO']]

# El resto de valores por encima de 1 los tomaremos como outliers, ya que no sería preciso manipular sus datos, ya que descooncemos totalmente cuáles son los valores de Minimum nights que tenñian los 
# alojamientos en una primera instancia

#   Con esta modificación , reducimos a 136 registros con el rate mayor que 1. aproximadamente un 1% de los datos totales --> OK


Unnamed: 0,ID,DAYS_POSTED,MINIMUM_NIGHTS,NUMBER_OF_REVIEWS,RATIO_NVECES_ALQUILADO
28,4196358,896.0,20,46,1.026786
205,17034890,5.0,4,2,1.600000
237,2032336,1110.0,30,72,1.945946
317,9620952,485.0,21,50,2.164948
318,13125667,189.0,21,12,1.333333
...,...,...,...,...,...
13810,15762763,5.0,3,2,1.200000
13915,8443684,578.0,50,64,5.536332
14284,2820486,72.0,120,12,20.000000
14470,14150770,3.0,2,2,1.333333


######################
# EXPORTANDO NUEVO CSV#
#######################

In [716]:
'''
Exportamos el df con CITY_CLEANSED = 'MADRID' en formato csv para poder tratarlo en Dveaber y posteriormente Tableau y R. Modifico el separador a comas para que no nos de problemas en el resto de programas
'''

df_airbnb_cleansed = df_airbnb[df_airbnb['CITY_CLEANSED' ] == 'MADRID']

df_airbnb_cleansed.to_csv('df_airbnb_cleansed.csv', index=False, sep=',')
