In [119]:
import pandas as pd
import numpy as np
from janitor import clean_names #consola : pip install pyjanitor
from unidecode  import unidecode #pip install unidecode

'''
importo el archivo separado por ; y selecciono las columnnas que estamos interesadas
'''
df = pd.read_csv('/Users/laura/Desktop/Proyecto final KeepCoding Tella Group/airbnb-listings.csv',sep=';') 

df_airbnb = pd.DataFrame(df , columns =['ID','Host ID','Host Since','Host Location','Host Response Time','Host Response Rate',
'Host Listings Count','Host Total Listings Count','Neighbourhood Cleansed', 'Neighbourhood Group Cleansed', 
'City','State', 'Zipcode', 'Market', 'Smart Location', 'Country Code','Country','Latitude', 'Longitude', 
'Property Type', 'Room Type','Accommodates', 'Bathrooms', 'Bedrooms', 'Beds', 'Bed Type','Amenities','Price',
'Weekly Price','Monthly Price','Security Deposit','Cleaning Fee', 'Guests Included', 'Extra People','Minimum Nights','Maximum Nights',
'Number of Reviews','Review Scores Rating', 'Review Scores Accuracy','Review Scores Cleanliness','Review Scores Checkin', 
'Review Scores Communication','Review Scores Location','Review Scores Value', 'Cancellation Policy','Calculated host listings count','Reviews per Month','Features'] )

####################################
#   FAMILIARIZACIÓN DE LOS DATOS   #
####################################


In [120]:
'''
Compruebo el número de columnas y filas que he importado. 
'''

df_airbnb.shape

#print(df_airbnb.head())

#print('filas:',len(df_airbnb.axes[0])," ",'columnas', len(df_airbnb.axes[1]))  #14780 filas & 48 columnas


(14780, 48)

In [121]:

'''
Compruebo los tipos de datos de las columnas y verifico si tienen sentido o hay que modificarlos. 
Cambio Host Since porque aparece como object, lo transformo en fecha 

'''

print(df_airbnb.dtypes) # las que son de tipo character o string en pandas me las marca como object que indica que pueden ser str o mixed. --> OK 

df_airbnb['Host Since'] = pd.to_datetime(df_airbnb['Host Since'], format='%Y-%m-%d') 

print(df_airbnb.dtypes) #Compruebo --> OK 


ID                                  int64
Host ID                             int64
Host Since                         object
Host Location                      object
Host Response Time                 object
Host Response Rate                float64
Host Listings Count               float64
Host Total Listings Count         float64
Neighbourhood Cleansed             object
Neighbourhood Group Cleansed       object
City                               object
State                              object
Zipcode                            object
Market                             object
Smart Location                     object
Country Code                       object
Country                            object
Latitude                          float64
Longitude                         float64
Property Type                      object
Room Type                          object
Accommodates                        int64
Bathrooms                         float64
Bedrooms                          

In [122]:
'''
Compruebo si ID es una PK 
'''

print(df_airbnb['ID'].is_unique) # True --> ID es una PK

print(df_airbnb['Host ID'].is_unique) # False , hay host que se repiten --> No sería PK 

True
False




#####################################
# NORMALIZACIÓN Y LIMPIEZA DE DATOS #
#####################################


In [123]:
'''
Limpio los nombres de las columnas: Elimino espacios por '_'  y elimino posibles filas vacías
'''

df_airbnb = df_airbnb.clean_names().remove_empty()

'''
Transformo los nombres de columnas a mayúsculas para más legilibilidad 
'''

df_airbnb.columns = map(str.upper, df_airbnb.columns)
df_airbnb

Unnamed: 0,ID,HOST_ID,HOST_SINCE,HOST_LOCATION,HOST_RESPONSE_TIME,HOST_RESPONSE_RATE,HOST_LISTINGS_COUNT,HOST_TOTAL_LISTINGS_COUNT,NEIGHBOURHOOD_CLEANSED,NEIGHBOURHOOD_GROUP_CLEANSED,...,REVIEW_SCORES_ACCURACY,REVIEW_SCORES_CLEANLINESS,REVIEW_SCORES_CHECKIN,REVIEW_SCORES_COMMUNICATION,REVIEW_SCORES_LOCATION,REVIEW_SCORES_VALUE,CANCELLATION_POLICY,CALCULATED_HOST_LISTINGS_COUNT,REVIEWS_PER_MONTH,FEATURES
0,15141125,96019257,2016-09-20,"Madrid, Community of Madrid, Spain",within an hour,100.0,2.0,2.0,Embajadores,Centro,...,10.0,10.0,10.0,10.0,10.0,10.0,moderate,2.0,5.11,"Host Is Superhost,Host Has Profile Pic,Host Id..."
1,9470166,9885245,2013-11-08,"Madrid, Community of Madrid, Spain",within an hour,100.0,13.0,13.0,Embajadores,Centro,...,8.0,8.0,9.0,9.0,9.0,8.0,strict,13.0,5.88,"Host Has Profile Pic,Host Identity Verified,Re..."
2,17444981,118059488,2017-02-25,Spain,within an hour,100.0,1.0,1.0,Embajadores,Centro,...,9.0,10.0,9.0,10.0,10.0,10.0,moderate,1.0,6.18,"Host Has Profile Pic,Host Identity Verified,Re..."
3,3284565,1892467,2012-03-09,"Madrid, Madrid, Spain",within a few hours,100.0,3.0,3.0,Embajadores,Centro,...,9.0,9.0,10.0,10.0,9.0,9.0,strict,3.0,0.19,"Host Has Profile Pic,Host Identity Verified,Is..."
4,499911,2467212,2012-05-26,"Madrid, Madrid, Spain",within an hour,100.0,1.0,1.0,Embajadores,Centro,...,10.0,10.0,10.0,10.0,10.0,10.0,strict,1.0,1.39,"Host Is Superhost,Host Has Profile Pic,Host Id..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14775,15694640,3773809,2012-10-06,"Barcelona, Catalonia, Spain",within an hour,100.0,1.0,1.0,el Fort Pienc,Eixample,...,10.0,10.0,10.0,10.0,10.0,10.0,flexible,1.0,3.66,"Host Has Profile Pic,Host Identity Verified,Is..."
14776,17475363,78570341,2016-06-19,"London, England, United Kingdom",within an hour,100.0,1.0,1.0,la Dreta de l'Eixample,Eixample,...,9.0,10.0,9.0,9.0,9.0,9.0,flexible,1.0,3.00,"Host Has Profile Pic,Host Identity Verified,Is..."
14777,17584727,102947901,2016-11-08,"Barcelona, Catalonia, Spain",within an hour,100.0,162.0,162.0,la Dreta de l'Eixample,Eixample,...,,,,,,,super_strict_30,106.0,,"Host Has Profile Pic,Requires License,Instant ..."
14778,6453584,5637692,2013-03-26,"Berlin, Berlin, Germany",within an hour,100.0,3.0,3.0,Alexanderplatz,Mitte,...,9.0,10.0,10.0,10.0,10.0,10.0,moderate,3.0,0.21,"Host Has Profile Pic,Host Identity Verified"



#############################
# LIMPIEZA DE VALORES NULOS #
#############################


In [124]:

'''
Observamos qué columnas son las que más valores nulos contienen y decidimos como tratarlos ya que necesitamos tener un DF sin NANs para que no interfiera luego en el análisis.
Hago esto antes de normalizar/limpiar/transformar los datos a ASCII & Uppercase porque si no pierdo los NaNs
'''

print(df_airbnb.isna().sum())

'''
Para los campos:

- BEDROOMS - 25 Nans
- BEDS - 49
- BATHROOMS -55

- SECURITY DEPOSIT - 8524
- CLEANING_FEE - 6093
- AMENITIES - 170
- FEATURES - 1 

transformaremos el NAN a 0 puesto que el no tener un valor NaN supone que no dispone de esas facilidades, que esa propiedad no tiene coste extra de limpieza o fianza
o que el usuario no ha querido dejar review.

'''

df_airbnb[['BEDROOMS','BEDS','BATHROOMS','SECURITY_DEPOSIT','CLEANING_FEE','AMENITIES', 'FEATURES']] = df_airbnb[['BEDROOMS','BEDS','BATHROOMS','SECURITY_DEPOSIT','CLEANING_FEE','AMENITIES','FEATURES']].fillna(0)



print('**comprobación de NAs en 0 aquí**')
print(df_airbnb.isna().sum())  #Compruebo que me los ha quitado correctamente.


ID                                    0
HOST_ID                               0
HOST_SINCE                            3
HOST_LOCATION                        43
HOST_RESPONSE_TIME                 1899
HOST_RESPONSE_RATE                 1899
HOST_LISTINGS_COUNT                   3
HOST_TOTAL_LISTINGS_COUNT             3
NEIGHBOURHOOD_CLEANSED                0
NEIGHBOURHOOD_GROUP_CLEANSED       1020
CITY                                  6
STATE                               144
ZIPCODE                             506
MARKET                               57
SMART_LOCATION                        0
COUNTRY_CODE                          0
COUNTRY                               1
LATITUDE                              0
LONGITUDE                             0
PROPERTY_TYPE                         0
ROOM_TYPE                             0
ACCOMMODATES                          0
BATHROOMS                            55
BEDROOMS                             25
BEDS                                 49


In [125]:
"""
'Review Scores Checkin', 
'Review Scores Communication','Review Scores Location','Review Scores Value'
"""
#MODIFICO VERSIÓN ANTERIOR. DEVUELVO LOS NAN A LAS COLUMNAS REVIEWS.COMPRUEBO LOS NAN DE LAS REVIEWS 

df_airbnb['REVIEW_SCORES_VALUE'].isna().sum()   #3341
df_airbnb['REVIEW_SCORES_CHECKIN'].isna().sum() #3337
df_airbnb['REVIEW_SCORES_COMMUNICATION'].isna().sum() #3320
df_airbnb['REVIEW_SCORES_LOCATION'].isna().sum()  #3340


3340

In [126]:

'''
para los campos:

- WEEKLY PRICE - 11190 Nans
- MONTHLY PRICE - 11219  Nans 

Asumimos que el campo es nulo puesto que el propietario no ofrece de ninguna oferta/descuento de alquiler mensual o semanal. 
Por lo tanto, completaremos ambos campos asumiendo que el coste total sería el precio diario * los dias de alquiler (precio diario * 7 o precio diario * 30) y lo guardaremos en una nueva columna ya limpia 

'''

df_airbnb['WEEKLY_PRICE_CLEANSED'] = np.where(df_airbnb['WEEKLY_PRICE'].isnull(), df_airbnb['PRICE'] * 7, df_airbnb['WEEKLY_PRICE'])

df_airbnb['MONTHLY_PRICE_CLEANSED'] = np.where(df_airbnb['MONTHLY_PRICE'].isnull(), df_airbnb['PRICE'] * 30, df_airbnb['MONTHLY_PRICE'])


print(df_airbnb.columns) #comprobamos que nos ha creado la columna
print(df_airbnb.isna().sum())  #y que no tienen Nans.



Index(['ID', 'HOST_ID', 'HOST_SINCE', 'HOST_LOCATION', 'HOST_RESPONSE_TIME',
       'HOST_RESPONSE_RATE', 'HOST_LISTINGS_COUNT',
       'HOST_TOTAL_LISTINGS_COUNT', 'NEIGHBOURHOOD_CLEANSED',
       'NEIGHBOURHOOD_GROUP_CLEANSED', 'CITY', 'STATE', 'ZIPCODE', 'MARKET',
       'SMART_LOCATION', 'COUNTRY_CODE', 'COUNTRY', 'LATITUDE', 'LONGITUDE',
       'PROPERTY_TYPE', 'ROOM_TYPE', 'ACCOMMODATES', 'BATHROOMS', 'BEDROOMS',
       'BEDS', 'BED_TYPE', 'AMENITIES', 'PRICE', 'WEEKLY_PRICE',
       'MONTHLY_PRICE', 'SECURITY_DEPOSIT', 'CLEANING_FEE', 'GUESTS_INCLUDED',
       'EXTRA_PEOPLE', 'MINIMUM_NIGHTS', 'MAXIMUM_NIGHTS', 'NUMBER_OF_REVIEWS',
       'REVIEW_SCORES_RATING', 'REVIEW_SCORES_ACCURACY',
       'REVIEW_SCORES_CLEANLINESS', 'REVIEW_SCORES_CHECKIN',
       'REVIEW_SCORES_COMMUNICATION', 'REVIEW_SCORES_LOCATION',
       'REVIEW_SCORES_VALUE', 'CANCELLATION_POLICY',
       'CALCULATED_HOST_LISTINGS_COUNT', 'REVIEWS_PER_MONTH', 'FEATURES',
       'WEEKLY_PRICE_CLEANSED', 'MONTHLY_PRI

In [127]:
''' Comprobamos que las nuevas columnas weekly y monthly price cleansed no contienen NaNs
'''
df_airbnb['WEEKLY_PRICE_CLEANSED'].isna
df_airbnb['MONTHLY_PRICE_CLEANSED'].isna

<bound method Series.isna of 0        1500.0
1        1500.0
2        2310.0
3         740.0
4        2850.0
          ...  
14775     900.0
14776    2970.0
14777    3000.0
14778    2250.0
14779    2400.0
Name: MONTHLY_PRICE_CLEANSED, Length: 14780, dtype: float64>

In [131]:

'''
Miramos también el caso contrario, si PRICE es NaN y WEEKLY_PRICE o MONTHLY_PRICE tienen datos, calculamos la inversa. (Consigo 4 campos más de 17 NaN a 13)
Después de calcular los que faltan, quitamos del modelo los siguen faltando/NaN ya que esté campo es clave para nuestro analisis y no tenemos suficiente información para inferirlo 

'''

df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['WEEKLY_PRICE_CLEANSED'] / 7, df_airbnb['PRICE'])
df_airbnb['PRICE_CLEANSED'] = np.where(df_airbnb['PRICE'].isnull(), df_airbnb['MONTHLY_PRICE_CLEANSED'] / 30, df_airbnb['PRICE'])


"""AÑADO LA COLUMNA TOTAL_PRICE QUE SEA LA SUMA DE LA COLUMNA PRICE_CLEANSED Y EL CLEANING FEE
EN ESTE CASO NO INTERESA SUMAR AL PRECIO TOTAL EL DEPÓSITO PORQUE ES UN DINERO RECUPERABLE
"""
#Compruebo que la columna cleaning fee no tiene Nans
df_airbnb['CLEANING_FEE'].isna().sum() # 0 NaN OK

#Realizo la operación
df_airbnb["TOTAL_PRICE"] = df_airbnb["PRICE_CLEANSED"] + df_airbnb["CLEANING_FEE"]


print(df_airbnb.columns) #comprobamos que nos ha creado la columna


#Compruebo que la suma se ha hecho correctamente. Para ello calculo las medias de las columnas
# TOTAL_PRICE y PRICE_CLEANSED  y compruebo que TOTAL_PRICE es superior

df_airbnb['TOTAL_PRICE'].mean() #92.18

df_airbnb['PRICE_CLEANSED'].mean()  #73.60   #OK





Index(['ID', 'HOST_ID', 'HOST_SINCE', 'HOST_LOCATION', 'HOST_RESPONSE_TIME',
       'HOST_RESPONSE_RATE', 'HOST_LISTINGS_COUNT',
       'HOST_TOTAL_LISTINGS_COUNT', 'NEIGHBOURHOOD_CLEANSED',
       'NEIGHBOURHOOD_GROUP_CLEANSED', 'CITY', 'STATE', 'ZIPCODE', 'MARKET',
       'SMART_LOCATION', 'COUNTRY_CODE', 'COUNTRY', 'LATITUDE', 'LONGITUDE',
       'PROPERTY_TYPE', 'ROOM_TYPE', 'ACCOMMODATES', 'BATHROOMS', 'BEDROOMS',
       'BEDS', 'BED_TYPE', 'AMENITIES', 'PRICE', 'WEEKLY_PRICE',
       'MONTHLY_PRICE', 'SECURITY_DEPOSIT', 'CLEANING_FEE', 'GUESTS_INCLUDED',
       'EXTRA_PEOPLE', 'MINIMUM_NIGHTS', 'MAXIMUM_NIGHTS', 'NUMBER_OF_REVIEWS',
       'REVIEW_SCORES_RATING', 'REVIEW_SCORES_ACCURACY',
       'REVIEW_SCORES_CLEANLINESS', 'REVIEW_SCORES_CHECKIN',
       'REVIEW_SCORES_COMMUNICATION', 'REVIEW_SCORES_LOCATION',
       'REVIEW_SCORES_VALUE', 'CANCELLATION_POLICY',
       'CALCULATED_HOST_LISTINGS_COUNT', 'REVIEWS_PER_MONTH', 'FEATURES',
       'WEEKLY_PRICE_CLEANSED', 'MONTHLY_PRI

0

In [25]:

'''
Quito entonces la columna Price, Weekly Price y Monthly Price de mi df puesto que ya no las necesito.
También elimino las filas cuyo PRICE_CLEANSED sea null
'''

df_airbnb = df_airbnb.drop(columns = ['WEEKLY_PRICE','MONTHLY_PRICE','PRICE'])
df_airbnb.dropna(subset=['PRICE_CLEANSED'],inplace = True) #elimino todas las fillas con NaN, el inplace es para que me lo haga sobre el df.


print(df_airbnb.columns) #compruebo
print(df_airbnb.isna().sum())



Index(['ID', 'HOST_ID', 'HOST_SINCE', 'HOST_LOCATION', 'HOST_RESPONSE_TIME',
       'HOST_RESPONSE_RATE', 'HOST_LISTINGS_COUNT',
       'HOST_TOTAL_LISTINGS_COUNT', 'NEIGHBOURHOOD_CLEANSED',
       'NEIGHBOURHOOD_GROUP_CLEANSED', 'CITY', 'STATE', 'ZIPCODE', 'MARKET',
       'SMART_LOCATION', 'COUNTRY_CODE', 'COUNTRY', 'LATITUDE', 'LONGITUDE',
       'PROPERTY_TYPE', 'ROOM_TYPE', 'ACCOMMODATES', 'BATHROOMS', 'BEDROOMS',
       'BEDS', 'BED_TYPE', 'AMENITIES', 'SECURITY_DEPOSIT', 'CLEANING_FEE',
       'GUESTS_INCLUDED', 'EXTRA_PEOPLE', 'MINIMUM_NIGHTS', 'MAXIMUM_NIGHTS',
       'NUMBER_OF_REVIEWS', 'REVIEW_SCORES_RATING', 'REVIEW_SCORES_ACCURACY',
       'REVIEW_SCORES_CLEANLINESS', 'REVIEW_SCORES_CHECKIN',
       'REVIEW_SCORES_COMMUNICATION', 'REVIEW_SCORES_LOCATION',
       'REVIEW_SCORES_VALUE', 'CANCELLATION_POLICY',
       'CALCULATED_HOST_LISTINGS_COUNT', 'REVIEWS_PER_MONTH', 'FEATURES',
       'WEEKLY_PRICE_CLEANSED', 'MONTHLY_PRICE_CLEANSED', 'PRICE_CLEANSED'],
      dtype='obj

In [26]:

'''
otros campos a limpiar

HOST_RESPONSE_RATE - 1899 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_RESPONSE_TIME - 1899 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_LISTINGS_COUNT - 3 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_TOTAL_LISTINGS_COUNT - 3 Nans (cambiar a 0 no tenemos suficientes datos)
CALCULATED_HOST_LISTINGS_COUNT -4 Nans (cambiar a 0 no tenemos suficientes datos)
HOST_SINCE - 3 (cambiar a 0 no tenemos suficientes datos)

No disponemos de suficiente información para inferir el campo por lo que lo transformamos en 0. Posiblemente lo excluiremos del analisis 
'''

df_airbnb['HOST_SINCE'] = df_airbnb['HOST_SINCE'].astype(str) 

df_airbnb[['HOST_SINCE','HOST_RESPONSE_RATE','HOST_RESPONSE_TIME','HOST_LISTINGS_COUNT','HOST_TOTAL_LISTINGS_COUNT','CALCULATED_HOST_LISTINGS_COUNT']] = df_airbnb[['HOST_SINCE','HOST_RESPONSE_RATE','HOST_RESPONSE_TIME','HOST_LISTINGS_COUNT','HOST_TOTAL_LISTINGS_COUNT','CALCULATED_HOST_LISTINGS_COUNT']].fillna(0)


df_airbnb['HOST_SINCE'] = pd.to_datetime(df_airbnb['HOST_SINCE'], format='%Y-%m-%d') #vuelvo a pasarlo a fecha porque al quitarle el NaN me lo ha pasado a object otra vez. Primero he tenido que pasarlo a string porque me daba error


print(df_airbnb.isna().sum())  #Compruebo que me los ha quitado correctamente.



ID                                   0
HOST_ID                              0
HOST_SINCE                           3
HOST_LOCATION                       43
HOST_RESPONSE_TIME                   0
HOST_RESPONSE_RATE                   0
HOST_LISTINGS_COUNT                  0
HOST_TOTAL_LISTINGS_COUNT            0
NEIGHBOURHOOD_CLEANSED               0
NEIGHBOURHOOD_GROUP_CLEANSED      1013
CITY                                 6
STATE                              142
ZIPCODE                            505
MARKET                              57
SMART_LOCATION                       0
COUNTRY_CODE                         0
COUNTRY                              1
LATITUDE                             0
LONGITUDE                            0
PROPERTY_TYPE                        0
ROOM_TYPE                            0
ACCOMMODATES                         0
BATHROOMS                            0
BEDROOMS                             0
BEDS                                 0
BED_TYPE                 


#############################
#  LIMPIEZA DE LOCALIZACIÓN #
#############################


In [27]:

'''
Compruebo que columna de localización es más efectiva para filtrar nuestro df por Madrid. Mirando cual tiene menos NaNs y cual identifica mejor Madrid
'''
print(df_airbnb.isna().sum()) #Latitude no tiene ningún NaN, le seguiría City(6) y luego Market (57). NEIGHBOURHOOD_CLEANSED sería el campo para utilizar para Barrio puesto que no tiene NaNs



ID                                   0
HOST_ID                              0
HOST_SINCE                           3
HOST_LOCATION                       43
HOST_RESPONSE_TIME                   0
HOST_RESPONSE_RATE                   0
HOST_LISTINGS_COUNT                  0
HOST_TOTAL_LISTINGS_COUNT            0
NEIGHBOURHOOD_CLEANSED               0
NEIGHBOURHOOD_GROUP_CLEANSED      1013
CITY                                 6
STATE                              142
ZIPCODE                            505
MARKET                              57
SMART_LOCATION                       0
COUNTRY_CODE                         0
COUNTRY                              1
LATITUDE                             0
LONGITUDE                            0
PROPERTY_TYPE                        0
ROOM_TYPE                            0
ACCOMMODATES                         0
BATHROOMS                            0
BEDROOMS                             0
BEDS                                 0
BED_TYPE                 

In [28]:

'''
elimino NEIGHBOURHOOD_GROUP_CLEANSED puesto que tiene muchos NaNs y ya tengo NEIGHBOURHOOD_CLEANSED para poder analizar sin NaNs.
'''

df_airbnb = df_airbnb.drop(columns = ['NEIGHBOURHOOD_GROUP_CLEANSED'])


In [29]:

'''
Transformo todos los NaNs en 0 de momento para poder analizar que campo me interesa más para filtrar mi df por Madrid.

'''

df_airbnb[['HOST_LOCATION','CITY','STATE','ZIPCODE','MARKET','COUNTRY']] = df_airbnb[['HOST_LOCATION','CITY','STATE','ZIPCODE','MARKET','COUNTRY']].fillna(0)


print('**RECUENTO DE COLUMNAS CON NANS**')
print(df_airbnb.isna().sum()) 


**RECUENTO DE COLUMNAS CON NANS**
ID                                0
HOST_ID                           0
HOST_SINCE                        3
HOST_LOCATION                     0
HOST_RESPONSE_TIME                0
HOST_RESPONSE_RATE                0
HOST_LISTINGS_COUNT               0
HOST_TOTAL_LISTINGS_COUNT         0
NEIGHBOURHOOD_CLEANSED            0
CITY                              0
STATE                             0
ZIPCODE                           0
MARKET                            0
SMART_LOCATION                    0
COUNTRY_CODE                      0
COUNTRY                           0
LATITUDE                          0
LONGITUDE                         0
PROPERTY_TYPE                     0
ROOM_TYPE                         0
ACCOMMODATES                      0
BATHROOMS                         0
BEDROOMS                          0
BEDS                              0
BED_TYPE                          0
AMENITIES                         0
SECURITY_DEPOSIT              

In [30]:

'''
Normalizo y transformo los datos en ASCII para aquellas columnas que son objects - asi podemos tratar mejor y unificar ciudades, barrios etc. 
Primero las transformo en strings ya que al intentar pasarlas a ASCII (unidecode) me da error porque alguna de ellas podrían contener números u otro tipo de datos.
Luego las transformo a ASCII para eliminar acentos, simbolos raros,etc
Luego lo transformo todo a mayúsculas también para que se visualice mejor en Tableau más tarde y para unificar y posiblemente unir campos iguales pero escritos en Mayus/Minus
'''



df_airbnb_string_cols = df_airbnb.select_dtypes(include=['object'], exclude=['datetime64[ns]'])  #Me seguía cogiendo Host Since incluso al haberle cambiado de tipo, lo excluyo a proposito para asegurarme

df_airbnb_string_cols = df_airbnb_string_cols.astype(str)
df_airbnb_string_cols = df_airbnb_string_cols.applymap(lambda x: unidecode(x))
df_airbnb_string_cols = df_airbnb_string_cols.applymap(lambda x: x.upper())
df_airbnb[df_airbnb_string_cols.columns] = df_airbnb_string_cols




print('**RECUENTO DE COLUMNAS AFECTADAS CON LA LIMPIA**') #me aseguro que Host Since no está aquí
print(df_airbnb_string_cols.columns)



**RECUENTO DE COLUMNAS AFECTADAS CON LA LIMPIA**
Index(['HOST_LOCATION', 'HOST_RESPONSE_TIME', 'NEIGHBOURHOOD_CLEANSED', 'CITY',
       'STATE', 'ZIPCODE', 'MARKET', 'SMART_LOCATION', 'COUNTRY_CODE',
       'COUNTRY', 'PROPERTY_TYPE', 'ROOM_TYPE', 'BED_TYPE', 'AMENITIES',
       'CANCELLATION_POLICY', 'FEATURES'],
      dtype='object')


In [31]:

'''State '''

filtered_state = df_airbnb[df_airbnb['STATE'].str.contains("MADR|MAD", case=False)]
count_state = filtered_state['STATE'].count()
print('Hay', count_state, 'resultados para State conteniendo Madr o Mad') #13211



Hay 13205 resultados para State conteniendo Madr o Mad


In [32]:

'''City'''

filtered_city = df_airbnb[df_airbnb['CITY'].str.contains("MADR|MAD", case=False)]
count_city = filtered_city['CITY'].count()
print('Hay', count_city, 'resultados para City conteniendo Madr o Mad') #13247



Hay 13241 resultados para City conteniendo Madr o Mad


In [33]:


'''Smart Location'''

filtered_smart_loc = df_airbnb[df_airbnb['SMART_LOCATION'].str.contains("MADR|MAD", case=False)]
count_smart_loc = filtered_smart_loc['SMART_LOCATION'].count()
print('Hay', count_smart_loc, 'resultados para Smart Location conteniendo Madr o Mad') #13249


Hay 13243 resultados para Smart Location conteniendo Madr o Mad


In [34]:

'''Market'''

filtered_market = df_airbnb[df_airbnb['MARKET'].str.contains("MADR|MAD", case=False)]
count_market= filtered_market['MARKET'].count()
print('Hay', count_market, 'resultados para Market  conteniendo Madr o Mad') #13274



Hay 13268 resultados para Market  conteniendo Madr o Mad


In [35]:

'''
Latitude

todas las latitudes de Madrid empiezan por 40. Esta sería la mejor opción porque aparte de dar más resultados (13405), 
recoge también las ciudades de Madrid que no contienen MADR como Aravaca que hemos visto que el resto de campos no lo recogen bien i.e. City '''

filtered_latitude = df_airbnb[(df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) ]

count_latitude = filtered_latitude["LATITUDE"].count()

print('Hay', count_latitude, 'resultados para Latitud empezando por 40') #13405 --> la mejor forma de identificar Madrid
  

Hay 13399 resultados para Latitud empezando por 40


In [36]:

'''
Identificamos aquellos datos que en City o Market no ponía Madrid pero por Latitud si lo son para ver si es un dato que se puede cambiar a Madrid o si por lo contrario se puede descartar.
'''

print(df_airbnb[(df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) & ~(df_airbnb['CITY'].str.contains("MADR|MAD", case=False))]) # He comprobado en Jupyter Notebook como queda no puedo :( )



             ID    HOST_ID HOST_SINCE                       HOST_LOCATION  \
285    17954933  123207186 2017-03-29                                  CN   
445    11607461   58045417 2016-02-09   ONIL, COMUNIDAD VALENCIANA, SPAIN   
452    17965378  123372706 2017-03-30                                  CN   
677    17959345  123264069 2017-03-29                                  CN   
679    17958269  123242574 2017-03-29                                  CN   
...         ...        ...        ...                                 ...   
14516  11456077   56480695 2016-01-28   NEW YORK, NEW YORK, UNITED STATES   
14625  17956695  123225895 2017-03-29                                  CN   
14638  18105783  124717208 2017-04-07                                  TW   
14691  11208701   44861669 2015-09-22  MADRID, COMMUNITY OF MADRID, SPAIN   
14766   2847041     132052 2010-05-25               MADRID, MADRID, SPAIN   

       HOST_RESPONSE_TIME  HOST_RESPONSE_RATE  HOST_LISTINGS_COUNT  \
285  

In [37]:

'''
Conclusión: Los que no son City Madrid pero Latitud 40, son todos Madrid menos los de State NY , la Latitud está mal puesto que todos son de NY. Se puede filtrar por Country SPAIN para no considerarlos.
Creamos una nueva variable/columna = CITY_CLEANSED, que sea MADRID para todas las latitudes 40 con Country SPAIN, para tener un dato limpio. 
'''

df_airbnb['CITY_CLEANSED'] = np.where((df_airbnb['LATITUDE'] >= 40.0) & (df_airbnb['LATITUDE'] <= 41.0) & (df_airbnb['COUNTRY'] == 'SPAIN'), 'MADRID', df_airbnb['CITY'])



#############################
#  SEPARACIÓN AMENITIES #
#############################

In [96]:

""" Con el objetivo de identificar determinadas amenities de manera sencilla, transformamos todo el texto de la columna a mayúsuclas
"""
df_airbnb['AMENITIES'] = df_airbnb['AMENITIES'].str.upper()

#Una vez está en mayúsculas, creamos una nueva columna ["AMENITIE_INTERNET"] donde devolverá un booleano si la columna "Amenities" original contiene "INTERNET"

#COLUMNA INTERNET BOOLEANA
df_airbnb["AMENITIE_INTERNET"] = df_airbnb["AMENITIES"].str.contains("INTERNET")

#COLUMNA AIR CONDITIONING BOOLEANO
df_airbnb["AMENITIE_AC"] = df_airbnb["AMENITIES"].str.contains("AIR CONDITIONING")

#COLUMNA 24H_CHECKING BOOLEANO
df_airbnb["24H_CHECKING"] = df_airbnb["AMENITIES"].str.contains("24-HOUR CHECK-IN")

#COLUMNA WASHER BOOLEANO
df_airbnb["WASHER"] = df_airbnb["AMENITIES"].str.contains("WASHER")

#COLUMNA SMOKING ALLOWED BOOLEANO
df_airbnb["SMOKING ALLOWED"] = df_airbnb["AMENITIES"].str.contains("SMOKING ALLOWED")

#COLUMNA PETS ALLOWED BOOLEANO
df_airbnb["PETS ALLOWED"] = df_airbnb["AMENITIES"].str.contains("PETS ALLOWED")

#COLUMNA ELEVATOR BOOLEANO
df_airbnb["ELEVATOR IN BUILDING"] = df_airbnb["AMENITIES"].str.contains("ELEVATOR IN BUILDING")

#AÑADO LAS COLUMNAS DE AMENITIES MÁS POPULARES EN DE BÚSQUEDA EN AIRBNB


'INTERNET,WIRELESS INTERNET,AIR CONDITIONING,KITCHEN,HEATING,FAMILY/KID FRIENDLY,WASHER,DRYER,SMOKE DETECTOR,CARBON MONOXIDE DETECTOR,ESSENTIALS,SHAMPOO,HANGERS,HAIR DRYER,IRON,LAPTOP FRIENDLY WORKSPACE'

In [97]:
#Compruebo que las columnas se han creado correctamente
    #Aleatoriamente:

df_airbnb["ELEVATOR IN BUILDING"]

        #Es correcto

0         True
1        False
2         True
3        False
4         True
         ...  
14775     True
14776     True
14777     True
14778    False
14779     True
Name: ELEVATOR IN BUILDING, Length: 14780, dtype: object

In [None]:
"""
También podemos utilizar la siguiente función para generar estas columnas"""

"""
def find_internet(amenities):
    return "Internet" in amenities

df_airbnb["Internet"] = df_airbnb["Amenities"].apply(find_internet)
"""



#############################
#  COLUMNA BOOLEANA SECUTIRY DEPOSIT #
#############################

In [137]:
"""Crear una columna "SECURITY_DEPOSIT_BOOL" que devuelva un booleano si la columna 
"SECURITY_DEPOSIT" es >0
"""

#Primero compruebo que security_deposit no contiene Nans

df_airbnb['SECURITY_DEPOSIT'].isna().sum()   #0   ok

#Creamos la columna SECURITY_DEPOSIT_BOOL

df_airbnb['SECURITY_DEPOSIT_BOOL'] = df_airbnb['SECURITY_DEPOSIT'] > 0





0         True
1         True
2        False
3         True
4         True
         ...  
14775    False
14776     True
14777     True
14778    False
14779     True
Name: SECURITY_DEPOSIT_BOOL, Length: 14780, dtype: bool

##########################
#  EXPORTAR EL DF FINAL  #
##########################

In [38]:
'''
Exportamos el df con CITY_CLEANSED = 'MADRID' en formato csv para poder tratarlo en Dveaber y posteriormente Tableau y R. Modifico el separador a comas para que no nos de problemas en el resto de programas
'''

df_airbnb_cleansed = df_airbnb[df_airbnb['CITY_CLEANSED' ] == 'MADRID']

df_airbnb_cleansed.to_csv(r'/Users/laura/Desktop/Proyecto final KeepCoding Tella Group', index=False, sep=',')

IsADirectoryError: [Errno 21] Is a directory: '/Users/laura/Desktop/Proyecto final KeepCoding Tella Group'