**Primeramente vamos a realizar la importación de las librerias necesarias para el desarrollo de la práctica**

In [4]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
%matplotlib inline

cm = plt.cm.RdBu
cm_bright = ListedColormap(['#FF0000', '#0000FF'])

import warnings
warnings.filterwarnings('ignore')

**Realizamos la lectura del csv que vamos a analizar y lo guardamos en una variable(full_df). Como el análisis lo vamos a realizar sobre las viviendas de Madrid, antes de realizar 
la división en train y test filtramos para obtener unicamente las viviendas de interés**

In [6]:
from sklearn.model_selection import train_test_split
full_df = pd.read_csv('dataframes/airbnb-listings-extract.csv', sep=';', decimal='.')

In [57]:
print('Comprobamos cuantas ciudades hay en el dataframe \n')
pd.options.display.max_rows=None 
print(full_df['City'].value_counts())
#Vamos a filtrar la columna city obteniendo las filas que contengan la palabra madrid
full_df['City'] = full_df['City'].fillna('')
full_df_madrid = full_df[full_df.City.str.contains('madrid', case=False)]
print('-----------------------------------------------\n')
print(f'Tras el filtrado realizado teniendo en cuenta unicamente la ciudad de Madrid hemos eliminado el {round(((full_df.shape[0]-full_df_madrid.shape[0])/full_df.shape[0])*100,2)}% de las filas.')

Comprobamos cuantas ciudades hay en el dataframe 

Madrid                                 13207
Barcelona                                292
London                                   132
Paris                                    108
马德里                                       52
Palma                                     49
Dublin                                    40
Berlin                                    40
Alcúdia                                   40
New York                                  38
Roma                                      37
Los Angeles                               35
Brooklyn                                  27
Amsterdam                                 26
Wien                                      25
Madrid, Comunidad de Madrid, ES           20
Rome                                      18
Palma de Mallorca                         16
Toronto                                   14
Washington                                14
Inca                                      13
Selv

**En la siguiente celda vamos a realizar la división del dataframe en train y test y su posterior guardado en formato csv**

In [147]:
train, test = train_test_split(full_df_madrid, test_size=0.2, shuffle=True, random_state=0)

print(f'Dimensiones del dataset de training: {train.shape}')
print(f'Dimensiones del dataset de test: {test.shape}')

# Guardamos
train.to_csv('dataframes/train.csv', sep=';', decimal='.', index=False)
test.to_csv('dataframes/test.csv', sep=';', decimal='.', index=False)

Dimensiones del dataset de training: (10596, 89)
Dimensiones del dataset de test: (2649, 89)


In [148]:
# A partir de este momento cargamos el dataset de train y trabajamos ÚNICAMENTE con él. 
df = pd.read_csv('dataframes/train.csv', sep=';', decimal='.')

**En el siguiente paso vamos a realizar un análisis exploratorio del df con el que vamos a trabajar**

In [137]:
pd.options.display.max_columns=None 
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,10596.0,10403930.0,5520123.0,18628.0,5786814.0,11521450.0,15370160.0,18109180.0
Scrape ID,10596.0,20170410000000.0,4.343955,20170410000000.0,20170410000000.0,20170410000000.0,20170410000000.0,20170410000000.0
Host ID,10596.0,37350130.0,34356630.0,17453.0,7649063.0,27341850.0,57058800.0,124753400.0
Host Response Rate,9278.0,94.83994,15.24988,0.0,100.0,100.0,100.0,100.0
Host Acceptance Rate,0.0,,,,,,,
Host Listings Count,10593.0,9.799113,27.74508,0.0,1.0,2.0,5.0,265.0
Host Total Listings Count,10593.0,9.799113,27.74508,0.0,1.0,2.0,5.0,265.0
Latitude,10596.0,40.42052,0.02015372,40.33189,40.41005,40.41865,40.42779,40.56274
Longitude,10596.0,-3.697153,0.02356882,-3.863907,-3.707707,-3.701551,-3.693819,-3.573613
Accommodates,10596.0,3.19026,2.000907,1.0,2.0,2.0,4.0,16.0


**Tras realizar una primera visualización del tipo de columnas que tiene el DF, se observa que existen muchas columnas que en principio no serían relevantes para el análisis que vamos a realizar o que unicamente contiene NA o tienen muy pocas filas con dicha información como puede ser el precio semanal o mensual o que contienen información redundante. Si que es verdad que probablemente se podría intentar categorizar de alguna forma alguna de las dimensiones extrayendo algún tipo de información de interés, como la descripción pero sería un trabajo que a priori sería tedioso.**

**Creamos una función para trasnformar el DF en la que añadimos una columna en la que calculamos los metros cuadrados y eliminamos las columnas irrelevantes:**

In [149]:
def trasnformDF(df):
    #Realizamos el cálculo de los metros cuadrados 
    df['Square Meters'] = df['Square Feet']*0.092903
    
    #Creamos una varible con las dimensiones a eliminar
    colums_to_remove = ['ID','Host ID','Listing Url','Scrape ID','Last Scraped','Name','Summary','Space','Description','Experiences Offered','Neighborhood Overview','Notes','Transit',
                    'Access','Interaction','House Rules','Thumbnail Url','Medium Url','Picture Url','XL Picture Url','Host URL','Host Name','Host About', 'Host Response Rate',
                    'Calculated host listings count','Host Thumbnail Url','Host Picture Url','Host Verifications','Features','Square Feet','Host Acceptance Rate','Has Availability',
                    'Jurisdiction Names','Latitude','Longitude','Weekly Price','Monthly Price','Country','License','Geolocation','Calendar last Scraped','Calendar Updated']
    return df.drop(colums_to_remove,axis=1)
    


In [150]:
#Realizamos la llamada a la función para realizar la transformación del DF
df = trasnformDF(df)

In [154]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Host Listings Count,10593.0,9.799113,27.745077,0.0,1.0,2.0,5.0,265.0
Host Total Listings Count,10593.0,9.799113,27.745077,0.0,1.0,2.0,5.0,265.0
Accommodates,10596.0,3.19026,2.000907,1.0,2.0,2.0,4.0,16.0
Bathrooms,10559.0,1.251776,0.602483,0.0,1.0,1.0,1.0,8.0
Bedrooms,10580.0,1.29121,0.822789,0.0,1.0,1.0,2.0,10.0
Beds,10558.0,1.99176,1.527565,1.0,1.0,2.0,2.0,16.0
Price,10588.0,66.068946,56.414585,9.0,30.0,52.0,80.0,875.0
Security Deposit,4479.0,183.243804,108.81075,70.0,100.0,150.0,200.0,990.0
Cleaning Fee,6241.0,29.492069,25.72034,4.0,15.0,25.0,35.0,500.0
Guests Included,10596.0,1.573801,1.076905,1.0,1.0,1.0,2.0,15.0


In [160]:
df.dtypes


Host Since                       object
Host Location                    object
Host Response Time               object
Host Neighbourhood               object
Host Listings Count             float64
Host Total Listings Count       float64
Street                           object
Neighbourhood                    object
Neighbourhood Cleansed           object
Neighbourhood Group Cleansed     object
City                             object
State                            object
Zipcode                          object
Market                           object
Smart Location                   object
Country Code                     object
Country                          object
Property Type                    object
Room Type                        object
Accommodates                      int64
Bathrooms                       float64
Bedrooms                        float64
Beds                            float64
Bed Type                         object
Amenities                        object


In [174]:
#aqui podia intentar sacar algun tipo de columna con estas caracteristicas
# full_df['City'] = full_df['City'].fillna('')
# full_df_madrid = full_df[full_df.City.str.contains('madrid', case=False)]

df['Amenities'] = df['Amenities'].fillna('')

df[df['Amenities'].str.contains('pet',case=False)].shape

(2288, 53)

In [175]:
df['Amenities'].value_counts()

                                                                                                                                                                                                                                              91
TV,Internet,Wireless Internet,Air conditioning,Kitchen,Elevator in building,Buzzer/wireless intercom,Heating,Family/kid friendly,Washer,Essentials,Hangers,Hair dryer,Iron,Laptop friendly workspace                                          31
TV,Wireless Internet,Air conditioning,Kitchen,Elevator in building,Heating,Family/kid friendly,Washer,Dryer,Essentials,Shampoo,Hangers,Hair dryer,Iron                                                                                        29
translation missing: en.hosting_amenity_49,translation missing: en.hosting_amenity_50                                                                                                                                                         27
TV,Internet,Wireless Internet,Air co