# Análisis Exploratorio: Dataset de Airbnb

## Objetivos

El objetivo de este análisis es responder preguntas específicas sobre un dataset real de Airbnb, aplicando técnicas de exploración y análisis de datos.

## Configuración del entorno

In [144]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## Carga de los datos
Como en otras ocasiones cargaremos los datos de un fichero csv.

In [145]:
df = pd.read_csv('dataset_airbnb_madrid.csv')

Una vez cargados los datos debemos inspeccionarlos, antes de empezar nuestro análisis.

In [146]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13335 entries, 0 to 13334
Data columns (total 95 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   id                                13335 non-null  int64  
 1   listing_url                       13335 non-null  object 
 2   scrape_id                         13335 non-null  int64  
 3   last_scraped                      13335 non-null  object 
 4   name                              13335 non-null  object 
 5   summary                           12846 non-null  object 
 6   space                             9700 non-null   object 
 7   description                       13329 non-null  object 
 8   experiences_offered               13335 non-null  object 
 9   neighborhood_overview             8308 non-null   object 
 10  notes                             5037 non-null   object 
 11  transit                           8264 non-null   object 
 12  acce

In [147]:
df.head()

Unnamed: 0,id,listing_url,scrape_id,last_scraped,name,summary,space,description,experiences_offered,neighborhood_overview,notes,transit,access,interaction,house_rules,thumbnail_url,medium_url,picture_url,xl_picture_url,host_id,host_url,host_name,host_since,host_location,host_about,host_response_time,host_response_rate,host_acceptance_rate,host_is_superhost,host_thumbnail_url,host_picture_url,host_neighbourhood,host_listings_count,host_total_listings_count,host_verifications,host_has_profile_pic,host_identity_verified,street,neighbourhood,neighbourhood_cleansed,neighbourhood_group_cleansed,city,state,zipcode,market,smart_location,country_code,country,latitude,longitude,is_location_exact,property_type,room_type,accommodates,bathrooms,bedrooms,beds,bed_type,amenities,square_feet,price,weekly_price,monthly_price,security_deposit,cleaning_fee,guests_included,extra_people,minimum_nights,maximum_nights,calendar_updated,has_availability,availability_30,availability_60,availability_90,availability_365,calendar_last_scraped,number_of_reviews,first_review,last_review,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,requires_license,license,jurisdiction_names,instant_bookable,cancellation_policy,require_guest_profile_picture,require_guest_phone_verification,calculated_host_listings_count,reviews_per_month
0,7830063,https://www.airbnb.com/rooms/7830063,20170407214119,2017-04-08,Quiet room in Plaza Mayor,Room in magnificent property in the historic c...,"Based in the historic center of Madrid, to 1 m...",Room in magnificent property in the historic c...,none,"In the historic heart of Madrid, near the Plaz...",Check-in from 21:00 to 23:00 has an extra char...,Very well connected by buses and subwa (Tirso ...,Quiet room on the first floor of historic buil...,Maps and all kind of information and recommend...,Please respect the silence of the other guests...,https://a0.muscache.com/im/pictures/99669989/f...,https://a0.muscache.com/im/pictures/99669989/f...,https://a0.muscache.com/im/pictures/99669989/f...,https://a0.muscache.com/im/pictures/99669989/f...,41032693,https://www.airbnb.com/users/show/41032693,Bluekitchen,2015-08-10,"Madrid, Community of Madrid, Spain",Somos dos amigos de la infancia de Madrid que ...,within an hour,100%,,f,https://a0.muscache.com/im/users/41032693/prof...,https://a0.muscache.com/im/users/41032693/prof...,La Latina,7.0,7.0,"['email', 'phone', 'reviews', 'jumio']",t,t,"La Latina, Madrid, Comunidad de Madrid 28005, ...",La Latina,Palacio,Centro,Madrid,Comunidad de Madrid,28005,Madrid,"Madrid, Spain",ES,Spain,40.412275,-3.708718,t,House,Private room,2,2.0,1.0,2.0,Real Bed,"{TV,Internet,""Wireless Internet"",Kitchen,Doorm...",,$42.00,$300.00,"$1,200.00",$100.00,$15.00,2,$0.00,2,30,2 weeks ago,,4,13,37,165,2017-04-08,100,2015-08-23,2017-04-02,92.0,9.0,9.0,10.0,10.0,10.0,9.0,t,,,t,moderate,f,f,7,5.04
1,9898596,https://www.airbnb.com/rooms/9898596,20170407214119,2017-04-08,Homely apartment in the heart of Madrid,"Spacious apartment for up to 10 people, with a...",This spacious apartment is located in the cent...,"Spacious apartment for up to 10 people, with a...",none,The Living Santa Ana Apartments are located in...,,We are 3m walk from the La Latina subway.,,"During his stay, please contact us if you have...",The apartment is located in a community of nei...,https://a0.muscache.com/im/pictures/f3336e14-5...,https://a0.muscache.com/im/pictures/f3336e14-5...,https://a0.muscache.com/im/pictures/f3336e14-5...,https://a0.muscache.com/im/pictures/f3336e14-5...,50908516,https://www.airbnb.com/users/show/50908516,Daniel,2015-12-09,"Madrid, Community of Madrid, Spain","Somos Amanda y Dani, tenemos este establecimie...",within an hour,100%,,f,https://a0.muscache.com/im/pictures/0061d173-a...,https://a0.muscache.com/im/pictures/0061d173-a...,La Latina,1.0,1.0,"['email', 'phone', 'reviews', 'jumio']",t,t,"La Latina, Madrid, Comunidad de Madrid 28005, ...",La Latina,Palacio,Centro,Madrid,Comunidad de Madrid,28005,Madrid,"Madrid, Spain",ES,Spain,40.411093,-3.708985,t,Apartment,Entire home/apt,10,1.0,3.0,9.0,Real Bed,"{TV,Internet,""Wireless Internet"",""Wheelchair a...",,$135.00,,,$200.00,$40.00,6,$15.00,1,1125,today,,0,5,14,230,2017-04-08,68,2015-12-31,2017-04-04,93.0,9.0,9.0,10.0,10.0,10.0,9.0,t,,,t,moderate,f,f,1,4.39
2,15334645,https://www.airbnb.com/rooms/15334645,20170407214119,2017-04-08,Piso Muy Luminoso en pleno centro de Madrid,"Lugares de interés: Casa Lucio, Cine Doré, Cal...",Lo mejor es su ubicación en pleno centro de Ma...,"Lugares de interés: Casa Lucio, Cine Doré, Cal...",none,La zona de la Latina es un área cultural y un ...,,"Por Metro se llega rápidamente en la Línea 5, ...",El apartamento está a disposición de los huésp...,Estamos siempre disponibles a través del teléf...,,https://a0.muscache.com/im/pictures/0f339adf-b...,https://a0.muscache.com/im/pictures/0f339adf-b...,https://a0.muscache.com/im/pictures/0f339adf-b...,https://a0.muscache.com/im/pictures/0f339adf-b...,97753616,https://www.airbnb.com/users/show/97753616,Will,2016-10-03,"Madrid, Community of Madrid, Spain","Mi nombre es Will, Venezolano, vivo en Madrid,...",within an hour,94%,,t,https://a0.muscache.com/im/pictures/548b727a-d...,https://a0.muscache.com/im/pictures/548b727a-d...,La Latina,1.0,1.0,"['email', 'phone', 'reviews']",t,f,"La Latina, Madrid, Comunidad de Madrid 28005, ...",La Latina,Palacio,Centro,Madrid,Comunidad de Madrid,28005,Madrid,"Madrid, Spain",ES,Spain,40.413587,-3.708945,t,Apartment,Entire home/apt,2,1.0,1.0,1.0,Real Bed,"{TV,""Wireless Internet"",""Air conditioning"",Kit...",,$81.00,,,,$15.00,2,$10.00,1,1125,2 days ago,,4,17,31,287,2017-04-08,34,2016-10-08,2017-03-21,93.0,9.0,9.0,9.0,9.0,10.0,9.0,t,,,t,strict,f,f,1,5.57
3,1307795,https://www.airbnb.com/rooms/1307795,20170407214119,2017-04-08,Rent room in the heart of Madrid,,"Very nice room , whith private bath , in a bea...","Very nice room , whith private bath , in a bea...",none,,,,,,,https://a0.muscache.com/im/pictures/19716668/b...,https://a0.muscache.com/im/pictures/19716668/b...,https://a0.muscache.com/im/pictures/19716668/b...,https://a0.muscache.com/im/pictures/19716668/b...,1877614,https://www.airbnb.com/users/show/1877614,Fabio,2012-03-07,"Madrid, Madrid, Spain","Se habla , frances , ingles, italiano , español",within an hour,100%,,t,https://a0.muscache.com/im/users/1877614/profi...,https://a0.muscache.com/im/users/1877614/profi...,,1.0,1.0,"['email', 'phone', 'facebook', 'reviews']",t,f,"Madrid, Community of Madrid 28013, Spain",,Palacio,Centro,Madrid,Community of Madrid,28013,Madrid,"Madrid, Spain",ES,Spain,40.419936,-3.70918,f,Apartment,Private room,2,1.0,1.0,1.0,Real Bed,"{TV,Internet,""Wireless Internet"",""Air conditio...",0.0,$43.00,$240.00,$480.00,,,1,$10.00,3,1125,3 weeks ago,,1,1,28,303,2017-04-08,11,2013-07-16,2017-03-06,98.0,10.0,10.0,10.0,10.0,10.0,10.0,t,,,f,strict,f,f,1,0.24
4,17410608,https://www.airbnb.com/rooms/17410608,20170407214119,2017-04-08,Luxury duplex penthouse in historic building,Amazing duplex penthouse in a historic buildin...,It is located in an emblematic building with e...,Amazing duplex penthouse in a historic buildin...,none,"""Madrid de los Austrias ""is a beautiful neighb...",Situado en pleno corazón del Madrid más histór...,El piso está situado a 300 metros de la parada...,All elements in my flat are available to guests,I will be happy to help you whenever you need it,"Piso adecuado para parejas, familias o amigos,...",https://a0.muscache.com/im/pictures/268edf49-c...,https://a0.muscache.com/im/pictures/268edf49-c...,https://a0.muscache.com/im/pictures/268edf49-c...,https://a0.muscache.com/im/pictures/268edf49-c...,9885245,https://www.airbnb.com/users/show/9885245,Jorge,2013-11-08,"Madrid, Community of Madrid, Spain",,within an hour,100%,,f,https://a0.muscache.com/im/users/9885245/profi...,https://a0.muscache.com/im/users/9885245/profi...,Hortaleza,13.0,13.0,"['email', 'phone', 'reviews', 'jumio']",t,t,"La Latina, Madrid, Comunidad de Madrid 28005, ...",La Latina,Palacio,Centro,Madrid,Comunidad de Madrid,28005,Madrid,"Madrid, Spain",ES,Spain,40.410894,-3.712537,t,Apartment,Entire home/apt,4,1.5,2.0,2.0,Real Bed,"{TV,Internet,""Wireless Internet"",""Air conditio...",,$50.00,,,$250.00,$20.00,2,$25.00,1,1125,yesterday,,7,34,59,334,2017-04-08,6,2017-02-26,2017-04-03,100.0,10.0,9.0,10.0,10.0,10.0,10.0,t,,,f,strict,f,f,13,4.29


'id', 
'listing_url', 
'scrape_id', 
'last_scraped', 
'name', 
'summary',
'space', 
'description', 
'experiences_offered',
'neighborhood_overview',
'notes', 
'transit', 
'access', 
'interaction', 
'house_rules',
'thumbnail_url', 
'medium_url',
    'picture_url', 
    'xl_picture_url',
'host_id', 
'host_url', 
'host_name', 
'host_since', 
'host_location',
'host_about', 
'host_response_time',
'host_response_rate',
'host_acceptance_rate', 
'host_is_superhost', 
'host_thumbnail_url',
'host_picture_url', 
'host_neighbourhood',
'host_listings_count',
'host_total_listings_count', 
'host_verifications',
'host_has_profile_pic', 
'host_identity_verified', 
'street',
'neighbourhood', 
'neighbourhood_cleansed',
'neighbourhood_group_cleansed', 
'city', 
'state', 
'zipcode',
'market',
'smart_location', 
'country_code',
'country', 
'latitude', 
'longitude',
'is_location_exact',
'property_type', 
'room_type',
'accommodates',
'bathrooms', 
'bedrooms', 
'beds', 
'bed_type',
'amenities', 
'square_feet',
'price', 
'weekly_price',
'monthly_price', 
'security_deposit',
'cleaning_fee', 
'guests_included',
'extra_people', 
'minimum_nights',
'maximum_nights', 
'calendar_updated', 
'has_availability',
'availability_30',
'availability_60', 
'availability_90',
'availability_365', 
'calendar_last_scraped',
'number_of_reviews',
'first_review', 
'last_review',
'review_scores_rating',
'review_scores_accuracy', 
'review_scores_cleanliness',
'review_scores_checkin',
'review_scores_communication',
'review_scores_location',
'review_scores_value', 
'requires_license',
'license', 
'jurisdiction_names',
'instant_bookable',
'cancellation_policy',
'require_guest_profile_picture',
'require_guest_phone_verification',
'calculated_host_listings_count',
'reviews_per_month'

## ¿Cuántos alojamientos tienen fotos?

In [148]:
print("Alojamientos con fotos: ", df.picture_url.count())

Alojamientos con fotos:  13335


## ¿Cuál es el porcentaje de originalidad de las descripciones?

In [149]:
total_descripciones = df.description.count()
print("Total de descripciones: ", total_descripciones)

descripciones_unicas = df.description.nunique()
print("Descripciones únicas: ", descripciones_unicas)

porcentaje_originalidad = descripciones_unicas/total_descripciones*100
print("Porcentaje de originalidad de las descripciones: ", porcentaje_originalidad.round(2), "%")


Total de descripciones:  13329
Descripciones únicas:  12873
Porcentaje de originalidad de las descripciones:  96.58 %


## ¿Cuántos alojamientos tiene de media cada dueño?

In [150]:
df.host_listings_count.describe()

count    13332.000000
mean         9.777453
std         27.812982
min          0.000000
25%          1.000000
50%          2.000000
75%          5.000000
max        519.000000
Name: host_listings_count, dtype: float64

In [151]:
#La media de alojamientos por dueño
media_alojamientos = df.host_listings_count.mean()
print(f"Número medio de alojamientos por dueño: {media_alojamientos:.2f}")

Número medio de alojamientos por dueño: 9.78


## ¿Cuáles son los 10 dueños que más alojamientos tienen?

In [152]:
df_top10_host = df.sort_values(by="host_listings_count", ascending=False).head(10)
print(df_top10_host.host_name  + ": " + df_top10_host.host_listings_count.astype(int).astype(str))

11246     Jason: 519
1339       Loic: 265
3730     Javier: 207
113      Javier: 207
2347     Javier: 207
4634     Javier: 207
3022     Javier: 207
2241     Javier: 207
452      Javier: 207
5102     Javier: 207
dtype: object


## ¿Cuántos alojamientos tiene Airbnb en Madrid?
Tip: te recomiento que borres todos los alojamientos que no estén en Madrid y luego los cuentes.

In [153]:
df[["city", "country"]].value_counts()

city                                 country
Madrid                               Spain      13191
马德里                                  Spain         52
Madrid, Comunidad de Madrid, ES      Spain         20
Madrid                               Spain         15
madrid                               Spain          8
Pozuelo de Alarcón                   Spain          4
                                     Spain          3
馬德里                                  Spain          2
Motilla del Palancar                 Spain          2
Pozuelo                              Spain          2
San Fernando de Henares              Spain          2
Chueca                               Spain          2
San Lázaro                           Spain          1
villa verde bajo                     Spain          1
Onil                                 Spain          1
Málaga                               Spain          1
Valderrodrigo                        Spain          1
Malaga                               

In [154]:
# Según google esto: 馬德里 y 马德里 es madrid

# Definir ciudades que no son Madrid
ciudades_no_madrid = [
    'Barcelona', 
    'Málaga', 
    'Malaga', 
    'Chiva', 
    'Onil', 
    'La Habana', 
    'Motilla del Palancar',
]

# Crear una copia limpia del DataFrame
df_madrid = df.copy()

# Limpiar la columna city de manera más exhaustiva
df_madrid['city'] = (df_madrid['city']
    .fillna('')                      
    .astype(str)                     # Convertir todo a string
    .str.strip()                     # Eliminar espacios al inicio y final
)

# Filtrar el DataFrame
df_madrid = df_madrid[
    # Eliminar filas con ciudad vacía, espacios o longitud cero
    (df_madrid['city'] != '') & 
    (df_madrid['city'] != ' ') & 
    (df_madrid['city'].str.len() > 0) &
    # Eliminar las ciudades no deseadas
    (~df_madrid['city'].isin(ciudades_no_madrid))
]

# Verificar el resultado con ambas columnas
print(df_madrid[["city", "country"]].value_counts())

# Nota: no soy de España, por lo que se me puede haber pasado algún error.

city                                 country
Madrid                               Spain      13207
马德里                                  Spain         52
Madrid, Comunidad de Madrid, ES      Spain         20
madrid                               Spain          8
Pozuelo de Alarcón                   Spain          4
馬德里                                  Spain          2
Chueca                               Spain          2
MADRID                               Spain          2
San Fernando de Henares              Spain          2
Pozuelo                              Spain          2
Madrid, Vallecas (Fontarrón)         Spain          1
villa verde bajo                     Spain          1
las matas  madrid                    Spain          1
Ventas                               Spain          1
Valderrodrigo                        Spain          1
San Lázaro                           Spain          1
Boadilla del Monte                   Spain          1
Madrid, Comunidad de Madrid, ESPANA  

In [155]:
# Cuantos alojamientos hay en Madrid?
print("Alojamientos en Madrid: ", df_madrid.city.count())

Alojamientos en Madrid:  13321


## ¿Cuántos alojamientos requieren licencia?

In [156]:
# Contar alojamientos que requieren licencia en Madrid
alojamientos_requieren_licencia = df_madrid[df_madrid['requires_license'] == 't'].shape[0]
print(f"Alojamientos que requieren licencia: {alojamientos_requieren_licencia}")

# Para verificar también los que no requieren en Madrid
#alojamientos_que_no_requieren_licencia = df_madrid[df_madrid['requires_license'] == 'f'].shape[0]
#print(f"Alojamientos que NO requieren licencia: {alojamientos_que_no_requieren_licencia}")


Alojamientos que requieren licencia: 13320


## ¿Cuántos alojamientos que requieren licencia realmente la tienen?

In [157]:
#Está dificil responder esta pregunta, ya que en el campo license hay que hacer limpieza de los datos

# Ver los datos de la columna license
df_madrid['license'].value_counts()

license
VT1046                                                                                   3
VT-2043                                                                                  2
VT411                                                                                    2
VT1003                                                                                   2
VT746                                                                                    2
B87667465                                                                                2
VT 1002                                                                                  2
VT-2114                                                                                  1
VT281                                                                                    1
VT-1445                                                                                  1
VT-1831                                                                           

In [158]:
# 1. Crear la nueva columna
df_madrid['license_clean'] = ''

# 2. Procesar todas las licencias que contienen VT
mask_vt = df_madrid['license'].str.contains('VT', na=False)
for idx, row in df_madrid[mask_vt].iterrows():
    texto = row['license']
    inicio = texto.find('VT')
    if inicio != -1:
        # Extraer desde VT hasta el final
        texto_limpio = texto[inicio:]
        
        # Eliminar todos los caracteres que no sean números, excepto VT
        numeros = ''.join(c for c in texto_limpio if c.isdigit())
        if numeros:  # si encontramos números
            texto_limpio = f"VT-{numeros}"
            df_madrid.at[idx, 'license_clean'] = texto_limpio



# Encontrar casos donde license tiene valor pero license_clean está vacío
licencias_sin_limpiar = df_madrid[
    (df_madrid['license'].notna()) & 
    (df_madrid['license'] != '') &
    (df_madrid['license_clean'] == '')
]

print("Licencias originales que no se limpiaron:")
print(licencias_sin_limpiar['license'].value_counts())
print(f"\nTotal de licencias sin limpiar: {len(licencias_sin_limpiar)}")

Licencias originales que no se limpiaron:
license
B87667465                                                                                2
Registro de entrada 03/046097.9/17                                                       1
03/778860.9/17                                                                           1
No necesita                                                                              1
B82957895                                                                                1
EBM961777484                                                                             1
03/432068.9/16                                                                           1
En la comunidad de Madrid no es necesario registro o inscripción para esta actividad.    1
50111329x                                                                                1
03/078803.9/17                                                                           1
4437209                                 

In [159]:
# Contar alojamientos con licencia sin limpiar
alojamientos_con_licencia_sin_limpiar = df_madrid[
    (df_madrid['license'].notna()) & 
    (df_madrid['license'].str.strip() != '')
].shape[0]
alojamientos_con_licencia_sin_limpiar

alojamientos_con_licencia_limpias = df_madrid[
    df_madrid['license_clean'] != ''
].shape[0]
alojamientos_con_licencia_limpias

# Sin conocer los datos me es dificil seguir haciendo limpieza de los datos, creo que ninguno de los datos es correcto.
# A priori se observa que en el campo license hay datos erroneos,
# En la variable  sin_limpiar considero todo como valido en en la varieble limpio creo que me faltan otras condiciones

# En concreto, respondiendo a la pregunta:
print("Alojamientos que requieren licencia: (Madrid)" , alojamientos_requieren_licencia)
#Alojamientos que tienen licencia sin limpiar
print("Alojamientos que tienen licencia: (Madrid)" , alojamientos_con_licencia_sin_limpiar)
#Alojamientos que tienen licencia limpias
print("Alojamientos que tienen licencia: (Madrid) -limpias-" , alojamientos_con_licencia_limpias)

Alojamientos que requieren licencia: (Madrid) 13320
Alojamientos que tienen licencia: (Madrid) 249
Alojamientos que tienen licencia: (Madrid) -limpias- 218


## ¿Cuántos alojamientos que requieren licencia realmente no la tienen?

In [160]:
#Igual que el caso anterior, considero license lleno como valido (aunque a priori no lo es)

# Alojamientos que requieren licencia pero no la tienen
alojamientos_sin_licencia = df_madrid[
    (df_madrid['requires_license'] == 't') & # Requieren licencia
    (
        (df_madrid['license'].isna()) | # No tienen licencia (NaN)
        (df_madrid['license'].str.strip() == '') # O tienen string vacío
    )
].shape[0]

print(f"Alojamientos que requieren licencia pero no la tienen: {alojamientos_sin_licencia}")

#Ahora considerando la columna license_clean que tampoco considera todos los casos por lo que podrian faltar registros
alojamientos_sin_licencia_clean = df_madrid[
    (df_madrid['requires_license'] == 't') & # Requieren licencia
    (df_madrid['license_clean'] == '') # No tienen licencia (NaN)
].shape[0]

print(f"Alojamientos que requieren licencia pero no la tienen -datos limpios-: {alojamientos_sin_licencia_clean}")

Alojamientos que requieren licencia pero no la tienen: 13071
Alojamientos que requieren licencia pero no la tienen -datos limpios-: 13102


## ¿Cual es el código postal con precio medio más caro de madrid?
Tip: excluye zipcodes atípicos y arregla los zipcodes que se puedan.

In [161]:
#Ver los datos de la columna zipcode
df_madrid.zipcode.value_counts()

zipcode
28012           2065
28004           1803
28005           1195
28013           1019
28014            632
28015            600
28045            500
28010            384
28008            338
28028            264
28011            252
28001            231
28006            219
28009            217
28007            206
28019            202
28020            196
28003            186
28002            172
28039            162
28025            124
28027            124
28029            112
28017            111
28043            103
28026             93
28042             91
28033             90
28053             87
28038             79
28016             78
28035             76
28030             73
28047             67
28036             67
28037             66
28041             65
28021             61
28050             58
28034             49
28024             44
28018             43
28023             37
28032             33
28046             32
28022             30
28031             27
28040

In [162]:
df_madrid.zipcode.info()

<class 'pandas.core.series.Series'>
Index: 13321 entries, 0 to 13334
Series name: zipcode
Non-Null Count  Dtype 
--------------  ----- 
12882 non-null  object
dtypes: object(1)
memory usage: 724.2+ KB


In [163]:
#Ver los datos de la columna price
df_madrid.price.describe()

count      13321
unique       304
top       $50.00
freq         614
Name: price, dtype: object

In [164]:
# 1. Limpiar y convertir la columna de precios
df_madrid['price'] = (df_madrid['price']
    .str.replace('$', '')  # Quitar el símbolo $
    .str.replace(',', '')  # Quitar las comas
    .astype(float)  # Convertir a float
)
df_madrid.price.describe()

count    13321.000000
mean        69.000676
std        103.400483
min          9.000000
25%         31.000000
50%         53.000000
75%         80.000000
max       7700.000000
Name: price, dtype: float64

In [166]:
# 2. Limpiar los códigos postales
def clean_zipcode(zipcode):
    if pd.isna(zipcode):
        return None
    
    # Convertir a string y limpiar espacios
    zipcode = str(zipcode).strip()
    
    # Extraer solo los números
    nums = ''.join(c for c in zipcode if c.isdigit())
    
    # Validar que sea un código postal de Madrid (28XXX)
    if len(nums) >= 5 and nums[:2] == '28':
        return int(nums[:5])  # Tomar solo los primeros 5 dígitos
    return None

df_madrid['zipcode'] = df_madrid['zipcode'].apply(clean_zipcode)


In [173]:
# 3. Calcular precio medio por código postal
precio_medio_por_cp = (df_madrid
    .groupby('zipcode')['price']
    .agg(['mean', 'count'])
    .round(2)
)

# 4. Filtrar solo códigos postales válidos y con suficientes muestras
precio_medio_por_cp_filtered = precio_medio_por_cp[
    (precio_medio_por_cp.index.notna()) &  # Eliminar None/NaN
    (precio_medio_por_cp['count'] > 5)  # Mínimo 5 muestras
]

In [175]:
# 5. Ordenar por precio medio y mostrar los top 5
print("Top 5 códigos postales más caros (con más de 5 alojamientos):")
print(precio_medio_por_cp_filtered.sort_values('mean', ascending=False).head())

# Mostrar el código postal más caro
cp_mas_caro = precio_medio_por_cp_filtered.sort_values('mean', ascending=False).iloc[0]
print(f"\nEl código postal más caro es {int(cp_mas_caro.name)} con un precio medio de {cp_mas_caro['mean']:.2f}€")

Top 5 códigos postales más caros (con más de 5 alojamientos):
           mean  count
zipcode               
28023.0  147.95     37
28035.0  147.71     76
28040.0  132.45     20
28001.0  125.29    232
28016.0  109.14     78

El código postal más caro es 28023 con un precio medio de 147.95€


## ¿En que rango se mueven los precios de los alojamientos en madrid?

In [176]:
# Calcular estadísticas descriptivas de los precios
stats_precios = df_madrid['price'].describe(percentiles=[.05, .25, .50, .75, .95])

print("Estadísticas de precios en Madrid:")
print(f"Precio mínimo: {stats_precios['min']:.2f}€")
print(f"5% de los precios están por debajo de: {stats_precios['5%']:.2f}€")
print(f"25% de los precios están por debajo de: {stats_precios['25%']:.2f}€")
print(f"Precio medio: {stats_precios['mean']:.2f}€")
print(f"Precio mediano: {stats_precios['50%']:.2f}€")
print(f"75% de los precios están por debajo de: {stats_precios['75%']:.2f}€")
print(f"95% de los precios están por debajo de: {stats_precios['95%']:.2f}€")
print(f"Precio máximo: {stats_precios['max']:.2f}€")

Estadísticas de precios en Madrid:
Precio mínimo: 9.00€
5% de los precios están por debajo de: 18.00€
25% de los precios están por debajo de: 31.00€
Precio medio: 69.00€
Precio mediano: 53.00€
75% de los precios están por debajo de: 80.00€
95% de los precios están por debajo de: 160.00€
Precio máximo: 7700.00€


## (extra) ¿Cuales son los 10 atributos de la columna host_verifications? ¿Cuantas ocurrencias tiene cada uno de los 10?

In [179]:
df_madrid.host_verifications.value_counts()

host_verifications
['email', 'phone', 'reviews']                                                                                                              3325
['email', 'phone', 'reviews', 'jumio']                                                                                                     3079
['email', 'phone', 'reviews', 'jumio', 'government_id']                                                                                     818
['email', 'phone', 'facebook', 'reviews', 'jumio']                                                                                          724
['email', 'phone', 'facebook', 'reviews']                                                                                                   693
['email', 'phone']                                                                                                                          549
['email', 'phone', 'reviews', 'jumio', 'work_email']                                                                 

In [185]:
# 1. Convertir las strings de lista a listas reales y extraer los valores únicos
def extract_verifications(verification_str):
    # Quitar los corchetes y comillas
    verification_str = verification_str.strip('[]')
    # Separar por comas y limpiar cada elemento
    verifications = [v.strip().strip("'").strip('"') for v in verification_str.split(',')]
    return verifications

# 2. Crear una lista con todas las verificaciones
all_verifications = []
for verif_str in df_madrid['host_verifications'].dropna():
    all_verifications.extend(extract_verifications(verif_str))

# 3. Contar las ocurrencias usando Counter
from collections import Counter
verification_counts = Counter(all_verifications)

#Total tipos de verificaciones
print("Total tipos de host_verifications: ", len(verification_counts))

# 4. Mostrar los 10 más comunes
print("Top 10 verificaciones más comunes:")
for verification, count in verification_counts.most_common(10):
    print(f"{verification}: {count}")
    
    


Total tipos de host_verifications:  20
Top 10 verificaciones más comunes:
phone: 13187
email: 12853
reviews: 12058
jumio: 7515
facebook: 2704
government_id: 2553
work_email: 1150
google: 877
offline_government_id: 784
manual_offline: 395


## Conclusiones

* ¿Qué opinas de AirBnB en Madrid?

In [None]:
"""
Conclusiones sobre AirBnB en Madrid:

1. Concentración de propietarios:
   - Hay una gran concentración de propiedades en pocas manos (algunos dueños tienen más de 200 propiedades)
   - La media es de 9.78 alojamientos por dueño, pero la mediana es 2, lo que indica una gran desigualdad

2. Precios:
   - El rango de precios es muy amplio (9€ - 7700€)
   - El precio mediano es 53€, bastante más bajo que la media de 69€
   - El 90% de los alojamientos están entre 18€ y 160€
   - Hay una clara segmentación por zonas (los códigos postales más caros rondan los 150€ de media)

3. Verificaciones y seguridad:
   - La mayoría de hosts tienen verificaciones básicas (teléfono y email)
   - Solo cerca del 56% tienen verificación por jumio (13,187 teléfono vs 7,515 jumio)
   - Muy pocos tienen verificación gubernamental (2,553)

4. Regulación:
   - Casi todos los alojamientos requieren licencia (13,320)
   - Sin embargo, muy pocos la tienen realmente (solo 249)
   - Esto sugiere un problema importante de regulación y cumplimiento normativo

En resumen: AirBnB en Madrid muestra signos de profesionalización del sector (muchos propietarios múltiples), 
con precios generalmente accesibles pero con problemas de regulación y verificación. El mercado parece estar 
dominado por grandes propietarios más que por el concepto original de economía colaborativa.
"""