# Importación de librerías

In [268]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# Exploración básica de datos

#### id: identificador del alojamiento
#### name: caraterísticas del alojamiento
#### host_i: identificador del hospedador
#### host_name: nombre del hospedador
#### neighbourhood_group: nombre del Borough (distrito)
#### neighbourhood: vecindario
#### latitude: latitud
#### longitude: longitud
#### room_type: tipo de alojamiento
#### price: precio por noche
#### minimum_nights: mínimo de noches
#### number_of_reviews: número de visitas
#### last_review: última visitas
#### reviews_per_month: visitas por mes
#### calculated_host_listings_count: cantidad de huespedes aceptados
#### availability_365: disponibilidad durante el año

In [269]:
# Ver las primeras cinco entradas

df.head()

AttributeError: 'list' object has no attribute 'head'

In [None]:
# Ver el total de filas y columnas

df.shape

In [None]:
# Información sobre el dataset

df.info()

In [None]:
df.dtypes

In [None]:
# Total de datos perdidos

df.isnull().sum(axis =0)

## Los datos faltantes de las columnas "name", "host_name", "review_per_month" y "number_of_review", por sus características propias, carecen de relevancia para el análisis requerido

In [None]:
# Verificación de la existencia de datos duplicados

df.duplicated().sum()

In [None]:
# Lista de los 5 Boroughs de NYC

df.neighbourhood_group.unique()

In [None]:
# Con groupby hemos agrupado la información de los 5 Boroughs con el fin de consolidar los datos y visualizar la concentración de la oferta 

df.groupby("neighbourhood_group")["neighbourhood_group"].count()

In [None]:
# Total de vecindarios listados en los cinco Boroughs

len(df.neighbourhood.unique())

In [None]:
# Listado del total de vecindarios

df.neighbourhood.unique()

In [None]:
# Los 15 vecindarios con mayor concentración de demanda de alojamiento

df.neighbourhood.value_counts().head(15)

In [None]:
# Los quince principales propietarios de alojamientos vacacionales en los 5 Boroughs de NYC

top_host=df.host_id.value_counts().head(15)
top_host

In [None]:
# Confirmación del propietrio con más oferta listada para alquiler vacacional

top_host_check=df.calculated_host_listings_count.max()
top_host_check

In [None]:
top_host_check=df.calculated_host_listings_count.min()
top_host_check

In [None]:
# Total de la oferta por tipo de alojamiento

df.groupby("room_type")["room_type"].count()

In [None]:
# Media del precio por noche en los 5 Boroughs de NYC

df.groupby('neighbourhood_group')['price'].mean()

In [None]:
# Distribución por tipo de alojamiento y las distintas variables estadísticas del precio por cada uno los 5 Boroughs de NYC

df.groupby(['neighbourhood_group', 'room_type'])['price'].agg(['count', 'min', 'max', 'mean' ,'median', 'std'])

In [None]:
# Listado del precio máximo y mínimo en los 5 Boroughs de NYC

df.groupby('neighbourhood_group')['price'].agg(['min', 'max'])

In [None]:
# Descarte de columnas 

df.drop(['id', "name", "minimum_nights", "number_of_reviews", "last_review", "reviews_per_month", "calculated_host_listings_count" ], axis=1)

In [None]:
df1 = df[["neighbourhood_group", "neighbourhood", "room_type", "price", "availability_365" ]]

df1

In [None]:
df2 = df [["neighbourhood_group", "neighbourhood", "room_type", "price"]]

df2

In [None]:
df3 = df [["neighbourhood_group", "neighbourhood", "room_type"]]

df3

In [None]:
# Gráfica de los vecindarios más demandados

top_15 = df.neighbourhood.value_counts().head(15)
plt.figure(figsize=(8, 4))
x = list(top_10.index)
y = list(top_10.values)
x.reverse()
y.reverse()

plt.title('Neighbourhoods más demandados', size=20)
plt.ylabel('Number of hosts in this area')
plt.xlabel('Neighbourhood Area ')
plt.xticks( rotation='vertical', size=10)

plt.bar(x, y , color='blue')

In [None]:
# Visualización de los quince principales propietarios de alojamientos vacacionales en los 5 Boroughs de NYC

sns.set(rc={'figure.figsize':(15,10)})
v1=top_host.plot(kind='bar')
v1.set_title('The 15 hosts with the most listings in NYC')
v1.set_ylabel('Count of listings')
v1.set_xlabel('Host IDs')
v1.set_xticklabels(viz_1.get_xticklabels(), rotation=30)

In [None]:
# En los siguientes gráficos observamos los princpales tipos de alojamiento en los 15 vecindarios más demandados.
# La mayoría de los alojamientos más demandados se ubican en Manhattan y Brooklyn, siendo el home/apt la principal opción.


s1=df.loc[df['neighbourhood'].isin(['Williamsburg','Bedford-Stuyvesant','Harlem','Bushwick',
                 'Upper West Side','Hell\'s Kitchen','East Village','Upper East Side','Crown Heights','Midtown', 'East Harlem', 'Greenpoint', 'Lower East Side', 'Astoria'])]

v2=sns.catplot(x='neighbourhood', hue='neighbourhood_group', col='room_type', data=s1, kind='count')
v2.set_xticklabels(rotation=90)

In [None]:
# Visualización de outliers con los precios promedios en los 5 Boroughs de NYC

red_square = dict(markerfacecolor='blue', markeredgecolor='blue', marker='.')
df.boxplot(column='price', by='neighbourhood_group', 
           flierprops=red_square, vert=False, figsize=(13,8))
plt.xlabel('\nMedian Price\n', fontsize=20)
plt.ylabel('\nDistrict\n', fontsize=20)
plt.title('\nPrecios por neighbourhood\n', fontsize=20, fontweight='bold')
plt.suptitle('')

In [None]:
# Se han descartado los alojamientos con valor superior a $500  

s2=df[df.price < 500] 
v3=sns.violinplot(data=s2, x='neighbourhood_group', y='price')
v3.set_title('Distribución de precios por neighbourhood')

In [271]:
# En la siguiente visualización podemos observar la distribución y concentración de la oferta de alojamiento en NYC

v4=df.plot(kind='scatter', x='longitude', y='latitude', label='availability_365', c='price',
                  cmap=plt.get_cmap('jet'), colorbar=True, alpha=0.4, figsize=(15,8))
v4.legend()
v4.set_title('Distribución y concentración de la oferta de alojamiento en NYC')

AttributeError: 'list' object has no attribute 'plot'

In [270]:
df.host_id.unique()

AttributeError: 'list' object has no attribute 'host_id'

In [None]:
df['host_id'].value_counts(219517861)
df['host_id'].unique()

In [None]:
select_host_id = df.loc[df['host_id'] == '219517861']
print ()

In [None]:
import re


sentence = 'Extract 219517861 , 107434423 and 30283594 from this string'
df = [float(s) for s in re.findall(r'-?\d+\.?\d*', sentence)]
print(df)

In [None]:
df ['host_id']['219517861']

In [None]:
s['219517861']

In [None]:
df.loc[host_id,'rnd_1']

In [None]:
all_data.loc['219517861']