# Bloque 1 - Conociendo el problema

## Problema de negocio

Se trata de un algoritmo capaz de analizar las caarcteristicas de una propiedad -como comodidades, tamaño, ocupacion del espacio en un periodo determinado- y sugerir un precio a cobrar por tarifas diarias que garantice ganancias en momentos de alta demanda.

In [1]:
import pandas as pd

In [3]:
datos = pd.read_json('datos_hosting.json')
datos.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


## Pricing inteligente

El pricing inteligente para alojamiento es una estrategia para estimar precios de forma automatizada y dinámica, que considera factores como oferta y demanda, estacionalidad, eventos locales, características de ubicación, entre otros. Con base en esta información, un algoritmo puede ajustar los precios para maximizar los ingresos y la rentabilidad del propietario.

Normalmente, esta estrategia se aplica a un modelo de inteligencia artificial que ajusta automáticamente los precios diarios. Por ejemplo, si aumenta la demanda de alojamiento en un destino en particular, los precios inteligentes ajustarán automáticamente las tarifas de las habitaciones hacia arriba para maximizar los ingresos de la propiedad. Del mismo modo, si la demanda disminuye, los precios inteligentes ajustarán los precios a la baja para mantener la ocupación de las propiedades y evitar pérdidas financieras.

Aunque el aprendizaje automático se utiliza a menudo en sistemas de precios inteligentes, existen otros enfoques que se pueden utilizar para implementar estos sistemas. Por ejemplo, puede utilizar un modelo de reglas basado en lógica y heurística para definir reglas y condiciones de precios.

Aun así, es importante destacar que el uso del aprendizaje automático puede ofrecer beneficios adicionales, como la capacidad de analizar grandes volúmenes de datos, identificar patrones de comportamiento del consumidor y ajustar los precios de forma más precisa y dinámica.

## Normalizando el JSON

In [4]:
datos = pd.json_normalize(datos['info_inmuebles'])
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


In [6]:
type(datos)

pandas.core.frame.DataFrame

# Bloque 2

## Descripción de los datos

Cuando trabajamos con cualquier conjunto de datos, necesitamos saber **qué información nos aportan esos datos**, porque solo así podremos estudiarlos y analizarlos para desarrollar una solución de análisis y procesamiento de datos.

En este curso trabajaremos con el conjunto de datos presentes en el archivo datos_hosting.json y, para avanzar en nuestros estudios sobre los datos que proporciona este archivo, entenderemos qué información trae cada columna.

- ``evaluacion_general``: se refiere a la puntuación media otorgada para evaluar el alojamiento en la propiedad.
- ``experiencia_local``: describe las experiencias ofrecidas durante su estancia en la propiedad.
- ``max_hospedes``: informa el número máximo de invitados que permite la ubicación.
- ``descripcion_local``: describe la propiedad.
- ``descripcion_vecindad``: describe el vecindario alrededor de la propiedad.
- ``cantidad_baños``: informa el número de baños disponibles.
- ``cantidad_cuartos``: informa el número de habitaciones disponibles.
- ``cantidad_camas``: informa el número de camas disponibles.
- ``modelo_cama``: informa el modelo de cama ofrecido.
- ``comodidades``: informa las comodidades que ofrece la propiedad.
- ``cuota_deposito``: informa la tarifa mínima de depósito para la seguridad del hosting.
- ``cuota_limpieza``: informa el cargo cobrado por el servicio de limpieza.
- ``precio``: se refiere al precio base a cobrar por la estancia diaria en la propiedad.

## Explode

In [None]:
# Guardamos los nombres de las columnas de nuestro dataframe en una lista
columnas = list(datos.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_baños',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

In [None]:
# Utilizamos el metodo explode para sacar los datos comprimidos en las columnas el [3:] es el indice de donde empieza
# a donde termina las columnas que quiero que se descmopriman
datos = datos.explode(columnas[3:])
datos

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


In [9]:
# Creamos un nuevo indice para el data frame
datos.reset_index(inplace=True, drop=True)
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [None]:
# Averiguamos que tipo de datos son las columnas, object = string
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


## Cambio de tipo de dato con NumPy

In [12]:
import numpy as np

In [13]:
datos['max_hospedes'] = datos['max_hospedes'].astype(np.int64)

In [14]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [15]:
# Crear una lista para agilizar el cambio de tipo ed datos (la lista es del nombre de las columnas)
col_numericas = ['cantidad_baños', 'cantidad_cuartos', 'cantidad_camas']

In [16]:
# Cambio de tipo dedatos aplicando una lista
datos[col_numericas] = datos[col_numericas].astype(np.int64)

In [17]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   int64 
 6   cantidad_cuartos      3818 non-null   int64 
 7   cantidad_camas        3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


In [18]:
# Cambio a tipo float
datos['evaluacion_general'] = datos['evaluacion_general'].astype(np.float64)

In [19]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


## Quitar un string de un tipo de dato numerico

In [20]:
datos['precio']

0       $110.00
1        $45.00
2        $55.00
3        $52.00
4        $85.00
         ...   
3813    $299.00
3814    $199.00
3815    $400.00
3816    $250.00
3817    $350.00
Name: precio, Length: 3818, dtype: object

In [None]:
# Usamos lambda para quitar los simbolos extraños del dato numerico
# Utilizamos metodo replace para reemplazar
# Los puntos . entre metodos es para agregar otra funcion, metodo o condicional
# El metodo strip es para borrar espacios
datos['precio'] = datos['precio'].apply(lambda x: x.replace('$','').replace(',','').strip())

In [24]:
datos['precio'] = datos['precio'].astype(np.float64)

In [25]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


In [26]:
# Para examinar más de una columna usamos doble corchete [[]]
datos[['cuota_deposito', 'cuota_limpieza']]

Unnamed: 0,cuota_deposito,cuota_limpieza
0,$0,$0
1,$0,$0
2,$0,$0
3,$0,$20.00
4,$0,$15.00
...,...,...
3813,"$1,000.00",$178.00
3814,$0,$99.00
3815,$0,$0
3816,"$1,000.00",$150.00


In [34]:
# El metodo apply solo funciona para series no para data frames
# En cambio usamos el metodo map que si funciona para data frames
datos[['cuota_deposito', 'cuota_limpieza']] = datos[['cuota_deposito', 'cuota_limpieza']].map(lambda x: x.replace('$','').replace(',','').strip())

In [36]:
datos[['cuota_deposito', 'cuota_limpieza']]

Unnamed: 0,cuota_deposito,cuota_limpieza
0,0,0
1,0,0
2,0,0
3,0,20.00
4,0,15.00
...,...,...
3813,1000.00,178.00
3814,0,99.00
3815,0,0
3816,1000.00,150.00


In [37]:
# Transforma el tipo de dato
datos[['cuota_deposito', 'cuota_limpieza']] = datos[['cuota_deposito', 'cuota_limpieza']].astype(np.float64)

In [38]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   float64
 11  cuota_limpieza        3818 non-null   float64
 12  precio                3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB
