<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/blob/main/cuaderno_clases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas transformación y manipulación de datos
En este curso se aprendió a usar Pandas para procesar y manipular datos de diversos tipos. Se trabajó en un proyecto de fijación de precios inteligentes para alojamientos inmobiliarios donde se trataron datos numéricos, de texto y de tiempo.
La herramienta que se utilizó fue Google Colab. Finalmente, el instructor recomendó tener conocimientos básicos de Pandas, lectura de archivos JSON, selección y agrupación de datos.

In [1]:
#Importamos la biblioteca pandas.
import pandas as pd

##Conociendo el problema
El enfoque principal del curso es preparar, transformar y manipular los datos para que sean adecuados para el análisis y la creación de la solución de tarificación inteligente. No se realizará el análisis en sí en este curso.

Una solución de tarificación inteligente analiza las características de una propiedad (comodidades, tamaño, ubicación, demanda, etc.) para sugerir un precio de alquiler diario que maximice las ganancias del anfitrión, especialmente en momentos de alta demanda.

###Importación de archivo json

In [2]:
#Almacenamos en una variable global la URL del archivo json.
url_1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/datos/datos_hosting.json'

#Leemos los datos con la función pd.read_json y lo almacenamos en un dataframe.
hosting_df = pd.read_json(url_1)
hosting_df.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


###Normalizando los datos

In [3]:
#Se convierten los datos anidados en columnas con pd.json_normalize, que recibe como input una lista de diccionarios o un diccionario.
hosting_normalizado_df = pd.json_normalize(hosting_df['info_inmuebles'])
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]


###Desafío del aula 1
Para los desafíos trabajaremos con 2 nuevos conjuntos de datos, pero esta vez serán mucho más pequeños. Las bases de datos están disponibles para descargar aquí:
- Proyecto Desafío 1: [Ventas Online](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json)

  El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

- Proyecto Desafío 2: [Administración de condominios](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json)

  Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

####Proyecto Desafío 1: Ventas Online

In [44]:
#URL del archivo JSON.
url_desafio1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_vendas_clientes.json'

#Dataframe original
ventas_df = pd.read_json(url_desafio1)
ventas_df.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [45]:
#Dataframe normalizado
ventasnorm_df = pd.json_normalize(ventas_df['dados_vendas'])
ventasnorm_df.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


####Proyecto Desafío 2: Administración de condominios

In [46]:
#URL del archivo JSON.
url_desafio2 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_locacao_imoveis.json'

#Dataframe original
condominios_df = pd.read_json(url_desafio2)
condominios_df.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [47]:
#Dataframe normalizado
condominiosnorm_df = pd.json_normalize(condominios_df['dados_locacao'])
condominiosnorm_df.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


##Datos numéricos

###Explosión de datos
Antes, se normalizo, y descomprimió una columna en más columnas. Ahora, con el método `.explode()` se descomprimieron la listas de cada registro en más registros.

In [4]:
'''
Explode recibe el nombre de las columnas cuyos registros son listas. Entonces,
se pasará una lista que contenga el nombre de todas las columnas y con slice
notation se seleccionará las que contienen registros anidados. De acuerdo a los
registros del dataframe, se aprecia que los registros están anidados desde la
columna 4 en adelante.
'''
#Se crea la lista con los nombres de columnas
columnas = list(hosting_normalizado_df.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_baños',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

In [5]:
#Se emplea el método explode para descomprimir registros en más registros
hosting_normalizado_df = hosting_normalizado_df.explode(columnas[3:])
hosting_normalizado_df.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [26]:
#Se resetea el índice y elimina el viejo indice, aplicando los cambios sobre el dataframe original.
hosting_normalizado_df.reset_index(drop=True, inplace=True)
hosting_normalizado_df.sample(5)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
1735,10.0,--,8,This fully furnished modern 4-star Built Green...,--,2,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$100.00,$135.00
2488,9.0,--,2,I am renting out my cozy 1 bedroom with master...,Queen Anne is a quite neighborhood and my apar...,1,1,1,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""W...",$0,$0,$99.00
1192,10.0,--,4,Come stay at our 2 bedroom apartment in the Lo...,The apartment is in a fantastic location in Ea...,1,2,2,Real Bed,"{TV,""Cable TV"",""Wireless Internet"",Kitchen,""Bu...",$0,$0,$170.00
2430,9.0,--,2,Located in one of the west coasts best neighbo...,--,1,1,1,Real Bed,"{TV,Kitchen,Gym,""Elevator in Building"",Heating...",$0,$0,$100.00
231,10.0,--,2,Newly remodeled 1906 Craftsman Home with a bri...,OMG. This is the best neighborhood. Amazing ...,1,1,1,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$250.00,$50.00,$117.00


###Convirtiendo los datos numéricos
Aprendimos a cambiar tipos de datos numéricos en Pandas usando Numpy. Convertimos columnas a enteros (**int64**) y decimales (**float64**) con `astype()`.

Si hay caracteres no numéricos, la conversión falla, así que hay que limpiarlos primero.

In [23]:
#Inspeccionamos los tipos que tiene actualmente el df.
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


In [29]:
#Corroboramos si la columna "experiencia_local" contiene valores numéricos.
hosting_normalizado_df['experiencia_local'].unique() #No contiene valores numéricos.

array(['--'], dtype=object)

In [30]:
#Importamos la biblioteca Numpy para usar su tipos de datos por ser más eficientes en el uso de memoria.
import numpy as np

In [31]:
#Creamos una lista con el nombre de las columnas que contienen datos enteros.
columnas_enteros = ['max_hospedes', 'cantidad_baños', 'cantidad_cuartos', 'cantidad_camas']
hosting_normalizado_df[columnas_enteros] = hosting_normalizado_df[columnas_enteros].astype(np.int64)

#Convertimos la columna "evaluacion_general" a tipo flotante, por ser la única sin caracterés especiales.
hosting_normalizado_df['evaluacion_general'] = hosting_normalizado_df['evaluacion_general'].astype(np.float64)

In [32]:
#Corroboramos los cambios de tipo.
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


###Numeros en string
En clase, usando **apply** y **lambda**, se limpiaron todos los datos numéricos en formato texto del dataframe. Con el método `replace()` se eliminaron los símbolos como el dólar y comas, mientras que con el método `strip()` se quitaron los espacios en blanco a cada registro de la columna "ingresos". Finalmente, se cambió el tipo de dato a ***float*** para que Pandas interprete los valores como números decimales.

In [37]:
hosting_normalizado_df['precio'].head(3)

Unnamed: 0,precio
0,$110.00
1,$45.00
2,$55.00


In [39]:
#Mediante el método apply, se aplicó una función lambda que permitió limpiar los datos numéricos en 'precio'.
hosting_normalizado_df['precio'] = hosting_normalizado_df['precio'].apply(lambda x: x.replace('$', '').replace(',', '').strip())
hosting_normalizado_df['precio'].head(3)

Unnamed: 0,precio
0,110.0
1,45.0
2,55.0


In [40]:
#Mediante el método astype, se cambió el tipo de datos de la columna 'precio'.
hosting_normalizado_df['precio'] = hosting_normalizado_df['precio'].astype(np.float64)
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


###Transformación en múltiples columnas
En contraste a `apply`, usado para aplicar una función a lo largo de un eje de un Dataframe o una única serie, `map` se usa para aplicar una función a cada elemento de un DataFrame (dos o más series).

En clase, se transformó múltiples columnas numéricas en un DataFrame usando `map` para eliminar **símbolos** y **comas**, convirtiéndolas a tipo **float64**.

Se usó `map`, debido a que `applymap` está deprecado.

In [42]:
#Con applymap, se aplica la función lambda para limpiar los registros de dos series del df.
columnas_float = ['cuota_deposito', 'cuota_limpieza']
hosting_normalizado_df[columnas_float] = hosting_normalizado_df[columnas_float].map(lambda x: x.replace('$', '').replace(',', '').strip())

In [43]:
#Mediante el método astype, se cambió el tipo de datos de la columna 'precio'.
hosting_normalizado_df[columnas_float] = hosting_normalizado_df[columnas_float].astype(np.float64)
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   float64
 11  cuota_limpieza        3818 non-null   float64
 12  precio                3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


###Desafío del aula 2
Los dos proyectos adicionales deben prepararse de igual forma que los datos en clase:
- Eliminar datos en listas dentro del DataFrame;
- Verificar tipos de datos;
- Identificar columnas numéricas;
- Transformar la columna numérica a tipo numérico.

####Proyecto Desafío 1: Ventas Online

In [54]:
#Se descomprimen listas en registros.
colcomprimidas_ventas = ['Cliente','Valor da compra']
ventasnorm_df = ventasnorm_df.explode(colcomprimidas_ventas)
ventasnorm_df.reset_index(drop=True, inplace=True)

In [56]:
ventasnorm_df.head(3)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"


In [None]:
#Se identifican las columnas numéricas, transformando sus registros a un tipo numérico.
ventasnorm_df['Valor da compra'] = ventasnorm_df['Valor da compra'].apply(lambda x: x.replace('R$', '').replace('.','').replace(',','.').strip())
ventasnorm_df['Valor da compra'] = ventasnorm_df['Valor da compra'].astype(np.float64)

In [63]:
#Se verifica los tipos de datos.
ventasnorm_df.info

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


####Proyecto Desafío 2: Administración de condominios

In [59]:
#Se descomprimen listas en registros.
colcomprimidas_condominios = ['datas_combinadas_pagamento', 'datas_de_pagamento', 'valor_aluguel']
condominiosnorm_df = condominiosnorm_df.explode(colcomprimidas_condominios)
condominiosnorm_df.reset_index(drop=True, inplace=True)

In [60]:
condominiosnorm_df.head(3)

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"


In [65]:
#Se identifican las columnas numéricas, transformando sus registros a un tipo numérico.
condominiosnorm_df['valor_aluguel'] = condominiosnorm_df['valor_aluguel'].apply(lambda x: x.replace('$','').replace('.','').replace(',','.').replace('reais','').strip())
condominiosnorm_df['valor_aluguel'] = condominiosnorm_df['valor_aluguel'].astype(np.float64)

In [66]:
#Se verifica los tipos de datos.
condominiosnorm_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


##Datos de texto
Utilizar datos de texto, como las descripciones de propiedades, para mejorar un algoritmo de precios. Se explica que las características no numéricas también pueden influir en el precio de un alojamiento.

Para trabajar con texto, se introduce el concepto de "***tokenización***", que es la división del texto en unidades más pequeñas llamadas "***tokens***". En este caso, se separará el texto en palabras individuales.

In [70]:
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0


###Pasos iniciales
Los pasos iniciales para preparar el texto incluyen convertirlo a minúsculas y eliminar caracteres extraños.

In [69]:
#Mediante los métodos str y lower convertirmos los registros de texto en minúsculas.
#Comenzamos con la columna "descripcion_local".
hosting_normalizado_df['descripcion_local'] = hosting_normalizado_df['descripcion_local'].str.lower()