## Precificação Inteligente

Nesse projeto será realizado uma **preparação de dados**. Isso significa que não será realizado uma análise deles,
mas sim a sua **transformação** e **manipulação**, para que atinjam um objetivo - nesse caso a **solução** do nosso problema.

Nossa aplicação visa realizar um estudo dos nossos dados, com o objetivo de criar uma solução com **precificação inteligente**.

Trata-se de um algoritmo capaz de analisar as características de um imóvel como: **comodidade**, **tamanho**, 
**ocupação do espaçoem determinado período**; e sugerir à pessoa anfitriã um preço a ser cobrado por diárias que garanta lucro
em momentos de alta demanda.

In [1]:
#importando a biblioteca pandas
import pandas as pd

In [2]:
#atribuindo os dados do arquivo json à um DataFrame chamado dados
dados = pd.read_json('dados_hospedagem.json')
dados.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


Podemos observar que os dados carregados acima, estão **aninhados** impossibilitando uma leitura detalhada e compreensível. 
Para corrigir isso será aplicado a **normalização** desses dados com o método **json_normalize()**

In [3]:
#reatribuição dos dados ao DataFrame
dados = pd.json_normalize(dados['info_moveis'])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,,--,5,[Our cozy little bungalow is the perfect place...,[The Queen Anne neighborhood is one of the mos...,"[1, 3, 2, 2, 2, 1, 2, 1, 1, 1, 2, 3, 2, 2, 2, ...","[2, 2, 2, 3, 2, 2, 2, 2, 2, 2, 2, 3, 2, 2, 2, ...","[3, 2, 2, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 3, 2, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{""Cable TV"",""Wireless Internet"",Kitchen,""Free...","[$250.00, $200.00, $0, $0, $0, $200.00, $350.0...","[$35.00, $50.00, $100.00, $100.00, $0, $30.00,...","[$150.00, $200.00, $143.00, $150.00, $350.00, ..."
66,,--,6,[Bright clean 2 bedroom 1 bath appartment in t...,[Ballard is the most interesting and ecclectic...,"[1, 1, 3, 2, 1, 3, 2, 2, 1, 2, 2, 2, 1, 2, 1, ...","[2, 3, 3, 2, 2, 3, 2, 3, 2, 2, 2, 2, 4, 3, 3, ...","[3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 2, 2, 4, 4, 3, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",K...","[$200.00, $200.00, $100.00, $0, $0, $750.00, $...","[$0, $0, $100.00, $0, $75.00, $140.00, $112.00...","[$99.00, $185.00, $250.00, $200.00, $275.00, $..."
67,,--,7,[Beautiful end-unit townhome with lots of dayl...,"[Cherry blossoms (Sakura) in the spring, every...","[4, 3, 1, 2, 2, 1, 2, 1, 2, 2]","[3, 4, 3, 3, 3, 3, 3, 3, 3, 4]","[3, 5, 1, 5, 3, 2, 3, 4, 4, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$750.00, $350.00, $500.00, $500.00, $0, $200....","[$300.00, $90.00, $250.00, $100.00, $109.00, $...","[$218.00, $350.00, $450.00, $149.00, $99.00, $..."
68,,--,8,[Heart of Ballard new townhome with 4 BRs + ba...,"[--, --, The suite is conveniently located off...","[2, 2, 3, 1, 1, 2, 1, 3, 2, 1, 2, 1, 2, 2, 2, ...","[4, 2, 3, 4, 3, 3, 4, 4, 3, 5, 2, 3, 3, 4, 5, ...","[4, 4, 3, 3, 5, 5, 5, 5, 3, 5, 4, 5, 5, 4, 1, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",""Air Conditi...","[$500.00, $150.00, $250.00, $800.00, $0, $500....","[$50.00, $85.00, $150.00, $75.00, $100.00, $80...","[$275.00, $199.00, $400.00, $325.00, $300.00, ..."


Observamos aqui que há dados tanto numéricos como de texto dentro de listas. Para fazer um **tratamento** mais focado à todos os
tipos de dados, é necessário **desagrupar** esses dados e retirá-los das listas.

In [4]:
#criando uma lista chamada colunas para visualizar os nomes das colunas do DataFrame
colunas = list(dados.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [5]:
#reatribuir os dados do DataFrame para dados que já vão estar destrinchados em linhas
dados = dados.explode(colunas[3:])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


Observe que ao rodar a célula acima, os **índices** não estão mais ordenados, para corrigir isso, os índices devem ser
**resetados** para ordenar os dados.

In [6]:
#para resetar os índices do DataFrame
dados.reset_index(inplace=True, drop=True)
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


Agora sim é possível **ler** os dados de forma mais clara e detalhada, para identificarmos os **tipos de dados**

In [7]:
## Verificando os tipos de dados, valores nulos e estrutura geral do DataFrame
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


### **Convertendo dados numéricos**

### Tratando dados numéricos 

- **Convertendo para Tipo Inteiro**
- **Convertendo para Tipo Float**

### Tipo Inteiro

In [8]:
#importando a biblioteca numpy
import numpy as np

In [9]:
#converter a coluna max_hospedes
dados['max_hospedes'].astype(np.int64)

0       1
1       1
2       1
3       1
4       1
       ..
3813    8
3814    8
3815    8
3816    9
3817    9
Name: max_hospedes, Length: 3818, dtype: int64

In [10]:
#atribuindo a coluna com os novos tipos de dados
dados['max_hospedes'] = dados['max_hospedes'].astype(np.int64)

In [11]:
#verificar se alterou corretamente
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [12]:
#aplicando a mesma conversão em outras colunas numéricas de forma simples
#criando uma variável para armazenar as colunas que têm os dados do tipo inteiro
col_numericas = ['quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']

In [13]:
#convertendo os valores das colunas numéricas
dados[col_numericas] = dados[col_numericas].astype(np.int64)

### Tipo Float

In [14]:
#convertendo os dados da coluna de avaliacao_geral para tipo float
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

In [15]:
#verificando se atualizou corretamente
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


Para converter os dados das **colunas** que contém **preços**, não é possível fazer semelhante ao exemplo acima
porque os carácteres **'$'** e **','**, **interferem** na conversão, pois é lido como tipo **string**.

In [16]:
#substituindo o carácter '$' de cada elemento por uma string vazia para removê-lo no momento da conversão
dados['preco'] = dados['preco'].apply(lambda x: x.replace('$', '').replace(',', '').strip())

In [17]:
#convertendo os dados da coluna preco para o tipo float
dados['preco'] = dados['preco'].astype(np.float64)

In [18]:
#verificando se converteu corretamente
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


In [19]:
#convertendo os dados de outras duas colunas
dados[['taxa_deposito', 'taxa_limpeza']]

Unnamed: 0,taxa_deposito,taxa_limpeza
0,$0,$0
1,$0,$0
2,$0,$0
3,$0,$20.00
4,$0,$15.00
...,...,...
3813,"$1,000.00",$178.00
3814,$0,$99.00
3815,$0,$0
3816,"$1,000.00",$150.00


Observe que ele retornou um **dataframe** por esse motivo, nesse caso não é possível utilizar o método **apply()**, já que o apply serve para os casos de **series**. Para os casos de **dataframe** é utilizado o método **map()**

In [20]:
#removendo as strings dos valores das colunas
dados[['taxa_deposito', 'taxa_limpeza']] = dados[['taxa_deposito', 'taxa_limpeza']].map(lambda x: x.replace('$', '').replace(',', '').strip())

In [21]:
#convertendo os valores das colunas para o tipo float
dados[['taxa_deposito', 'taxa_limpeza']] = dados[['taxa_deposito', 'taxa_limpeza']].astype(np.float64)

In [22]:
#verificando se converteu corretamente
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   float64
 11  taxa_limpeza          3818 non-null   float64
 12  preco                 3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


### **Análise Textual**
Há outras informações que também são importantes para a **precificação** dos imóveis que dever ser avaliados como:

- **descricao_local**

- **descricao_vizinhanca**

- **comodidades**

Pensando nisso, esses textos podem ser **tratados** buscando criar uma **estrutura mais acessível** para realizar essa análise textual. Isso pode ser feito a partir da **tokenização**.

### **Tokenização**

Divide um texto em unidades menores

***['Divide', 'um', 'texto', 'em', 'unidades', 'menores']***

In [23]:
#padronizando os textos dentro da serie descricao_local em minúsculo com o método str.lower()
dados['descricao_local'] = dados['descricao_local'].str.lower()

In [24]:
#verificar se a alteração foi feita corretamente
dados['descricao_local']

0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one. convenientl...
4       the “studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features:  *h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

### **Limpando os dados textuais**

Continuando o processo de **tokenização simples**, removendo os carácteres que não trazem informação como ',', '/', '.'. É possível fazer essa limpeza usando o **str** que já foi utilizado anteriormente e o **Regex**;

- **regex**: *é uma expressão regular que se caracteriza por um conjunto de carácteres que fazem uma **pesquisa** no texto.*

É muito utilizado para fazer **busca**, **validação** e **manipulação** dos dados, porque a partir dessa sequência padronizada de carácteres, é possível **definir** os carácteres que a gente quer ou não selecionar.

In [25]:
#chamando um índice da coluna descricao_local para visualizar os carácteres que devem ser removidos do texto
dados['descricao_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

Um ponto importante de ressaltar é que na **língua inglesa** é muito usado **(')** e o **(-)** em algumas palavras por tanto, não devem ser removidas nesse contexto

In [26]:
#aplicando o método regex para remover os carácteres não necessários no texto
dados['descricao_local'] = dados['descricao_local'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

Agora é necessário remover o sinal de **hífen** que não são utilizados em palavras compostas

In [27]:
#declarando o método regex de forma que ele diferencie os hífens que contém texto antes e depois dele
dados['descricao_local'] = dados['descricao_local'].str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)

Para um processo de **tokenização mais completo** poderia ser feito a remoção das **stopwords** que são: **artigos**, **preposições**. Que acabam não trazendo informação pa

### **Separando cada Palavra como Elementos**

Para poder fazer a criação do **Token** é necessário **separar** cada uma das palavras como **elementos** dentro de uma lista. O método utilizado em uma **string** para transformá-la em **lista** é o método **split()**

In [28]:
#separando as palavras do texto elemento a elemento com o método split()
dados['descricao_local'] = dados['descricao_local'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


In [29]:
#aplicando o regex na coluna comodidades
dados['comodidades'] = dados['comodidades'].str.replace(r'\{|}\"', '', regex=True)

In [30]:
#utilizando o separador
dados['comodidades'] = dados['comodidades'].str.split(',')
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, ""Wireless Internet"", Kitchen, ""Free...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, ""Wireless Internet"", Kitchen, ""Free...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[""Wireless Internet"", Kitchen, ""Free Parking o...",0.0,15.0,85.0


In [31]:
#deixando o texto em minúsculo
dados['daescricao_vizinhanca']= dados['descricao_vizinhanca'].str.lower()

In [32]:
#aplicando o regex na coluna descricao_vizinhanca
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)

In [34]:
#removendo os hífens que não fazem parte de palavras compostas
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)

In [35]:
#transformando o texto em lista, formando o token
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco,daescricao_vizinhanca
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[Lower, Queen, Anne, is, near, the, Seattle, C...",1,1,1,Real Bed,"[Internet, ""Wireless Internet"", Kitchen, ""Free...",0.0,0.0,110.0,lower queen anne is near the seattle center (s...
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[Upper, Queen, Anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,45.0,"upper queen anne is a really pleasant, unique ..."
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[The, convenience, of, being, in, Seattle, but...",1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,55.0,the convenience of being in seattle but on the...
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[Ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, ""Wireless Internet"", Kitchen, ""Free...",0.0,20.0,52.0,"ballard is lovely, vibrant and one of the most..."
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[""Wireless Internet"", Kitchen, ""Free Parking o...",0.0,15.0,85.0,--
