# <font color='blue'>Transformação e manipulação de dados com Pandas</font>

1. Conhecendo os dados
2. Dados numéricos  
  2.1 Desagrupando dados com `explode()`  
  2.2 Convertendo dados numéricos com `astype()`  
  2.3 Convertendo _strings_ numéricas  
  2.4 Convertendo múltiplas colunas com `applymap()`  
3. Dados textuais (tokenização)  
4. Dados de tempo

## 1 Conhecendo os dados

### Situação problema

Faremos a preparação dos dados de imóveis, com o objetivo de (posteriormente) criar uma solução com precificação inteligente (precificação de alugueis de imóveis a curto prazo).

Isso significa que agora não faremos uma análise dos dados, mas sim a preparação (transformação e manipulação), para que seja possível utilizá-los na solução do problema.

### Carregando os dados

Inicialmente vamos carregar os dados de avaliações de imóveis.

In [1]:
import pandas as pd

url_dados_hospedagem = 'https://caelum-online-public.s3.amazonaws.com/2928-transformacao-manipulacao-dados/dados_hospedagem.json'
df_hospedagem = pd.read_json(url_dados_hospedagem)
print(df_hospedagem.shape)
df_hospedagem.head()

(70, 1)


Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


In [2]:
# normaliza dados aninhados
df_hospedagem = pd.json_normalize(df_hospedagem['info_moveis'])
print(df_hospedagem.shape)
print(df_hospedagem.columns)
df_hospedagem.head()

(70, 13)
Index(['avaliacao_geral', 'experiencia_local', 'max_hospedes',
       'descricao_local', 'descricao_vizinhanca', 'quantidade_banheiros',
       'quantidade_quartos', 'quantidade_camas', 'modelo_cama', 'comodidades',
       'taxa_deposito', 'taxa_limpeza', 'preco'],
      dtype='object')


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


#### Descrição das colunas

Quando trabalhamos com um conjunto de dados qualquer, precisamos saber quais informações esses dados estão trazendo, pois só assim conseguiremos estudá-lo e analisá-lo para desenvolver uma solução de análise e tratamento de dados para ele.

Vamos entender o que cada coluna traz de informação no arquivo `dados_hospedagem.json`:

- `avaliacao_geral`: refere-se à média de notas dadas para a avaliação da hospedagem no imóvel.
- `experiencia_local`: descreve as experiências oferecidas durante a hospedagem no imóvel.
- `max_hospedes`: informa a quantidade máxima de hóspedes que o local permite.
- `descricao_local`: descreve o imóvel.
- `descricao_vizinhanca`: descreve a vizinhança ao redor do imóvel.
- `quantidade_banheiros`: informa a quantidade de banheiros disponíveis.
- `quantidade_quartos`: informa a quantidade de quartos disponíveis.
- `quantidade_camas`: informa a quantidade de camas disponíveis.
- `modelo_cama`: informa o modelo de cama oferecido.
- `comodidades`: informa as comodidades oferecidas pelo imóvel.
- `taxa_deposito`: informa a taxa de depósito mínima para segurança de hospedagem.
- `taxa_limpeza`: informa a taxa cobrada para o serviço de limpeza.
- `preco`: refere-se ao preço base a ser cobrado pela diária no imóvel.

#### Precificação inteligente

A precificação inteligente para hospedagem é uma estratégia de estimação de preços de forma automatizada e dinâmica, que considera fatores como oferta e demanda, sazonalidade, eventos locais, características do local, entre outros. Com base nessas informações, um algoritmo pode ajustar os preços para maximizar a receita e a rentabilidade da pessoa proprietária.

Normalmente essa estratégia é aplicada a um modelo de inteligência artificial que ajusta automaticamente os preços das diárias. Por exemplo, se a demanda por hospedagem em um determinado destino aumentar, a precificação inteligente ajustará automaticamente os preços das diárias para cima, com o fim de maximizar a receita da propriedade. Da mesma forma, se a demanda diminuir, a precificação inteligente ajustará os preços para baixo para manter a ocupação da propriedade e evitar perdas financeiras.

Embora o machine learning seja frequentemente usado em sistemas de precificação inteligente, existem outras abordagens que podem ser usadas para implementar esses sistemas. Por exemplo, pode-se usar um modelo de regras baseado em lógica e heurísticas para definir as condições e regras de precificação.

Mesmo assim, é importante ressaltar que o uso de machine learning pode oferecer benefícios adicionais, como a capacidade de analisar grandes volumes de dados, identificar padrões de comportamento do consumidor e ajustar os preços de forma mais precisa e dinâmica.

## 2 Dados numéricos

### Desagrupando dados com `explode()`

Após normalizar os dados carregados do arquivo JSON, notamos que algumas colunas possuem dados agrupados em listas, no caso, a partir da coluna `descricao_local` (quarta coluna, de índice 3). Isso ocorre porque temos uma linha para cada imovel e as avaliaçoes de cada item (individual do imóvel) são armazenadas em formato de lista de uma coluna específica.

Para desagrupar esses dados, vamos utilizar o método `explode()`, que separa as informações em linhas. Ele requer que enviemos o nome das colunas que serão transformadas, então o primeiro passo é coletar esses nomes.

In [3]:
columns_to_explode = list(df_hospedagem.columns[3:])
columns_to_explode

['descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [4]:
df_hospedagem = df_hospedagem.explode(columns_to_explode)
print(df_hospedagem.shape)
df_hospedagem.head()

(3818, 13)


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


Note que as novas linhas receberam o mesmo índice da linha original, então vamos resetar os índices do DataFrame

In [5]:
df_hospedagem = df_hospedagem.reset_index(drop=True)
df_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


E agora verificamos quais são os tipos de dado em cada coluna.

In [6]:
df_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


### Convertendo dados numéricos

Observando os tipos de dados das colunas, verificamos que todas elas são do tipo `object` (texto). Mas como estamos interessados em preparar essa base para análises estátisticas, o ideal é que colunas com significado numérico estejam em algum formato de número.

Vamos converter essas colunas para o tipo `int64`, disponível na biblioteca Numpy, usando o método `astype()`. Começando por uma única coluna `max_hospedes`.

In [7]:
import numpy as np

df_hospedagem.max_hospedes.astype(np.int64)

0       1
1       1
2       1
3       1
4       1
       ..
3813    8
3814    8
3815    8
3816    9
3817    9
Name: max_hospedes, Length: 3818, dtype: int64

In [8]:
df_hospedagem['max_hospedes'] = df_hospedagem.max_hospedes.astype(np.int64)
df_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


Mas também podemos converter várias colunas de uma só vez, desde que o tipo da conversão seja o mesmo para todas.

In [9]:
num_columns_int = ['quantidade_banheiros','quantidade_quartos','quantidade_camas']
df_hospedagem[num_columns_int] = df_hospedagem[num_columns_int].astype(np.int64)

Também temos uma coluna de tipo numérico de ponto flutuante. Para converter essa coluna usamos o mesmo procedimento, mas passando o tipo `float64`, também do Numpy.

In [10]:
df_hospedagem['avaliacao_geral'] = df_hospedagem.avaliacao_geral.astype(np.float64)
df_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


#### Precisão de valores numéricos

Em geral, quando os dados são muito grandes e temos pouca memória disponível, é comum utilizar tipos de dados mais compactos para reduzir o consumo de memória. Mas, é sempre importante garantir que **a escolha do tipo de dados não prejudique a precisão ou a acurácia dos resultados**.

Quando trabalhamos com números inteiros com Python, podemos ter diversos tipos de dados, cada um com suas limitações e características. Durante as aulas, trabalhamos com o `int64`, um inteiro com precisão de 64 bits. Para entender o significado dessa precisão, é importante conhecer alguns termos técnicos, como _byte_ e _bit_:

- _Byte_: é uma unidade de medida de informação, que representa um conjunto de 8 _bits_.
- _Bit_: é a menor unidade de informação utilizada em sistemas digitais, podendo assumir os valores de 0 ou 1.

##### **Tipo Inteiro**

Com os conceitos de bit e _byte_ claros, podemos, então, entender melhor o significado do `int64`, que é o tipo inteiro que utiliza 8 _bytes_ de armazenamento - 8 _bits_ em cada _byte_, resultando em 64 _bits_ ao total. Esse tipo inteiro é capaz de representar números muito grandes, que podem variar de `-9.223.372.036.854.775.808` a `9.223.372.036.854.775.807`.

Além dele, temos outros inteiros que podem ter sua precisão definida, como o `int32`, um tipo de dado inteiro que utiliza 4 _bytes_ - 8 _bits_ em cada _byte_, resultando em 32 _bits_ ao total. Ele é capaz de representar números inteiros menores do que os representados pelo `int64`, com um máximo de `-2.147.483.648` a `2.147.483.647`.

Pode ser mais comum encontrar os tipos `int64` e `int32`, mas pode ser necessário, em algumas situações, utilizar outros tipos de dados inteiros, como o `int8` ou o `int16`. Tipos de dados como esses são úteis quando é preciso economizar mais memória e não se está trabalhando com grandes valores. Você pode conferir os tipos de inteiros na tabela abaixo:

Tipo de dado|Quantidade de bits|Valor mínimo|Valor máximo
-|-|-|-
int8|8|-128|127
int16|16|-32768|32767
int32|32|-2.147.483.648|2.147.483.647
int64|64|-9.223.372.036.854.775.808|9.223.372.036.854.775.80

A escolha do valor de precisão vai depender da situação e da natureza dos dados sendo manipulados. Se os valores que estão sendo analisados são relativamente pequenos, o uso do `int32`, por exemplo, pode ser o suficiente, podendo economizar espaço em memória. Entretanto, se tivéssemos trabalhando com dados científicos, por exemplo, que precisam de valores bem grandes, precisaríamos talvez utilizar o `int64`.

##### **Tipo float**

Além dos inteiros, outros tipos de dados, como o _float_, também utilizam essa opção de precisão como opção de controle de espaço na memória. De maneira semelhante aos números inteiros, o tipo _float_ também apresenta opções de precisão: entre os tipos mais comuns estão o `float32e` o `float64`.

O tipo `float64` é um número de ponto flutuante com 64 bits de precisão, que representa um número decimal com até 15 dígitos. Por outro lado, o `float32` é menor tanto em sua capacidade de bits, com 32 ao total, quanto em sua capacidade de precisão de casas decimais, com a capacidade de precisão até 7 dígitos.

### Convertendo _strings_ numéricas

Além dessas colunas numéricas de tipo inteiro e _float_, temos algumas colunas que representam valores monetários, que precisam ser tratados antes de tentarmos converte-los.

In [11]:
# df_hospedagem.preco.astype(np.float64) # retorna ValueError: could not convert string to float: '$110.00'

In [12]:
pd.concat({
    'preco_original': df_hospedagem.preco,
    'novo_preco': df_hospedagem.preco.apply(lambda x: x.replace('$', '').replace(',', '').strip()) # limpa coluna preco
    }, axis=1).head()

Unnamed: 0,preco_original,novo_preco
0,$110.00,110.0
1,$45.00,45.0
2,$55.00,55.0
3,$52.00,52.0
4,$85.00,85.0


In [13]:
df_hospedagem['preco'] = df_hospedagem.preco.apply(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)

### Convertendo múltiplas colunas com `applymap()`

Ainda temos duas coluna em situação similar a que foi tratada logo acima. Vamos separar essas duas colunas em um DataFrame e fazer a conversão delas ao mesmo tempo, agora usando o método `applymap()`. Ao contrário do método `apply()` que atua em uma Series, `applymap()` vai aplicar uma função para cada elemento do DataFrame.

In [14]:
pd.concat([
        df_hospedagem[['taxa_deposito', 'taxa_limpeza']]
        ,df_hospedagem[['taxa_deposito', 'taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',', '').strip()) # colunas "limpadas"
        ,df_hospedagem[['taxa_deposito', 'taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64) # colunas convertidas
    ]
    ,axis=1
).head()

Unnamed: 0,taxa_deposito,taxa_limpeza,taxa_deposito.1,taxa_limpeza.1,taxa_deposito.2,taxa_limpeza.2
0,$0,$0,0,0.0,0.0,0.0
1,$0,$0,0,0.0,0.0,0.0
2,$0,$0,0,0.0,0.0,0.0
3,$0,$20.00,0,20.0,0.0,20.0
4,$0,$15.00,0,15.0,0.0,15.0


In [15]:
df_hospedagem[['taxa_deposito', 'taxa_limpeza']] = df_hospedagem[['taxa_deposito', 'taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',', '').strip()).astype(np.float64)
df_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   float64
 11  taxa_limpeza          3818 non-null   float64
 12  preco                 3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


## 3 Dados textuais

Pensando na aplicação dos dados que estamos trabalhando agora, é interessante fazer um estudo sobre os serviços oferecidos por cada imóvel.
Vamos voltar nossa atenção para as colunas de texto, como por exemplo, a coluna `descricao_local`. Essa coluna nos traz informações sobre a vizinhança e comodidades que aquele imóvel oferece. Pensando na aplicação que será dada a esses dados, é interessante fazer uma análise dessas informações.

Podemos tratar esses textos buscando criar uma estrutura mais acessível para realizar essa análise textual. Vamos realizar a manipulação dos textos de cada coluna textual para criar uma estrutura de **tokenização** simples, separando o texto apenas por palavras, ou seja, os tokens serão cada palavra do nosso texto

> A **tokenização** é a divisão do texto em tokens, ou seja, unidades menores. Esses **tokens** podem ser palavras, sílabas, conjuntos de palavras e assim por diante, dependendo do tipo de aplicação.

Vamos começar a estruturar a **tokenização** padronizando o nosso texto para letras minúsculas, usando o método `str` seremos capazes de ler uma Series como se ela fosse elementos de _strings_ e então aplicar a função `lower()`. E em seguida vamos remover os caracteres especiais usando _regex_ na função `replace()`.

In [23]:
# passa para minusculo e remove todos os caracteres que nao estao listadosno regex, note o a indicacao de NEGACAO com '^'
df_hospedagem['descricao_local'] = df_hospedagem.descricao_local.str.lower().replace('[^a-zA-Z0-9\-\']', ' ', regex=True)
df_hospedagem.descricao_local

0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

A seguir vamos remover os caracteres `'-'` que não fazem parte de uma palavra composta, também usando _regex_. Vamos usar os padrões `'?<!\w'` (Negative Lookbehind) e `'?!\w'` (Negative Lookahead), que negam a presença de algum caracter capturado por `'\w'`, ou seja, será feita a substituição de todos os caracteres `'-'` que não estiverem "rodeados" por algum caracter `'\w'`.

In [25]:
df_hospedagem['descricao_local'] = df_hospedagem.descricao_local.str.lower().replace('(?<!\w)-(?!\w)', ' ', regex=True)
df_hospedagem.descricao_local

0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

Para um processo de tokenização mais completo, poderíamos também remover as _stopwords_ (**palavras vazias**): artigos (definidos: o, os, a, as; e indefinidos: um, uns, uma, umas), preposições (a, ante, até, após, com, contra, de, desde, em, entre, para, perante, por, sem, sob, sobre, trás) e outras composições que não trazem informação ao texto.

Para criar os tokens, basta separar cada uma das palavras como elementos de uma lista. Para isso, vamos usar a função `split()`, também disponível no método `str`.

In [27]:
df_hospedagem['descricao_local'] = df_hospedagem.descricao_local.str.split()
df_hospedagem[['descricao_local']].head()

Unnamed: 0,descricao_local
0,"[this, clean, and, comfortable, one, bedroom, ..."
1,"[our, century, old, upper, queen, anne, house,..."
2,"[cozy, room, in, two-bedroom, apartment, along..."
3,"[very, lovely, and, cozy, room, for, one, conv..."
4,"[the, studio, at, mibbett, hollow', is, in, a,..."


Outra coluna em que vamos fazer a tokenização é a `comodidades`. Mas note que ao contrário de `descricao_local`, aqui temos uma estrutura que já esta mais proxima da tokenização. Precisamos apenas remover os caracteres `'{'`, `'}'` e `'"'`, e depois usamos o caracter `','` para separar as palavras:

In [32]:
df_hospedagem['comodidades'] = df_hospedagem.comodidades.str.replace('\{|}|\"','',regex=True).str.split(',')
df_hospedagem[['comodidades']].head()

Unnamed: 0,comodidades
0,"[Internet, Wireless Internet, Kitchen, Free Pa..."
1,"[TV, Internet, Wireless Internet, Kitchen, Fre..."
2,"[TV, Internet, Wireless Internet, Kitchen, Fre..."
3,"[Internet, Wireless Internet, Kitchen, Free Pa..."
4,"[Wireless Internet, Kitchen, Free Parking on P..."


## 4 Dados de tempo

Vamos passar a trabalhar com uma nova base de dados agora, uma base que contém as vagas diárias disponibilizadas em vários imóveis no ano de 2016.

In [52]:
df_vagas = pd.read_json('https://caelum-online-public.s3.amazonaws.com/2928-transformacao-manipulacao-dados/moveis_disponiveis.json')
print(df_vagas.shape)
df_vagas.head()

(365000, 4)


Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [54]:
df_vagas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               365000 non-null  int64 
 1   data             365000 non-null  object
 2   vaga_disponivel  365000 non-null  bool  
 3   preco            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


Os valores da coluna `data` são do tipo `object`, mas já se encontram no formato padrão de `datetime` que é `AAAA-MM-DD`, então podemos apenas converter o tipo dessa coluna com a função `pd.to_datetime()`:

In [58]:
pd.to_datetime(df_vagas['data']).head()

0   2016-01-04
1   2016-01-05
2   2016-01-06
3   2016-01-07
4   2016-01-08
Name: data, dtype: datetime64[ns]

In [61]:
df_vagas['data'] = pd.to_datetime(df_vagas['data'])
df_vagas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               365000 non-null  int64         
 1   data             365000 non-null  datetime64[ns]
 2   vaga_disponivel  365000 non-null  bool          
 3   preco            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


### Agrupando dados de tempo

In [63]:
df_vagas.data.dt.strftime('%Y/%m') # formata data em formato AAAA/MM

0         2016/01
1         2016/01
2         2016/01
3         2016/01
4         2016/01
           ...   
364995    2016/12
364996    2016/12
364997    2016/12
364998    2017/01
364999    2017/01
Name: data, Length: 365000, dtype: object

In [69]:
# agrupa dados contabilizando total de vagas disponiveis por mes, retorna Series
df_vagas_mes = df_vagas.groupby(df_vagas.data.dt.strftime('%Y/%m'))['vaga_disponivel'].sum()
df_vagas_mes

data
2016/01    16543
2016/02    20128
2016/03    23357
2016/04    22597
2016/05    23842
2016/06    23651
2016/07    22329
2016/08    22529
2016/09    22471
2016/10    23765
2016/11    23352
2016/12    24409
2017/01     1574
Name: vaga_disponivel, dtype: int64

In [70]:
df_vagas_mes.to_frame() # transforma em DataFrame

Unnamed: 0_level_0,vaga_disponivel
data,Unnamed: 1_level_1
2016/01,16543
2016/02,20128
2016/03,23357
2016/04,22597
2016/05,23842
2016/06,23651
2016/07,22329
2016/08,22529
2016/09,22471
2016/10,23765


#### O tipo datetime

A classe [`datetime`](https://docs.python.org/3/library/datetime.html) é um tipo de dado que representa uma data e hora específicas em Python. Ela permiter trabalhar e manipular dados de ano, mês, dia, hora, minuto, segundo e microssegundo, além de dias da semana, como segunda, terça, quarta, etc. Essa classe é definida no módulo `datetime` e é fundamental na manipulação de datas e horários em Python. Com ela, é possível realizar operações de cálculo de diferenças entre datas, formatação de datas e horas em diferentes formatos, além de ser muito útil em análises de dados que envolvem séries temporais.

Com a biblioteca Pandas, é possível realizar diversas operações com datas e horários, como a conversão de dados de _string_ para `datetime`, a filtragem de dados baseada em intervalos de tempo específicos, a agregação de dados por hora, dia, mês ou ano, entre outras funcionalidades. Desse modo, com essa biblioteca, é possível realizar diversas operações com datas de forma simples e eficiente dentro de um conjunto de dados.

**Biblioteca `datetime`**

Conseguimos trabalhar diretamente com o `datetime` através da biblioteca `datetime`, uma biblioteca padrão do Python que fornece classes para trabalhar com datas e horas. Com essa biblioteca, é possível criar objetos de data e hora, realizar cálculos de tempo, formatar datas e horas em diferentes formatos e muito mais.

Dentro da biblioteca `datetime`, existe a classe `datetime`, que representa uma data e hora específicas:

In [42]:
import datetime

agora = datetime.datetime.now() # criando um objeto datetime com a data e hora atual

print(type(agora))
print(f"Data e hora atual: {agora}")

<class 'datetime.datetime'>
Data e hora atual: 2024-01-14 21:38:44.640969



Neste exemplo, o método `now()` da classe `datetime` é usado para criar um objeto que representa a data e a hora atual.

In [36]:
local_now = agora.astimezone()
local_tz = local_now.tzinfo
local_tz.tzname(local_now) # nome da time zone

'UTC'

Outra classe importante na biblioteca datetime é a classe `date`, que representa apenas uma data:

In [40]:
hoje = datetime.date.today() # criando um objeto date com a data de hoje

f"Data de hoje: {hoje}"

'Data de hoje: 2024-01-14'

Neste exemplo, o método `today()` da classe `date` é usado para criar um objeto que representa a data de hoje.

A biblioteca datetime também permite realizar operações matemáticas com datas e horas, como calcular a diferença entre duas datas:

In [46]:
# criando dois objetos date com datas diferentes
data_inicial = datetime.date(2022, 1, 1)
data_final   = datetime.date(2023, 1, 1)

# calculando a diferença entre as duas datas
diferenca = data_final - data_inicial

f"Diferença entre as duas datas: {diferenca}"

'Diferença entre as duas datas: 365 days, 0:00:00'

Neste exemplo, dois objetos date são criados com datas diferentes. Em seguida, o operador de subtração é usado para calcular a diferença entre as duas datas. O resultado é armazenado na variável `diferenca` e, em seguida, é impresso na tela usando a função `print()`.