In [45]:
import pandas as pd


## 1 - Leitura e Tratamento de JSON

### 1.1 - Leitura JSON

Já vimos sobre leitura de JSON anteriormente, aqui temos apenas a leitura de um arquivo json em uma estrutura:

```json
{
    "info_moveis": [{...}, {...}, {...}]
}
```

Então o que acontecerá é conseguirmos fazer a estruturação do DataFrame com `read_json()`, porém precisaremos normalizar o DataFrame posteriormente!

In [46]:
hospedagem = pd.read_json('in/dados_hospedagem.json', )
hospedagem.head()


Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


### 1.2 - Normalização de JSON

Como podemos ver anteriormente os dados estão em um formato em que cada registro está em um objeto, para tratar esse problema precisaremos normalizar essa lista.

Isso será feito usando o `json_normalize()`, pois já temos o json estruturado em um DataFrame, caso o problema de normalização fosse na contrução do DataFrame (leitura inicial dos dados) poderíamos usar o param `orint` do próprio `read_json()`, porém não é o caso.

In [47]:
hospedagem_norm = pd.json_normalize(hospedagem['info_moveis'])
hospedagem_norm.head()


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


### 1.3 - Desagrupando listas

Para desagruparmos listas podemos utilizar o método `.explode()`, para isso precisamos passar quais as colunas que devem ser transformadas.

Com isso as colunas que tinham listas terão uma linha no DataFrame para cada registro.

PS: Esse conteúdo está na aula 1 do segundo módulo, mas para fazer mais sentido com o conteúdo agrupei no tópico 1

In [48]:
colunas = hospedagem_norm.columns.to_list()
print('Lista completa:', colunas)
print('-'*5)
print('A lista completa tem algumas colunas que não estão em listas, é o caso das 3 primeiras colunas:', colunas[:3])
print('Mas as outras colunas tem listas, então vamos tratá-las:', colunas[3:])


Lista completa: ['avaliacao_geral', 'experiencia_local', 'max_hospedes', 'descricao_local', 'descricao_vizinhanca', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas', 'modelo_cama', 'comodidades', 'taxa_deposito', 'taxa_limpeza', 'preco']
-----
A lista completa tem algumas colunas que não estão em listas, é o caso das 3 primeiras colunas: ['avaliacao_geral', 'experiencia_local', 'max_hospedes']
Mas as outras colunas tem listas, então vamos tratá-las: ['descricao_local', 'descricao_vizinhanca', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas', 'modelo_cama', 'comodidades', 'taxa_deposito', 'taxa_limpeza', 'preco']


In [49]:
dados_hospedagem = hospedagem_norm.explode(colunas[3:]).reset_index(drop=True)
dados_hospedagem.head()


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [50]:
dados_hospedagem.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


Como podemos observar todas as colunas estão como object (mesmo aquelas que deveriam ser numéricas). Isso significa que temos dados com erro de tipagem e que devem ser tratados para conseguirmos usar como colunas numéricas, assim gerando estatísticas com elas!

## 2 - Lidando com Colunas Numéricas

### 2.1 Convertendo dados numéricos

Com o uso do `astype()` podemos converter o tipo de uma coluna, sendo que isso é necessário para que podemos usar os métodos corretos para aquele tipo de dados (por exemplo somar dados numéricos).

Quando lidamos com valores numéricos temos diferentes types, tipos como int64 e float64 ocupam mais memória, o que é ruim para otimização, mas bom no que diz respeito do limite no tamanho dos dados. Então é algo que precisa ser ponderado quando estamos definindo o tipo dos dados.

In [51]:
print(dados_hospedagem['max_hospedes'].unique())

print('Utilizando o astype podemos alterar o tipo dos dados')
dados_hospedagem['max_hospedes'].astype('int64').dtype


['1' '10' '11' '12' '14' '16' '2' '3' '4' '5' '6' '7' '8' '9' '15']
Utilizando o astype podemos alterar o tipo dos dados


dtype('int64')

In [52]:
cols_int = ['max_hospedes', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']

dados_hospedagem[cols_int] = dados_hospedagem[cols_int].astype('int64')

dados_hospedagem.dtypes


avaliacao_geral         object
experiencia_local       object
max_hospedes             int64
descricao_local         object
descricao_vizinhanca    object
quantidade_banheiros     int64
quantidade_quartos       int64
quantidade_camas         int64
modelo_cama             object
comodidades             object
taxa_deposito           object
taxa_limpeza            object
preco                   object
dtype: object

### 2.2 Transformando Strings

Em alguns casos precisaremos alterar os valores de registros para que seja possível utilizar o `astype()`, como no caso de valores monetários com $.

Para isso temos 2 abordagens:
- utilizar o `.str.replace()`, que é mais otimizado e rápido, porém não tem recursos como `.split()`.
- Ou utilizarmos o `apply()` e executarmos uma função para cada registro, menos performático, mas temos mais opção de métodos. 

In [53]:
def transform_monetary_value(value: str) -> str:
    return value.replace('$', '').replace(',', '').strip()

# Outra forma de resolver o problema:
# dados_hospedagem['preco'].str.replace('$', '').replace(',', '').astype('float64')

dados_hospedagem['preco'].apply(transform_monetary_value).astype('float64')


0       110.0
1        45.0
2        55.0
3        52.0
4        85.0
        ...  
3813    299.0
3814    199.0
3815    400.0
3816    250.0
3817    350.0
Name: preco, Length: 3818, dtype: float64

### 2.3 Transformando DataFrames de Strings

Assim como podemos transformar e alterar Series podemos também utilizar métodos para transformar DataFrames, dessa forma fazemos essas transformações para diferentes colunas.

Para isso novamente temos duas formas de resolver o problema:
- Usando `map()`, que funciona de forma similar ao `apply()`, aplicando uma mesma função para cada registro separadamente. (mais lento, mais mais controle)
- Ou podemos usar o `apply()` com `axis=0`, dessa forma aplicamos as função de transformação com `.str` e alteramos diretamente cada `Series`. (o que da menos opção mais é mais rápido!)

In [54]:
cols_float = ['avaliacao_geral', 'taxa_deposito', 'taxa_limpeza', 'preco']

# Outra forma de resolver o problema:
# dados_hospedagem[cols_float[1:]].apply(lambda x: x.str.replace('$', '').replace(',', ''), axis=0)

dados_hospedagem[cols_float[1:]] = dados_hospedagem[cols_float[1:]].map(transform_monetary_value)
dados_hospedagem[cols_float] = dados_hospedagem[cols_float].astype('float64')

dados_hospedagem.dtypes


avaliacao_geral         float64
experiencia_local        object
max_hospedes              int64
descricao_local          object
descricao_vizinhanca     object
quantidade_banheiros      int64
quantidade_quartos        int64
quantidade_camas          int64
modelo_cama              object
comodidades              object
taxa_deposito           float64
taxa_limpeza            float64
preco                   float64
dtype: object

## 3 -  Dados textuais

Quando lidamos com dados textuais normalmente tentamos extrair algum valor desses dados, a área que estuda a análise desses dados e a retirada de valor é NLP (Processamento de linguagem natural). O que veremos aqui é como tratar os dados e "tokenizar" de uma forma simples esses dados.

A tokenização é quando pegamos uma massa de texto e transformamos em listas de informações separadas que podem ser usadas para trazer algum valor, essa tokenização pode ser feita de várias formas, vamos fazer a mais simples que é a **separação por palavras**.

### O problema do texto

Quando queremos analisar um texto precisamos primeiramente tratá-lo, pois seu formato muitas vezes não está preparado para uma tokenização.

Uma primeira etapa desse processo é garantir que todo o texto tenha o mesmo "case", faremos isso transfomando tudo para lower case com `.str.lower()`.

In [55]:
dados_hospedagem['descricao_local'] = dados_hospedagem['descricao_local'].str.lower()
dados_hospedagem['descricao_local']


0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one. convenientl...
4       the “studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features:  *h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

### 3.2 - Uso de Regex Para Tratar Textos

Quando lidamos com textos por vezes iremos querer remover caracteres ou elementos indesejados, ou ainda extrair informações úteis destes textos. Para isso podemos usar RegEx, que nada mais é do que um padrão usado para manipulação de textos.

No nosso caso usaremos RegEx com o `.str.replace()` para remover alguns caracteres indesejados.

Explicação dos RegEx usados:
- `[^a-zA-Z0-9\-\']`: encontra qualquer caracter que não seja letra (a-zA-Z), números (0-9) ou os caracteres ' e - muito utilizados na lingua inglêsa no meio de palavras.
- `(?<!\w)-(?<!\w)`: pega qualquer ocorrência de hífem (-) que não esteja entre palavras. Por exemplo: '----'
- `\{|\}|\"`: um RegEx mais simples, usado para retornar ocorrências dos caracteres: {, }, ".

In [56]:
dados_hospedagem['descricao_local'] = dados_hospedagem['descricao_local'].str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)
dados_hospedagem['descricao_local']


0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

In [57]:
dados_hospedagem['descricao_local'] = dados_hospedagem['descricao_local'].str.replace(r'(?<!\w)-(?<!\w)', ' ', regex=True)
dados_hospedagem['descricao_local']


0       this clean and comfortable one bedroom sits ri...
1       our century old upper queen anne house is loca...
2       cozy room in two-bedroom apartment along the l...
3       very lovely and cozy room for one  convenientl...
4       the  studio at mibbett hollow' is in a beautif...
                              ...                        
3813    beautiful craftsman home in the historic wedgw...
3814    located in a very easily accessible area of se...
3815    this home is fully furnished and available wee...
3816    this business-themed modern home features    h...
3817    this welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

# 3.3 - Tokenização

Uma vez que temos os dados tratados podemos tokenizar o texto, isso é feito transformando cada elemento desejado em um item separdo.

No nosso caso como queremos tokenizar cada palavra usaremos um `.str.split(' ')` que ira separar cada palavra.

In [58]:
dados_hospedagem['descricao_local'] = dados_hospedagem['descricao_local'].str.split(' ')
dados_hospedagem['descricao_local']


0       [this, clean, and, comfortable, one, bedroom, ...
1       [our, century, old, upper, queen, anne, house,...
2       [cozy, room, in, two-bedroom, apartment, along...
3       [very, lovely, and, cozy, room, for, one, , co...
4       [the, , studio, at, mibbett, hollow', is, in, ...
                              ...                        
3813    [beautiful, craftsman, home, in, the, historic...
3814    [located, in, a, very, easily, accessible, are...
3815    [this, home, is, fully, furnished, and, availa...
3816    [this, business-themed, modern, home, features...
3817    [this, welcoming, home, is, in, the, quiet, re...
Name: descricao_local, Length: 3818, dtype: object

In [59]:
dados_hospedagem['comodidades']


0       {Internet,"Wireless Internet",Kitchen,"Free Pa...
1       {TV,Internet,"Wireless Internet",Kitchen,"Free...
2       {TV,Internet,"Wireless Internet",Kitchen,"Free...
3       {Internet,"Wireless Internet",Kitchen,"Free Pa...
4       {"Wireless Internet",Kitchen,"Free Parking on ...
                              ...                        
3813    {TV,"Cable TV",Internet,"Wireless Internet","A...
3814    {TV,"Cable TV",Internet,"Wireless Internet",Ki...
3815    {TV,"Cable TV",Internet,"Wireless Internet","A...
3816    {TV,"Cable TV",Internet,"Wireless Internet","A...
3817    {TV,Internet,"Wireless Internet",Kitchen,"Free...
Name: comodidades, Length: 3818, dtype: object

In [60]:
# poderia tambem usar o regex: [\{\}\"]
dados_hospedagem['comodidades'] = dados_hospedagem['comodidades'].str.replace(r'\{|\}|\"', '', regex=True)
dados_hospedagem['comodidades']


0       Internet,Wireless Internet,Kitchen,Free Parkin...
1       TV,Internet,Wireless Internet,Kitchen,Free Par...
2       TV,Internet,Wireless Internet,Kitchen,Free Par...
3       Internet,Wireless Internet,Kitchen,Free Parkin...
4       Wireless Internet,Kitchen,Free Parking on Prem...
                              ...                        
3813    TV,Cable TV,Internet,Wireless Internet,Air Con...
3814    TV,Cable TV,Internet,Wireless Internet,Kitchen...
3815    TV,Cable TV,Internet,Wireless Internet,Air Con...
3816    TV,Cable TV,Internet,Wireless Internet,Air Con...
3817    TV,Internet,Wireless Internet,Kitchen,Free Par...
Name: comodidades, Length: 3818, dtype: object

In [61]:
dados_hospedagem['comodidades'] = dados_hospedagem['comodidades'].str.split(',')
dados_hospedagem['comodidades']


0       [Internet, Wireless Internet, Kitchen, Free Pa...
1       [TV, Internet, Wireless Internet, Kitchen, Fre...
2       [TV, Internet, Wireless Internet, Kitchen, Fre...
3       [Internet, Wireless Internet, Kitchen, Free Pa...
4       [Wireless Internet, Kitchen, Free Parking on P...
                              ...                        
3813    [TV, Cable TV, Internet, Wireless Internet, Ai...
3814    [TV, Cable TV, Internet, Wireless Internet, Ki...
3815    [TV, Cable TV, Internet, Wireless Internet, Ai...
3816    [TV, Cable TV, Internet, Wireless Internet, Ai...
3817    [TV, Internet, Wireless Internet, Kitchen, Fre...
Name: comodidades, Length: 3818, dtype: object

Agora só falta fazer o mesmo para a coluna `descricao_vizinhanca`, que segue um padrão parecido de `descricao_local`. Então a estratégia usada será a mesma, porém será feito tudo em uma chamada só, pois não é necessário separar cada step

In [62]:
dados_hospedagem['descricao_vizinhanca'] = dados_hospedagem['descricao_vizinhanca']\
    .str.lower()\
    .str.replace(r'[^a-zA-Z0-9\-\' ]', '', regex=True)\
    .str.replace(r'(?<!\w)-(?<!\w)', '', regex=True)\
    .str.split(' ')

dados_hospedagem['descricao_vizinhanca']


0       [lower, queen, anne, is, near, the, seattle, c...
1       [upper, queen, anne, is, a, really, pleasant, ...
2       [the, convenience, of, being, in, seattle, but...
3       [ballard, is, lovely, vibrant, and, one, of, t...
4                                                      []
                              ...                        
3813                                                   []
3814    [quiet, dead, end, street, near, i-5, the, pro...
3815                                                   []
3816    [your, hosts, made, madison, valley, their, ho...
3817    [despite, the, quiet, leafy, streets, of, this...
Name: descricao_vizinhanca, Length: 3818, dtype: object

## 4 - Lidando com Dados Temporais

Dados temporais são relevantes pois podem ajudar em análises de sazonalidade, isso é, entender a variação de uma variável no tempo. Por conta disso é necessário sempre se atentar a campos de datas e deixar esses valores tratados para análises futuras.

### 4.1 - Tratamento de datas

Caso um campo que deveria ser de data esteja com a tipagem errada podemos usar o `pd.to_datetime()` para alterar seu tipo. Sendo que esse método possue parâmetros adicionais para definirmos qual o formato atual dessa data (para que a conversão seja feita corretamente).

In [63]:
moveis_disponiveis = pd.read_json('in/moveis_disponiveis.json')
moveis_disponiveis.head()


Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [64]:
moveis_disponiveis.info()


<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               365000 non-null  int64 
 1   data             365000 non-null  object
 2   vaga_disponivel  365000 non-null  bool  
 3   preco            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


In [65]:
moveis_disponiveis['data'] = pd.to_datetime(moveis_disponiveis['data'])
moveis_disponiveis.info()


<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               365000 non-null  int64         
 1   data             365000 non-null  datetime64[ns]
 2   vaga_disponivel  365000 non-null  bool          
 3   preco            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


### 4.2 Manipulando dados temporais

Uma vez que os dados estão com o tipo desejado (datetime) podemos usar métodos para manipular essa coluna para retirar informações das datas.

Um exemplo disso seria alterar a formatação da data para podermos usar esse valor em agrupamentos (por exemplo vendo a relação por mês das variáveis).

Para isso usamos o método `.dt.strftime()`, sendo que dentro de `.df` temos outros métodos que podem ser usados para lidar com DateTime.

In [66]:
moveis_disponiveis['mes'] = moveis_disponiveis['data'].dt.strftime('%Y-%m')
moveis_disponiveis.head()


Unnamed: 0,id,data,vaga_disponivel,preco,mes
0,857,2016-01-04,False,,2016-01
1,857,2016-01-05,False,,2016-01
2,857,2016-01-06,False,,2016-01
3,857,2016-01-07,False,,2016-01
4,857,2016-01-08,False,,2016-01


In [68]:
moveis_disponiveis['preco'] = moveis_disponiveis['preco']\
    .str.replace('$', '')\
    .str.replace(',', '')\
    .astype('float64')

moveis_disponiveis['preco']


0           NaN
1           NaN
2           NaN
3           NaN
4           NaN
          ...  
364995    140.0
364996    140.0
364997    140.0
364998    140.0
364999      NaN
Name: preco, Length: 365000, dtype: float64

In [69]:
subset_moveis = moveis_disponiveis.groupby('mes')[['vaga_disponivel', 'preco']].sum()
subset_moveis


Unnamed: 0_level_0,vaga_disponivel,preco
mes,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-01,16543,2053910.0
2016-02,20128,2576306.0
2016-03,23357,3117058.0
2016-04,22597,3170741.0
2016-05,23842,3478445.0
2016-06,23651,3694391.0
2016-07,22329,3537715.0
2016-08,22529,3510185.0
2016-09,22471,3333501.0
2016-10,23765,3388931.0
