<h1><center> Tópicos Avançados em Python para Análise de Dados </center></h1>

![](https://drive.google.com/uc?export=view&id=1qCH-jlzKK1aFaTBpiTHN4qxTFrCVs720) 

<center>
<h5>
O objetivo desse material é mostrar a você como aplicar diversos métodos das duas bibliotecas mais famosas para Ciência de Dados: Pandas e Seaborn. Ao longo do curso além de conhecermos como essas ferramentas funcionam vamos praticar a análise em dados reais e transformar os dados que temos em informações. 
Vamos nessa!
<h5>
<center>

## Módulo 3

Para começar as lições práticas desse módulo, precisamos garantir que estamos com os dados carregados em nossa estrutura *DataFrame*. 

Vamos fazer isso rapidamente:

In [None]:
import numpy as np
import pandas as pd

dados = pd.read_csv('listings.csv')

In [None]:
dados

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2818,Quiet Garden View Room & Super Fast WiFi,3159,Daniel,,Oostelijk Havengebied - Indische Buurt,52.36575,4.94142,Private room,59,3,278,2020-02-14,1.98,1,0
1,20168,Studio with private bathroom in the centre 1,59484,Alexander,,Centrum-Oost,52.36424,4.89396,Private room,236,1,340,2020-04-09,2.63,2,0
2,25428,Lovely apt in City Centre (w.lift) near Jordaan,56142,Joan,,Centrum-West,52.37297,4.88339,Entire home/apt,125,14,5,2020-02-09,0.15,1,58
3,27886,"Romantic, stylish B&B houseboat in canal district",97647,Flip,,Centrum-West,52.38761,4.89188,Private room,138,2,219,2020-07-25,2.05,1,158
4,28871,Comfortable double room,124245,Edwin,,Centrum-West,52.36719,4.89092,Private room,75,2,336,2020-09-20,2.72,2,340
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18777,45761390,Charming 1Room Apartment in Amsterdam,310835509,TravelNest,,Bos en Lommer,52.37642,4.84941,Entire home/apt,137,1,0,,,1,339
18778,45763935,clean and light apartment nearby the water,961670,Lisa,,Westerpark,52.39042,4.88204,Entire home/apt,120,5,0,,,2,51
18779,45776325,A beautiful spacious room on a central location.,48168060,Tim,,De Pijp - Rivierenbuurt,52.34306,4.89995,Private room,20,1,0,,,2,0
18780,45777642,Studio in Amsterdam,75268907,Emma,,Watergraafsmeer,52.34885,4.91878,Entire home/apt,33,10,0,,,1,15


### Lição 2: Agregação de dados

Muitas vezes quando estamos lidando com grandes quantidades de dados, um dos passos iniciais para analisá-los é fazer uma **análise descritiva dos dados**, calculando média e desvio padrão, por exemplo. 

Esse tipo de análise permite resumir **tendências centrais** em nosso conjunto de dados. Porém, outros tipos de agregações também são importantes, como somatórios, mediana, mínimos, máximos, quantis, e *etc*.

![](https://drive.google.com/uc?export=view&id=1k0MKIrWEkG1djY-lYqbi0fbUmleIVrWI) 

**Estatísticas de agregação**

Por terem sido criado com base na biblioteca **Numpy**, os *DataFrames* e as *Series* apresentam muitos métodos que os *Numpy Arrays* também apresentam, como *soma*, *mínimo*, *máximo*, *média*, *mediana*, etc. 

Todos esses métodos consideram os valores de uma coluna e os transformam em um único valor, como mostramos no desenho acima.

Vamos ver alguns exemplos:

* Qual o total de reviews obtidas pelos Airbnbs apresentados no dataset?

In [None]:
dados.number_of_reviews.sum()

464791

* Qual a média dessas reviews?

In [None]:
dados.number_of_reviews.mean()

24.74661910339687

Além de fazermos a agregação considerando apenas uma coluna, podemos realiza-la em duas ou mais. 

Fazendo isso, teremos um resultado com a topologia mostrada abaixo:

![](https://drive.google.com/uc?export=view&id=1b11UF-ckLc_1p2aZn0oIWUBLGs8uqQQ4)

Vejamos alguns exemplos:

* Qual o menor preço e menor número mínimo de noites? E quais os maiores?

In [None]:
dados[['minimum_nights','price']].min()

minimum_nights    1
price             5
dtype: int64

In [None]:
dados[['minimum_nights','price']].max()

minimum_nights    1001
price             8000
dtype: int64

**Aggregate**

Através do método **.agg()**, o **Pandas** permite realizarmos o cálculo de várias métricas estatísticas ao mesmo tempo. 

Podemos considerar uma coluna e calcular, ao mesmo tempo, média, mediana e moda.
Repare no desenho abaixo:

![](https://drive.google.com/uc?export=view&id=1l571Ssp-zbtTI4CBUrv5fAqeMe_KfUKl)

Vejamos um exemplo:

* Qual a média, mediana, desvio padrão e variância presentes nos preços dos Airbnbs?

In [None]:
dados.price.agg(['mean','median','std','var'])

mean        155.206208
median      129.000000
std         147.938192
var       21885.708661
Name: price, dtype: float64

Na tabela abaixo listamos os principais métodos de agregação oferecidos pelo **Pandas**. 

Eles podem ser usados tanto em *DataFrames* quando em *Series*

|      Método      |         Descrição         |
|:----------------:|:-------------------------:|
|      count()     |   Número total de itens   |
|  first(), last() |   Primeiro e último item  |
| mean(), median() |      Média e mediana      |
|   min(), max()   |      Mínimo e máximo      |
|   std(), var()   | Desvio padrão e Variância |
|       mad()      |   Desvio médio absoluto   |
|      prod()      | Produto de todos os itens |
|       sum()      |   Soma de todos os itens  |

Um método bem interessante do **Pandas** é o **.describe()** que gera várias estatísticas descritivas do *DataFrame* de forma direta. 

As informações disponíveis são: contagem, média, desvio padrão, mínimo, principais quartis e máximo.

In [None]:
dados.describe()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
count,18782.0,18782.0,0.0,18782.0,18782.0,18782.0,18782.0,18782.0,16492.0,18782.0,18782.0
mean,20265710.0,64907190.0,,52.365471,4.889641,155.206208,3.569162,24.746619,0.701629,2.582047,53.631935
std,12561650.0,83117260.0,,0.016496,0.035922,147.938192,14.151973,54.728818,1.327302,8.630081,107.401414
min,2818.0,3159.0,,52.28927,4.75572,5.0,1.0,0.0,0.01,1.0,0.0
25%,9965431.0,9134263.0,,52.35513,4.86388,95.0,2.0,2.0,0.14,1.0,0.0
50%,18939140.0,27292160.0,,52.36474,4.88703,129.0,2.0,8.0,0.33,1.0,0.0
75%,29919680.0,84453160.0,,52.37537,4.90939,180.0,3.0,23.0,0.68,1.0,41.0
max,45783000.0,371160100.0,,52.42512,5.06808,8000.0,1001.0,856.0,47.61,86.0,365.0


Mais do que apenas gerar as estatísticas descritivas, o importante é entender o que elas representam. Por exemplo, não faz sentido termos soma, média e quartis em colunas como *id* e *host_id*. Apesar de serem números, eles são apenas números de identificação. Além disso, essas mesmas informações sobre latitude e longitude também são pouco informativas.
 
Porém, quando analisamos esses dados sobre o preço dos Airbnbs conseguimos extrair informações mais coerentes. Dentro dessa base, a média de preços é 155.20, enquanto a mínima e a máxima são 5 e 8000. Uma análise possível é que os hotéis disponíveis nessa base são bastante heterogêneos, ou seja, temos dados de hoteis de diferentes faixas de preços.


Além das métricas apresentadas de forma padrão, o **.describe()** permite adicionarmos outras métrica ao conjunto calculado.

Vejamos um exemplo:

In [None]:
desc = dados.describe()
desc.loc['sum',:]=dados.sum()
desc

### Lição 3: Concatenação de DataFrames

O **Pandas** apresenta uma grande facilidade e uma diferentes possibilidades na *concatenação* de DataFrames. 

Esse tipo de ferramenta é muito utilizado quando temos dois conjuntos de dados que apresentam informações complementares.

![](https://drive.google.com/uc?export=view&id=1JWZC56VbaPzbyloz_92xaVLtAVlPn7Gz)


**Imagine a situção:** Com a nossa base de dados de Airbnb, à medida que os hotéis vão recebendo novas avaliações, a nossa base vai ficando desatualizada. 

Se forem gerados novos dados, poderíamos juntas as duas informações para termos novamente uma base de dados completa.

In [None]:
#Celula fixa
novos_dados = dados.sample(3)

In [None]:
novos_dados = pd.DataFrame(novos_dados)
novos_dados

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
12459,24989149,Family friendly apartment @February - Ams' ZUID,8906131,Dana,,Buitenveldert - Zuidas,52.32787,4.86267,Entire home/apt,130,1,9,2020-02-23,0.34,1,0
5880,12862772,Stylish and sunny apartment,5130567,Joan,,Zuid,52.34988,4.85635,Entire home/apt,104,2,38,2020-06-13,0.7,1,355
18343,44172720,The Bridge Apartment 2,354296603,Lauren,,Centrum-West,52.36984,4.88529,Entire home/apt,660,1,0,,,2,53


In [None]:
novo_df = pd.concat([dados,novos_dados], ignore_index=True)
novo_df

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2818,Quiet Garden View Room & Super Fast WiFi,3159,Daniel,,Oostelijk Havengebied - Indische Buurt,52.36575,4.94142,Private room,59,3,278,2020-02-14,1.98,1,0
1,20168,Studio with private bathroom in the centre 1,59484,Alexander,,Centrum-Oost,52.36424,4.89396,Private room,236,1,340,2020-04-09,2.63,2,0
2,25428,Lovely apt in City Centre (w.lift) near Jordaan,56142,Joan,,Centrum-West,52.37297,4.88339,Entire home/apt,125,14,5,2020-02-09,0.15,1,58
3,27886,"Romantic, stylish B&B houseboat in canal district",97647,Flip,,Centrum-West,52.38761,4.89188,Private room,138,2,219,2020-07-25,2.05,1,158
4,28871,Comfortable double room,124245,Edwin,,Centrum-West,52.36719,4.89092,Private room,75,2,336,2020-09-20,2.72,2,340
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18780,45777642,Studio in Amsterdam,75268907,Emma,,Watergraafsmeer,52.34885,4.91878,Entire home/apt,33,10,0,,,1,15
18781,45783000,Spacious and cozy apartment in De Pijp,371160113,Nadezda,,De Pijp - Rivierenbuurt,52.35380,4.89740,Entire home/apt,105,7,0,,,1,253
18782,24989149,Family friendly apartment @February - Ams' ZUID,8906131,Dana,,Buitenveldert - Zuidas,52.32787,4.86267,Entire home/apt,130,1,9,2020-02-23,0.34,1,0
18783,12862772,Stylish and sunny apartment,5130567,Joan,,Zuid,52.34988,4.85635,Entire home/apt,104,2,38,2020-06-13,0.70,1,355


Veja que, ao usarmos o **.concat()** precisamos passar o parâmetro ```ignore_index = True```, isso quer dizer que o método vai ignorar os índices originais dos dados que queremos inserir e dará continuidade aos indices do *DataFrame* 

Além de concatenarmos linhas, podemos também concatenar colunas nos **DataFrames**.


In [None]:
price_dolar = pd.Series(dados.price * 1.18)

In [None]:
pd.concat([dados,price_dolar],axis=1)

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,price.1
0,2818,Quiet Garden View Room & Super Fast WiFi,3159,Daniel,,Oostelijk Havengebied - Indische Buurt,52.36575,4.94142,Private room,59,3,278,2020-02-14,1.98,1,0,69.62
1,20168,Studio with private bathroom in the centre 1,59484,Alexander,,Centrum-Oost,52.36424,4.89396,Private room,236,1,340,2020-04-09,2.63,2,0,278.48
2,25428,Lovely apt in City Centre (w.lift) near Jordaan,56142,Joan,,Centrum-West,52.37297,4.88339,Entire home/apt,125,14,5,2020-02-09,0.15,1,58,147.50
3,27886,"Romantic, stylish B&B houseboat in canal district",97647,Flip,,Centrum-West,52.38761,4.89188,Private room,138,2,219,2020-07-25,2.05,1,158,162.84
4,28871,Comfortable double room,124245,Edwin,,Centrum-West,52.36719,4.89092,Private room,75,2,336,2020-09-20,2.72,2,340,88.50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18777,45761390,Charming 1Room Apartment in Amsterdam,310835509,TravelNest,,Bos en Lommer,52.37642,4.84941,Entire home/apt,137,1,0,,,1,339,161.66
18778,45763935,clean and light apartment nearby the water,961670,Lisa,,Westerpark,52.39042,4.88204,Entire home/apt,120,5,0,,,2,51,141.60
18779,45776325,A beautiful spacious room on a central location.,48168060,Tim,,De Pijp - Rivierenbuurt,52.34306,4.89995,Private room,20,1,0,,,2,0,23.60
18780,45777642,Studio in Amsterdam,75268907,Emma,,Watergraafsmeer,52.34885,4.91878,Entire home/apt,33,10,0,,,1,15,38.94


Assim como usamos o **.concat()**, podemos utilizar o **.append()**. A diferença entre esses dois métodos é que o primeiro é um método da biblioteca **Pandas**, enquanto o segundo é um método das *Series* e *DataFrames*.

In [None]:
novo_df = dados.append(novos_dados, ignore_index=True)
novo_df

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2818,Quiet Garden View Room & Super Fast WiFi,3159,Daniel,,Oostelijk Havengebied - Indische Buurt,52.36575,4.94142,Private room,59,3,278,2020-02-14,1.98,1,0
1,20168,Studio with private bathroom in the centre 1,59484,Alexander,,Centrum-Oost,52.36424,4.89396,Private room,236,1,340,2020-04-09,2.63,2,0
2,25428,Lovely apt in City Centre (w.lift) near Jordaan,56142,Joan,,Centrum-West,52.37297,4.88339,Entire home/apt,125,14,5,2020-02-09,0.15,1,58
3,27886,"Romantic, stylish B&B houseboat in canal district",97647,Flip,,Centrum-West,52.38761,4.89188,Private room,138,2,219,2020-07-25,2.05,1,158
4,28871,Comfortable double room,124245,Edwin,,Centrum-West,52.36719,4.89092,Private room,75,2,336,2020-09-20,2.72,2,340
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18780,45777642,Studio in Amsterdam,75268907,Emma,,Watergraafsmeer,52.34885,4.91878,Entire home/apt,33,10,0,,,1,15
18781,45783000,Spacious and cozy apartment in De Pijp,371160113,Nadezda,,De Pijp - Rivierenbuurt,52.35380,4.89740,Entire home/apt,105,7,0,,,1,253
18782,24989149,Family friendly apartment @February - Ams' ZUID,8906131,Dana,,Buitenveldert - Zuidas,52.32787,4.86267,Entire home/apt,130,1,9,2020-02-23,0.34,1,0
18783,12862772,Stylish and sunny apartment,5130567,Joan,,Zuid,52.34988,4.85635,Entire home/apt,104,2,38,2020-06-13,0.70,1,355


In [None]:
dados = novo_df

### Lição 4: Aplicando funções nos DataFrames

Uma outra função interessante dos *DataFrames* e *Series* é a função **.apply()**. 

Ela é uma ótima alternativa para quando a "única" solução aplicável envolve um loop nas estruturas. 

Esse método pode ser comparado com o **map()** do Python. 

O **.apply()** recebe como parâmetro uma função e retorna um *DataFrame* ou uma *Series* resultante da aplicação da função aos dados.

> **Exemplo hipotético**: Ao conversamos com o fornecedor dos dados, foi informado que a quantidade de reviews foi coletada de forma errada. Ela constatou que os números da base representam a quantidade real elevado ao quadrado.

Para resolver esse problema, podemos usar o **.apply()** na coluna *number_of_reviews*.

In [None]:
coluna_correta = dados.number_of_reviews.apply(np.sqrt)
coluna_correta

0        16.673332
1        18.439089
2         2.236068
3        14.798649
4        18.330303
           ...    
18780     0.000000
18781     0.000000
18782     3.000000
18783     6.164414
18784     0.000000
Name: number_of_reviews, Length: 18785, dtype: float64

Além de aplicar funções nativas, como **np.sqrt()**, também podemos aplicar funções criadas por nós (funções **def** ou **lambda**). 

Voltando no exemplo de preço em dólar, podemos aplicar a função lambda para fazer a transformação dos dados dessa coluna.

In [None]:
preco_dolar = dados.price.apply(lambda x:x*1.18)
preco_dolar

0         69.62
1        278.48
2        147.50
3        162.84
4         88.50
          ...  
18780     38.94
18781    123.90
18782    153.40
18783    122.72
18784    778.80
Name: price, Length: 18785, dtype: float64

Caso os nossos dados fossem todos numéricos, poderíamos aplicar uma única função em todo o *DataFrame*. 

Isso pode ser útil em algumas situações específicas.

Por padrão, a aplicação da função ocorre em relação as colunas. Porém, podemos modificar alterando o parâmetro *axis* (eixo ao longo do qual a função será aplicada):
* 0 ou 'index': aplica a função a cada coluna.
* 1 ou ‘columns’: aplica função a cada linha.

Como exemplo, vamos criar uma função que retorna o minimo e o máximo das colunas *price*, *minimum_nights*, *number_of_reviews* e *reviews_per_month*.

In [None]:
def min_max(linha):
    data = linha[["price", "minimum_nights", "number_of_reviews", "reviews_per_month"]]
    return pd.Series({"min": np.min(data), "max": np.max(data)})

In [None]:
dados.apply(min_max, axis=1)

Unnamed: 0,min,max
0,1.98,278.0
1,1.00,340.0
2,0.15,125.0
3,2.00,219.0
4,2.00,336.0
...,...,...
18780,0.00,33.0
18781,0.00,105.0
18782,0.34,130.0
18783,0.70,104.0


In [None]:
dados.apply(min_max, axis=0)

### Lição 5: Categorização de dados em um DataFrame

Dentro do nosso *DataFrame* temos os preços dos Airbnbs. Ao observá-los, gostaríamos de categorizar os preços em três diferentes classes:

* Preços baixos
* Preços médios 
* Preços altos

O método **.cut()** nativos do **Pandas** consegue fazer essa categorização de forma bem rápida.

Veja que o método dividiu os preços nas três categorias: preços baixos, médios e altos, em que os preços baixos são menores que os preços médios que são menores que os preços altos. 

Para isso, o método considerou uma divisão do intervalos de mesmo tamanho entre os valores mínimos e máximos. 

É possivel especificar o tamanho ou intervalos das fatias por meio do [parâmetro *bins*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html).

Dessa forma, podemos filtrar os Airbnbs apenas por preços considerados baixos.

É interessante analisarmos a quantidade de de intâncias alocadas em cada categoria. Para isso, as *Series* e os *DataFrames* apresentam o método **.value_counts()** que conta o número de ocorrência em uma dessas estruturas de acordo com uma categoria.

![](https://drive.google.com/uc?export=view&id=19QsBbXh3wv23q_W6lEM2EcB7Xbi4WHsU)

Podemos ver, então, que temos 18776 ocorrências da categoria *baixos*, 4 da *médios* e 2 da *altos*

Além de criarmos novas categorias para os nossos dados, podemos transformar uma das colunas que já temos e torná-la uma categoria.

### Lição 6: O Groupby descomplicado

Como vimos na parte teórica, o **.groupby()** é utilizado para fazer análises de grupos dentro dos *DataFrames*.

Dentro do nosso *DataFrame* temos algumas categorias de tipo de quarto como (I) Quarto Privado, (II) Apartamento ou casa completo, (III) Quarto de Hotel e (IV) Quarto Compartilhado. Com a ajuda do **.groupby()**, podemos tirar algumas informações sobre cada um desses grupos:



* Qual a quantidade de instâncias para cada tipo de quarto?

* Qual a média do atributo 'mínimo de noite' de cada um dos tipos de quarto?

![](https://drive.google.com/uc?export=view&id=16Vs_XRT3v800EMCfVCy-ubPLy-UxLBSB)

* Quanto eu terei que pagar, no mínimo, para um Apartamento o casa completo?

Se necessário, podemos agregar diferças métricas no cálculo do groupby por meio do *.agg()*.

* Qual a média, mínimo e máximo dos valores encontrados para cada tipo de *Airbnb*?

Em alguns casos, pode ser interssante realizarmos seleções múltiplas.
Vejamos um exemplo:

* Vamos fazer uma seleção multipla no atributo 'category' e 'room_type'. 

* Após isso, vamos calcular valores médios para os preços e mínimo de noites.

**Acessos em nível com *.xs***

**Acessos em nível com *.loc***

### Lição 7: Pré-processamento de dados

### Lição 8: Tratamento textual com o Pandas

Quando estamos lidando com bases de dados reais, nos deparamos com dados textuais de diversas formas. Na nossa base, temos algumas colunas do tipo ```object``` que apresentam informações textuais: 

Porém, muitas vezes esses dados textuais não apresentam nenhum padrão que facilite e torne útil a utilização deles. 

Para facilitar a manipulação desses dados, o **Pandas** apresentas formas de tratamento textual que pode ser aplicada tanto nos dados no interior do dataset, ou mesmo nos nomes de colunas e índices do *DataFrame*.

Dentro das nossas colunas, podemos observar que a coluna *last_review* possui a data, **em forma de texto**, em que a última avaliação do Airbnb aconteceu. 

A data está separada da seguinte forma: ```ano-mês-dia```. 

Vamos manipular essa informação e separar os dados ano e mês.

Outro exemplo é a coluna ```neighbourhood```, na qual alguns dados estão separados por *-*. Imagine que para nós seja mais interessante que esses nomes fossem separados por espaços.

Se for do nosso interesse, podemos colocar todos os caracteres em letras minúsculas ou maiúsculas, com a ajuda do **.lower()**.

Podemos perceber que todos os métodos que temos nas *Strings* conseguem ser acessados através dessa operação **srt**. 

Isso significa que, além dos métodos mostrados, podemos tratar essas colunas de texto da mesma forma que tratamos *strings*. 

Se você não se lembra muito dos métodos das *Strings*, veja o nosso curso [Fundamentos Essencias para Python](https://www.voitto.com.br/digital/fundamentos-essenciais-para-python), no qual detalhamos tudo sobre essa estrutura de dados.

### Lição 9: Lidando com dados duplicados

Quando estamos analisando dados, é importante nos atentarmos aos dados duplicados. Por exemplo, se tivermos um Airbnb que foi anotado mais de uma vez, isso pode influenciar negativamente nos resultados das nossas análises.

Por exemplo, se os dados repetidos tiverem um preço muito elevado, isso aumentaria a média de preços dentro da nossa base, nos levando a acreditar que os Airbnbs possuem em média um valor maior do que realmente é praticado.

Para nos auxiliar nessas situações, as *Series* e os *DataFrames* possuem o método **.duplicated()**, que retorna *Series* booleana mostrando se aquela linha é uma duplicata ou não.

Para saber a quantidade de dados duplados utilizamos o método **.sum()**

Depois de verificar se temos ou não dados duplicados devemos saber o que vamos fazer com eles. Para excluí-los usamos o método **.drop_duplicates()**

Pronto, agora não temos mais dados duplicados em nossa base.

É importante ressaltarmos que, em alguns casos, se apenas algumas colunas apresentarem informações igual os dados são considerados duplicados, para isso passamos os nomes das colunas para o parâmetro ```subset```. Veja um pouco mais [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html)

### Lição 10: Lidando com dados faltantes 

Ao plotarmos nossos dados, podemos nos deparar com alguns dados **NaN**. O que são esses dados?

O tipo de dado **NaN** significa **Not a Number** e é um tipo de dado numérico usado para representar qualquer valor que é indefinido ou não apresentável. Dentre as possibilidades do **NaN** temos:

![](https://drive.google.com/uc?export=view&id=1uHl3qocayM6Fo6qPkgLDXUdcDnW7pFWn)

Na nossa base de dados, o **NaN** representa dados faltantes, ou seja, não temos informações sobre esses dados. Para verificar se temos dados faltantes podemos usar três métodos diferentes: **.info()**, **.isna()** ou **.isnull()**. 

O **.info()** trás uma informação completa sobre os dados, enquanto o **.isna()** e o **.isnull()** mostram apenas quais são os dados faltantes

Da mesma forma que fizemos com o **.duplicated()** vamos fazer com o **isna()**

Em tratamentos simplificados, podemos tomar duas ações frente a dados faltantes 
* (1) apagá-los ou 
* (2) substituí-los por outro valor. 

Para sabermos qual usar, devemos analisar nossos dados. 

* Perceba que a coluna *neigbourhood_group* é, em sua grande maioria, composta por **NaN**. Se não vamos precisar dessa informação para nossas analises, podemos apagá-la. 

* Quanto temos poucos valores faltantes e a exclusão deles não fariam diferença para as análises, poderíamos considerar a exclusão das instâncias que possuíssem dados faltantes.

* Em situações nas quais o percentual de dados faltantes fosse moderados, poderíamos buscar estratégias para substituí-los por valores médios ou predições considerando um modelo de regressão a parte. 

|   Método  |                               Descrição                               |
|:---------:|:---------------------------------------------------------------------:|
| .fillna() | Preenche os valores NA / NaN usando o que foi passado como parâmetro. |
| .dropna() |                       Remove valores faltantes.                       |

Uma possibilidade para tratamentos simples de dados faltantes em colunas numéricas é a substituição do valor *NaN* pela **média / mediana / moda dos valores presentes nessa coluna**.

Veja que não temos mais dados faltantes na nossa base e ela está preparada para ser analisada. 

Uma ação comum nesse momento é salvar nossa base de dados já processada.

### Lição 11: Pandas + Matplotlib

Como já dito, o **Pandas** é construído tendo como base tanto a biblioteca **Numpy**, quanto a **Matplotlib**. 

Graças às características do **Matplotlib**, conseguimos criar gráficos diretamente com as estruturas *Series* e *DataFrames*. 

Através do método **.plot()** conseguimos criar diferentes tipos de gráficos, como gráficos de barras, gráficos de linhas e muitos outros.

Perceba que passamos como parâmetro qual o tipo (*kind*) de gráfico que desejamos criar, porém, também é possível fazer no formato (**plot.'kind'()**):

```
dados[['minimum_nights','room_type']].groupby('room_type').mean().plot.bar()
```


Na nossa base de dados, temos as informações de qual a vizinhança que o Airbnb está e qual o tipo dele. Vendo isso, temos algumas perguntas interessantes:

* Qual a porcentagem que cada tipo de Airbnb representa na vizinhança *Centrum-Oost* (Centro Leste)?

Repaque que, por conta da integração do **Matplolib** com o **Pandas** os parâmetros para estilização dos gráficos são praticamente iguais

* Qual a área com média de preço mais cara? E qual a mais barata?

A grande parte dos gráficos presentes no **Matplotlib** podem ser usados diretamente através dos *DataFrames* e *Series*. 

Se quieser saber mais sobre quais são os tipos de gráficos e como funcionam os parâmetros, veja o nosso curso de [Python intermediário para Análise de Dados](https://voitto.com.br/digital/python-intermediario-para-analise-de-dados).