## Nesse notebook apresentarei algumas funções úteis para limpeza de dados, especificamente incluindo:
1. Exclusão de partes inadequadas em uma string
2. Mudança de tipo de variável
3. Restrições dos valores de uma variável

In [2]:
import pandas as pd

In [3]:
dados=pd.DataFrame({"ID":[1, 2, 3], "Revenue": ["10000$", "20000$", "5000$"]})
dados

Unnamed: 0,ID,Revenue
0,1,10000$
1,2,20000$
2,3,5000$


### Apesar da variável Revenue ser um número, ele está sendo tratada como uma string por causa do $. Logo, devemos tratar esse problemas de problema usando algumas funções 

In [4]:
dados.dtypes

ID          int64
Revenue    object
dtype: object

### Portanto, se tirarmos métricas numérica nessa variável teremos alguns erros inesperados

In [5]:
dados["Revenue"].sum()

'10000$20000$5000$'

### Usarei duas funções:
1. strip: Tira de uma string os argumentos fornecidos
2. astype: Muda o tipo de uma variável

In [6]:
dados["Revenue"]=dados["Revenue"].str.strip("$")
dados["Revenue"]=dados["Revenue"].astype("int")
dados["Revenue"]

0    10000
1    20000
2     5000
Name: Revenue, dtype: int32

In [7]:
dados.dtypes

ID         int64
Revenue    int32
dtype: object

In [8]:
# Forma de verificar uma condição
assert dados['Revenue'].dtype == 'int'

### Agora vamos lidar com valores fora do intervalo desejado. Alguns métodos para contornar isso são:
1. Excluir essas observações
2. Setar valores para substituição como mínimo e máximo
3. Tratar como valores faltantes e imputar
4. Setar valores personalizados baseados na área de negócio

#### Vamos super que temos dados de filmes que são avaliados nos inteiros de 1 a 5

In [9]:
movies=pd.DataFrame({"movie_name":["A", "B", "C"], "rating":[1,5,6]})
movies

Unnamed: 0,movie_name,rating
0,A,1
1,B,5
2,C,6


In [10]:
# Drop values using filtering
movies2 = movies[movies['rating'] <= 5]
movies2

Unnamed: 0,movie_name,rating
0,A,1
1,B,5


In [11]:
assert movies2['rating'].max() <= 5

In [12]:
# Convert avg_rating > 5 to 5
movies.loc[movies['rating'] > 5, 'rating'] = 5
movies

Unnamed: 0,movie_name,rating
0,A,1
1,B,5
2,C,5


In [13]:
assert movies['rating'].max() <= 5

### Tratamento de duplicadas:
1. Vamos utilizar funções para achar duplicadas em todas as colunas ou em um subconjunto das variáveis. Para isso usamos as funções duplicated()
2. Depois de encontrar as duplicadas, podemos usar outras funções para trata elas, como a drop_duplicates() no caso em que a observação é duplicada em todas as variáveis ou podemos agrupar os valores que são diferentes nas outras variáveis usando o groupby()

### As funções duplicated() e drop_duplicates() tem alguns argumentos importantes:
1. subset: Argumento que indica um subconjunto de variáveis para encontrarmos as duplicadas ou excluir 
2. keep: Argumento que indica o método que encontra ou exclui as duplicadas. Existem três tipos: first(), last() e False()
3. inplace: Argumento somente da funções drop_duplicates, usado para excluir duplicadas diretamente da função usando o argumento True

In [21]:
dados=pd.DataFrame({"Nome":["Alberto", "Alex", "Gabi", "Ana", "Alberto", "Alex", "Gabi", "Ana"],
                   "Altura":[1.91, 1.80, 1.64, 1.55, 1.91, 1.80, 1.64, 1.52],
                   "Peso":[101, 75, 62, 52, 101, 75, 60, 52]})
dados.sort_values("Nome")

Unnamed: 0,Nome,Altura,Peso
0,Alberto,1.91,101
4,Alberto,1.91,101
1,Alex,1.8,75
5,Alex,1.8,75
3,Ana,1.55,52
7,Ana,1.52,52
2,Gabi,1.64,62
6,Gabi,1.64,60


In [22]:
duplicadas=dados.duplicated()
duplicadas

0    False
1    False
2    False
3    False
4     True
5     True
6    False
7    False
dtype: bool

In [23]:
dados[duplicadas]

Unnamed: 0,Nome,Altura,Peso
4,Alberto,1.91,101
5,Alex,1.8,75


## Aqui percebemos um problema comum que já aconteceu comigo várias vezes:
1. Duplicadas em todas as linhas, essas devemos excluir
2. Duplicadas na variável chave da base(Nome) e com valores diferentes nas outras variáveis: Altura e Peso. Especificamente, nas observações com Nome Ana e Gabi. Nesses casos uma opção é agrupar essas variáveis através de alguma métrica usando o groupby()

In [24]:
duplicadas=dados.duplicated(subset=["Nome"], keep=False)
dados[duplicadas].sort_values("Nome")

Unnamed: 0,Nome,Altura,Peso
0,Alberto,1.91,101
4,Alberto,1.91,101
1,Alex,1.8,75
5,Alex,1.8,75
3,Ana,1.55,52
7,Ana,1.52,52
2,Gabi,1.64,62
6,Gabi,1.64,60


In [25]:
dados.drop_duplicates(keep="first", inplace=True)
dados.sort_values("Nome")

Unnamed: 0,Nome,Altura,Peso
0,Alberto,1.91,101
1,Alex,1.8,75
3,Ana,1.55,52
7,Ana,1.52,52
2,Gabi,1.64,62
6,Gabi,1.64,60


In [29]:
dados=dados.groupby("Nome").agg({"Altura": "max", "Peso":"mean"}).reset_index()
dados

Unnamed: 0,Nome,Altura,Peso
0,Alberto,1.91,101.0
1,Alex,1.8,75.0
2,Ana,1.55,52.0
3,Gabi,1.64,61.0
