## Nesse notebook apresentarei algumas funções úteis para limpeza de dados, especificamente incluindo:
1. Exclusão de partes inadequadas em uma string
2. Mudança de tipo de variável
3. Restrições dos valores de uma variável

In [6]:
import pandas as pd

In [7]:
dados=pd.DataFrame({"ID":[1, 2, 3], "Revenue": ["10000$", "20000$", "5000$"]})
dados

Unnamed: 0,ID,Revenue
0,1,10000$
1,2,20000$
2,3,5000$


### Apesar da variável Revenue ser um número, ele está sendo tratada como uma string por causa do $. Logo, devemos tratar esse problemas de problema usando algumas funções 

In [8]:
dados.dtypes

ID          int64
Revenue    object
dtype: object

### Portanto, se tirarmos métricas numérica nessa variável teremos alguns erros inesperados

In [9]:
dados["Revenue"].sum()

'10000$20000$5000$'

### Usarei duas funções:
1. strip: Tira de uma string os argumentos fornecidos
2. astype: Muda o tipo de uma variável

In [10]:
dados["Revenue"]=dados["Revenue"].str.strip("$")
dados["Revenue"]=dados["Revenue"].astype("int")
dados["Revenue"]

0    10000
1    20000
2     5000
Name: Revenue, dtype: int32

In [11]:
dados.dtypes

ID         int64
Revenue    int32
dtype: object

In [13]:
# Forma de verificar uma condição
assert dados['Revenue'].dtype == 'int'

### Agora vamos lidar com valores fora do intervalo desejado. Alguns métodos para contornar isso são:
1. Excluir essas observações
2. Setar valores para substituição como mínimo e máximo
3. Tratar como valores faltantes e imputar
4. Setar valores personalizados baseados na área de negócio

#### Vamos super que temos dados de filmes que são avaliados nos inteiros de 1 a 5

In [24]:
movies=pd.DataFrame({"movie_name":["A", "B", "C"], "rating":[1,5,6]})
movies

Unnamed: 0,movie_name,rating
0,A,1
1,B,5
2,C,6


In [25]:
# Drop values using filtering
movies2 = movies[movies['rating'] <= 5]
movies2

Unnamed: 0,movie_name,rating
0,A,1
1,B,5


In [26]:
assert movies2['rating'].max() <= 5

In [27]:
# Convert avg_rating > 5 to 5
movies.loc[movies['rating'] > 5, 'rating'] = 5
movies

Unnamed: 0,movie_name,rating
0,A,1
1,B,5
2,C,5


In [28]:
assert movies['rating'].max() <= 5

In [None]:
### Tratamento de duplicadas:
1.
2. 