# Desafio Outliers

Desafio de analise de dados.

A lista de dados contem 3 colunas: "order_id", "date" e "revenue"

A coluna revenue contem outliers, valores discrepantes, que são valores abaixo do minimo "1" e acima do maximo "99".

O Desafio é eliminar esses valores, sera feito da seguinte forma:
+ Encontrar os outliers (abaixo de 1 e acima de 99);
+ Encontrar os valores minimos aceitaveis (acima de 1 e abaixo de 99);
+ Substituir os outliers pelos valores aceitaveis.

### importando as ferramentas importantes

Em nosso caso, sera preciso apenas o Pandas e o Jupyter Nootebook

In [2]:
import pandas as pd

Agora, vamos extrair nossa base de dados (data.csv)

In [3]:
# df sera o nome dado ao arquivo
df = pd.read_csv(
    "D:\\Otas paradas V\\projetos e afins\\analise-outlier\\data.csv"
)

Checando se tudo ocorreu como esperado

In [4]:
df.head(5)

Unnamed: 0,order_id,date,revenue
0,id0001,2018-02-22,88.68
1,id0002,2018-03-04,11.85
2,id0003,2017-10-29,91.57
3,id0004,2015-01-26,74.41
4,id0005,2017-04-29,85.3


Definindo os valores minimos

In [10]:
minimum_limit = 1
maximum_limit = 99

Capturando os outliers (abaixo de 1 e acima de 99)

In [12]:
below_minimun_limit = df.loc[
    df['revenue'] < minimum_limit
    ]

above_maximum_limit = df.loc[
    df['revenue'] > maximum_limit
    ]

Checando se tudo ocorreu como esperado

In [15]:
print(f'Os valores abaixo do limite sao: \n{below_minimun_limit}')
print(f'Os valores acima do limite sao: \n{above_maximum_limit}')

Os valores abaixo do limite sao: 
    order_id        date  revenue
116   id0117  2018-10-24     0.36
227   id0228  2018-07-10     0.82
299   id0300  2015-04-13     0.83
684   id0685  2016-01-01     0.93
810   id0811  2017-07-30     0.86
833   id0834  2019-06-01     0.11
879   id0880  2018-03-08     0.88
913   id0914  2015-07-22     0.76
Os valores acima do limite sao: 
    order_id        date  revenue
31    id0032  2016-04-02    99.68
300   id0301  2016-10-10    99.19
355   id0356  2018-02-19    99.28
376   id0377  2016-01-11    99.32
504   id0505  2020-08-21    99.90
526   id0527  2020-08-18    99.17
533   id0534  2019-01-07    99.55
689   id0690  2015-04-19    99.29
803   id0804  2019-09-17    99.67
832   id0833  2018-06-26    99.54
931   id0932  2015-01-13    99.23


Vamos agora achar o menor valor aceitavel (acima de 1) e o maior valor aceitavel (abaixo de 99)

In [37]:
min_value = df[
    df['revenue'] > minimum_limit
    ]['revenue'].min()

max_value = df[
    df['revenue'] < maximum_limit
    ]['revenue'].max()

print(min_value)
print(max_value)

1.17
98.88


Agora sabemos os valores aceitaveis (minimo e maximo).

Tem-se 1.17 para min, 98.88 para max.

Vamos agora substituir esses valores nos outliers (abaixo de 1 recebe 1.17, acima de 99 recebe 98.88).

In [38]:
total_outliers = below_minimun_limit.count() + above_maximum_limit.count()
print(
    f'O total de outliers antes de substituir: {total_outliers["revenue"]}'
    )

O total de outliers antes de substituir: 19


In [51]:
df.loc[
    df['revenue'] < minimum_limit, 'revenue'
    ] = min_value

df.loc[
    df['revenue'] > maximum_limit, 'revenue'
    ] = max_value


Sera realizado algumas checagens para ver se tudo ocorreu como esperado

In [52]:
total_outliers = (df['revenue'] < minimum_limit).sum() + (df['revenue'] > maximum_limit).sum()

print(
    f'O total de outliers depois de substituir: {total_outliers}'
    )

O total de outliers depois de substituir: 0


In [53]:
if (df['revenue'] < minimum_limit).any() or (df['revenue'] > maximum_limit).any():
    print('ERROR!!! Ainda existem outliers')
else:
    print('SUCESSO!!! Todos os outliers foram tratados')

SUCESSO!!! Todos os outliers foram tratados


Vamos agora substituir os valores tratados em um novo dataset

In [54]:
df.to_csv(
    "D:\\Otas paradas V\\projetos e afins\\analise-outlier\\new_data.csv",
    index=False
)

Por fim, sera checado se o novo dataset teve seus valores substituidos como esperado

In [55]:
new_data = pd.read_csv(
    "D:\\Otas paradas V\\projetos e afins\\analise-outlier\\new_data.csv"
)

In [56]:
if (new_data['revenue'] < minimum_limit).any() or (new_data['revenue'] > maximum_limit).any():
    print('ERROR!!! Ainda existem outliers')
else:
    print('SUCESSO!!! Nao existem outliers no novo dataset')

SUCESSO!!! Nao existem outliers no novo dataset
