Você trabalha em um banco como cientista de dados e recebeu o seguinte conjunto de dados para analisar:


In [4]:
import pandas as pd

# criando um DataFrame com 30 transações aleatórias
df = pd.DataFrame({
    'ID da transação': range(1, 31),
    'Valor da transação': [100, 200, 150, 500, 300, 913, 250, 400, 200, 150, 
                           200, 200, 400, 300, 150, 301, 805, 300, 400, 250, 
                           150, 100, 500, 600, 200, 350, 100, 250, 800, 250],
    'Data da transação': pd.date_range(start='2022-01-01', end='2022-01-30', freq='D'),
    'Local da transação': ['São Paulo, Brasil', 'Rio de Janeiro, Brasil', 'Belo Horizonte, Brasil', 'São Paulo, Brasil', 
                           'São Paulo, Brasil', 'Nova Iorque, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'Rio de Janeiro, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Los Angeles, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Miami, EUA', 'São Paulo, Brasil']
})

Foi informado que nessa base de dados há possíveis fraudes que podem ser identificadas através dos outliers no “valor da transação”. Basicamente a fraude seria um outlier.

Sua missão é construir uma função que recebe dois parâmetros, a coluna que você quer analisar se tem outlier e o DataFrame em questão. A intenção de fazer isso é aproveitar novamente essa função tanto para outras colunas quanto para outros DataFrames futuramente em outras análises. O método que deve ser implementado para identificação do outlier é do intervalo interquartil.

Como podemos fazer isso?



In [5]:
def calc_outliers(column, dataframe): 

  # calculando o IQR e definindo o limite para outliers
  Q1 = dataframe[column].quantile(0.25)
  Q3 = dataframe[column].quantile(0.75)
  IQR = Q3 - Q1
  limite_inferior = Q1 - 1.5 * IQR
  limite_superior = Q3 + 1.5 * IQR

  # identificando os outliers
  outliers = dataframe[(dataframe[column] < limite_inferior) | (dataframe[column] > limite_superior)]

  # retornando os outliers
  return outliers

Esse código em Python define uma função chamada calc_outliers que recebe dois parâmetros: column e dataframe. A função tem como objetivo identificar e retornar os outliers (valores extremos) de uma coluna específica em um DataFrame.

O primeiro passo da função é calcular o IQR (Interquartile Range) da coluna, que é a diferença entre o terceiro (Q3) e o primeiro quartil (Q1). Em seguida, é definido um limite inferior e um limite superior para identificar os outliers. Esses limites são calculados subtraindo e somando, respectivamente, 1.5 vezes o IQR ao Q1 e ao Q3. A imagem abaixo exemplifica isso:

![img](img/img.png)

Após definir os limites, a função identifica os outliers na coluna do DataFrame utilizando a condição de que os valores sejam menores que o limite inferior ou maiores que o limite superior. Por fim, a função retorna um novo DataFrame contendo apenas os outliers identificados.

Vamos então obter as amostras que são outliers na coluna “Valor da transação” no conjunto de dados fornecido:



In [6]:
print(calc_outliers('Valor da transação', df))

    ID da transação  Valor da transação Data da transação Local da transação
5                 6                 913        2022-01-06   Nova Iorque, EUA
16               17                 805        2022-01-17   Los Angeles, EUA
28               29                 800        2022-01-29         Miami, EUA


Logo, essas são as 3 transações fraudulentas presentes nos dados fornecidos.

