# Introdução do problema

Neste notebook o objetivo é identificar alguns casos de fraude em uma loja de um comércio eletronico. É importante ressaltar que vou utilizar alguns algorítmos supervisionados e outros não-supervisionados buscando identificar a maior quantidade de fraudes possível. Porém já adianto, **nenhum algorítmo é capaz de produzir identificações 100% corretas**. Além disso, existem outras tecnicas que podem ser utilizadas na tentativa de resolver o mesmo problema.

**Aqui irei trabalhar com um conjunto de dados reais para tentar detectar fraudes**. A primeira etapa vai consistir em produzir hipóteses pra solução do problema através de análise exploratória dos dados, quantidativos e qualitativos, precedidos de uma limpeza caso necessário. Em seguida vou tentar propor um modelo  de previsão com base em dois algorítmos com técnicas já citadas. Por fim, gerar uma conclusão desse relatório e sugerir possíveis propostas de alterações ou apenas recomendações de novos relatórios ou implementação de ferramentas.

# Importações 


In [1]:
import numpy as np 
import pandas as pd 
import seaborn as sns 
import matplotlib as mpl
import scipy 
import itertools
import datetime


from matplotlib import pyplot as plt
from scipy import special
from datetime import timedelta

In [2]:
print('~~ Versão Python ~~')
!python --version

print('\n\n~~ Versões Módulos ~~')

print(f'numpy: {np.__version__}')
print(f'pandas: {pd.__version__}')
print(f'seaborn: {sns.__version__}')
print(f'matplotlib: {mpl.__version__}')
print(f'scipy: {scipy.__version__}')

~~ Versão Python ~~
Python 3.7.9


~~ Versões Módulos ~~
numpy: 1.20.1
pandas: 1.2.4
seaborn: 0.11.1
matplotlib: 3.3.4
scipy: 1.6.2


# Importando os dados

Aqui vamos importar os dados das transações, é um arquivo CSV e basicamente são dois conjuntos de dados. Um banco de dados contém todas as informações com transações e a flag se foi ou não fraude e outro banco de dados com endereçamento de IP e o alcance de cada um presente em cada país.

In [8]:
transacoes = pd.read_csv('./dados/Fraud_Data.csv', header = 0)
enderecos_ip = pd.read_csv('./dados/IpAddress_to_Country.csv', header = 0)

## Exibindo informações

In [10]:
display(transacoes.head())
display(transacoes.info())

Unnamed: 0,id,cadastro,compra,valor,id_dispositivo,fonte,browser,genero,idade,ip,fraude
0,22058,2015-02-24 22:55:49,2015-04-18 02:47:11,34,QVPSPJUOCKZAR,SEO,Chrome,M,39,732758400.0,0
1,333320,2015-06-07 20:39:50,2015-06-08 01:38:54,16,EOGFQPIZPYXFZ,Ads,Chrome,F,53,350311400.0,0
2,1359,2015-01-01 18:52:44,2015-01-01 18:52:45,15,YSSKYOSJHPPLJ,SEO,Opera,M,53,2621474000.0,1
3,150084,2015-04-28 21:13:25,2015-05-04 13:54:50,44,ATGTXKYKUDUQN,SEO,Safari,M,41,3840542000.0,0
4,221365,2015-07-21 07:09:52,2015-09-09 18:40:53,39,NAUITBZFJKHWW,Ads,Safari,M,45,415583100.0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151112 entries, 0 to 151111
Data columns (total 11 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   id              151112 non-null  int64  
 1   cadastro        151112 non-null  object 
 2   compra          151112 non-null  object 
 3   valor           151112 non-null  int64  
 4   id_dispositivo  151112 non-null  object 
 5   fonte           151112 non-null  object 
 6   browser         151112 non-null  object 
 7   genero          151112 non-null  object 
 8   idade           151112 non-null  int64  
 9   ip              151112 non-null  float64
 10  fraude          151112 non-null  int64  
dtypes: float64(1), int64(4), object(6)
memory usage: 12.7+ MB


None

Para as informações sobre as transacoes temos um total de 11 variáveis, apenas uma `float`, quatro do tipo `int` e seis do tipo `object` ocupando um espaço de `12.7 MB` totalizando `151112` amostras, onde nenhuma delas é nula.

In [11]:
display(enderecos_ip.head())
display(enderecos_ip.info())

Unnamed: 0,limite_inferior_ip,limite_superior_ip,pais
0,16777216.0,16777471,Australia
1,16777472.0,16777727,China
2,16777728.0,16778239,China
3,16778240.0,16779263,Australia
4,16779264.0,16781311,China


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138846 entries, 0 to 138845
Data columns (total 3 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   limite_inferior_ip  138846 non-null  float64
 1   limite_superior_ip  138846 non-null  int64  
 2   pais                138846 non-null  object 
dtypes: float64(1), int64(1), object(1)
memory usage: 3.2+ MB


None

Para os dados de endereçamento de IP, temos um total de 138846 amostras, sendo um total de 3 variáveis, do tipo `float`, `int` e `object`, onde também nenhum registro é nulo. **Note que o limite inferior é um número `float` e o superior `int`, o que não faz muito sentido pois o endereço de IP é um numero inteiro.** Precisamos de alguma maneira verificar se o ponto flutuante desses endereços tem signigicado ou se é a mandissa é inteira, isso será feito posteriormente.


Podemos tirar a prova real através do método `isnull()` que retorna um dataframe booleano para a pergunta e como `False = 0 `e `True = 1` é possível somar e ver quantos valores nulos tem por variável:

In [14]:
transacoes.isnull().sum()

id                0
cadastro          0
compra            0
valor             0
id_dispositivo    0
fonte             0
browser           0
genero            0
idade             0
ip                0
fraude            0
dtype: int64

In [29]:
enderecos_ip.isnull().sum()

limite_inferior_ip    0
limite_superior_ip    0
pais                  0
dtype: int64

Note que não tem nenhum valor nulo. 

## Estatisticas descritivas

Aqui temos as estatisticas descritivas dos valores numéricos das transações

In [22]:
transacoes.describe()

Unnamed: 0,id,valor,idade,ip,fraude
count,151112.0,151112.0,151112.0,151112.0,151112.0
mean,200171.04097,36.935372,33.140704,2152145000.0,0.093646
std,115369.285024,18.322762,8.617733,1248497000.0,0.291336
min,2.0,9.0,18.0,52093.5,0.0
25%,100642.5,22.0,27.0,1085934000.0,0.0
50%,199958.0,35.0,33.0,2154770000.0,0.0
75%,300054.0,49.0,39.0,3243258000.0,0.0
max,400000.0,154.0,76.0,4294850000.0,1.0


Nesta tabela, temos informações sobre média e desvio padrão amostral, e também os intervalos interquartis. Podemos fazer o mesmo pocesso para os endereços de ip:

In [27]:
enderecos_ip.describe()

Unnamed: 0,limite_inferior_ip,limite_superior_ip
count,138846.0,138846.0
mean,2724532000.0,2724557000.0
std,897521500.0,897497900.0
min,16777220.0,16777470.0
25%,1919930000.0,1920008000.0
50%,3230887000.0,3230888000.0
75%,3350465000.0,3350466000.0
max,3758096000.0,3758096000.0


## Tratando o endereçamento de ip float

In [54]:
ip_is_float = lambda ip: not ip.is_integer()

vetor_teste = np.arange(0,1.1,0.1)

print(vetor_teste)
for elemento in vetor_teste:
    print(ip_is_float(elemento), end=',')

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
False,True,True,True,True,True,True,True,True,True,False,

Note que apenas os valores inteiros são considerados `False`, todos os decimais são `True`, então vamos aplicar esta função `ip_is_float` em todos os limites inferiores para verificar se tem algum valor cujo o numero depois da vírgula não é zero:

In [57]:
enderecos_ip.limite_inferior_ip.apply(ip_is_float).sum()

0

Como podemos ver através da célula acima, nenhum dos valores tem algum numero com mantissa decimal significativa, então podemos transformar toda a linha em inteiro sem perder informação:

In [60]:
enderecos_ip.limite_inferior_ip = enderecos_ip.limite_inferior_ip.astype(int)
enderecos_ip.limite_inferior_ip

0           16777216
1           16777472
2           16777728
3           16778240
4           16779264
             ...    
138841    3758092288
138842    3758093312
138843    3758095360
138844    3758095872
138845    3758096128
Name: limite_inferior_ip, Length: 138846, dtype: int64

> **Observação**: Note que eu converti pra `int` que no fundo é `int64` e não pra `int32`. Caso a conversão seja feita pra `int32` pode acontecer distorções no endereçamento.

In [61]:
enderecos_ip.describe()

Unnamed: 0,limite_inferior_ip,limite_superior_ip
count,138846.0,138846.0
mean,2724532000.0,2724557000.0
std,897521500.0,897497900.0
min,16777220.0,16777470.0
25%,1919930000.0,1920008000.0
50%,3230887000.0,3230888000.0
75%,3350465000.0,3350466000.0
max,3758096000.0,3758096000.0


Percepa ainda que os valores `max` são iguais, é preciso verificar se esse valor é um problema de visualização ou se são iguais mesmo:

In [63]:
display(enderecos_ip[enderecos_ip.limite_inferior_ip == enderecos_ip.limite_inferior_ip.max()])
display(enderecos_ip[enderecos_ip.limite_superior_ip == enderecos_ip.limite_superior_ip.max()])

Unnamed: 0,limite_inferior_ip,limite_superior_ip,pais
138845,3758096128,3758096383,Australia


Unnamed: 0,limite_inferior_ip,limite_superior_ip,pais
138845,3758096128,3758096383,Australia


Perceba que os valores dos limites superiores e inferiores são diferentes, então realmente os valores são diferente e o problema é o tipo de visualização do método `describe()`

## Cruzando dados de transações com os endereços de IP

Analisando as estatisticas descritivas temos uma informação muito importante, note os valores mínimos dos dados de endereçamento de ip e os valores minimos da variável `ip`  na base de dados de transações:

In [82]:
transacoes.describe().ip.loc['min']

52093.4968949854

In [77]:
enderecos_ip.describe().loc['min']

limite_inferior_ip    16777216.0
limite_superior_ip    16777471.0
Name: min, dtype: float64

Note que os valores são diferentes, isso indica que os ip's nos dados de transações não estão nos dados de endereçamento e vice-versa. Logo, este tipo de discrepancia entre as bases de dados pode gerar distorções. Então para ter um ponto em comum vamos associar as duas bases de dados.

In [116]:
def ip_counts(ip):
    '''
    Esta função vai receber um ip e verificar se ele é único
    se ele pertence a varios países
    e caso não faça parte de nenhum verifica o motivo:
        Se for maior que o range,
        Se for menor que o range
        ou se não esta na base de dados.
    '''
    # seleção de range de ip de um país
    selecao = (enderecos_ip.limite_inferior_ip <= ip) & (ip <= enderecos_ip.limite_superior_ip)
    pais = enderecos_ip[selecao].pais
    
    if pais.shape[0] == 1:
        return 'Único'
    elif pais.shape[0] > 1:
        return 'Vários países'
    elif pais.shape[0] == 0:
        if ip > enderecos_ip.limite_superior_ip.max():
            return 'Maior que o range do país'
        elif ip < enderecos_ip.limite_inferior_ip.min():
            return 'Menor que o range do país'
        else:
            return 'Não consta na base de dados'

O fato de termos que aplicar esta função em 151 mil amostras pode levar algum tempo, vamos estimar este tempo:

In [127]:
%%time
teste_1000 = transacoes[:1000].ip.apply(ip_counts)

CPU times: user 2.67 s, sys: 150 ms, total: 2.82 s
Wall time: 2.11 s


In [129]:
tempo_estimado = ((2.82 / 1000) * len(transacoes.ip)) / 60
print(f'Tempo estimado: {tempo_estimado:.2f} minutos')

Tempo estimado: 7.10 minutos


Logo para passar por todos esses dados o tempo estimado é em 7 minutos:

In [117]:
%%time
ips_counts = transacoes.ip.apply(ip_counts)
ips_counts.value_counts()

CPU times: user 6min 43s, sys: 32.1 s, total: 7min 15s
Wall time: 5min 7s


Único                          129146
Maior que o range do país       19383
Não consta na base de dados      1949
Menor que o range do país         634
Name: ip, dtype: int64

Como visto levou 7 minutos e 15 segundos. temos então a quantidade de IP que são unicos, IP maiores que o range do pais ou menores, e também temos a quantidade de IP's que não constam.

Agora vamos fazer uma nova função que dado o IP retorna o país:

In [153]:
def ip_do_pais(ip):
    selecao = (enderecos_ip.limite_inferior_ip <= ip) & (ip <= enderecos_ip.limite_superior_ip)
    ip_do_pais_selecionado = enderecos_ip[selecao].pais
    
    if ip_do_pais_selecionado.shape[0] == 1:
        return ip_do_pais_selecionado.iloc[0]
    elif ip_do_pais_selecionado.shape[0] < 1:
        return 'missing_country'
    elif ip_do_pais_selecionado.shape[0] > 1:
        return 'out_range'

Vamos fazer um teste novamente com 1000 amostra para estimar o tempo de retornar o país de cada ip no dataframe de `transações`:

In [157]:
%%time
transacoes[:1000].ip.apply(ip_do_pais)

CPU times: user 2.63 s, sys: 252 ms, total: 2.89 s
Wall time: 2.05 s


0                                Japan
1                        United States
2                        United States
3                      missing_country
4                        United States
                    ...               
995    Taiwan; Republic of China (ROC)
996                    missing_country
997                        Netherlands
998                    missing_country
999    Taiwan; Republic of China (ROC)
Name: ip, Length: 1000, dtype: object

In [158]:
tempo_estimado = ((2.89 / 1000) * len(transacoes.ip)) / 60
print(f'Tempo estimado: {tempo_estimado:.2f} minutos')

Tempo estimado: 7.28 minutos


Bom, então vamos criar uma variável `pais` no dataframe `transacoes` com o país dos ips tratados: 

In [159]:
%%time
transacoes['pais'] = transacoes.ip.apply(ip_do_pais)

CPU times: user 6min 32s, sys: 29.9 s, total: 7min 1s
Wall time: 5min 3s


Exibindo o dataframe com a nova coluna `pais`:

In [166]:
transacoes.head(10)

Unnamed: 0,id,cadastro,compra,valor,id_dispositivo,fonte,browser,genero,idade,ip,fraude,pais
0,22058,2015-02-24 22:55:49,2015-04-18 02:47:11,34,QVPSPJUOCKZAR,SEO,Chrome,M,39,732758400.0,0,Japan
1,333320,2015-06-07 20:39:50,2015-06-08 01:38:54,16,EOGFQPIZPYXFZ,Ads,Chrome,F,53,350311400.0,0,United States
2,1359,2015-01-01 18:52:44,2015-01-01 18:52:45,15,YSSKYOSJHPPLJ,SEO,Opera,M,53,2621474000.0,1,United States
3,150084,2015-04-28 21:13:25,2015-05-04 13:54:50,44,ATGTXKYKUDUQN,SEO,Safari,M,41,3840542000.0,0,missing_country
4,221365,2015-07-21 07:09:52,2015-09-09 18:40:53,39,NAUITBZFJKHWW,Ads,Safari,M,45,415583100.0,0,United States
5,159135,2015-05-21 06:03:03,2015-07-09 08:05:14,42,ALEYXFXINSXLZ,Ads,Chrome,M,18,2809315000.0,0,Canada
6,50116,2015-08-01 22:40:52,2015-08-27 03:37:57,11,IWKVZHJOCLPUR,Ads,Chrome,F,19,3987484000.0,0,missing_country
7,360585,2015-04-06 07:35:45,2015-05-25 17:21:14,27,HPUCUYLMJBYFW,Ads,Opera,M,34,1692459000.0,0,United States
8,159045,2015-04-21 23:38:34,2015-06-02 14:01:54,30,ILXYDOZIHOOHT,SEO,IE,F,43,3719094000.0,0,China
9,182338,2015-01-25 17:49:49,2015-03-23 23:05:42,62,NRFFPPHZYFUVC,Ads,IE,M,31,341674700.0,0,United States


Vou salvar esse dataframe porque ele é bem grande e para não precisar demorar quase 20 minutos toda vez:

In [168]:
transacoes.to_csv('./dados/Transacoes_Fraudes.csv', index=False)

Agora vou testar a leitura deste arquivo:

In [169]:
transacoes = pd.read_csv('./dados/Transacoes_Fraudes.csv', header = 0)
transacoes.head(10)

Unnamed: 0,id,cadastro,compra,valor,id_dispositivo,fonte,browser,genero,idade,ip,fraude,pais
0,22058,2015-02-24 22:55:49,2015-04-18 02:47:11,34,QVPSPJUOCKZAR,SEO,Chrome,M,39,732758400.0,0,Japan
1,333320,2015-06-07 20:39:50,2015-06-08 01:38:54,16,EOGFQPIZPYXFZ,Ads,Chrome,F,53,350311400.0,0,United States
2,1359,2015-01-01 18:52:44,2015-01-01 18:52:45,15,YSSKYOSJHPPLJ,SEO,Opera,M,53,2621474000.0,1,United States
3,150084,2015-04-28 21:13:25,2015-05-04 13:54:50,44,ATGTXKYKUDUQN,SEO,Safari,M,41,3840542000.0,0,missing_country
4,221365,2015-07-21 07:09:52,2015-09-09 18:40:53,39,NAUITBZFJKHWW,Ads,Safari,M,45,415583100.0,0,United States
5,159135,2015-05-21 06:03:03,2015-07-09 08:05:14,42,ALEYXFXINSXLZ,Ads,Chrome,M,18,2809315000.0,0,Canada
6,50116,2015-08-01 22:40:52,2015-08-27 03:37:57,11,IWKVZHJOCLPUR,Ads,Chrome,F,19,3987484000.0,0,missing_country
7,360585,2015-04-06 07:35:45,2015-05-25 17:21:14,27,HPUCUYLMJBYFW,Ads,Opera,M,34,1692459000.0,0,United States
8,159045,2015-04-21 23:38:34,2015-06-02 14:01:54,30,ILXYDOZIHOOHT,SEO,IE,F,43,3719094000.0,0,China
9,182338,2015-01-25 17:49:49,2015-03-23 23:05:42,62,NRFFPPHZYFUVC,Ads,IE,M,31,341674700.0,0,United States


Bom deu certo até aqui. Agora vou criar outro notebook para realizar análise em cima dos dados das transacoes.