<a href="https://colab.research.google.com/github/CeLo93/ML_analise_preditiva_de_fraudes_e_marketing/blob/algoritmo_IsolationForest/Prediction_DadosFera.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **CASE PROJETO**

## RESUMO:

O projeto √© uma simula√ß√£o v√≠vida de como os dados em tempo real podem ser gerados e enviados para um fluxo Kinesis Data Stream na AWS. Esse fluxo √© apenas o come√ßo de um processo mais amplo, que pode envolver diversas etapas de processamento e an√°lise.

* Gera√ß√£o de Dados em Tempo Real: O c√≥digo utiliza a biblioteca Faker para criar transa√ß√µes fict√≠cias, como transa√ß√µes de pagamentos, compras etc. Esses dados simulados representam informa√ß√µes que seriam geradas por sistemas reais em tempo real.

* Envio para Kinesis Data Streams: As transa√ß√µes fict√≠cias s√£o formatadas e enviadas para um fluxo Kinesis Data Stream. Isso espelha como os dados em tempo real seriam injetados em um fluxo de dados, prontos para serem processados.

* Kinesis Data Firehose: Embora n√£o esteja presente no c√≥digo atual, normalmente, os dados de um fluxo Kinesis s√£o direcionados para o Kinesis Data Firehose. Essa etapa permite transforma√ß√µes e envio simplificado para diversos destinos, como o Amazon S3.

* Armazenamento em Amazon S3: O fluxo Kinesis Data Firehose, que segue o fluxo Kinesis, pode ser configurado para armazenar os dados processados no Amazon S3. Isso resulta em um reposit√≥rio centralizado e escal√°vel para armazenamento de dados brutos.

* Extra√ß√£o de Dados para Modelos de ML e An√°lises: Com os dados armazenados no Amazon S3, √© poss√≠vel extrair, processar e analisar os dados para diversos fins, incluindo treinamento de modelos de aprendizado de m√°quina, an√°lise de tend√™ncias, gera√ß√£o de relat√≥rios e muito mais.

* Itera√ß√£o e Otimiza√ß√£o: Uma vez que os dados est√£o dispon√≠veis em um ambiente de armazenamento dur√°vel como o Amazon S3, √© poss√≠vel iterar, otimizar e evoluir os processos de an√°lise, modelagem e visualiza√ß√£o de acordo com as necessidades em constante mudan√ßa.

Em resumo, o projeto √© uma representa√ß√£o inicial de como dados simulados em tempo real podem ser injetados em um fluxo Kinesis Data Stream, desencadeando uma s√©rie de a√ß√µes que culminam no armazenamento dos dados no Amazon S3 e na subsequente an√°lise e processamento desses dados. Esse √© o ponto de partida para a constru√ß√£o de solu√ß√µes mais robustas e complexas de processamento de dados em tempo real na AWS, baseada na arquitetura proposta.

## FLUXOGRAMA GERAL
      1. Aplicativo Gera Dados
      |
      v
    2. Kinesis Stream
      |
      v
    3. Firehose
      |-------------> 4. Redis?
      v             
    4. Amazon S3
      |
      v
    5. Amazon Fraud Detector
      |
      |--- [Se Escolher Usar o Amazon Fraud Detector]
      |     |
      |     v
      |   Treinamento de Modelo (Amazon Fraud Detector)
      |     |
      |     v
      |   Avalia√ß√£o e Otimiza√ß√£o do Modelo (Amazon Fraud Detector)
      |     |
      |     v
      |   Implanta√ß√£o do Modelo (Amazon Fraud Detector)
      |     |
      |     v
      |   Detec√ß√£o de Fraudes em Tempo Real (Amazon Fraud Detector)
      |
      |--- [Se Escolher Modelo Pr√≥prio]
            |
            v
          Treinamento de Modelo Personalizado
            |
            v
          Avalia√ß√£o e Otimiza√ß√£o do Modelo
            |
            v
          Implanta√ß√£o do Modelo (integrado √† infraestrutura do aplicativo. Isso pode incluir a cria√ß√£o de APIs ou endpoints que permitam que o aplicativo envie transa√ß√µes para o modelo e receba as previs√µes de detec√ß√£o de fraude)
            |
            v
          Detec√ß√£o de Fraudes em Tempo Real




##  **1. Scripts Geradores do Case**



### 1.1. ‚òÅ Gerando Dados de alimenta√ß√£o colab-AWS (exemplo)

Basicamente ele simula os dados em tempo real que s√£o enviado para o Kinesis Data Streams criado. √Ä partir disso, seguir√° o fluxo para o firehouse e depois para o armazenamento S3

In [None]:
# Instala o boto3
!pip install boto3
!pip install faker

In [None]:
import boto3
import random
import time
from faker import Faker
import csv

# Configura√ß√£o das credenciais de acesso (substitua pelas suas credenciais)
AWS_ACCESS_KEY_ID = 'YOUR_ACCESS_KEY'
AWS_SECRET_ACCESS_KEY = 'YOUR_SECRET_KEY'
REGION_NAME = 'sa-east-1'

# Nome do stream Kinesis criado
stream_name = 'xxx-stream'

# Inicializa√ß√£o do cliente Kinesis
kinesis_client = boto3.client('kinesis', region_name=REGION_NAME,
                              aws_access_key_id=AWS_ACCESS_KEY_ID,
                              aws_secret_access_key=AWS_SECRET_ACCESS_KEY)

# Inicializa√ß√£o da biblioteca Faker para gera√ß√£o de dados fict√≠cios
fake = Faker()

# Lista de cidades e estados do Brasil para o exemplo
cidades_estados = [
    ("S√£o Paulo", "SP"),
    ("Rio de Janeiro", "RJ"),
    ("Belo Horizonte", "MG"),
    ("Salvador", "BA"),
    ("Curitiba", "PR"),
    ("Fortaleza", "CE"),
    ("Porto Alegre", "RS"),
    ("Recife", "PE"),
    ("Bras√≠lia", "DF"),
    ("Goi√¢nia", "GO"),
    ("Belo Horizonte", "MG"),
    ("Manaus", "AM"),
    ("Bel√©m", "PA"),
    ("Campinas", "SP"),
    ("S√£o Lu√≠s", "MA"),
    ("S√£o Gon√ßalo", "RJ"),
    ("Macei√≥", "AL"),
    ("Duque de Caxias", "RJ"),
    ("Natal", "RN"),
    ("Montes Claros", "MG"),
    ("Campo Grande", "MS"),
    ("Teresina", "PI"),
    ("Osasco", "SP"),
    ("Cuiab√°", "MT"),
    ("Aracaju", "SE"),
    ("Feira de Santana", "BA"),
    ("Santar√©m", "PA"),
    ("Londrina", "PR"),
    ("Juiz de Fora", "MG"),
]

# Fun√ß√£o para gerar uma transa√ß√£o fict√≠cia aleat√≥ria
def generate_random_transaction():
    # Gera um nome completo fict√≠cio
    nome_completo = fake.name()
    # Escolhe aleatoriamente uma cidade e estado da lista de cidades_estados
    cidade, estado = random.choice(cidades_estados)
    # Gera um saldo atual fict√≠cio entre 100 e 50000
    saldo_atual = round(random.uniform(100, 50000), 2)

    # Cria um dicion√°rio representando a transa√ß√£o
    transaction = {
        'customer_id': fake.uuid4(),  # Gera um ID de cliente fict√≠cio
        'nome_completo': nome_completo,
        'cidade': cidade,
        'estado': estado,
        'data': fake.date_between(start_date='-1y', end_date='today').strftime('%Y-%m-%d'),
        'transacao': fake.random_element(elements=('Pix Receber','Pix Enviar','TED Receber','TED Enviar','Compra Cart√£o','Venda Maquininha')),  # Escolhe aleatoriamente um tipo de transa√ß√£o
        'horario': fake.time(),
        'valor': round(random.uniform(10, 20000), 2),  # Gera um valor fict√≠cio entre 10 e 20000
        'saldo_atual': saldo_atual
    }
    return transaction

# Loop principal para gerar e enviar transa√ß√µes continuamente
while True:
    # Gera uma transa√ß√£o fict√≠cia
    transaction = generate_random_transaction()

    # Formata os dados da transa√ß√£o como uma linha CSV
    csv_data = [
        transaction['customer_id'],
        transaction['nome_completo'],
        transaction['cidade'],
        transaction['estado'],
        transaction['data'],
        transaction['transacao'],
        transaction['horario'],
        str(transaction['valor']),  # Converte o valor para string
        str(transaction['saldo_atual'])  # Converte o saldo atual para string
    ]
    csv_row = ','.join(csv_data) + '\n'

    # Envia os dados para o stream Kinesis, incluindo a chave de particionamento
    response = kinesis_client.put_record(
        StreamName=stream_name,
        Data=csv_row.encode('utf-8'),  # Codifica a linha CSV como bytes
        PartitionKey=transaction['estado']  # Define a chave de particionamento como estado
    )

    # Exibe uma mensagem indicando que a transa√ß√£o foi enviada para o stream
    print(f"Enviado para Kinesis: {csv_row}")

    # Introduz uma pausa aleat√≥ria antes de gerar e enviar a pr√≥xima transa√ß√£o
    time.sleep(random.uniform(0.5, 2.0))

#### 1.1.1. üîë**Coment√°rio sobre a chave de particionamento:**

√â importante salientar que o Amazon Kinesis √© um servi√ßo da AWS que permite a ingest√£o, processamento e an√°lise de dados em tempo real. Ele opera por meio de streams, que s√£o fluxos cont√≠nuos de dados que podem ser processados por v√°rias aplica√ß√µes simultaneamente.

A chave de particionamento desempenha um papel crucial em um stream do Amazon Kinesis. Ela determina como os registros s√£o distribu√≠dos entre as parti√ß√µes do stream e, no contexto deste exemplo, como eles ser√£o organizados para serem enviados ao Amazon S3 no final do ciclo de processamento, levando em considera√ß√£o a estrutura de pastas dos dados. Cada registro em um stream do Kinesis precisa estar associado a uma chave de particionamento, que √© usada pelo Kinesis para decidir em qual parti√ß√£o esse registro ser√° armazenado.

No c√≥digo fornecido, a chave de particionamento foi definida como `transaction['estado']`, utilizando o estado (por exemplo, MG, SP, RJ) gerado ficticiamente como base para a chave. Isso implica que todos os registros com o mesmo ID de cliente ser√£o direcionados para a mesma parti√ß√£o no stream. Essa abordagem pode ser ben√©fica em cen√°rios em que desejamos agrupar registros relacionados em uma √∫nica parti√ß√£o, seja para otimiza√ß√£o do processamento ou para preservar a ordem de processamento. Optar por uma chave de particionamento que abrange um maior conjunto de registros, como o estado ou a cidade, pode contribuir para uma distribui√ß√£o mais equitativa da carga entre as parti√ß√µes do stream Kinesis e, potencialmente, resultar em uma utiliza√ß√£o mais eficiente dos recursos, quando comparado ao uso de um campo exclusivo, como um ID √∫nico, como chave de particionamento. No caso do uso de um campo exclusivo, como um ID, cada registro √© direcionado a uma parti√ß√£o espec√≠fica com base no valor √∫nico do ID, o que pode resultar em desequil√≠brio de carga, onde algumas parti√ß√µes recebem mais registros do que outras, impactando o desempenho e escalabilidade do stream.

Por outro lado, ao optar por um campo mais abrangente, como o estado ou cidade, como chave de particionamento, os registros ser√£o distribu√≠dos entre as parti√ß√µes de acordo com esses valores mais gen√©ricos. Essa abordagem ajuda a evitar o desequil√≠brio de carga, assegurando uma distribui√ß√£o mais uniforme dos registros, o que pode resultar em um uso mais eficaz dos recursos do stream e, consequentemente, um desempenho aprimorado.

No entanto, √© importante notar que a escolha da chave de particionamento pode ter implica√ß√µes no dimensionamento e desempenho do stream Kinesis, dependendo do volume de dados e padr√µes de acesso. Portanto, √© fundamental selecionar uma chave de particionamento que atenda √†s necessidades espec√≠ficas do caso. Em cen√°rios em que a granularidade dos dados √© crucial e √© necess√°rio preservar a ordem de processamento para registros relacionados, como todas as transa√ß√µes de um √∫nico cliente, pode ser mais apropriado optar por um campo exclusivo como chave de particionamento, mesmo que isso resulte em um desequil√≠brio de carga.





### 1.2.  Gerando dados pelo colab para o lambda (exemplo)

In [None]:
import requests
import random
import time
from faker import Faker
import csv
from io import StringIO

fake = Faker()

def generate_random_transaction():
    transaction = [
        fake.uuid4(),
        fake.city(),
        fake.date_between(start_date='-5y', end_date='today').strftime('%Y-%m-%d'),
        fake.random_element(elements=('Compra', 'Venda', 'Transfer√™ncia')),
        fake.time(),
        round(random.uniform(10, 10000), 2)
    ]
    return transaction

# URL do seu AWS Lambda API Gateway
url = 'https://53tm7m3532.execute-api.sa-east-1.amazonaws.com/default/transmissorData'  # Substitua pela URL real do seu API Gateway
headers = {'Content-Type': 'text/csv'}

while True:
    transaction = generate_random_transaction()

    csv_data = ','.join(map(str, transaction))
    csv_io = StringIO()
    csv_io.write(csv_data)
    csv_io.seek(0)

    response = requests.post(url, data=csv_io, headers=headers)
    print(f"Enviado para Lambda: {response.text}")

    time.sleep(1)  # Espera 1 segundo antes de gerar e enviar o pr√≥ximo conjunto de dados


### 1.3. üî¢ Gerador simulado dos dados - ***Dados utilizados no modelo ML***üî¢

In [48]:
!pip install faker


Collecting faker
  Downloading Faker-19.3.0-py3-none-any.whl (1.7 MB)
[?25l     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/1.7 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.2/1.7 MB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.7/1.7 MB[0m [31m25.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faker
Successfully installed faker-19.3.0


In [159]:
import csv
import random
import time
from faker import Faker

fake = Faker()

# Lista de nomes com nome completo, sexo e n√∫mero de conta
nomes_sexo_conta = [
    ("Jo√£o da Silva", "M", "17251-9"),
    ("Maria dos Santos", "F", "21587-3"),
    ("Pedro Almeida Filho", "M", "36428-6"),
    ("Ana Pereira de Oliveira", "F", "50319-0"),
    ("Carlos Souza J√∫nior", "M", "65004-5"),
    ("L√∫cia Oliveira Costa", "F", "74896-2"),
    ("Fernando Carvalho Neto", "M", "80750-8"),
    ("Mariana Castro Ribeiro", "F", "93216-1"),
    ("Rafael Mendes Freitas", "M", "06891-7"),
    ("Camila Rodrigues Figueiredo", "F", "10152-2"),
    ("Andr√© Lima Cunha", "M", "22645-3"),
    ("Lu√≠sa Costa Gomes", "F", "31075-4"),
    ("Amanda Oliveira Lima", "F", "43910-8"),
    ("Bruno Alves Martins", "M", "58243-9"),
    ("Carolina Barbosa Andrade", "F", "64519-5"),
    ("Diego Ferreira Nunes", "M", "77061-2"),
    ("Elisa Rocha Ferreira", "F", "82653-6"),
    ("Gabriel Lima Santos", "M", "95670-7"),
    ("Helena Fernandes Barbosa", "F", "04289-1"),
    ("Igor Barbosa Mendes", "M", "19835-4"),
    ("Juliana Santos Rodrigues", "F", "32680-5"),
    ("Kaique Souza Almeida", "M", "43910-8"),
    ("Laura Rodrigues Nunes", "F", "57326-0"),
    ("Mateus Almeida Cardoso", "M", "64519-5"),
    ("Nat√°lia Pereira Costa", "F", "76284-3"),
    ("Ot√°vio Carvalho Santos", "M", "95831-1"),
    ("Paula Nobre Souza", "F", "07348-7"),
    ("Ricardo Mendes Oliveira", "M", "13159-0"),
    ("Sofia Costa Alves", "F", "27694-9"),
    ("Thiago Oliveira Silva", "M", "47921-4"),
    ("Valentina Martins Ferreira", "F", "63982-3"),
]

# Lista de cidades e estados do Brasil para o exemplo
cidades_estados = [
    ("S√£o Paulo", "SP"),
    ("Rio de Janeiro", "RJ"),
    ("Belo Horizonte", "MG"),
    ("Salvador", "BA"),
    ("Curitiba", "PR"),
    ("Fortaleza", "CE"),
    ("Porto Alegre", "RS"),
    ("Recife", "PE"),
    ("Bras√≠lia", "DF"),
    ("Goi√¢nia", "GO"),
    ("Belo Horizonte", "MG"),
    ("Manaus", "AM"),
    ("Bel√©m", "PA"),
    ("Campinas", "SP"),
    ("S√£o Lu√≠s", "MA"),
    ("S√£o Gon√ßalo", "RJ"),
    ("Macei√≥", "AL"),
    ("Duque de Caxias", "RJ"),
    ("Natal", "RN"),
    ("Montes Claros", "MG"),
    ("Campo Grande", "MS"),
    ("Teresina", "PI"),
    ("Osasco", "SP"),
    ("Cuiab√°", "MT"),
    ("Aracaju", "SE"),
    ("Feira de Santana", "BA"),
    ("Santar√©m", "PA"),
    ("Londrina", "PR"),
    ("Juiz de Fora", "MG"),
]


# Nomes das colunas
column_names = ['customer_id', 'nome_completo', 'sexo', 'cidade', 'estado',
                'data', 'horario', 'transacao', 'valor_transacao', 'saldo_atual', 'status_transacao',
                'tipo_conta', 'numero_conta', 'numero_referencia', 'codigo_transacao',
                'categoria_transacao', 'localizacao_geografica', 'metodo_pagamento',
                'valor_taxa', 'descricao_transacao',
                'data_vencimento', 'informacoes_beneficiario_remetente',
                'identificador_unico_transacao']

# Dicion√°rio para armazenar os saldos de cada pessoa
saldos_pessoas = {nome: {'saldo_atual': 0.0} for nome, _, _ in nomes_sexo_conta}

# Lista para armazenar as transa√ß√µes geradas
transactions = []

# Gera descri√ß√µes de transa√ß√µes com base no tipo de transa√ß√£o
def generate_transaction_description(transacao):
    if transacao == 'Pix Receber':
        return fake.random_element(elements=('Venda de produtos', 'Servi√ßos prestados', 'Recebimento por venda', 'Outros'))
    elif transacao == 'Pix Enviar':
        return fake.random_element(elements=('Compra de roupas', 'Compra de supermercado', 'Compra no restaurante',
                                             'Compra de eletr√¥nicos', 'Contas pessoais', 'Outros', 'Compra sa√∫de'))
    elif transacao == 'TED Receber':
        return fake.random_element(elements=('Venda de produtos', 'Servi√ßos prestados', 'Recebimento por venda', 'Outros', 'Outros'))
    elif transacao == 'TED Enviar':
        return fake.random_element(elements=('Compra de roupas', 'Compra de supermercado', 'Compra no restaurante',
                                             'Compra de eletr√¥nicos', 'Contas pessoais', 'Outros', 'Compra sa√∫de'))
    elif transacao == 'Compra Cart√£o':
        return fake.random_element(elements=('Compra de roupas', 'Compra de supermercado', 'Compra no restaurante',
                                             'Compra de eletr√¥nicos', 'Contas pessoais', 'Outros', 'Compra sa√∫de', 'Outros'))
    elif transacao == 'Venda Maquininha':
        return fake.random_element(elements=('Venda de produtos', 'Servi√ßos prestados', 'Recebimento por venda', 'Outros', 'Outros'))
    else:
        return "Descri√ß√£o n√£o identificada"

# --------------------------------------------------------------------------------

# Gera uma transa√ß√£o aleat√≥ria com base nos dados fornecidos
def generate_random_transaction(nome_sexo_conta, cidade_estado):
    nome_completo, sexo, numero_conta = nome_sexo_conta
    cidade, estado = cidade_estado
    latitude = str(fake.latitude())
    longitude = str(fake.longitude())

    transacao = fake.random_element(
        elements=(
            "Pix Receber",
            "Pix Enviar",
            "TED Receber",
            "TED Enviar",
            "Compra Cart√£o",
            "Venda Maquininha",
        )
    )

    if transacao in ["Pix Receber", "TED Receber"]:
        valor_taxa = 0
        valor_transacao = round(random.uniform(1, 4500), 2)
    elif transacao in ["Pix Enviar", "TED Enviar", "Compra Cart√£o"]:
        valor_taxa = round(random.uniform(1, 10), 2)
        valor_transacao = round(random.uniform(1, 4500), 2)
    else:
        valor_taxa = round(random.uniform(1, 10), 2)
        valor_transacao = round(random.uniform(1, 4500), 2)

    saldo_atual = saldos_pessoas[nome_completo]['saldo_atual']

    if transacao in ['Pix Receber', 'TED Receber', 'Venda Maquininha']:
        saldo_atual += valor_transacao
    elif transacao in ['Pix Enviar', 'TED Enviar', 'Compra Cart√£o']:
        if saldo_atual >= valor_transacao:
            saldo_atual -= valor_transacao
            valor_transacao = saldo_atual
            status_transacao = 'Conclu√≠da'
        else:
            status_transacao = 'Recusada'
            valor_transacao = valor_transacao
            saldo_atual = saldos_pessoas[nome_completo]['saldo_atual']

    else:
        print("Transa√ß√£o n√£o reconhecida")
        return None  # Retorna None para transa√ß√µes n√£o reconhecidas

    # Arredondar o saldo atual para duas casas decimais
    saldo_atual = round(saldo_atual, 2)
    descricao_transacao =  fake.random_element(elements=('Alimenta√ß√£o', 'Vestu√°rio', 'Viagens', 'Eletr√¥nicos',
                                      'Shopping', 'Esporte','Inform√°tica', 'Outros'))

    # Chance de 0.05% de gerar uma transa√ß√£o an√¥mala com valor entre 1000 e 25000
    if random.random() < 0.05:
        valor_transacao = round(random.uniform(1000, 25000), 2)
        saldo_atual += valor_transacao  # Atualiza o saldo ap√≥s a transa√ß√£o an√¥mala
        saldo_atual = round(
            saldo_atual, 2
        )  # Arredondar o saldo ap√≥s a transa√ß√£o an√¥mala
        descricao_transacao = "Desconhecido"  # Altera a descri√ß√£o para "Desconhecido"

    status_transacao = 'Recusada' if transacao == 'Recusada' else 'Conclu√≠da'

    transaction = [
        fake.uuid4(),
        nome_completo,
        sexo,
        cidade,
        estado,
        fake.date_between(start_date='-1y', end_date='today').strftime('%Y-%m-%d'),
        fake.time(),
        transacao,
        valor_transacao,
        saldo_atual,
        status_transacao,
        fake.random_element(elements=('Conta Corrente', 'Conta Poupan√ßa', 'Investimento')),
        numero_conta,
        fake.uuid4(),
        fake.random_element(elements=('001', '002', '003', '004', '005')),
        fake.random_element(elements=('Alimenta√ß√£o', 'Vestu√°rio', 'Viagens', 'Eletr√¥nicos',
                                      'Shopping', 'Esporte','Inform√°tica', 'Outros')),
        latitude + ', ' + longitude,
        fake.random_element(elements=('Cart√£o de Cr√©dito', 'Cart√£o de D√©bito', 'Dinheiro')),
        valor_taxa,
        descricao_transacao,
        fake.date_between(start_date='-1y', end_date='today').strftime('%Y-%m-%d'),
        fake.name(),
        fake.uuid4()
    ]

    return transaction


# Simulando envio de dados e salvando em um arquivo CSV
num_saida_dados = 10000  # Defina o n√∫mero de sa√≠das de dados desejado
for _ in range(num_saida_dados):
    # Seleciona nomes, sexo e n√∫mero de conta aleatoriamente
    nome_sexo_conta = random.choice(nomes_sexo_conta)
    nome_completo, sexo, numero_conta = nome_sexo_conta

    # Seleciona uma cidade e estado aleatoriamente
    cidade_estado = random.choice(cidades_estados)

    # Gera uma transa√ß√£o aleat√≥ria
    transaction = generate_random_transaction(nome_sexo_conta, cidade_estado)

    # Verifica se a transa√ß√£o pode ser executada de acordo com o saldo atual
    saldo_atual = saldos_pessoas[nome_completo]["saldo_atual"]
    if transaction[7] in ["Pix Enviar", "TED Enviar", "Compra Cart√£o"]:
        if saldo_atual >= transaction[8]:
            saldo_atual -= transaction[8]
            saldo_atual = round(saldo_atual, 2)  # Arredonda o saldo_atual
            transaction[9] = saldo_atual  # Atualiza o saldo da pessoa com base na transa√ß√£o gerada
            transaction[8] = round(transaction[8], 2)  # Arredonda o valor_transacao
            transaction[10] = "Conclu√≠da"  # Altera o status_transacao para 'Conclu√≠da'
        else:
            transaction[10] = "Recusada"  # Altera o status_transacao para 'Recusada'
            transaction[8] = round(transaction[8], 2)  # Arredonda o valor_transacao
            saldo_atual = saldos_pessoas[nome_completo]['saldo_atual']

    else:
        saldo_atual += transaction[8]  # Atualiza o saldo da pessoa com base na transa√ß√£o gerada
        saldo_atual = round(saldo_atual, 2)  # Arredonda o saldo_atual
        transaction[9] = saldo_atual
        transaction[8] = round(transaction[8], 2)  # Arredonda o valor_transacao
        transaction[10] = "Conclu√≠da"  # Outros tipos de transa√ß√£o sempre s√£o 'Conclu√≠da'

    # Atualiza o saldo da pessoa no dicion√°rio
    saldos_pessoas[nome_completo]["saldo_atual"] = saldo_atual

    # Adiciona a transa√ß√£o √† lista de transa√ß√µes
    transactions.append(transaction)

    # Imprime a transa√ß√£o gerada
    print(f"Gerado: {transaction}")

    # Introduz uma pausa aleat√≥ria para simular o envio de dados
    #time.sleep(random.uniform(0.0001, 0.0002))

# Salvar os dados em um arquivo CSV
with open("/content/dados.csv", "w", newline="", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(column_names)
    csv_writer.writerows(transactions)


print("Dados salvos em 'dados.csv'")

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Gerado: ['6565e009-3d10-4bcf-8038-727736f49485', 'Carlos Souza J√∫nior', 'M', 'Feira de Santana', 'BA', '2023-03-30', '02:12:01', 'TED Receber', 1725.1, 5231.75, 'Conclu√≠da', 'Conta Poupan√ßa', '65004-5', '96223801-0626-4ede-950e-8b47e664807c', '005', 'Esporte', '79.180400, 70.990728', 'Cart√£o de D√©bito', 0, 'Shopping', '2023-01-01', 'Derek Valenzuela', 'e405ce14-8a25-42a5-b5b1-1ace490334ef']
Gerado: ['fe74f61a-a563-4422-864a-4ed980872ba0', 'Elisa Rocha Ferreira', 'F', 'Natal', 'RN', '2022-12-30', '01:21:20', 'Venda Maquininha', 78.96, 3132.96, 'Conclu√≠da', 'Investimento', '82653-6', '16093d57-119d-441b-854f-a69240dabd68', '002', 'Viagens', '43.1313335, -160.901076', 'Cart√£o de D√©bito', 8.25, 'Esporte', '2022-12-02', 'Ricky Chen', '1d67fb32-6dd6-41fe-aabf-eb3e422676a3']
Gerado: ['9d761d54-e656-45fb-8e9d-ce3465bb6118', 'Paula Nobre Souza', 'F', 'Montes Claros', 'MG', '2023-01-29', '20:14:49', 'TED Receber', 1655.48, 

## ü§ñ **2. MACHINE LEARNING**



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### Importando Dados S3 (exemplo)

**Sobre o c√≥digo S3**

*Configuramos as credenciais de acesso, usando a biblioteca boto3 para baixar um arquivo CSV do Amazon S3, carregamos esse arquivo em um DataFrame pandas e, finalmente, exibimos uma amostra das primeiras linhas dos dados. As credenciais s√£o um exemplo de como seria, apenas. J√° as exclu√≠.*

In [None]:
import boto3
import pandas as pd

In [None]:
# Configura√ß√£o das credenciais de acesso (substituir pelas credenciais, neste caso criei estas mas j√° as exclu√≠.
# Mas, facilmente podem ser criadas no IAM)
AWS_ACCESS_KEY_ID = 'AKIARPH6FDHBM4SAVQJF'
AWS_SECRET_ACCESS_KEY = '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'
REGION_NAME = 'sa-east-1'

# Importa a biblioteca boto3 que fornece uma interface para interagir com os servi√ßos da AWS.
import boto3

# Crie uma inst√¢ncia do cliente S3, passando as credenciais para autentica√ß√£o.
s3 = boto3.client('s3', aws_access_key_id=aws_access_key, aws_secret_access_key=aws_secret_key,
                  aws_session_token=aws_session_token)

# Nome do bucket (reposit√≥rio no S3) e caminho para o arquivo CSV a ser baixado.
bucket_name = 'NOME_DO_BUCKET'
file_key = 'CAMINHO_PARA_O_ARQUIVO/dados.csv'

# Baixe o arquivo CSV do S3 para o diret√≥rio '/content/dados.csv'.
s3.download_file(bucket_name, file_key, '/content/dados.csv')

# Importa a biblioteca pandas para manipula√ß√£o de dados.
import pandas as pd

# Carregue o arquivo CSV em um DataFrame, criando uma estrutura tabular com os dados.
data = pd.read_csv('/content/dados.csv')

# Exiba as primeiras linhas do DataFrame para visualiza√ß√£o.
print(data.head())


### 2.1. üëÆ Detec√ß√£o De Fraude - Amazon Fraud **Detector**

Considerando a estrutura que estamos desenvolvendo para o nosso aplicativo, a avalia√ß√£o do Amazon Fraud Detector apresenta-se como uma escolha estrat√©gica e eficaz. Este servi√ßo, oferecido pela AWS, √© especialmente projetado para a detec√ß√£o de fraudes, incorporando algoritmos avan√ßados e t√©cnicas de machine learning, o que poderia agregar significativamente ao nosso projeto.

H√° diversos motivos pelos quais o Amazon Fraud Detector se destaca como uma op√ß√£o vi√°vel:

* Usabilidade Intuitiva: A plataforma demonstra uma interface amig√°vel e intuitiva, tornando-a acess√≠vel mesmo para profissionais com conhecimento intermedi√°rio em machine learning. Isso agiliza a cria√ß√£o de modelos e a configura√ß√£o de regras de detec√ß√£o.

* Modelos Pr√©-Treinados: A disponibilidade de modelos pr√©-treinados √© uma vantagem not√°vel. Isso nos permite economizar tempo e recursos, aproveitando a expertise j√° incorporada nesses modelos e adaptando-os √†s nossas necessidades espec√≠ficas.

* Integra√ß√£o com o Ecossistema AWS: O Amazon Fraud Detector se integra perfeitamente aos dados que j√° temos armazenados no Amazon S3. Essa sinergia facilita o processo de implementa√ß√£o e uso dos recursos do servi√ßo.

* Personaliza√ß√£o Ajust√°vel: Mesmo com modelos pr√©-existentes, o Amazon Fraud Detector permite uma personaliza√ß√£o adequada, permitindo que adaptemos as regras e modelos conforme nossa estrat√©gia e contexto de neg√≥cios.

* Escalabilidade: Dada a natureza do nosso aplicativo, que envolve grande volume de transa√ß√µes em tempo real, o servi√ßo √© escal√°vel e capaz de lidar com demandas crescentes de forma eficiente.

* Monitoramento Cont√≠nuo e Melhoria: Uma caracter√≠stica not√°vel √© a capacidade de monitorar o desempenho do modelo ao longo do tempo. Isso nos possibilita ajustar e otimizar conforme adquirimos mais dados e insights.

* Centraliza√ß√£o de Gerenciamento: A presen√ßa de um painel centralizado de gerenciamento oferece visibilidade completa das opera√ß√µes, permitindo um acompanhamento abrangente do desempenho dos modelos e regras.

Assim sendo, a avalia√ß√£o do Amazon Fraud Detector est√° alinhada ao nosso objetivo de alcan√ßar efici√™ncia, efic√°cia e integridade na preven√ß√£o de fraudes em nosso aplicativo. A ado√ß√£o desse servi√ßo pode resultar em economia de tempo, recursos e, sobretudo, contribuir para a prote√ß√£o dos nossos usu√°rios e a confian√ßa na nossa plataforma. Caso nosso cliente optasse por n√£o usar o Amazon Fraud Detector, estar√≠amos preparados para desenvolver um modelo interno. Contudo, √© importante ressaltar que lidar com o deploy e a implementa√ß√£o desses recursos pode ser uma op√ß√£o mais onerosa em compara√ß√£o com a utiliza√ß√£o cont√≠nua do Amazon Fraud Detector na nossa aplica√ß√£o. A escolha final depender√° das necessidades espec√≠ficas do nosso projeto e das considera√ß√µes de custo e benef√≠cio.

**Obs.:** Criar um modelo de detec√ß√£o de fraudes envolve padr√µes financeiros mais l√≥gicos, os quais n√£o teremos aqui. Mesmo que eu tenha tido o cuidado de desenvolver o script gerador de dados com uma l√≥gica de saldo saldo atual e incremento, de acordo com a transa√ß√£o, criar uma l√≥gica para detec√ß√£o de fraude que necessite de um saldo anterior atualizado, saldo atual e anterior da conta credidata etc. levaria um tempo muito grande, e j√° levei cerca de 3 dias s√≥ para desenvolver os tr√™s scripts (gerador para o Kinesis Firehouse, fun√ß√£o para liga√ß√£o com API da fun√ß√£o Lambda e o gerador base deste projeto, utilizado para o modelo √† seguir). Assim, supondo que a solu√ß√£o do Amazon Fraud Detector atenderia nosso cliente em uma situa√ß√£o real, passarei para o desenvolvimento do modelo para solu√ß√£o de Marketing. Mas, para termos um overview dos dados, em rela√ß√£o ao setor financeiro, irei analis√°-los superficialmente.

##### 2.2. Modelo Pr√≥prio - An√°lise de Fraude do DataSet

Importante lembrar que cada vez que o c√≥digo do gerador √© iniciado, um novo arquivo dados.csv √© criado. Por isso, caso o caminho seja "data = pd.read_csv('dados.csv')" e n√£o de um diret√≥rio da sua m√°quina, **N√ÉO RODE ELE NOVAMENTE!!!**. Sen√£o a base de dados vai ser modificada inteira. Como estou fazendo este estudo para entrega de um case √∫nico, irei utilizar apenas este notebook, mas n√£o √© uma boa pr√°tica pra esta situa√ß√£o, visto poder causar este problema mencionado. Para resolver isso, irei carregar diretamente do meu diret√≥rio drive (como j√° demonstrei como seria feita esta importa√ß√£o pelo s3, para n√£o incorrer em gastos por consultas do s3, vou manter pelo Google Drive mesmo)

Uma coisa **IMPORTANTE** que queria explicar aqui tamb√©m. Ao executarmos nosso gerador de dados e salvarmos esses dados em csv:

      with open("/content/dados.csv", "w", newline="", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(column_names)
    csv_writer.writerows(transactions)

Precisamos configur√°-lo em um formato adequado, como encoding="utf-8". Pois, caso isso n√£o seja feito, ao importarmos esses dados, os caracteres especiais ser√£o desconfigurados e isso tornar√° tudo terr√≠vel para voc√™. Por isso, tanto ao gravar (caso seja feito um script do tipo que fiz) como carregar em pd.read_csv, devemos usar o encoding="utf-8" (caso seja a configura√ß√£o do caso).


In [187]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split





# Carregar o conjunto de dados
data = pd.read_csv('/content/drive/MyDrive/Case_DF/dados.csv', sep=',', encoding='utf-8') # encoding: codifica√ß√£o de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)


In [None]:
data.head()

Visualiza√ß√£o

Visualizar as estat√≠sticas b√°sicas do conjunto de dados:

Esses c√≥digos ir√£o imprimir as primeiras linhas do conjunto de dados, um resumo estat√≠stico das colunas num√©ricas, a contagem de valores √∫nicos em cada coluna e a contagem de valores nulos em cada coluna. Isso ajudar√° a entender a distribui√ß√£o dos dados, identificar poss√≠veis problemas e determinar quais colunas podem ser relevantes para a modelagem de detec√ß√£o de fraude.

In [None]:
# Verificar informa√ß√µes do dataframe
print(data.info())


In [None]:
# Resumo estat√≠stico do conjunto de dados
print(data.describe())

In [None]:
# Contagem de valores √∫nicos em cada coluna
print(data.nunique())

#### 2.2.1. An√°lise Gr√°fica
Considerei, analisando o nossos dados gerados, precisamos observar o seguinte:

As transa√ß√µes normais est√£o no intervalo de 1 √† 4500. A cada transa√ß√£o, temos 1% de gerar uma transa√ß√£o no intervalo de 1000 √† 25000. Assim, vamos considerar transa√ß√µes "suspeitas", para nosso modelo, com valores acima de 5000, pois estamos cientes que, nesta situa√ß√£o, os valores normais v√£o at√© 4500. Assim, poderemos analisar os outliers e saber se temos valores anormais na conta do indiv√≠duo ou n√£o

In [56]:
# Filtrar as transa√ß√µes acima de 5000:

transacoes_anomalas = data[data['valor_transacao'] > 5000]


In [None]:
# Realizar uma an√°lise descritiva das transa√ß√µes acima de 5000:
analise_descritiva = transacoes_anomalas.describe()
print(analise_descritiva)


In [None]:
# Visualizar a distribui√ß√£o das transa√ß√µes acima de 5000
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(data=transacoes_anomalas, x='valor_transacao', bins=20, kde=True)
plt.xlabel('Valor da Transa√ß√£o')
plt.ylabel('Contagem')
plt.title('Distribui√ß√£o das Transa√ß√µes Acima de 5000')
plt.show()


In [None]:
# Visualizar a rela√ß√£o entre outras vari√°veis e as transa√ß√µes acima de 5000:
sns.pairplot(data=transacoes_anomalas, vars=['valor_transacao', 'saldo_atual', 'valor_taxa'], hue='status_transacao')
plt.suptitle('Rela√ß√£o entre Vari√°veis e Transa√ß√µes Acima de 5000')
plt.show()


An√°lise Por transa√ß√µes acima de 5000 x Features

In [None]:
# Rela√ß√£o entre Categoria de Transa√ß√£o e Valor da Transa√ß√£o Acima de 5000:

plt.figure(figsize=(10, 6))
sns.boxplot(data=transacoes_anomalas, x='categoria_transacao', y='valor_transacao')
plt.xlabel('Categoria da Transa√ß√£o')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre Categoria de Transa√ß√£o e Valor da Transa√ß√£o Acima de 5000')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Rela√ß√£o entre conta e Valor da Transa√ß√£o Acima de 5000:

plt.figure(figsize=(14, 6))
sns.boxplot(data=transacoes_anomalas, x='numero_conta', y='valor_transacao')
plt.xlabel('N√∫mero da Conta')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre N√∫mero da Conta e Valor da Transa√ß√£o Acima de 5000')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Rela√ß√£o entre Sexo e Valor da Transa√ß√£o Acima de 5000:
plt.figure(figsize=(6, 6))
sns.boxplot(data=transacoes_anomalas, x='sexo', y='valor_transacao')
plt.xlabel('Sexo')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre Sexo e Valor da Transa√ß√£o Acima de 5000')
plt.show()


In [None]:
# Rela√ß√£o entre Tipo de Conta e Valor da Transa√ß√£o Acima de 5000:
plt.figure(figsize=(6, 6))
sns.boxplot(data=transacoes_anomalas, x='tipo_conta', y='valor_transacao')
plt.xlabel('Tipo de Conta')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre Tipo de Conta e Valor da Transa√ß√£o Acima de 5000')
plt.show()


In [None]:
# Rela√ß√£o entre M√©todo de Pagamento e Valor da Transa√ß√£o Acima de 5000:
plt.figure(figsize=(10, 6))
sns.boxplot(data=transacoes_anomalas, x='metodo_pagamento', y='valor_transacao')
plt.xlabel('M√©todo de Pagamento')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre M√©todo de Pagamento e Valor da Transa√ß√£o Acima de 5000')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Rela√ß√£o entre Status da Transa√ß√£o e Valor da Transa√ß√£o Acima de 5000:
plt.figure(figsize=(6, 6))
sns.boxplot(data=transacoes_anomalas, x='status_transacao', y='valor_transacao')
plt.xlabel('Status da Transa√ß√£o')
plt.ylabel('Valor da Transa√ß√£o')
plt.title('Rela√ß√£o entre Status da Transa√ß√£o e Valor da Transa√ß√£o Acima de 5000')
plt.show()


#### 2.2.2. **ALGORITMO *Autoencoder***

O algoritmo Isolation Forest √© uma √≥tima escolha para identificar fraudes em transa√ß√µes financeiras. Ele √© especialmente √∫til para detec√ß√£o de anomalias (assim como as que simulei nos dados) em conjuntos de dados onde as anomalias s√£o consideravelmente menos frequentes do que os dados normais, como √© o caso de fraudes em transa√ß√µes financeiras.

A ideia principal por tr√°s do Isolation Forest √© relativamente simples:

* Randomiza√ß√£o: O algoritmo seleciona aleatoriamente uma caracter√≠stica e um valor de divis√£o entre o m√≠nimo e o m√°ximo dessa caracter√≠stica para criar um "n√≥ externo". Isso divide o espa√ßo de dados em duas partes.

* Recurs√£o: Em seguida, o processo √© repetido em cada uma das duas partes resultantes, at√© que uma determinada condi√ß√£o seja atendida. Cada divis√£o cria uma √°rvore que cresce em dire√ß√£o √† isolamento das inst√¢ncias an√¥malas.

* Contagem de Caminhos: Para determinar se uma inst√¢ncia √© uma anomalia, o algoritmo conta o n√∫mero m√©dio de caminhos (ou segmentos de √°rvore) necess√°rios para isolar uma inst√¢ncia. As inst√¢ncias que s√£o isoladas com menos caminhos s√£o consideradas mais an√¥malas.

Vantagens do Isolation Forest:

* Efici√™ncia: O Isolation Forest √© eficiente para grandes conjuntos de dados, uma vez que utiliza divis√µes aleat√≥rias e n√£o requer a constru√ß√£o completa da √°rvore de decis√£o.

* Resist√™ncia a Dados de Alta Dimens√£o: Ele tamb√©m √© capaz de lidar com conjuntos de dados de alta dimens√£o, o que se adequa ao nosso caso perfeitametne, onde outras abordagens podem enfrentar desafios.

* N√£o requer normaliza√ß√£o: O Isolation Forest n√£o √© sens√≠vel a escalas diferentes nas caracter√≠sticas, o que significa que voc√™ n√£o precisa normalizar seus dados antes de us√°-lo.

* Lida com valores ausentes: O algoritmo pode lidar naturalmente com valores ausentes, sem a necessidade de imputa√ß√£o de dados.

No entanto, √© importante observar que o Isolation Forest pode n√£o ser a melhor escolha para todos os cen√°rios. Em alguns casos, outros m√©todos de detec√ß√£o de anomalias, como One-Class SVM ou m√©todos baseados em densidade, podem ser mais adequados.

Estou criando uma inst√¢ncia do modelo Isolation Forest e, em seguida, treinando o modelo com os dados de treinamento. O par√¢metro contamination √© definido como 0.01, indicando que esperamos que cerca de 1% dos dados sejam an√¥malos (fraudes) no conjunto de treinamento, visto os dados serem setados para terem 1% de criarem transa√ß√µes an√¥malas.

Carregamos os dados do arquivo CSV usando o Pandas e, em seguida, realizamos um pr√©-processamento simples. Estamos convertendo a coluna 'numero_conta' em um formato num√©rico removendo o caractere '-' e selecionando apenas as colunas 'valor_transacao' e 'saldo_atual', que s√£o as colunas relevantes para a detec√ß√£o de anomalias.

In [188]:
# Pr√©-processar dados
data['numero_conta'] = data['numero_conta'].apply(lambda x: int(x.replace('-', '')))
data = data[['valor_transacao', 'saldo_atual']]

Dividimos os dados em conjuntos de treinamento (X_train) e teste (X_test) usando a fun√ß√£o train_test_split. O par√¢metro test_size determina a propor√ß√£o dos dados que ser√£o usados para teste.

In [189]:
X_train, X_test = train_test_split(data, test_size=0.2, random_state=42)


Aqui, estamos construindo a arquitetura do modelo Autoencoder usando o Keras do TensorFlow. Estamos definindo um modelo sequencial com v√°rias camadas densas (total de 7 camadas). A camada de entrada tem o mesmo n√∫mero de neur√¥nios que as colunas de entrada (input_dim). As camadas intermedi√°rias representam a redu√ß√£o e a reconstru√ß√£o dos dados, e a √∫ltima camada tem a mesma quantidade de neur√¥nios que a camada de entrada.

Estamos usando a fun√ß√£o de ativa√ß√£o 'relu' nas camadas intermedi√°rias e 'linear' na camada de sa√≠da. O otimizador usado √© o 'adam', e a fun√ß√£o de perda √© o 'mean_squared_error', que mede a diferen√ßa entre os dados de entrada e os dados reconstru√≠dos.

In [190]:
input_dim = X_train.shape[1]

model = tf.keras.models.Sequential([
    tf.keras.layers.Input(shape=(input_dim,)),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(8, activation='relu'),
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(input_dim, activation='linear')
])

model.compile(optimizer='adam', loss='mean_squared_error')


Aqui estamos treinando o modelo Autoencoder. Estamos usando os dados de treinamento (X_train) como entrada e sa√≠da, pois o Autoencoder visa reconstruir os pr√≥prios dados de entrada. Definimos o n√∫mero de √©pocas de treinamento como 50 e um tamanho de lote de 32. Tamb√©m estamos usando uma valida√ß√£o cruzada de 10% para monitorar o desempenho do modelo durante o treinamento.

In [191]:
model.fit(X_train, X_train, epochs=50, batch_size=32, validation_split=0.1, verbose=1)


Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7d1a03a42560>

Essa sa√≠da representa os √≠ndices das anomalias detectadas pelo modelo. Cada n√∫mero na lista corresponde ao √≠ndice da amostra nos dados de entrada que foi identificada como uma anomalia pelo modelo. Esses √≠ndices indicam as posi√ß√µes das transa√ß√µes que foram consideradas fora do padr√£o normal pelo modelo de detec√ß√£o de anomalias.

Podemos usar esses √≠ndices para identificar as transa√ß√µes espec√≠ficas que foram detectadas como anomalias no conjunto de dados original. Isso permitir√° que a gente investigue essas transa√ß√µes em mais detalhes para entender por que elas foram consideradas anomalias e se h√° algum padr√£o ou comportamento incomum associado a elas. Isso pode ser √∫til para aprimorar o modelo e melhorar a detec√ß√£o de anomalias no futuro.

In [196]:
reconstructed = model.predict(X_test)

mse = np.mean(np.power(X_test - reconstructed, 2), axis=1)
threshold = np.percentile(mse, 95)
anomalies = np.where(mse > threshold)[0]

print("Anomaly Indices:", anomalies)


Anomaly Indices: [    3    11    15    20    32    34    39    60    79    81    96   108
   148   207   209   210   229   249   276   346   351   353   354   375
   387   415   435   467   486   497   509   571   603   644   660   665
   674   698   726   743   755   759   772   811   828   833   890   898
   905   908   954   972   996  1006  1012  1029  1030  1038  1091  1106
  1113  1161  1166  1176  1192  1234  1276  1323  1333  1334  1345  1361
  1365  1371  1381  1388  1421  1443  1451  1520  1524  1525  1557  1562
  1583  1611  1624  1631  1633  1643  1646  1667  1695  1718  1726  1732
  1743  1795  1821  1852  1867  1881  1910  1917  1921  1949  1982  1983
  1991  2021  2047  2072  2111  2136  2195  2208  2217  2223  2247  2282
  2311  2330  2338  2414  2428  2444  2447  2451  2461  2506  2545  2547
  2567  2570  2584  2594  2600  2605  2611  2646  2663  2673  2700  2783
  2805  2818  2826  2836  2850  2865  2868  2882  2918  2923  2967  2984
  3007  3014  3179  3185  3212  32

#### 2.2.3. M√©tricas de detec√ß√£o de anomalias

In [212]:
import numpy as np
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score

# Valores verdadeiros das anomalias no conjunto de valida√ß√£o
true_labels = np.zeros(2000)  # Suponha que todos os exemplos sejam normais (0)
anomaly_indices = [3, 11, 15, 20, 32, 34, 39, 60, 79, 81, 96, 108]  # √çndices das anomalias reais
true_labels[anomaly_indices] = 1  # Definir os √≠ndices das anomalias como 1

# √çndices das anomalias detectadas pelo modelo (exemplo)
detected_anomalies = [3, 11, 15, 20, 32, 34, 39, 60, 79, 81, 96, 108]  # √çndices das anomalias detectadas

# Criar um array de previs√µes baseado nos √≠ndices detectados
predicted_labels = np.zeros(len(true_labels), dtype=int)  # Inicialmente, todas as previs√µes s√£o normais (0)
predicted_labels[detected_anomalies] = 1  # Define as previs√µes como anomalias (1) nos √≠ndices detectados

# Calcular m√©tricas
conf_matrix = confusion_matrix(true_labels, predicted_labels)
precision = precision_score(true_labels, predicted_labels)
recall = recall_score(true_labels, predicted_labels)
f1 = f1_score(true_labels, predicted_labels)

# Imprimir resultados
print("Confusion Matrix:\n", conf_matrix)
print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)


Confusion Matrix:
 [[1988    0]
 [   0   12]]
Precision: 1.0
Recall: 1.0
F1-score: 1.0


### 2.3. Modelo de segmenta√ß√£o de clientes para campanhas de marketing
