In [3]:
import pandas as pd
import numpy as np
import random
from IPython.display import display

# Configurações iniciais
np.random.seed(42)
random.seed(42)

n_samples = 1000  # Número de registros que vamos gerar

dados = []

for _ in range(n_samples):
    is_fraude = np.random.choice([0, 1], p=[0.85, 0.15])  # 15% de fraude

    if is_fraude:
        email_tipo = np.random.choice(['temporário', 'confiável'], p=[0.7, 0.3])
        ip_anonimo = np.random.choice([True, False], p=[0.8, 0.2])
        dispositivo_novo = np.random.choice([True, False], p=[0.9, 0.1])
        tempo_formulario = np.random.normal(loc=3, scale=1)  # muito rápido
        localizacao_match = np.random.choice([True, False], p=[0.3, 0.7])
        cadastro_incompleto = np.random.choice([True, False], p=[0.6, 0.4])
        risco = 'alto'
    else:
        email_tipo = np.random.choice(['temporário', 'confiável'], p=[0.1, 0.9])
        ip_anonimo = np.random.choice([True, False], p=[0.1, 0.9])
        dispositivo_novo = np.random.choice([True, False], p=[0.2, 0.8])
        tempo_formulario = np.random.normal(loc=12, scale=3)  # mais lento e natural
        localizacao_match = np.random.choice([True, False], p=[0.9, 0.1])
        cadastro_incompleto = np.random.choice([True, False], p=[0.2, 0.8])
        risco = 'baixo' if tempo_formulario > 7 else 'médio'

    dados.append([
        email_tipo,
        ip_anonimo,
        dispositivo_novo,
        max(1, round(tempo_formulario, 1)),  # nunca menor que 1
        localizacao_match,
        cadastro_incompleto,
        risco
    ])

# Criação do DataFrame
colunas = [
    'Tipo de Email', 'IP Anônimo', 'Dispositivo Novo',
    'Tempo Formulário (seg)', 'Localização Combina',
    'Cadastro Incompleto', 'Nível de Risco'
]

df = pd.DataFrame(dados, columns=colunas)

# Configurações para melhor visualização
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.max_colwidth', None)

# Função para estilizar o DataFrame (versão atualizada sem warnings)
def style_dataframe(df):
    styles = [
        {'selector': 'th', 'props': [('background-color', '#f7f7f7'),
                                    ('color', '#333'),
                                    ('font-weight', 'bold'),
                                    ('text-align', 'center')]},
        {'selector': 'td', 'props': [('text-align', 'center')]},
        {'selector': 'tr:nth-of-type(odd)', 'props': [('background-color', '#f9f9f9')]},
        {'selector': 'tr:hover', 'props': [('background-color', '#e6f3ff')]}
    ]
    
    # Substitui applymap por map conforme recomendação
    styled_df = (df.style
                .set_table_styles(styles)
                .format({'Tempo Formulário (seg)': '{:.1f}'})
                .set_caption('Dados de Risco de Fraude')
                .map(lambda x: 'color: red' if x == 'alto' else 
                    ('color: orange' if x == 'médio' else 
                    'color: green'), subset=['Nível de Risco']))
    return styled_df

# Visualização no Jupyter Notebook
print("\n" + "="*80)
print("DATASET DE RISCO DE FRAUDE".center(80))
print("="*80 + "\n")

display(style_dataframe(df.head(30)))

# Estatísticas resumidas
print("\n" + "="*80)
print("ESTATÍSTICAS RESUMIDAS".center(80))
print("="*80 + "\n")
display(df.describe(include='all'))


                           DATASET DE RISCO DE FRAUDE                           



Unnamed: 0,Tipo de Email,IP Anônimo,Dispositivo Novo,Tempo Formulário (seg),Localização Combina,Cadastro Incompleto,Nível de Risco
0,confiável,False,False,11.3,True,False,baixo
1,confiável,True,False,11.3,True,False,baixo
2,confiável,False,False,6.8,True,True,médio
3,confiável,False,False,10.3,True,False,baixo
4,temporário,False,True,10.2,True,False,baixo
5,confiável,True,False,11.1,True,False,baixo
6,confiável,False,True,14.2,True,True,baixo
7,confiável,False,False,12.5,True,False,baixo
8,confiável,False,False,10.0,True,False,baixo
9,confiável,False,True,13.8,True,True,baixo



                             ESTATÍSTICAS RESUMIDAS                             



Unnamed: 0,Tipo de Email,IP Anônimo,Dispositivo Novo,Tempo Formulário (seg),Localização Combina,Cadastro Incompleto,Nível de Risco
count,1000,1000,1000,1000.0,1000,1000,1000
unique,2,2,2,,2,2,3
top,confiável,False,False,,True,False,baixo
freq,815,799,695,,802,736,823
mean,,,,10.7314,,,
std,,,,4.115414,,,
min,,,,1.0,,,
25%,,,,8.6,,,
50%,,,,11.3,,,
75%,,,,13.7,,,
