<a href="https://colab.research.google.com/github/faanogueira/InvestFake_synthetic_data/blob/main/InvestFake_synthetic_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade Avaliativa 3

# "InvestFake": Geração de Dados Sintéticos Realistas de Investidores Brasileiros com Faker

## 1. Objetivo do Projeto

Criar uma base de dados sintéticos representando investidores brasileiros utilizando técnicas de geração de dados com a biblioteca Faker e modelos probabilísticos da SDV (Synthetic Data Vault). O objetivo é fornecer uma base rica, realista e anonimizada que possa ser utilizada em análises, visualizações, modelagem estatística e testes de aplicações de Data Science sem comprometer dados reais ou sensíveis.

## 2. Definição do Perfil do Investidor e Coleta de Dados (ou Criação de Metadados)
Características (colunas) do perfil de um investidor da bolsa brasileira.


Dados Demográficos:

*   `idade`: Idade do investidor (numérico);
*   `genero`: Gênero do investidor (categórico: Masculino, Feminino, Outro);
*   `estado_civil`: Estado civil (categórico: Solteiro, Casado, Divorciado, Viúvo);
*   `regiao`: Região do Brasil onde reside (categórico: Norte, Nordeste, Centro-Oeste, Sudeste, Sul);
*   `renda_mensal`: Renda mensal aproximada (numérico);
*   `nivel_educacional`: Nível educacional (categórico: Fundamental, Médio, Superior Incompleto, Superior Completo, Pós-graduado).

Dados de Investimento:

*   `perfil_investidor`: Perfil de risco (categórico: Conservador, Moderado, Arrojado, Agressivo);
*   `tempo_experiencia_mercado`: Anos de experiência investindo (numérico);
*   `valor_total_investido`: Montante total investido na bolsa (numérico);
*   `objetivo_principal`: Principal objetivo do investimento (categórico: Aposentadoria, Compra de imóvel, Renda passiva, Curto prazo);
*   `setores_preferenciais`: Setores de empresas que mais investe (categórico: Financeiro, Varejo, Tecnologia e Commodities);
*   `frequencia_operacoes`: Com que frequência opera (categórico: Diária, Semanal, Mensal, Anual);
*   `conhecimento_mercado`: Nível de conhecimento sobre o mercado (categórico: Baixo, Médio, Alto);
*   `usa_analise_tecnica`: Se utiliza análise técnica (booleano: Sim, Não);
*   `usa_analise_fundamentalista`: Se utiliza análise fundamentalista (booleano: Sim, Não).

## 3. Instalando bibliotecas

In [6]:
#!pip install faker

In [7]:
from faker import Faker
import pandas as pd
import random
import numpy as np

# Criando um Faker em português do Brasil
faker = Faker('pt_BR')

## 4. Definindo os valores possíveis para os campos categóricos

In [8]:
generos = ['Masculino', 'Feminino', 'Outro']
estado_civil = ['Solteiro', 'Casado', 'Divorciado', 'Viúvo']
regioes = ['Norte', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Sul']
niveis_educacionais = ['Fundamental', 'Médio', 'Superior Incompleto', 'Superior Completo', 'Pós-graduado']
perfis = ['Conservador', 'Moderado', 'Arrojado', 'Agressivo']
objetivos = ['Aposentadoria', 'Compra de Imóvel', 'Renda Passiva', 'Viagem', 'Educação dos Filhos', 'Reserva de Emergência', 'Diversificação', 'Curto Prazo']
setores = ['Financeiro', 'Varejo', 'Tecnologia', 'Commodities', 'Saúde', 'Energia Elétrica', 'Saneamento', 'Construção Civil', 'Papel e Celulose', 'Outro']
frequencias = ['Day Trade', 'Semanal (Swing Trade)', 'Mensal', 'Anual', 'Ocasional (Buy and Hold)']
conhecimento = ['Baixo', 'Médio', 'Alto']


## 5. Criando investidor

In [9]:
def gerar_investidor():
    idade = random.randint(18, 75)
    genero = random.choice(generos)
    estado = random.choice(estado_civil)
    regiao = random.choice(regioes)
    renda = round(random.uniform(1500, 40000), 2)
    escolaridade = random.choice(niveis_educacionais)

    perfil = random.choice(perfis)
    experiencia = round(random.uniform(0, 30), 1)
    valor_investido = round(random.uniform(1000, 1000000), 2)
    objetivo = random.choice(objetivos)
    setor = random.choice(setores)
    frequencia = random.choice(frequencias)
    conhecimento_mercado = random.choice(conhecimento)
    usa_tecnica = random.choice(['Sim', 'Não'])
    usa_fundamentalista = random.choice(['Sim', 'Não'])

    return {
        'idade': idade,
        'genero': genero,
        'estado_civil': estado,
        'regiao': regiao,
        'renda_mensal': renda,
        'nivel_educacional': escolaridade,
        'perfil_investidor': perfil,
        'tempo_experiencia_mercado': experiencia,
        'valor_total_investido': valor_investido,
        'objetivo_principal': objetivo,
        'setores_preferenciais': setor,
        'frequencia_operacoes': frequencia,
        'conhecimento_mercado': conhecimento_mercado,
        'usa_analise_tecnica': usa_tecnica,
        'usa_analise_fundamentalista': usa_fundamentalista
    }


## 6. Gerando múltiplos investidores

In [10]:
def gerar_base_investidores(qtd=20000):
    dados = [gerar_investidor() for _ in range(qtd)]
    df = pd.DataFrame(dados)
    return df

In [12]:
df = gerar_base_investidores(20000)
df.head()

Unnamed: 0,idade,genero,estado_civil,regiao,renda_mensal,nivel_educacional,perfil_investidor,tempo_experiencia_mercado,valor_total_investido,objetivo_principal,setores_preferenciais,frequencia_operacoes,conhecimento_mercado,usa_analise_tecnica,usa_analise_fundamentalista
0,50,Outro,Viúvo,Sudeste,38995.56,Superior Incompleto,Conservador,27.7,17262.62,Renda Passiva,Saneamento,Mensal,Baixo,Não,Sim
1,59,Outro,Divorciado,Sudeste,18997.03,Superior Completo,Arrojado,9.1,682288.85,Diversificação,Energia Elétrica,Anual,Baixo,Não,Não
2,73,Feminino,Casado,Sudeste,6668.3,Superior Completo,Agressivo,11.2,731780.51,Compra de Imóvel,Financeiro,Day Trade,Baixo,Sim,Não
3,23,Feminino,Divorciado,Norte,38127.3,Superior Completo,Arrojado,20.7,280110.36,Aposentadoria,Financeiro,Semanal (Swing Trade),Médio,Sim,Não
4,41,Outro,Solteiro,Centro-Oeste,27589.13,Superior Incompleto,Agressivo,13.4,154303.37,Educação dos Filhos,Energia Elétrica,Anual,Médio,Não,Sim


In [14]:
df.shape

(20000, 15)