## Modelo CTGAN para Geração dos Dados Sintéticos
<hr>

<p align="justify">O modelo pré-treinado está disponível em: <a href="https://github.com/sdv-dev/CTGAN" target="_blank">https://github.com/sdv-dev/CTGAN</a>. Ele foi escolhido por se tratar de uma solução robusta e específica para a geração de dados tabulares sintéticos. O <strong>CTGAN</strong> (Conditional Tabular GAN) se destaca pela capacidade de lidar com distribuições complexas, dados desbalanceados e variáveis categóricas, tornando-se ideal para cenários onde é necessário preservar as características fidedignas dos dados reais, sem comprometer a privacidade ou a segurança das informações.</p>

### 0. Instalação da Biblioteca CTGAN

In [15]:
pip install ctgan

Note: you may need to restart the kernel to use updated packages.


### 1. Importação dos Dados Gerados para Treinamento

In [4]:
import pandas as pd

df = pd.read_csv("../dataset/generated_data.csv")
df.head()

Unnamed: 0,Nome,Nascimento,CPF,RG,Endereço,Telefone,Login,Senha
0,Hadassa Pereira,1962-10-16,129.685.704-20,812560346,"Quadra Sá, 893, São José, 23314869 Lopes das F...",(67) 95961-1883,eldwgbxl187,CP0Gk6u7+#
1,José Pimenta,1959-06-19,701.235.498-41,028765138,"Jardim de Siqueira, 68, Caetano Furquim, 63647...",(40) 98416-3591,ijcrwtsi977,t$6iZySN_2
2,Dr. Lucas Fernandes,2009-05-23,946.513.287-09,531876421,"Chácara Mendonça, 39, Santa Inês, 80425-898 Cu...",(20) 97085-7985,zgwecwl908,YDVOg90g&@
3,Matteo da Rosa,1914-03-19,058.691.374-20,087465218,"Jardim de Cassiano, 72, Nova Floresta, 55686-0...",(52) 98108-7007,ovwa0758,dV$11Xa$6p
4,Luna Dias,2014-05-28,970.216.854-67,23457186X,"Favela Melo, 138, Nova America, 20442-459 Silv...",(11) 97183-8924,kejc3405,E4zR$lmd(x


### 2. Gerador de Dados Sintéticos com CTGAN

In [6]:
import pandas as pd
from ctgan import CTGAN
import random
import string

# Verificação dos dados
print("Amostra dos dados de treinamento:")
print(df.head())
print("\nTipos de dados:")
print(df.dtypes)

# Pré-processamento para o CTGAN
discrete_columns = ['Nome', 'CPF', 'RG', 'Login', 'Endereço', 'Telefone','Nascimento', 'Senha']
for col in discrete_columns:
    df[col] = df[col].astype(str)

# Configuração do modelo
ctgan = CTGAN(
    epochs=15,  # Balance entre qualidade e tempo de execução
    batch_size=200,
    verbose=True
)

# Treinamento e geração
ctgan.fit(df, discrete_columns)
synthetic_data = ctgan.sample(1000)

print("\nAmostra de dados sintéticos gerados:")
print(synthetic_data.head())

synthetic_data.to_csv('../generator/synthetic_secure_data.csv', index=False)

Amostra dos dados de treinamento:
                  Nome  Nascimento             CPF         RG  \
0      Hadassa Pereira  1962-10-16  129.685.704-20  812560346   
1         José Pimenta  1959-06-19  701.235.498-41  028765138   
2  Dr. Lucas Fernandes  2009-05-23  946.513.287-09  531876421   
3       Matteo da Rosa  1914-03-19  058.691.374-20  087465218   
4            Luna Dias  2014-05-28  970.216.854-67  23457186X   

                                            Endereço         Telefone  \
0  Quadra Sá, 893, São José, 23314869 Lopes das F...  (67) 95961-1883   
1  Jardim de Siqueira, 68, Caetano Furquim, 63647...  (40) 98416-3591   
2  Chácara Mendonça, 39, Santa Inês, 80425-898 Cu...  (20) 97085-7985   
3  Jardim de Cassiano, 72, Nova Floresta, 55686-0...  (52) 98108-7007   
4  Favela Melo, 138, Nova America, 20442-459 Silv...  (11) 97183-8924   

         Login       Senha  
0  eldwgbxl187  CP0Gk6u7+#  
1  ijcrwtsi977  t$6iZySN_2  
2   zgwecwl908  YDVOg90g&@  
3     ovwa0758  dV$1

Gen. (7.09) | Discrim. (0.01): 100%|███████████████████████████████████████████████████| 15/15 [03:17<00:00, 13.17s/it]



Amostra de dados sintéticos gerados:
                   Nome  Nascimento             CPF         RG  \
0         Heitor Santos  1965-08-10  275.601.894-58  570413862   
1  Dr. Paulo Montenegro  2003-05-29  325.691.408-05  73854601X   
2        Isabella Silva  1957-06-04  426.073.591-80  305274181   
3    Dr. Benjamim Pires  1940-06-20  679.438.025-00  704821539   
4         Raquel Campos  2024-08-14  852.901.437-50  817250645   

                                            Endereço         Telefone  \
0  Vale Caldeira, 31, Liberdade, 21454-492 Abreu ...  (92) 97987-0271   
1  Parque Mariane Casa Grande, Vila Ouro Minas, 2...  (64) 98050-4800   
2  Condomínio Rodrigues, 977, Prado, 89088174 Rod...  (29) 96443-3900   
3  Área Castro, 38, Flavio Marques Lisboa, 06780-...  (47) 97648-7366   
4  Lago Moura, Vila Jardim Alvorada, 63764-867 Sa...  (86) 96230-5065   

         Login       Senha  
0   cynpyc7108  7pBg%V5V)k  
1  rgwyooj5213  !CLnL2An*)  
2    fgkrb7860  )aLJISUE87  
3     jyvv