Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dificuldades para treinar um modelo novo #24

Closed
diogofr4 opened this issue Aug 9, 2019 · 5 comments
Closed

Dificuldades para treinar um modelo novo #24

diogofr4 opened this issue Aug 9, 2019 · 5 comments

Comments

@diogofr4
Copy link

diogofr4 commented Aug 9, 2019

Estou tentando treinar um modelo para o TJRJ. Apliquei alguns filtros para limpar a imagem da captcha e facilitar a assertividade, ficando com uma imagem assim:

image

Renomeei 1000 captchas nesse estilo pra treinar um modelo, porém quando vou testar, não chega nem próximo da resposta correta. Estou fazendo alguma coisa errada no treinamento do modelo? Segue abaixo o script que usei:

captchasToTrain <- read_captcha(captchasInFolder, ans_in_path = TRUE)
model <- train_model(captchasToTrain, verbose = TRUE)

Não tenho muito conhecimento de ml, então tentei alterar o n_epochs aleatoriamente. Tentei com o padrão de 30, 10 e com 100. Ambos não acertaram nenhum caractere.
@edit
Segue o plot dos gráficos de 10 e de 100

image

image

@jtrecenti
Copy link
Member

seu modelo parece estar acertando razoavelmente, está apenas overfittado. Verifique se você está fazendo o mesmo tratamento na base que você usa para ajustar o modelo e a base que você usa para testar o modelo.

@diogofr4
Copy link
Author

diogofr4 commented Aug 10, 2019

Sim, estou usando o mesmo tratamento na base de teste. Já criei modelos com n_epochs = 5,7,10,100 e 500. Nenhum deles acertou a captcha quando eu usava a função decryptr. Não sei oq estou fazendo de errado. Vou compartilhar a base e o modelo que utilizei, se vc puder dar uma luz no oq eu preciso fazer, vou ficar muito agradecido, pq realmente estou sem saber pra onde seguir.

Captchas tratadas e renomeadas: https://drive.google.com/open?id=1vQHsIXg4xOX2AhXWDjve7NgssxPvCkpZ
Modelo com n_epochs = 7: https://drive.google.com/open?id=1GNWW5BE3tyF1bu8lkQiu5Ts50Ntox4j2

@isa1821
Copy link

isa1821 commented Sep 18, 2019

Eu aumentei a minha base de treino (por volta de 2500 captchas resolvidos) e o resultado melhorou significativamente.

@jtrecenti
Copy link
Member

excelente! eu acredito que com uma base suficientemente grande, também não é preciso fazer pré-processamento.

@clente
Copy link
Collaborator

clente commented Jul 4, 2020

Fechando por inatividade. Reabrir caso necessário.

@clente clente closed this as completed Jul 4, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants