Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Problemas com esaj::parse_cjsg() #16

Closed
ngiachetta opened this issue Feb 7, 2018 · 1 comment
Closed

Problemas com esaj::parse_cjsg() #16

ngiachetta opened this issue Feb 7, 2018 · 1 comment
Assignees
Labels

Comments

@ngiachetta
Copy link

Arquivo zip com exemplo reprodutível (Issues.zip)

Fiz o download com esaj::download_cjsg da classe "279" (inquérito policial) e listei os arquivos baixados para parsear com esaj::parse_cjsg, porém apenas alguns arquivos html foram parseados, isto é, dos 52 arquivos baixados, apenas 23 foram parseados com sucesso (o restante resultou na coluna "result" igual "error").

esaj::download_cjsg(query = "",classes = class_inq$id5, 
                    path = "InqPolicial_AL-SP/data_raw_SP/cjsg_SP/", 
                    max_page = Inf, tj = "TJSP")

# Os arquivos estão anexados no Isssue
files <- dir("/cjsg_SP/", full.names = TRUE, pattern = "page")

d_cjsg <- esaj::parse_cjsg(files)

Tentei rodar as funções contidas na função esaj::parse_cjsg separadamente, entre elas, a esaj:::parse_cjsg_one e a esaj:::parse_cjsg_file. A primeira sempre retornava o seguinte erro:

# file[2] é a "page40.html". O mesmo problema ocorre com "page1.html", apesar de ao aplicar esaj::parse_cjsg, o dado sai estruturado perfeitamente.
esaj:::parse_cjsg_one(xml2::read_html(files[2], encoding = "UTF-8") %>%
                                  rvest::html_nodes(".fundocinza1"))
# Erro: Duplicate identifiers for rows (1, 8, 16, 24, 32, 40, 47, 54, 61, 68, 75, 82, 89, 96, 103, 110, 117, 125, 133, 141), (3, 10, 18, 26, 34, 42, 49, 56, 63, 70, 77, 84, 91, 98, 105, 112, 119, 127, 135, 143), (5, 12, 20, 28, 36, 44, 51, 58, 65, 72, 79, 86, 93, 100, 107, 114, 121, 129, 137, 145), (6, 13, 21, 29, 37, 45, 52, 59, 66, 73, 80, 87, 94, 101, 108, 115, 122, 130, 138, 146), (15, 23, 31, 39, 124, 132, 140), (4, 11, 19, 27, 35, 43, 50, 57, 64, 71, 78, 85, 92, 99, 106, 113, 120, 128, 136, 144), (7, 14, 22, 30, 38, 46, 53, 60, 67, 74, 81, 88, 95, 102, 109, 116, 123, 131, 139, 147), (2, 9, 17, 25, 33, 41, 48, 55, 62, 69, 76, 83, 90, 97, 104, 111, 118, 126, 134, 142)

A segunda função retorna um tibble apenas com uma coluna (result) com as observações "error"

# file[2] é a "page40.html". O mesmo problema NÃO com "page1.html"
esaj:::parse_cjsg_file(file = files[2])
# # A tibble: 20 x 1
#    result
#    <chr> 
#  1 error 
#  2 error 
#  3 error 
#  4 error 
#  5 error 
#  6 error 
#  7 error
# ...

Obs: É a minha primeira Issue no Git

@clente clente self-assigned this Feb 14, 2018
@clente clente added the bug label Feb 14, 2018
@clente
Copy link
Contributor

clente commented Feb 14, 2018

Resolvido em 4facbd3. Por favor instale a nova versão do pacote para que você não tenha mais esse problema.

@clente clente closed this as completed Feb 14, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants