Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

validar estrutura de metadados #494

Open
6 of 7 tasks
juliana-gurgel opened this issue Aug 14, 2024 · 7 comments
Open
6 of 7 tasks

validar estrutura de metadados #494

juliana-gurgel opened this issue Aug 14, 2024 · 7 comments
Assignees
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata question Further information is requested

Comments

@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Aug 14, 2024

  • corrigir title_por_orig em Casasnovas2006:2:6:20
  • corrigir casos análogos nessa lenda
  • Casasnovas2006:3:9:33 etc.
  • incluir title = TODO em Rodrigues1890:1-1-2:101:101
  • substituir text_por_orig_sec por text_por_sec em Casasnovas2006:4:8:43 (@juliana-gurgel , orig 'original' e sec 'secundário' são incompatíveis entre si, ver Qual a diferença entre texto primário e texto secundário? #443 )
  • fazer essa substituição em todos os demais casos
  • verificar via script se há mais casos para corrigir

@leoalenc , na anotação das lendas de Casasnovas (2006), comecei a adotar a seguinte estrutura de metadados como base:

sent_id = Casasnovas2006:11:18:149
text = Amuramé, paá, uyaxiú yumasí irumu.
text_eng = TODO
text_por = As vezes chorava porque estava com fome.
text_source = p. 95, No. 25
text_orig = Amuramé, paá, uyaxiú yumasí irumu.
text_sec = Amuramé paá uyaxiú yumasí irumu.
text_por_sec = Às vezes ele chorava de fome.
text_sec_source = Avila (2021)
text_por_sec_source = Avila (2021)
text_annotator = Juliana Lopes Gurgel
title = Kurasí resewara
title_orig = Kurasí Resewara
title_por_orig = História do Sol
title_eng = Story of the Sun
aknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5

Passei a utilizar essa estrutura a partir da sentença Casasnovas2006:11:16:147. Posso seguir assim?

@juliana-gurgel juliana-gurgel added question Further information is requested corpus This issue pertains to corpus data metadata Improvementes or explanations about metadata labels Aug 14, 2024
@leoalenc
Copy link
Contributor

@leoalenc , na anotação das lendas de Casasnovas (2006), comecei a adotar a seguinte estrutura de metadados como base:

sent_id = Casasnovas2006:11:18:149
text = Amuramé, paá, uyaxiú yumasí irumu.
text_eng = TODO
text_por = As vezes chorava porque estava com fome.

@juliana-gurgel , falta mesmo a crase aqui? Esta página falta no PDF.

text_source = p. 95, No. 25
text_orig = Amuramé, paá, uyaxiú yumasí irumu.
text_sec = Amuramé paá uyaxiú yumasí irumu.
text_por_sec = Às vezes ele chorava de fome.
text_sec_source = Avila (2021)
text_por_sec_source = Avila (2021)
text_annotator = Juliana Lopes Gurgel
title = Kurasí resewara
title_orig = Kurasí Resewara
title_por_orig = História do Sol

@juliana-gurgel , de modo geral, só faz sentido o sufixo orig se divergimos no atributo respectivo. Por exemplo, em Casasnovas2006:1:1:1, title difere do que está em Casasnovas (2006, p. 64), pelos critérios de normalização que temos adotado:

# title = Urubú, wirawasú
# title_orig = Urubú, Wirá-Wasú

Via de regra, quando divergimos de algo citado, reproduzimos o original em atributo com sufixo orig, em se tratando de fonte primária, como neste caso.

title_eng = Story of the Sun
aknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5

Passei a utilizar essa estrutura a partir da sentença Casasnovas2006:11:16:147. Posso seguir assim?

@juliana-gurgel , veja minhas respostas acima. A rigor, só precisamos informar metadados de título na primeira sentença de cada lenda.
Deve haver muitas incoerências a serem corrigidas no treebank. Se encontrar alguma coisa estranha, abra issue neste repositório.

@leoalenc leoalenc added the invalid This doesn't seem right label Aug 14, 2024
@leoalenc
Copy link
Contributor

@juliana-gurgel , pode deixar a repetição dos metadados de título se já tiver feito isso. Apenas é uma redundância que podemos evitar para ter menos trabalho. Um script pode inserir esses dados, por exemplo.

leoalenc added a commit that referenced this issue Aug 14, 2024
@juliana-gurgel
Copy link
Collaborator Author

@juliana-gurgel , falta mesmo a crase aqui? Esta página falta no PDF.

Sim. Segue a foto da página. Assim que possível, vou escanear o meu livro para termos a obra completa em PDF.

image

@leoalenc
Copy link
Contributor

leoalenc commented Aug 15, 2024

@juliana-gurgel , falta mesmo a crase aqui? Esta página falta no PDF.

Sim. Segue a foto da página. Assim que possível, vou escanear o meu livro para termos a obra completa em PDF.

image

@juliana-gurgel , então text_por_orig reproduz o teor literal do n° 25 dessa página, ao passo que text_por introduz a versão corrigida, ou seja, com crase. Via de regra, devemos adotar uma visão bem liberal (e fiel) aos textos originais, incluindo o atributo text_por_orig apenas no caso de erros ortográficos ou tipográficos óbvios. Só pra confirmar, você pode postar aqui os metadados atualizados dessa sentença bem como as de n° 23 e 24?

@juliana-gurgel
Copy link
Collaborator Author

p. 95, No. 23-24

sent_id = Casasnovas2006:11:17:148
text = Nhaã pukusá, paá, Teyú raíra mirĩ, teité, arupí upunhẽ-punhẽ ukara rupí, i manha usú pukusá kupixá kití.
text_eng = TODO
text_por = Enquanto o filhinho do Calango, coitado, ficava engatinhando pelo terreiro quando sua mãe ia na roça.
text_por_orig = Enquanto o filhinho do Calango, coitado, ficava engatilhando pelo terreiro quando sua mãe ia na roça.
text_source = p. 95, No. 23-24
text_orig = Nhaã pukusá, paá, Teyú raíra mirí, teité, arupí upunhépunhé ukara rupí, imanha usú pukusá kupixá kití.
text_annotator = Juliana Lopes Gurgel
aknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5

p. 95, No. 25

sent_id = Casasnovas2006:11:18:149
text = Amuramé, paá, uyaxiú yumasí irumu.
text_eng = TODO
text_por = Às vezes chorava porque estava com fome.
text_por_orig = As vezes chorava porque estava com fome.
text_source = p. 95, No. 25
text_orig = Amuramé, paá, uyaxiú yumasí irumu.
text_sec = Amuramé paá uyaxiú yumasí irumu.
text_por_sec = Às vezes ele chorava de fome.
text_sec_source = Avila (2021)
text_por_sec_source = Avila (2021)
text_annotator = Juliana Lopes Gurgel
aknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5

@juliana-gurgel , veja minhas respostas acima. A rigor, só precisamos informar metadados de título na primeira sentença de cada lenda.

Obrigada, professor. Da lenda 11 em diante, vou registrar os metadados de título dessa maneira que o senhor orienta. Os metadados das lendas anteriores deixo para corrigirmos automaticamente, como o senhor sugeriu.

@leoalenc leoalenc changed the title Validar estrutura de metadados validar estrutura de metadados Aug 21, 2024
@leoalenc
Copy link
Contributor

Relaciona-se com #443.

leoalenc added a commit that referenced this issue Aug 23, 2024
@leoalenc
Copy link
Contributor

@juliana-gurgel , substituí _orig_sec por _sec nos atributos das histórias de Casasnovas (2006), pois um texto não pode ser secundário e original ao mesmo tempo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants