Home

Valeria de Paiva edited this page Dec 29, 2015 · 43 revisions
Clone this wiki locally

Welcome to the OpenWordnet-PT Wiki!

Nosso sistema pode ser utilizado para pesquisas em http://wnpt.brlcloud.com/wn.

Diretrizes da OpenWordnet-PT

A OpenWordNet-PT é uma rede léxica, construída semi-automaticamente, seguindo o modelo da WordNet de Princeton https://wordnet.princeton.edu/.

Decidimos usar uma palavra feminina para designá-la por que "rede" (net) em português é feminino, mas poderíamos ter usado uma palavra masculina, pois, muitas vezes, também pensamos na OpenWordnet-PT como um banco de dados lexicais (lexical knowledge base).

Sobre minúsculas e maiúsculas

As entradas (words) devem ser escritas em minúsculas, exceto nos seguintes casos:

  • Se a entrada representar algo único, específico e particular (nomes tratados como "substantivos próprios" pela gramática tradicional), todas as suas palavras, exceto conectivos (“de”, “das”), estarão em maiúsculas. Exemplos principais são nomes de pessoas (Ferdinand de Saussure, Johann Wolfgang von Goethe), de lugares (Rio de Janeiro) e de organizações/empresas (Organização das Nações Unidas, Companhia das Letras).

Outros exemplos incluem áreas de conhecimento (Mecânica Estatística, História da Arte) e alguns enunciados famosos tais como Princípio de Exclusão de Pauli. Diferente de: opinião pública, tubarão-golfinho.

No Novo Acordo Ortográfico do Português, nada é dito sobre uso de minúsculas e maiúsculas, por isso seguimos os usos recorrentes em dicionários. Manter as iniciais das palavras que representam obras artísticas em minúsculo (exceto a primeira palavra) é um uso bastante corrente: Memórias das minhas putas tristes, Cem anos de solidão, As mil e uma noites, A incrível e triste história da Cândida Erêndira e sua avó desalmada.

(Discussão interna: Enunciados famosos são debatíveis e Valeria não gosta do uso de maiúsculas para os mesmos, pois um julgamento de valor sobre a importância do enunciado precisa ser feito. Temos o mesmo problema de 'notabilidade' com o julgamento do que constitui uma área de conhecimento.)

  • Línguas são escritas em minúsculas em português. Exemplo: finlandês, línguas altaicas. Nomes de povos e etnias tambem são escritos em minúsculas em português: zulus, franceses, armênios. O mesmo acontece com religiões e seus praticantes: católicos, protestantes, hindus, budistas, macumbeiros e umbandistas.

Português Europeu e Português Brasileiro

As entradas que têm grafia diferente em PE (Português Europeu) e PB (Português Brasileiro) devem aparecer (dentro das nossas possibilidades) com as duas formas, no entanto não marcamos na OpenWordnet-PT onde cada forma é usada. Exemplo: incluimos tanto 'género gramatical' (PE) quanto 'gênero gramatical' (PB).

Constituição dos Synsets

Synset é um conjunto (set) de sinônimos (syn), um conjunto de palavras que são substituíveis entre si em algum contexto. Synsets são constituídos por: ID, PALAVRA, GLOSA, EXEMPLO. Um exemplo pode ser visto em http://logics.emap.fgv.br/wn/synset?id=01503061-n.


01503061-n English

gloss: (warm-blooded egg-laying vertebrates characterized by feathers and forelimbs modified as wings)

bird

Portuguese

Gloss: animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas

O pássaro aprendeu a voar.

pássaro • ave

ID é o número que localiza o synset, seu "offset", seguido por uma letra que caracteriza a classe gramatical do synset (n, a, v, r para, respectivamente, substantivos, adjetivos, verbos e advérbios). Considerando o exemplo acima, o ID do synset é 01503061-n.

Palavra é cada um dos elementos que integra um synset. As variantes de um synset não necessariamente precisam ser palavras, mas podem também ser expressões mais complexas que uma única palavra, como em http://logics.emap.fgv.br/wn/synset?id=06413020-n. No synset considerado acima, as palavras que compõem o synset (palavras sinônimas) são "pássaro" e "ave". Deve-se incluir no campo palavra apenas expressões que possam ser intercambiadas com outros sinônimos em uma frase.

Glosa é uma pequena explicação do synset. Diferente da WordNet de Princeton que coloca sob o rótulo "gloss" tanto explicações, quanto exemplos, a OpenWordNet-PT traz campos diferentes para cada um destes dados. A glosa do exemplo acima é "animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas".

Exemplo é uma frase que demonstra o uso de uma dada palavra em um contexto. No caso do synset acima, "O pássaro aprendeu a voar." As frases devem ser pontuadas e serem iniciadas por letras maiúsculas.

(Discussão interna: Valeria de Paiva discorda da idéia de que uma separação rígida entre definições e exemplos seja uma melhoria da OpenWordnet em relação à WordNet de Princeton e deixa registrado seu voto vencido, a favor de seguir o modelo de Princeton. A objeção principal dela é que a fronteira entre expressões que devem estar na OpenWordnet e expressões que são explicações dessas não é clara, e que portanto, não deve-se tentar fazer uma distinção categórica.

Os demais pesquisadores (Livy Real, Alexandre Rademaker, Cláudia Freitas) optam pela separação por que: 1. as expressões a serem usadas por ferramentas de NLP não incluem, geralmente, as glosas e os exemplos, logo, a distinção categórica entre glosa ou exemplo não altera a qualidade do recurso, 2. otimizamos a forma de obter glosas e exemplos ao separá-los; 3. a WordNet de Princeton, ao unificar glosas e exemplos, se abstém de apresentar glosas e exemplos para todos os synsets, o que ao nosso ver é negativo, além de dar a entender de que glosas e exemplos têm o mesmo papel em um recurso, o que não é verdade. Glosas, algumas vezes, poderiam ser intercambiadas por words, já exemplos nunca poderiam; 4. acreditamos que a separação explícita entre glosas e exemplos aumenta nossa organização interna sem atrapalhar qualquer funcionalidade do recurso.)

Da tradução dos synsets

  • Synsets em português devem conter sinônimos das palavras dos synsets em inglês.

  • Deve-se manter na tradução a mesma categoria morfológica do synset original (n, v, a, r) e o mesmo registro (palavra eruditas devem ser traduzidas por palavras eruditas e palavras mais cotidianas por palavras comuns).

  • Quando possível, devemos manter também a mesma raiz da palavra original (por exemplo, traduzir "finished" por "finalizado" em http://wnpt.brlcloud.com/wn/synset?id=01003050-a).

  • É desejável que os sinônimos esgotem todas as possibilidades de representar o significado de um synset. Quando houver mais de uma tradução possível, esta pode ser incluída, mas claramente não ambicionamos adicionar todas as traduções possíveis, o que destroi a idéia mesma de synset, http://wnpt.brlcloud.com/wn/synset?id=06778102-n

  • Quando um synset original for muito específico e não houver uma tradução ideal em português, certos membros do grupo acham que o synset deve ser deixado em branco, sem palavra alguma em português. Isso indicaria ser um synset não lexicalizado em PT. (Esta diretiva não é consenso no grupo. Valeria de Paiva é contra, pois acha que conceitos podem ser sempre traduzidos, a caracterização do que constitui um synset em português não é clara ainda).

  • Glosas devem ser traduzidas tão literalmente quanto for possível, mantendo a aceitabilidade da definição em português. Glosas e exemplos devem ser, sempre que possíveis, frases bem formadas, com iniciais em maiúsculas e pontuação.