GitHub - fflch/cortec: CorTec - Corpus Técnico-Científico - é um corpus comparável de textos técnicos e/ou científicos

CorTec

O CorTec - Corpus Técnico-Científico - é um corpus comparável de textos técnicos e/ou científicos, originalmente escritos em português brasileiro e em inglês. Esse corpus é constituído por corpora compilados por alunos do extinto Curso de Especialização em Tradução e por pós-graduandos do programa de Estudos Linguísticos e Literários em Inglês, que os construíram para suas pesquisas. Sempre que possível, novos corpora são acrescentados.

A primeira versão do CorTec, lançada em setembro de 2005, teve o apoio financeiro do CNPq, processo no. 403120-03-9 e foi construída e implementada junto ao projeto CoMET em parceria com o NILC (Núcleo Interinstitucional de Lingüística Computacional), localizado no ICMC da USP de São Carlos, e o Projeto Lácio-Web.

A interface original e todas as ferramentas de pesquisa foram desenvolvidas e adaptadas para o Cortec por Marcos Felipe Tonelli de Carvalho, sob a coordenação da Profa. Dra. Sandra Maria Aluísio.

O CorTec conta atualmente com mais de 20 corpora, dos mais variados domínios. O tamanho de cada corpus varia segundo sua especificidade. Assim, o corpus de Magnéticos de Vazão tem xxx palavras em português e xxxx em inglês, enquanto o de Culinária conta com mais de um milhão de palavras em cada língua.

Clicando-se sobre o nome do corpus abre-se uma janela com detalhes sobre sua autoria, composição, número de palavras distintas (types) e ocorrências (tokens).

Funcionalidades

Funcionalidades abertas:

Listagem de categorias de corporas e corporas.
Descrição de categorias de corporas e corporas.
Tabela com resumo analítico de cada corpora, com:
- quantidade de ocorrências/tokens;
- quantidade de formas/types;
- token/type ratio.
Análise de texto:
- Seleção de corporas e/ou categorias.
- Seleção de idioma.
- Seleção de ferramenta de análise de texto (Concordanciador, Gerador de Lista de Palavras, Gerador de N-Gramas).
Concordanciador:
- Busca de termo nos corporas selecionados com os parâmetros:
  - igual a, começando com, terminando com ou contendo;
  - tamanho do contexto reduzido a ser exibido na listagem: 20, 30, 40, 50 ou 60 caracteres.
Compilação das ocorrências do termo encontradas com o respectivo contexto ajustado para o tamanho escolhido.
- Opção para download
Compilação das ocorrências do termo encontradas com o respectivo contexto ampliado (150 caracteres).
- Opção para download
Gerador de Lista de Palavras:
- Tabela com todos os types dos corporas selecionados e os respectivos números de ocorrência (frequência).
  - Opção de ordenar a tabela por type (alfabética) e por frequência (nº de ocorrências);
  - Busca na tabela por type;
  - Opção de download da tabela.
- Tabela de Tokens com: o total de ocorrências, quantidade de tokens que aparecem uma vez e que aparecem mais de uma vez.
- Tabela de Types com: o total de palavras, quantidade de types que aparecem uma vez e que aparecem mais de uma vez.
- Índice Vocabular (token/type ratio).
Gerador de N-Gramas
- Compilação do n-gramas de acordo com os parâmetros:
  - tamanho dos n-gramas, Stoplist (padrão ou inserir uma), limite mínimo.

Funcionalidades administrativas:

CRUD de Categorias.
CRUD de Corpora.
CRUD de Corpus.
- Opção de digitar ou subir arquivo .txt.

Name		Name	Last commit message	Last commit date
Latest commit History 391 Commits
app		app
bootstrap		bootstrap
config		config
database		database
public		public
resources		resources
routes		routes
storage		storage
tests		tests
.editorconfig		.editorconfig
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
.styleci.yml		.styleci.yml
artisan		artisan
composer.json		composer.json
composer.lock		composer.lock
package.json		package.json
phpunit.xml		phpunit.xml
readme.md		readme.md
server.php		server.php
webpack.mix.js		webpack.mix.js

fflch/cortec

Folders and files

Latest commit

History

Repository files navigation

CorTec

Funcionalidades

About

Resources

Stars

Watchers

Forks

Languages