projetoIC

Este projeto tem por objetivo colocar de forma extruturada as informações contidas no site https://ftp.ncbi.nlm.nih.gov/geo/series/

Irei descrever brevemente os passos que estarei seguindo neste documento, como uma breve forma de documentos os passos seguidos

Etapas seguidas para extrair as senteças que serão analisadas

Baixar os documentos
Descomprimir os documentos baixados
Limpando o texto para conter apenas informações relevantes
Selecionando sentenças candidatas
- Uma série de técnicas foram aplicadas para refinar a qualidade das sentenças: POS TAG, uso de grep para melhorar a precisão das palavras
Indexando as sentenças usando lucene
Treinando CRF para reconhecimento de sentenças relevantes

Recuperando dados faltantes

Alguns documentos não foram recuperados de forma automática e por isso foi necessário fazer uma nova extração utilizando outras técnicas. Foi utilizado o framework Scrapy para fazer a extração. Mesmo assim ainda ficaram faltando ser extraídos mais 2 documentos que foram extraídos manualmente. Pegando os dados que não foram pegos na primeira passada e adicionando eles ao conjunto de documentos

Name		Name	Last commit message	Last commit date
Latest commit History 72 Commits
.settings		.settings
crawler		crawler
images		images
java		java
python		python
results		results
.gitignore		.gitignore
.project		.project
README.md		README.md
Relatório.pdf		Relatório.pdf
log_err.txt		log_err.txt
log_err_from_err.txt		log_err_from_err.txt
ponteiros(old).csv		ponteiros(old).csv
ponteiros.csv		ponteiros.csv
refined_adipose_tissue_sentencas_candidatas.txt		refined_adipose_tissue_sentencas_candidatas.txt
tissue_type.txt		tissue_type.txt
ver		ver

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

projetoIC

Recuperando dados faltantes

About

Releases

Packages

Languages

amnv/projetoIC

Folders and files

Latest commit

History

Repository files navigation

projetoIC

Recuperando dados faltantes

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages