Este projeto tem por objetivo colocar de forma extruturada as informações contidas no site https://ftp.ncbi.nlm.nih.gov/geo/series/
Irei descrever brevemente os passos que estarei seguindo neste documento, como uma breve forma de documentos os passos seguidos
Etapas seguidas para extrair as senteças que serão analisadas
- Baixar os documentos
- Descomprimir os documentos baixados
- Limpando o texto para conter apenas informações relevantes
- Selecionando sentenças candidatas
- Uma série de técnicas foram aplicadas para refinar a qualidade das sentenças: POS TAG, uso de grep para melhorar a precisão das palavras
- Indexando as sentenças usando lucene
- Treinando CRF para reconhecimento de sentenças relevantes
Alguns documentos não foram recuperados de forma automática e por isso foi necessário fazer uma nova extração utilizando outras técnicas. Foi utilizado o framework Scrapy para fazer a extração. Mesmo assim ainda ficaram faltando ser extraídos mais 2 documentos que foram extraídos manualmente. Pegando os dados que não foram pegos na primeira passada e adicionando eles ao conjunto de documentos