## LINGUAGEM NATURAL E INTELIGÊNCIA ARTIFICIAL
### Aplicações e tutoriais para a língua portuguesa

### LINGUÍSTICA DE CORPUS

Carlos Catalão Alves  
20 Maio, 2018

#### Aplicação:
Programa que cria um corpus a partir de um ficheiro csv. 

- Os textos são lidos em ficheiro csv, delimitado por tabs (*imprensa.csv*)  
- O resultado final é um ficheiro de texto com anotação de titulo, parágrafo e frase (*corpo.txt*)


#### Bibliotecas python

In [1]:
import pandas as pd

#### Biblioteca NLTK - Natural Langage Processing Toolkit

In [8]:
import nltk

#### Variáveis

Esta aplicação usa ficheiros csv, delimitados por tabs. O exemplo aqui apresentado lê os dados a partir de um ficheiro de demonstração *(imprensa.csv)*, contendo artigos da plataforma *Ciência Viva na Imprensa Regional*, com os seguintes campos:
- identificador do artigo
- identificador do autor
- data do artigo
- título
- texto do artigo

O programa é aplicável sem alterações substanciais a qualquer outro ficheiro csv, desde que delimitado por tabs e contendo o mesmo número e ordem de campos. Neste caso será só necessário alterar o valor da variável **FICHEIRO**. 
Caso se verifiquem alterações no número e ordem dos campos, será necessário adaptar também a variável *pos_ficheiro* à nova posição dos campos.


In [3]:
FICHEIRO = "imprensa.csv"
CORPO = "corpo.txt"
GENERO = "noticia"
TEXTO_INICIO = "<texto id="
TEXTO_FIM = "\n</texto>\n"
TITULO_INICIO = "<t> "
TITULO_FIM = " </t>"
PARAGRAFO_INICIO = "\n<p>"
PARAGRAFO_FIM = "\n\n</p>"
FRASE_INICIO = "\n<s> "
FRASE_FIM = " </s>"

#### Textos para processamento

In [4]:
# recebe os dados do ficheiro fonte
dados = pd.read_csv(FICHEIRO, delimiter = "\t", quoting = 3)

#### Criação do ficheiro de texto para o corpus

In [5]:
# abre um ficheiro de texto para registar o corpus
corpus = open(CORPO, "w")  

#### Aplicação do separador frásico NLTK (versão para português)

In [6]:
# usa o separador frásico do NLTK para português
separador_frasico = nltk.data.load("tokenizers/punkt/portuguese.pickle")

#### Processa textos e cria o corpus

In [7]:
# para cada linha do ficheiro fonte
for indice in range(len(dados)):

    tx = "" # texto
    p = [] # lista de parágrafos
    pos_ficheiro = 2 # coluna do ficheiro fonte com a data 
    
    # regista cabeçalho do texto com metadados
    data = str(dados.iloc[indice, pos_ficheiro])
    data = data[6:8]+"-"+data[4:6]+"-" + data[:4]
    corpus.write(TEXTO_INICIO + str(indice) + " " + "gen=" + GENERO + " " 
                 + "data=" + data + " " + "origem=Ciência Viva na Imprensa Regional" + ">")
    
    # regista o título
    pos_ficheiro = 3 # coluna do ficheiro fonte com a data
    corpus.write(PARAGRAFO_INICIO)
    corpus.write(FRASE_INICIO + TITULO_INICIO + dados.iloc[indice, pos_ficheiro] 
                 + TITULO_FIM + FRASE_FIM)
    corpus.write(PARAGRAFO_FIM)     
           
    # recebe texto do ficheiro fonte
    pos_ficheiro = 4 # coluna do ficheiro fonte com o texto 
    tx = dados.iloc[indice, 4]  
    
    # separa os parágrafos
    p = tx.split('\n\n') 
        
    # processa cada parágrafo
    for x in range (0, len(p)):
        
        if p[x] != " ": # se o parágrafo não é uma linha em branco
                        
            corpus.write(PARAGRAFO_INICIO)            
            
            frases = separador_frasico.tokenize(p[x])
            
            for frase in frases:
                corpus.write(FRASE_INICIO + frase + FRASE_FIM)
            
            corpus.write(PARAGRAFO_FIM)

    corpus.write(TEXTO_FIM)

corpus.close() # fecha o ficheiro com o corpus
