# Bibliotecas

In [1]:
import pandas as pd

# Carregando os dados

In [3]:
df_sentilex = pd.read_csv("SentiLex-lem-PT02.csv", sep = ";")

In [None]:
df_sentilex.head()

# Separando as palavras das classes gramáticais

In [None]:
df_sentilex_sep = df_sentilex.copy()
df_sentilex_sep[['word', 'part_of_speech']] = df_sentilex['word.part_of_speech'].str.split(r'\.PoS=', expand=True)
df_sentilex_sep = df_sentilex_sep.drop(columns=['word.part_of_speech'])

In [None]:
df_sentilex_sep.head()

# Reorganizando as colunas

In [None]:
df_sentilex_reordered = df_sentilex_sep.iloc[:, [4, 5, 0, 1, 2, 3]]

In [None]:
df_sentilex_reordered.head()

# Movendo as anotações para a coluna certa

In [None]:
df_cor_anotation = df_sentilex_reordered.copy()

In [None]:
for i, line in df_cor_anotation['polarity_n1'].items():
    if isinstance(line, str) and "ANOT=" in line:
        df_cor_anotation.at[i, 'anotation'] = line
        df_cor_anotation.at[i, 'polarity_n1'] = None

In [None]:
df_cor_anotation.head()

# Verificando polaridades n1 na coluna correta

In [None]:
for i, line in df_cor_anotation['polarity_n1'].items():
     if isinstance(line, str) and "POL" in line:
            print(i,": " + line)

# Verificando polaridades n1 na coulna n0

In [None]:
for i, line in df_cor_anotation['polarity_n0'].items():
     if isinstance(line, str) and "POL:N1" in line:
            print(i,": " + line)

# Movendo polaridades n1 da coluna n0 para a coluna n1

In [None]:
for i, line in df_cor_anotation['polarity_n0'].items():
    if isinstance(line, str) and "POL:N1" in line:
        df_cor_anotation.at[i, 'polarity_n1'] = line
        df_cor_anotation.at[i, 'polarity_n0'] = None

# Verificando quais valores se tornaram None

In [None]:
for i, line in df_cor_anotation['polarity_n0'].items():
     if line is None:
         print(i)

In [None]:
df_cor_anotation.head()

# Removendo as colunas desnecessárias

In [None]:
df_cleared = df_cor_anotation.copy()
df_cleared = df_cleared.drop(columns=['part_of_speech','target','anotation'])

In [None]:
df_cleared.head()

# Removendo texto desnecessário

In [None]:
df_cleared['polarity_n0'] = df_cleared['polarity_n0'].str.replace(r'^POL:N0=', '', regex=True)

In [None]:
df_cleared.head()

In [None]:
df_cleared['polarity_n1'] = df_cleared['polarity_n1'].str.replace(r'^POL:N1=', '', regex=True)

In [None]:
df_cleared.head()

In [None]:
pd.set_option('display.max_rows', None)
df_cleared.head()

# Verificando inconsistências

In [None]:
df_cleared.info() # verificando os tipos de dados

In [None]:
df_cleared['word'] = df_cleared['word'].astype('string') # convertendo "word" para string

In [None]:
df_cleared['polarity_n0'] = df_cleared['polarity_n0'].astype("Int64") # convertendo "polarity_n0" para Int64, 
                                                                      # com o objetivo de possíbilitar a 
                                                                      # verificação de valores numericos

In [None]:
df_cleared['polarity_n1'] = df_cleared['polarity_n1'].astype("Int64") # convertendo "polarity_n1" para Int64

In [None]:
values_not_onezerominusone_n0 = df_cleared[(df_cleared['polarity_n0'] > 1) | (df_cleared['polarity_n0'] < -1)] 
# verifica se existem valores maiores que 1 ou menores que -1 (fora do escopo da polaridade)

In [None]:
values_not_onezerominusone_n0.head() # existem 4 valores em polarity_n0 que fogem do escopo 
                                     # (provavelmente erro de digitação ou algo assim, já que 
                                     # no artigo não é dito nada sobre valores além de 1, 0 e -1)

In [None]:
values_not_onezerominusone_n1 = df_cleared[(df_cleared['polarity_n1'] > 1) | (df_cleared['polarity_n1'] < -1)] 
# verificar coluna polarity_n1 também

In [None]:
values_not_onezerominusone_n1.head() # não possui nenhum valor fora do escopo

# Corrigindo inconsistências

In [None]:
df_cleared['polarity_n0'] = df_cleared['polarity_n0'].clip(lower=-1, upper=1) 
df_cleared['polarity_n1'] = df_cleared['polarity_n1'].clip(lower=-1, upper=1)
# substitui valores maiores que 1 para 1 e menores que -1 para -1

In [None]:
values_not_onezerominusone_n0 = df_cleared[(df_cleared['polarity_n0'] > 1) | (df_cleared['polarity_n0'] < -1)] # verificando novamente

In [None]:
values_not_onezerominusone_n0.head() # nenhum valor fora do escopo

In [None]:
values_not_onezerominusone_n1 = df_cleared[(df_cleared['polarity_n1'] > 1) | (df_cleared['polarity_n1'] < -1)] 

In [None]:
values_not_onezerominusone_n1.head() # nenhum valor fora do escopo

# Salvando os dados como CSV

In [None]:
df_cleared.to_csv("sentilex_new.csv", index=False, encoding="utf-8", sep = ";") # cria um csv