## Formando corpus para análise de conteúdo

Usando 'pandas' para limpar o df com termos estatisticamente relevantes e filtrar banco de dados original.

In [1]:
import pandas as pd

In [56]:
df = pd.read_csv('termos-relevantes.csv', encoding='utf-8', delimiter=';', header=0)

In [57]:
print(df)

    termos_relevantes
0           bolsonaro
1                lula
2          democracia
3                ódio
4             verdade
..                ...
418         abandonar
419          violento
420          estranho
421             rigor
422         comprovar

[423 rows x 1 columns]


In [58]:
# Extrair a coluna contendo as palavras
coluna_termos = df['termos_relevantes']

# Remover palavras duplicadas
termos = coluna_termos.drop_duplicates().reset_index(drop=True)

In [59]:
print(termos)

0       bolsonaro
1            lula
2      democracia
3            ódio
4         verdade
          ...    
418     abandonar
419      violento
420      estranho
421         rigor
422     comprovar
Name: termos_relevantes, Length: 423, dtype: object


In [60]:
# Criar um novo DataFrame com os termos relevantes únicos
termos_df = pd.DataFrame({'termos-relevantes-unicos': termos})

# Salvando em um novo arquivo csv
termos_df.to_csv('termos-relevantes-unicos.csv', index=False)

### Criando um banco de dados filtrado pelos termos relevantes

In [61]:
# Lendo o banco de dados da tese
tese_df = pd.read_csv('bd_tese_CORRETO_tweets.csv', encoding='utf-8', delimiter=';', header=0)

# Lendo o .csv com os termos relevantes
termos_relevantes = pd.read_csv('termos-relevantes-unicos.csv')

In [62]:
# Verificando e removendo NaN da coluna 'text'
tese_df = tese_df.dropna(subset=['text'])

In [63]:
print(termos_relevantes.head())

  termos-relevantes-unicos
0                bolsonaro
1                     lula
2               democracia
3                     ódio
4                  verdade


In [64]:
print(tese_df.head())

      ANO           created_at         PARLAMENTAR GOVERNISMO POSICIONAMENTO  \
0  2022.0  2022/12/29 20:35:54  Deputados Federais        qt1         Centro   
1  2022.0  2022/12/29 17:50:26  Deputados Federais        qt1         Centro   
2  2022.0  2022/12/14 22:28:34  Deputados Federais        qt1         Centro   
3  2022.0  2022/11/17 18:24:47  Deputados Federais        qt1         Centro   
4  2022.0  2022/09/21 23:25:03  Deputados Federais        qt1         Centro   

  POSICIONAMENTO.1 PARTIDO    screen_name  \
0           Centro    PROS  AcacioFavacho   
1           Centro    PROS  AcacioFavacho   
2           Centro    PROS  AcacioFavacho   
3           Centro    PROS  AcacioFavacho   
4           Centro    PROS  AcacioFavacho   

                                                text is_quote  ...  \
0  Desejo sucesso ao Senador @randolfeap (Rede/AP...    FALSO  ...   
1  Parabenizo o Governador do Amapá @Waldezoficia...    FALSO  ...   
2  Um aumento absurdo de 36% na tarifa

In [65]:
# Verificando e removendo NaN da lista de termos relevantes
termos_relevantes = termos_relevantes.dropna(subset=['termos-relevantes-unicos'])

In [66]:
# Criando uma lista com os termos relevantes
lista_termos = termos_relevantes['termos-relevantes-unicos'].tolist()

In [67]:
# Verificando se a lista de termos não está vazia
if not lista_termos:
    print("A lista de termos relevantes está vazia. Verifique seus dados.")
else:
    # Usando `.str.contains` pra filtrar os tweets do tese_df
    tweets_analise_df = tese_df[tese_df['text'].str.contains('|'.join(lista_termos), case=False)]


In [68]:
len(tweets_analise_df)

561029

In [70]:
tweets_analise_df.to_csv('bd_analise_tweets.csv', index=False)