In [1]:
import openpyxl
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from statistics import mean
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import csv
import re
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/pc/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/pc/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
# Função para limpeza de texto
def clean_text(text):
    # Remover caracteres especiais, números e pontuação
    text = re.sub(r'[^a-zA-Záàãâäéèêëíìîïóòôöúùûüç\s]', '', str(text))
    # Converter para minúsculas
    text = text.lower()
    # Tokenizar o texto
    tokens = word_tokenize(text, language='portuguese')
    # Remover stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens = [word for word in tokens if word not in stop_words]
    return tokens # Retornar tokens ao invés de string

In [3]:
def processar_textos(textos, termos):
    resultados = []
    textos_unicos = {tuple(clean_text(texto['full_text'])): texto for texto in textos}  # Filtrar textos únicos
    for texto_tokens, texto_original_dict in textos_unicos.items():
        texto_original = texto_original_dict['full_text']  # Texto original
        termos_encontrados = []
        # Etapa 1: Verificar termos exatos no texto
        for termo in termos:
            termo_tokens = clean_text(termo)  # Limpar o termo para tokens
            # Criar regex para buscar o termo como uma palavra inteira
            regex = r'\b' + re.escape(' '.join(termo_tokens)) + r'\b'
            if re.search(regex, ' '.join(texto_tokens)):  # Verificar presença do termo no texto
                termos_encontrados.append(termo)
        if termos_encontrados:
            # Salvar todos os dados, incluindo os termos encontrados diretamente
            texto_original_dict['termos_encontrados'] = ', '.join(termos_encontrados)
            resultados.append(texto_original_dict)
    return resultados

In [10]:
def main():
    # Carregar planilha e extrair termos-chave
    wb = openpyxl.load_workbook('/home/pc/Documentos/Nova_ic/Termos_Bases.xlsx')
    planilha = wb['Termos_Bases']
    termos = []
    for celula in planilha['A']:
        if celula.value:
            termo = str(celula.value).lower().strip()
            termos.append(termo)
    
    # Carregar textos da coluna 'text' do arquivo Excel (usando pandas)
    df_textos = pd.read_csv("/home/pc/Downloads/Raphael_capitais/filtrados/s1_recife_filtrada.csv")
    # Filtrar para excluir textos que contenham "RT"
    df_textos = df_textos[~df_textos['full_text'].str.startswith('RT', na=False)]
    # Transformar em uma lista de dicionários
    textos = df_textos.to_dict(orient='records')
    # Processar textos e procurar termos
    resultados = processar_textos(textos, termos)
    # Criar DataFrame a partir da lista de resultados
    df_resultados = pd.DataFrame(resultados)
    # Salvar os resultados em um arquivo Excel
    df_resultados.to_excel("/home/pc/Downloads/Raphael_capitais/filtrados/recife/s1_recife_filtrada_misoginia.xlsx", index=False)
    print('Resultados salvos com sucesso.')

if __name__ == "__main__":
    main()

Resultados salvos com sucesso.


In [5]:
def main():
    # Carregar planilha e extrair termos-chave
    wb = openpyxl.load_workbook('/home/pc/Documentos/Nova_ic/Termos_Bases.xlsx')
    planilha = wb['Termos_Bases']
    termos = []
    for celula in planilha['A']:
        if celula.value:
            termo = str(celula.value).lower().strip()
            termos.append(termo)
    
    # Carregar textos da coluna 'text' do arquivo Excel (usando pandas)
    df_textos = pd.read_csv("/home/pc/Downloads/Raphael_capitais/filtrados/s2_recife_filtrado.csv")
    # Filtrar para excluir textos que contenham "RT"
    df_textos = df_textos[~df_textos['full_text'].str.startswith('RT', na=False)]
    # Transformar em uma lista de dicionários
    textos = df_textos.to_dict(orient='records')
    # Processar textos e procurar termos
    resultados = processar_textos(textos, termos)
    # Criar DataFrame a partir da lista de resultados
    df_resultados = pd.DataFrame(resultados)
    # Salvar os resultados em um arquivo Excel
    df_resultados.to_excel("/home/pc/Downloads/Raphael_capitais/filtrados/recife/s2_recife_filtrada_misoginia.xlsx", index=False)
    print('Resultados salvos com sucesso.')

if __name__ == "__main__":
    main()

Resultados salvos com sucesso.


In [6]:
def main():
    # Carregar planilha e extrair termos-chave
    wb = openpyxl.load_workbook('/home/pc/Documentos/Nova_ic/Termos_Bases.xlsx')
    planilha = wb['Termos_Bases']
    termos = []
    for celula in planilha['A']:
        if celula.value:
            termo = str(celula.value).lower().strip()
            termos.append(termo)
    
    # Carregar textos da coluna 'text' do arquivo Excel (usando pandas)
    df_textos = pd.read_csv("/home/pc/Downloads/Raphael_capitais/filtrados/s3_recife_filtrada.csv")
    # Filtrar para excluir textos que contenham "RT"
    df_textos = df_textos[~df_textos['full_text'].str.startswith('RT', na=False)]
    # Transformar em uma lista de dicionários
    textos = df_textos.to_dict(orient='records')
    # Processar textos e procurar termos
    resultados = processar_textos(textos, termos)
    # Criar DataFrame a partir da lista de resultados
    df_resultados = pd.DataFrame(resultados)
    # Salvar os resultados em um arquivo Excel
    df_resultados.to_excel("/home/pc/Downloads/Raphael_capitais/filtrados/recife/s3_recife_filtrada_misoginia.xlsx", index=False)
    print('Resultados salvos com sucesso.')

if __name__ == "__main__":
    main()

Resultados salvos com sucesso.


In [7]:
def main():
    # Carregar planilha e extrair termos-chave
    wb = openpyxl.load_workbook('/home/pc/Documentos/Nova_ic/Termos_Bases.xlsx')
    planilha = wb['Termos_Bases']
    termos = []
    for celula in planilha['A']:
        if celula.value:
            termo = str(celula.value).lower().strip()
            termos.append(termo)
    
    # Carregar textos da coluna 'text' do arquivo Excel (usando pandas)
    df_textos = pd.read_csv("/home/pc/Downloads/Raphael_capitais/filtrados/s4_recife_filtrada.csv")
    # Filtrar para excluir textos que contenham "RT"
    df_textos = df_textos[~df_textos['full_text'].str.startswith('RT', na=False)]
    # Transformar em uma lista de dicionários
    textos = df_textos.to_dict(orient='records')
    # Processar textos e procurar termos
    resultados = processar_textos(textos, termos)
    # Criar DataFrame a partir da lista de resultados
    df_resultados = pd.DataFrame(resultados)
    # Salvar os resultados em um arquivo Excel
    df_resultados.to_excel("/home/pc/Downloads/Raphael_capitais/filtrados/recife/s4_recife_filtrada_misoginia.xlsx", index=False)
    print('Resultados salvos com sucesso.')

if __name__ == "__main__":
    main()

Resultados salvos com sucesso.


In [8]:
def main():
    # Carregar planilha e extrair termos-chave
    wb = openpyxl.load_workbook('/home/pc/Documentos/Nova_ic/Termos_Bases.xlsx')
    planilha = wb['Termos_Bases']
    termos = []
    for celula in planilha['A']:
        if celula.value:
            termo = str(celula.value).lower().strip()
            termos.append(termo)
    
    # Carregar textos da coluna 'text' do arquivo Excel (usando pandas)
    df_textos = pd.read_csv("/home/pc/Downloads/Raphael_capitais/filtrados/s5_recife_filtrada.csv")
    # Filtrar para excluir textos que contenham "RT"
    df_textos = df_textos[~df_textos['full_text'].str.startswith('RT', na=False)]
    # Transformar em uma lista de dicionários
    textos = df_textos.to_dict(orient='records')
    # Processar textos e procurar termos
    resultados = processar_textos(textos, termos)
    # Criar DataFrame a partir da lista de resultados
    df_resultados = pd.DataFrame(resultados)
    # Salvar os resultados em um arquivo Excel
    df_resultados.to_excel("/home/pc/Downloads/Raphael_capitais/filtrados/recife/s5_recife_filtrada_misoginia.xlsx", index=False)
    print('Resultados salvos com sucesso.')

if __name__ == "__main__":
    main()

Resultados salvos com sucesso.
