In [1]:
# Manipulação e Tratamento de dados
import openpyxl
import pandas as pd
import numpy as np
from numpy import NaN

#ignorando Warning inuteis
import warnings 
from pandas.errors import SettingWithCopyWarning
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)
warnings.filterwarnings(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

#definindo quantidade de linhas e colunas visiveis
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)

# Manipulação de Strings
import unidecode # => unidecode(string)
import re # Regex

# Repositorio - Diretorio
import os
import shutil

In [2]:
import re

def read_file(file_path):
    # 1. Ler o arquivo txt
    with open(file_path, "r", encoding="utf-8") as file:
        lines = file.readlines()
    
    # 2. Remover todas as linhas que contêm "Mensagem apagada"
    lines = [line for line in lines if "Mensagem apagada" not in line]
    
    # 3. Corrigir as mensagens que estão em várias linhas para que fiquem em uma única linha
    corrected_lines = []
    current_message = ""
    
    for line in lines:
        # Se a linha começa com o padrão de data e hora, ela é uma nova mensagem
        if re.match(r"^\[\d{2}/\d{2}/\d{4} \d{2}:\d{2}:\d{2}\]", line):
            if current_message:  # Se há uma mensagem anterior, adicione-a à lista
                corrected_lines.append(current_message)
            current_message = line.strip()  # Comece uma nova mensagem
        else:
            current_message += " " + line.strip()  # Adicione o conteúdo da linha atual à mensagem em progresso
    
    # Adiciona a última mensagem, se houver
    if current_message:
        corrected_lines.append(current_message)
    
    # Salvando arquivo txt
    with open(file_path, "w", encoding="utf-8") as file:
        for line in corrected_lines:
            file.write(line + "\n")
    
    # Lendo arquivo txt e transformando em dataframe cada mensagem
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read().splitlines()
    
    return content

# ====================

In [3]:
df0 = pd.DataFrame({'chat': read_file('_chat.txt') })
print(len(df0))
display(df0.head())

185


Unnamed: 0,chat
0,[02/05/2024 21:05:47] Francisco José Lucena Be...
1,[02/05/2024 21:05:47] Francisco José Lucena Be...
2,[05/05/2024 11:07:48] Thiago Barreto Marques d...
3,[11/05/2024 03:51:55] Flávio Rosa Figueiredo S...
4,[03/05/2024 11:04:21] Natan Soares Silveira: 0...


In [4]:
df1 = pd.DataFrame({'chat': read_file('dispensados.txt') })
print(len(df1))
display(df1.head())

199


Unnamed: 0,chat
0,[01/05/2024 12:45:08] Manoel de Souza Neto: 01...
1,[01/05/2024 13:42:37] Wangles Pignaton de Paul...
2,[01/05/2024 13:51:57] Rafael Tadeu Marques: 01...
3,[01/05/2024 13:57:15] Rodrigo Miyashiro Nunes ...
4,[01/05/2024 14:01:14] Rômulo Spolidorio: 01/05...


In [5]:
df2 = pd.read_excel('df_gabs.xlsx')[['chat']]
print(len(df2))
display(df2.head())

95


Unnamed: 0,chat
0,[02/05/2024 21:05:47] Francisco José Lucena Be...
1,[02/05/2024 21:05:47] Francisco José Lucena Be...
2,[11/05/2024 03:51:55] Flávio Rosa Figueiredo S...
3,[01/05/2024 18:00:07] Lucas Silva Martins: 01/...
4,[07/05/2024 10:47:21] João Evaristo De Castro ...


In [6]:
df3 = pd.read_excel('df_giov.xlsx')[['chat']]
print(len(df3))
display(df3.head())

90


Unnamed: 0,chat
0,[05/05/2024 11:07:48] Thiago Barreto Marques d...
1,[15/05/2024 03:09:35] Thais Chaves Pinheiro: 1...
2,[03/05/2024 11:04:21] Natan Soares Silveira: 0...
3,[04/05/2024 01:05:10] Natan Soares Silveira: 0...
4,[08/05/2024 03:27:44] Natan Soares Silveira: 0...


In [7]:
df4 = pd.read_excel('df_prob.xlsx')[['chat']]
print(len(df4))
display(df4.head())

113


Unnamed: 0,chat
0,[05/05/2024 11:07:48] Thiago Barreto Marques d...
1,[15/05/2024 03:09:35] Thais Chaves Pinheiro: 1...
2,[03/05/2024 11:04:21] Natan Soares Silveira: 0...
3,[04/05/2024 01:05:10] Natan Soares Silveira: 0...
4,[08/05/2024 03:27:44] Natan Soares Silveira: 0...


In [8]:
df = pd.concat( [ df0, df1, df2, df3, df4] ).reset_index(drop=True)
df = df.drop_duplicates(subset=['chat']).reset_index(drop=True)
print(len(df))
display(df.head())

271


Unnamed: 0,chat
0,[02/05/2024 21:05:47] Francisco José Lucena Be...
1,[02/05/2024 21:05:47] Francisco José Lucena Be...
2,[05/05/2024 11:07:48] Thiago Barreto Marques d...
3,[11/05/2024 03:51:55] Flávio Rosa Figueiredo S...
4,[03/05/2024 11:04:21] Natan Soares Silveira: 0...


In [9]:
count = 0
for i in range(len(df)):
    if df['chat'][i] in list(df4['chat']):
        df = df.drop(i, axis=0)
        count += 1
print(count)

113


In [12]:
df.to_csv('mensagens.txt', index=False, header=False, sep=' ')