# Pré-processamento dos Tweets

Num passado não tão distante, analisar *tweets* envolvia algumas etapas, como limpeza de caracteres desconhecidos, tratamento a emojis, erros de ortografia, concordância, abreviações... Todos esses aspectos poderiam prejudicar análises posteriores, como os algoritmos para análise de sentimento ou de modelagem de tópicos. 

No contexto deste notebook, o único pré-processamento a ser realizado sobre uma coleção de *tweets* é a escolha de quais campos, quais *features* vão ser interessantes para nós usarmos nas nossas análises posteriores

## Bibliotecas Necessárias

É uma boa prática, manter todos as bilbiotecas necessárias no começo do notebook. Assim, se houver alguma dependência ou biblioteca faltante no ambiente de execução do usuário, já é possível identificar na primeira célula.

In [1]:
import os
import pandas as pd

## Carga de Dados

Esta seção serve para carregarmos em um DataFrame todas os nossos *tweets* e então, manipularmos eles.

In [2]:
# dados de entrada (pasta e arquivo)
data_input_folder = 'Tweets'
data_input_filename = 'Resultado FLU x SCO.csv'

In [3]:
raw_tweets = pd.read_csv(f'{data_input_folder}/{data_input_filename}', sep=',')

In [4]:
raw_tweets.head(10)

Unnamed: 0,Name,Handle,Tweet text,Media URL,Posted,Posted timestamp,Retweets(num),Quoted tweets(num),Likes(num),Profile image,url,Retweets,Likes,Comments,Views,Tweet URL,Profile Link,Post Body,Date,Timestamp
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,6:00 PM · 1 de mai de 2024,2024-05-01T21:00:32.000Z,941.0,173.0,,https://pbs.twimg.com/profile_images/168389055...,https://twitter.com/FluminenseFC/status/178577...,,,,,,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,,,,,941.0,,173.0,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,,
2,el anjo,@matandosuacurio,,,,,,,,,,,,,13,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,4 h,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,,,,,,,4.0,1.0,1 mil,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,1 de mai,2024-05-01T21:09:17.000Z
4,DAVIDMAKINASTIPSER,@DAVIDMAKTIPSER,,https://pbs.twimg.com/media/GMfsaG8XQAEYqLX?fo...,,,,,,,,,,,3 mil,https://twitter.com/DAVIDMAKTIPSER/status/1785...,https://twitter.com/DAVIDMAKTIPSER,,1 de mai,2024-05-01T21:03:55.000Z
5,pedro karl,@karl_ffc,,,,,,,,,,1.0,64.0,2.0,3 mil,https://twitter.com/karl_ffc/status/1785776841...,https://twitter.com/karl_ffc,"Que exibição maravilhosa, vitória pra convence...",1 de mai,2024-05-01T21:02:31.000Z
6,Aedo Dias,@AedoDias,,,,,,,,,,,18.0,,1 mil,https://twitter.com/AedoDias/status/1785777178...,https://twitter.com/AedoDias,"Apesar do resultado, mais um jogo ruim do time...",1 de mai,2024-05-01T21:03:52.000Z
7,lucas,@elicepsv,,,,,,,,,,,18.0,,1 mil,https://twitter.com/elicepsv/status/1785777254...,https://twitter.com/elicepsv,tô convencido que contra o galo vai ser no máx...,1 de mai,2024-05-01T21:04:10.000Z
8,Richard Moedas,@21RichardFFC,,,,,,,,,,,34.0,,1 mil,https://twitter.com/21RichardFFC/status/178577...,https://twitter.com/21RichardFFC,Parabéns por fazer a sua obrigação nesse jogo ...,1 de mai,2024-05-01T21:01:30.000Z
9,22x10,@lBiiel_,,https://pbs.twimg.com/media/GMhaKG8XYAA68yJ?fo...,,,,,,,,3.0,36.0,2.0,1 mil,https://twitter.com/lBiiel_/status/17857763887...,https://twitter.com/lBiiel_,,1 de mai,2024-05-01T21:00:43.000Z


## Processamento dos Tweets

Agora que temos os *tweets* já armazenados em uma variável, em um DataFrame, nós podemos manipulá-lo e deixar ele formatado da melhor forma para etapas posteriores de análise.

### Renomear Colunas

As colunas coletadas pelo Bardeen AI tem nomes pouco intuitivos. Para ter um artefato mais robusto e simples, vamos renomear as colunas oferecidas por nomes mais claros e intuitivos.

In [5]:
print(f'Colunas atuais: {list(raw_tweets.columns)}')

Colunas atuais: ['Name', 'Handle', 'Tweet text', 'Media URL', 'Posted', 'Posted timestamp', 'Retweets(num)', 'Quoted tweets(num)', 'Likes(num)', 'Profile image', 'url', 'Retweets', 'Likes', 'Comments', 'Views', 'Tweet URL', 'Profile Link', 'Post Body', 'Date', 'Timestamp']


In [6]:
rename_column_dict = {
    'Name': 'Nome do Usuário',
    'Handle': 'Perfil do Twitter',
    'Tweet text': 'Tweet Original',
    'Media URL': 'URL Imagem Anexada',
    'Posted': 'Data de Postagem',
    'Posted timestamp': 'Timestamp Data de Postagem',
    'Retweets(num)': 'Total de Retweets',
    'Quoted tweets(num)': 'Total de Respostas',
    'Likes(num)': 'Total de Likes',
    'Profile image': 'Imagem do Perfil que Postou',
    'url': 'Link do Tweet Original',
    'Retweets': 'Total de Retweets da Resposta',
    'Likes': 'Total de Likes da Resposta',
    'Comments': 'Total de Respostas sobre a Resposta',
    'Views': 'Total de Visualizações da Resposta',
    'Tweet URL': 'Link da Resposta',
    'Profile Link': 'Link do Perfil do Twitter',
    'Post Body': 'Conteúdo da Resposta',
    'Date': 'Data de Postagem da Resposta',
    'Timestamp': 'Timestamp Data de Postagem da Resposta' 
}

In [7]:
rename_column_dict['Name']

'Nome do Usuário'

In [8]:
renamed_columns = [rename_column_dict.get(column) for column in list(raw_tweets.columns)]
# substitui o nome das colunas
raw_tweets.columns = renamed_columns

In [9]:
print(f'Colunas renomeadas: {list(raw_tweets.columns)}')

Colunas renomeadas: ['Nome do Usuário', 'Perfil do Twitter', 'Tweet Original', 'URL Imagem Anexada', 'Data de Postagem', 'Timestamp Data de Postagem', 'Total de Retweets', 'Total de Respostas', 'Total de Likes', 'Imagem do Perfil que Postou', 'Link do Tweet Original', 'Total de Retweets da Resposta', 'Total de Likes da Resposta', 'Total de Respostas sobre a Resposta', 'Total de Visualizações da Resposta', 'Link da Resposta', 'Link do Perfil do Twitter', 'Conteúdo da Resposta', 'Data de Postagem da Resposta', 'Timestamp Data de Postagem da Resposta']


In [10]:
raw_tweets.head(10)

Unnamed: 0,Nome do Usuário,Perfil do Twitter,Tweet Original,URL Imagem Anexada,Data de Postagem,Timestamp Data de Postagem,Total de Retweets,Total de Respostas,Total de Likes,Imagem do Perfil que Postou,Link do Tweet Original,Total de Retweets da Resposta,Total de Likes da Resposta,Total de Respostas sobre a Resposta,Total de Visualizações da Resposta,Link da Resposta,Link do Perfil do Twitter,Conteúdo da Resposta,Data de Postagem da Resposta,Timestamp Data de Postagem da Resposta
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,6:00 PM · 1 de mai de 2024,2024-05-01T21:00:32.000Z,941.0,173.0,,https://pbs.twimg.com/profile_images/168389055...,https://twitter.com/FluminenseFC/status/178577...,,,,,,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,,,,,941.0,,173.0,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,,
2,el anjo,@matandosuacurio,,,,,,,,,,,,,13,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,4 h,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,,,,,,,4.0,1.0,1 mil,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,1 de mai,2024-05-01T21:09:17.000Z
4,DAVIDMAKINASTIPSER,@DAVIDMAKTIPSER,,https://pbs.twimg.com/media/GMfsaG8XQAEYqLX?fo...,,,,,,,,,,,3 mil,https://twitter.com/DAVIDMAKTIPSER/status/1785...,https://twitter.com/DAVIDMAKTIPSER,,1 de mai,2024-05-01T21:03:55.000Z
5,pedro karl,@karl_ffc,,,,,,,,,,1.0,64.0,2.0,3 mil,https://twitter.com/karl_ffc/status/1785776841...,https://twitter.com/karl_ffc,"Que exibição maravilhosa, vitória pra convence...",1 de mai,2024-05-01T21:02:31.000Z
6,Aedo Dias,@AedoDias,,,,,,,,,,,18.0,,1 mil,https://twitter.com/AedoDias/status/1785777178...,https://twitter.com/AedoDias,"Apesar do resultado, mais um jogo ruim do time...",1 de mai,2024-05-01T21:03:52.000Z
7,lucas,@elicepsv,,,,,,,,,,,18.0,,1 mil,https://twitter.com/elicepsv/status/1785777254...,https://twitter.com/elicepsv,tô convencido que contra o galo vai ser no máx...,1 de mai,2024-05-01T21:04:10.000Z
8,Richard Moedas,@21RichardFFC,,,,,,,,,,,34.0,,1 mil,https://twitter.com/21RichardFFC/status/178577...,https://twitter.com/21RichardFFC,Parabéns por fazer a sua obrigação nesse jogo ...,1 de mai,2024-05-01T21:01:30.000Z
9,22x10,@lBiiel_,,https://pbs.twimg.com/media/GMhaKG8XYAA68yJ?fo...,,,,,,,,3.0,36.0,2.0,1 mil,https://twitter.com/lBiiel_/status/17857763887...,https://twitter.com/lBiiel_,,1 de mai,2024-05-01T21:00:43.000Z


### *Feature Selection*

De forma parecida com problemas de *machine learning*, onde descartamos algumas colunas para ficar com as mais relevantes e tentar melhorar o aprendizado, aqui vamos descartar colunas que não agregam tanto para nossas análises.

A ideia é ficar com um conjunto enxuto de características do *tweet* facilitando sua compreensão e escalabilidade. Quando trabalhamos com poucos *tweets*, esta etapa pode parecer irrelevante, mas quando temos centenas de milhares deles, quanto mais você conseguir filtrar, melhor.

In [11]:
raw_tweets_fs = raw_tweets[['Nome do Usuário', 'Perfil do Twitter', 'Tweet Original', 'URL Imagem Anexada', 'Timestamp Data de Postagem', 
                            'Link do Tweet Original', 'Link da Resposta', 'Link do Perfil do Twitter', 'Conteúdo da Resposta',
                            'Timestamp Data de Postagem da Resposta']]

In [12]:
raw_tweets_fs.head()

Unnamed: 0,Nome do Usuário,Perfil do Twitter,Tweet Original,URL Imagem Anexada,Timestamp Data de Postagem,Link do Tweet Original,Link da Resposta,Link do Perfil do Twitter,Conteúdo da Resposta,Timestamp Data de Postagem da Resposta
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,2024-05-01T21:00:32.000Z,https://twitter.com/FluminenseFC/status/178577...,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,
2,el anjo,@matandosuacurio,,,,,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,2024-05-01T21:09:17.000Z
4,DAVIDMAKINASTIPSER,@DAVIDMAKTIPSER,,https://pbs.twimg.com/media/GMfsaG8XQAEYqLX?fo...,,,https://twitter.com/DAVIDMAKTIPSER/status/1785...,https://twitter.com/DAVIDMAKTIPSER,,2024-05-01T21:03:55.000Z


### Tratamento de *Tweets* Vazios

Com exceção do post original, cujo conteúdo aparece no campo *Tweet Original*, alguns *tweets* de resposta vem com o seu conteúdo vazio.

Visando um *dataset* sólido e coerente, queremos apenas *tweets* que contenham texto e imagens (opcional) relevantes, logo, *tweets* sem um corpo textual serão descartados.

In [13]:
first_row = raw_tweets_fs.iloc[0]
formatted_tweets = raw_tweets_fs.iloc[0:].dropna(subset=["Conteúdo da Resposta"], inplace=False)
# evita que excluiremos o primeiro tweet que é o post que estamos analisando e não tem 'Conteúdo de Resposta'
formatted_tweets = pd.concat([first_row.to_frame().T, formatted_tweets], ignore_index=True)

In [14]:
formatted_tweets.head()

Unnamed: 0,Nome do Usuário,Perfil do Twitter,Tweet Original,URL Imagem Anexada,Timestamp Data de Postagem,Link do Tweet Original,Link da Resposta,Link do Perfil do Twitter,Conteúdo da Resposta,Timestamp Data de Postagem da Resposta
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,2024-05-01T21:00:32.000Z,https://twitter.com/FluminenseFC/status/178577...,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,
2,el anjo,@matandosuacurio,,,,,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,2024-05-01T21:09:17.000Z
4,pedro karl,@karl_ffc,,,,,https://twitter.com/karl_ffc/status/1785776841...,https://twitter.com/karl_ffc,"Que exibição maravilhosa, vitória pra convence...",2024-05-01T21:02:31.000Z


In [15]:
print(f'{len(raw_tweets_fs) - len(formatted_tweets)} tweets foram descartados!')

5 tweets foram descartados!


### Tratamento da URL de Imagem Anexada

Devido ao coletor do Bardeen, algumas imagens podem ter links duplicados, do tipo: 
*'https://pbs.twimg.com/media/GMhaQ67WgAExfS6?format=jpg&name=small, https://pbs.twimg.com/media/GMhaQ67WgAExfS6?format=jpg&name=small'*

Isso prejudica a coleta posterior das mesmas, logo, faremos uma limpeza nesses casos, removendo a duplicata 

In [16]:
formatted_image_url_column = [image_url.split(", ")[0] if not pd.isna(image_url) else image_url for image_url in formatted_tweets['URL Imagem Anexada']]
formatted_tweets['URL Imagem Anexada'] = formatted_image_url_column

In [17]:
formatted_tweets.head()

Unnamed: 0,Nome do Usuário,Perfil do Twitter,Tweet Original,URL Imagem Anexada,Timestamp Data de Postagem,Link do Tweet Original,Link da Resposta,Link do Perfil do Twitter,Conteúdo da Resposta,Timestamp Data de Postagem da Resposta
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,2024-05-01T21:00:32.000Z,https://twitter.com/FluminenseFC/status/178577...,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,
2,el anjo,@matandosuacurio,,,,,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,2024-05-01T21:09:17.000Z
4,pedro karl,@karl_ffc,,,,,https://twitter.com/karl_ffc/status/1785776841...,https://twitter.com/karl_ffc,"Que exibição maravilhosa, vitória pra convence...",2024-05-01T21:02:31.000Z


## Salvar Dados

Agora que fizemos nosso tratamento inicial (e que pode ser incrementado com mais etapas), vamos exportar nosso DataFrame como um arquivo *.CSV* de modo que os outros módulos/notebooks/etapas possam acessar.

In [18]:
# dados de saída (pasta e arquivo)
data_output_folder = 'Tweets Formatados'
data_output_filename = '[Formatado] - Resultado FLU x SCO.csv'

In [19]:
# checamos se a pasta de destino existe, caso contrário, criamos
if not os.path.exists(data_output_folder):
    os.makedirs(data_output_folder)
    print(f"Pasta '{data_output_folder}' criada com sucesso!")
else:
    print(f"Pasta '{data_output_folder}' já existe!")

Pasta 'Tweets Formatados' já existe!


In [20]:
formatted_tweets.to_csv(f"{data_output_folder}/{data_output_filename}", sep=",", index=False)