## Sistema de busca em dados do Twitter

Seu objetivo como desenvolvedor, será o de construir um Sistema de busca de tweets por determinado padrão (por data, termo no tweet, ou por assunto). Esse sistema deverá conter os seguintes requisitos:

### Menu Principal

Ao iniciar o programa, o seguinte menu deve ser apresentado ao usuário:

```
Boas vindas ao nosso sistema:

1 - Buscar tweets por data
2 - Buscar tweets por termo
3 - Buscar tweets por assunto
4 - Salvar resultado da busca
5 - Sair
```

### Base de dados de tweets
<div align="justify";>
<p>O sistema ser desenvolvido, contará com uma base de dados coletada diretamente do Twitter.</p>

<p>Esta base dados está armazenada em um arquivo com extensão CSV, e o sistema deverá ser capaz de manipulá-la em tempo de execução de suas funcionalidades.</p>

<p>A base de dados é composta por cerca de 4 mil tweets separados por 4 assuntos distintos: <b>covid-19</b>; <b>ciência de dados</b>; <b>copa do mundo</b> e; <b>eleições</b>.</p>

<p>Além disso, é possível observar na base, campos contendo a data, a URL, o conteúdo, os nomes de usuários, e o assunto de cada tweet coletado.</p>

<p>Você pode baixar a base de dados <a href="https://drive.google.com/file/d/103GvlCjiVVBl03_sjPvUCCrR7Zb3uXwN/view?usp=sharing">AQUI</a></p>

</div>

### 1 - Buscar tweets por data

<div align="justify">
<p>A busca de tweets por <b>data</b> consiste em permitir que o usuário digite uma data no formato dd/mm/aaaa, e o sistema imprima na tela, os tweets referentes a data solicitada.</p>

<p>Exemplo:</p>
data informada: 16/10/2022

<p>Saída na tela:</p>

```
data  |  conteúdo   |   assunto
16/10/2022  |  To doido pra começar a copa logo , parece que nós ta a muito mais q 4 anos sem copa do mundo  |  copa do mundo
16/10/2022  |  Eba, 2022 tem copa do mundo no Qatar!!!  |  copa do mundo
16/10/2022  |  COVID-19 é um mal que assola a nossa sociedade em todos os sentidos |  covid-19
...
...
```
</div>

### 2 - Buscar tweets por termo

<div align="justify">
<p>A busca de tweets por <b>termo</b> consiste em permitir que o usuário digite uma palavra ou termo qualquer, e o sistema imprima na tela, os tweets que contenham a palavra informada.</p>

<p>Exemplo:</p>
palavra informada: copa

<p>Saída na tela:</p>

```
data  |  conteúdo   |   assunto
16/10/2022  |  To doido pra começar a copa logo , parece que nós ta a muito mais q 4 anos sem copa do mundo  |  copa do mundo
16/10/2022  |  Eba, 2022 tem copa do mundo no Qatar!!!  |  copa do mundo
...
...
```
</div>

### 3 - Buscar tweets por assunto

<div align="justify">
<p>A busca de tweets por <b>assunto</b> consiste em permitir que o usuário filtre na base de dados, todos os tweets que são referentes ao assunto solicitado. O sistema deve mostrar ao usuário, quais são os assuntos disponíveis, e permitir que o usuário escolha o que irá consultar.</p>

<p>Exemplo:</p>
assuntos disponíveis:
  1. Copa do Mundo
  2. Eleições
  3. Ciência de Dados
  4. COVID-19

Assunto escolhido pelo usuário: 1

<p>Saída na tela:</p>

```
data  |  conteúdo   |   assunto
16/10/2022  |  To doido pra começar a copa logo , parece que nós ta a muito mais q 4 anos sem copa do mundo  |  copa do mundo
16/10/2022  |  Eba, 2022 tem copa do mundo no Qatar!!!  |  copa do mundo
...
...
```
</div>

### 4 - Salvar resultado da busca

<div align="justify">
<p>Permita que o usuário salve em arquivo cada busca que ele fizer, independente da forma: data, termo ou assunto.</p>

<p>O arquivo deve ser em formato JSON (extensão .json) em que contenha a <b>data</b>, <b>conteúdo</b> e <b>assunto</b> de cada tweet retornado na busca feita pelo usuário</p>
</div>

### 5 - Sair

<div align="justify">
<p>Permita que o usuário finalize o programa quando desejar.</p>

In [1]:
# Imports

import pandas as pd
import re
import json

In [2]:
projetoLPTweets = '/content/projeto_LP_tweets_2022.csv'

data_frame = pd.read_csv(projetoLPTweets)
data_frame['date'] = pd.to_datetime(data_frame['date'])
data_frame['date'] = data_frame['date'].dt.date

data_frame['subject'].head()

0    covid-19
1    covid-19
2    covid-19
3    covid-19
4    covid-19
Name: subject, dtype: object

In [3]:
#Menu
def menu():
        print("Boas vindas ao nosso sistema:")
        print("1 - Buscar tweets por data")
        print("2 - Buscar tweets por termo")
        print("3 - Buscar tweets por assunto")
        print("4 - Salvar resultado da busca")
        print("5 - Sair")

        opcao = input("Escolha uma opção (1-5): ")
        return opcao

In [4]:
#opção 1
def opcao1(data, data_frame):
    data_frame = data_frame
    data_formatada = pd.to_datetime(data, format='%d-%m-%Y', errors='coerce')

    if pd.notna(data_formatada):
        tweets_filtrados = data_frame[data_frame['date'] == data_formatada]
        tweets_filtrados = tweets_filtrados[['date', 'content', 'subject']]

        display(tweets_filtrados)
        return tweets_filtrados
    else:
        print("Formato de data inválido. Use o formato dd-mm-aaaa.")

In [5]:
#opção 2
def opcao2(termo, data_frame):
    if pd.notna(termo):
        if len(termo) != 0:
            termos_filtrados = data_frame[data_frame['subject'] == termo]
            termos_filtrados = termos_filtrados[['date', 'content', 'subject']]

            display(termos_filtrados)
            return termos_filtrados
        else:
            print('termo não encontrado')
    else:
        print('termo nao encontrado')

In [6]:
#opção 3
def opcao3(assunto, data_frame):
    if pd.notna(assunto):
        if len(assunto) != 0:
            assunto = f'.*{assunto}.*'
            assuntos_filtrados = data_frame[data_frame['content'].str.contains(assunto, case=False, regex=True)]
            assuntos_filtrados = assuntos_filtrados[['date', 'content', 'subject']]

            display(assuntos_filtrados)
            return assuntos_filtrados
        else:
            print('assunto não encontrado')
    else:
        print('assunto nao encontrado')

In [7]:
#opção 4
def converter_data_para_string(data_frame):
    if data_frame is not None:
        # Convertendo a coluna 'date' para string
        data_frame['date'] = data_frame['date'].astype(str)
    return data_frame

def salvar_resultados_em_json(resultados, nome_arquivo):
    with open(nome_arquivo, 'w', encoding='utf-8') as arquivo_json:
        json.dump(resultados, arquivo_json, ensure_ascii=False, indent=4)

def opcao4(data, tweets_filtrados, termo, termos_filtrados, assunto, assuntos_filtrados):
    nome_arquivo = input('Digite o nome do arquivo (com extensão .json): ')

    # Converter as datas para string
    tweets_filtrados = converter_data_para_string(tweets_filtrados)
    termos_filtrados = converter_data_para_string(termos_filtrados)
    assuntos_filtrados = converter_data_para_string(assuntos_filtrados)

    resultados = {
        'data': data,
        'tweets_filtrados': tweets_filtrados.to_dict(orient='records') if tweets_filtrados is not None else None,
        'termo': termo,
        'termos_filtrados': termos_filtrados.to_dict(orient='records') if termos_filtrados is not None else None,
        'assunto': assunto,
        'assuntos_filtrados': assuntos_filtrados.to_dict(orient='records') if assuntos_filtrados is not None else None,
    }

    salvar_resultados_em_json(resultados, nome_arquivo)

In [11]:
projetoLPTweets2 = '/content/projeto_LP_tweets_2022.csv'

data_frame = pd.read_csv(projetoLPTweets2)
data_frame['date'] = pd.to_datetime(data_frame['date'])
data_frame['date'] = data_frame['date'].dt.date

while True:
    opcao = menu()

    if opcao == '1':
        data = input("Digite a data para buscar tweets(Use o formato dd-mm-aaaa): ")
        tweets_filtrados = opcao1(data, data_frame)

    elif opcao == '2':
        termo = input("Digite o termo para buscar tweets: ")

        termos_filtrados = opcao2(termo, data_frame)

    elif opcao == '3':
        assunto = input("Digite o assunto para buscar tweets: ")

        assuntos_filtrados = opcao3(assunto, data_frame)

    elif opcao == '4':

        opcao4(data, tweets_filtrados, termo, termos_filtrados, assunto, assuntos_filtrados)

    elif opcao == '5':
        print("Saindo do sistema. Até logo!")
        break

    else:
        print("Opção inválida. Por favor, escolha uma opção válida.")

Boas vindas ao nosso sistema:
1 - Buscar tweets por data
2 - Buscar tweets por termo
3 - Buscar tweets por assunto
4 - Salvar resultado da busca
5 - Sair
Escolha uma opção (1-5): 1
Digite a data para buscar tweets(Use o formato dd-mm-aaaa): 16-10-2022


  tweets_filtrados = data_frame[data_frame['date'] == data_formatada]


Unnamed: 0,date,content,subject
5,2022-10-16,Todo mundo viu o energúmeno imitar as pessoas ...,covid-19
6,2022-10-16,"- 22/01/2021 a Anvisa liberava, por unanimidad...",covid-19
7,2022-10-16,A VACINA CONTRA A COVID COMEÇOU EM DEZEMBRO DE...,covid-19
8,2022-10-16,@tatiroque How many hospitalizations has the C...,covid-19
9,2022-10-16,"""Os números estão na imprensa todos os dias. V...",covid-19
...,...,...,...
2552,2022-10-16,Feed Estadão | Eleições 2022 - Estadão - Em um...,eleições
2553,2022-10-16,"""Ah o importante é salvar o Brasil, o importan...",eleições
2554,2022-10-16,@JoaquinTeixeira Um fato: vô com a conta ativa...,eleições
2555,2022-10-16,@revistaoeste Clara interferência do TSE nas e...,eleições


Boas vindas ao nosso sistema:
1 - Buscar tweets por data
2 - Buscar tweets por termo
3 - Buscar tweets por assunto
4 - Salvar resultado da busca
5 - Sair
Escolha uma opção (1-5): 5
Saindo do sistema. Até logo!
