# Criptografando dados sensíveis

[Voltar ao Índice](00_indice.ipynb)

Esse notebook foi utilizado para realizar a criptografia dos dados que possam identificar os usuários do Twitter. Embora esses dados sejam públicos, adotamos essa estratégia para evitar a identificação dos autores dos tweets sem prejudicar a análise dos dados.

**PS:** As informações criptografadas não são as mesmas para um mesmo dado (e.g. um ID de usuário pode ser criptografado para string diferentes), de forma que não é possível identificar mensagens de um mesmo autor.

In [6]:
import pandas as pd
from pathlib import Path

import src.xavy.encrypt as xy
import src.xavy.utils as xu
import src.tweet_analysis as com

## Funções

In [2]:
def duplicate_to_encrypted(filename, encrypt_cols, encryptor, replacement=('.csv', '_encrypted.csv'), verbose=False):
    """
    Copy a CSV file about tweets but encrypts in the copy
    the specified columns.
    
    Parameters
    ----------
    filename : Path or str
        Path to the CSV file.
    encrypt_cols : iterable of (str or int)
        Columns in the CSV to encrypt.
    encryptor : SymmetricCrypto object
        Encryptor object.
    """
    
    # Load:
    if verbose is True:
        print(filename)
    tweets_df = com.robust_load_csv(filename, dtype=str)
    
    # Encrypt:
    encrypted_df = encryptor.encrypt_df_cols(tweets_df, encrypt_cols)

    # Save:
    outfile = str(filename).replace(replacement[0], replacement[1])
    xu.make_necessary_dirs(outfile)
    encrypted_df.to_csv(Path(outfile), index=False)

## Criptografando

In [3]:
encryptor = xy.SymmetricCrypto('../src/data_encryption_key.txt')
encrypt_cols = ['id', 'author_id', 'author_name', 'author_username', 'tweet_url', 'edit_history_tweet_ids']

### Arquivos avulsos

In [41]:
filenames = ['../dados/processados/tweets_classificados_por_objeto.csv',
             '../dados/processados/amostra_tweets_escolhidos_para_anotacao.csv',
             '../dados/processados/amostra_tweets_para_anotacao_controle.csv',
             '../dados/processados/amostra_tweets_para_anotacao_lgbts.csv',
             '../dados/processados/amostra_tweets_para_anotacao_mulheres.csv',
             '../dados/processados/amostra_tweets_para_anotacao_pessoas_negras.csv',
             '../dados/processados/tweets_classificados_por_objeto.csv',
             '../dados/processados/twee

In [39]:
#tweets_df = pd.read_csv('../dados/processados/tweets_classificados_por_objeto.csv')
#tweets_df = pd.read_csv('../dados/processados/tweets_classificados_por_objeto_2_anotados.csv')
#tweets_df = pd.read_csv('../dados/processados/tweets_classificados_por_objeto_3.csv')
#tweets_df = pd.read_csv('../dados/brutos/eletweet22/tweets_anotados_lgbts_A07.csv')
#tweets_df = pd.read_csv('../tweets/data/2022-09-23T15:30:00/mentions_2022-09-23T15:30:00_1288545550250508291.csv')
tweets_df = pd.read_csv('../tweets/scored/2022-09-23T15:30:00/mentions_2022-09-23T15:30:00_1288545550250508291.csv')
#tweets_df = pd.read_csv('../dados/processados/amostra_tweets_escolhidos_para_anotacao.csv')

### Diretórios

In [4]:
if False:
    input_folder = '../tweets/scored/'
    for filename in Path(input_folder).rglob('*.csv'):
        duplicate_to_encrypted(filename, encrypt_cols, encryptor, replacement=('/scored/', '/encrypted/'))