# Introdução

Este notebook tem como objetivo a coleta e tratamento inical dos dados para continuação do projeto de previsão da temperatura de melting de proteínas. Para tal, é necessário coletar e armazenar a quantidade de cada aminoácido para cada proteína presente nos dados selecionados

## Importação

A primeira etapa é importar as funções, bibliotecas e módulos necessários para obtenção e tratamento dos dados

In [1]:
# Importação da função que pega o DataFrame ja filtrado
from funcoes import get_filtered_df, get_amino

# Importação do método que mostra o progresso da coleta e preparo dos dados
from tqdm import tqdm

# Importação do módulo para salval os dados
import pickle

## Coleta dos dados

Podemos então começar a coletar os dados, aplicando os devidos filtros necessários para que a análise seja feita corretamente.

In [2]:
df = get_filtered_df('Human (Jurkat lymphoma T cells).xlsx', 300, ['PROTEIN', 'LENGTH', 'UNIPROT_ID', 'Tm_(C)', 'ADDITIVES'])
df

Unnamed: 0,index,PROTEIN,LENGTH,UNIPROT_ID,Tm_(C),ADDITIVES
0,2,GTPase NRas,189.0,P01111,62.18,
1,6,Rho-related GTP-binding protein RhoB,196.0,P62745,51.06,
2,7,Prefoldin subunit 1,122.0,O60925,56.02,
3,11,Ribonuclease H1,286.0,O60930,43.11,
4,17,Short coiled-coil protein,159.0,Q9UIL1,53.87,
...,...,...,...,...,...,...
5951,28186,Gamma-glutamylaminecyclotransferase,153.0,Q9BVM4,51.63,0.67% NP40 (octylphenoxypoly(ethyleneoxy)ethanol)
5952,28220,Prostamide/prostaglandin F synthase,198.0,Q8TBF2,54.11,0.67% NP40 (octylphenoxypoly(ethyleneoxy)ethanol)
5953,28276,NEDD8-conjugating enzyme UBE2F,185.0,Q969M7,53.66,0.67% NP40 (octylphenoxypoly(ethyleneoxy)ethanol)
5954,28352,Rab-like protein 2A,228.0,Q9UBK7,48.03,0.67% NP40 (octylphenoxypoly(ethyleneoxy)ethanol)


Após a coleta dos dados brutos, podemos começar a coletar a sequência de aminoácidos de cada proteínas, seguido do processamento para coleta da quantidade de aminoácidos e então o armazenamento dos dados em um dicionário que será salvado para facilitação de obtanção das informações

In [None]:
proteins = {}

for i, id_ in tqdm(enumerate(df['UNIPROT_ID'].unique()), ncols=100, desc='Progress', total=len(df['UNIPROT_ID'].unique())):
    proteins[id_] = get_amino(id_)

Progress: 100%|██████████████████████████████████████████████▉| 1836/1839 [1:01:22<00:06,  2.09s/it]

## Salvando os dados

Após o armazenamento dos dados, podemos salvá-los em um arquivo .pickle (próprio do python) para utilizá-los depois

In [None]:
file = 'proteins_aminoacids.pickle'

with open(file, 'wb') as file_handler:
    pickle.dump(proteins, file_handler, protocol=pickle.HIGHEST_PROTOCOL)
with open(file, 'rb') as file_handler:
    proteins_saved = pickle.load(file_handler)

print(proteins == proteins_saved)