### Tratamento de várias tabelas que juntas formam a base de dados denormalizada:
1. Leitura das principais tabelas da base;
2. Remoção de colunas desnecessárias;
3. Cuidado e tratamento para sempre identificar as instâncias a nível de isolados (id do isolado);
4. Composição de uma tabela final organizada, limpa e pronta para o pre-processamento;


In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import dtale as dt


In [2]:
# necessario para ler info direto do banco de dados (postgresql)
from sqlalchemy import create_engine


In [3]:
# engine = create_engine('postgresql://usuario:senha@localhost:5432/banco')
engine = create_engine('postgresql://postgres:unico500@localhost:5432/fungi_db')


In [6]:
isolados = pd.read_sql_query('select * from "fungos_isolado"',con=engine, index_col='id')
isolados.head(3)


Unnamed: 0_level_0,foto,variedade,codigo_levedura,meio_liquido,observacao,ccr_codigo,data_cadastro,elevacao,borda,cor,...,esporos_tipo,esporos_subtipo,esporos_forma,esporos_numero,especie,numero_sequenciamento,instituicao_id,ano,microorganismo,sistematizado_por_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
111,,,625B,,,7823,2020-07-19,,,,...,,,,,,,1,2014,L,1
112,,,625A,,,7824,2020-07-19,,,,...,,,,,,,1,2014,L,1
113,,,671B,,,7825,2020-07-19,,,,...,,,,,,,1,2014,L,1


In [7]:
amostras = pd.read_sql_query('select * from "fungos_amostra"',con=engine)
amostras.sample(3)


Unnamed: 0,id,fonte_isolamento,observacao,meio_cultivo,material,data_cadastro,coleta_id,ocorrencia,contagem,codigo_amostra
178,126,,,YMA + cloramfenicol,,2020-07-20 06:03:00+00:00,24,,,ANA.CAN.001.030
73,90,,,YMA + cloramfenicol,,2020-07-20 06:03:00+00:00,24,,,ANA.CAN.001.015
68,82,,,YMA + cloramfenicol,,2020-07-20 06:03:00+00:00,26,,,ANA.TAQ.001.014


In [8]:
coletas = pd.read_sql_query('select * from "fungos_coleta"',con=engine)
coletas.sample(3)


Unnamed: 0,id,longitude,latitude,data_coleta,temperatura,umidade_ar,localidade,observacao,cidade_id,projeto_id,sistematizado_por_id,substrato_id,equipe_id,codigo_coleta,estado_id
26,28,-47.63389,-11.30757,2015-01-11,,,Natividade - TO,Coleta realizada por Stella Costa Santos do Vale,5461,1,1,2,4,STL.NAT.001,27
9,10,-52.367834,-14.681273,2015-08-10,,,Fazenda São Francisco,Bacia do Rio Araguaia,1429,1,1,1,2,JHF.BU.002,13
21,22,-52.341949,-14.688414,2015-08-11,,,Parque Bacaba,Bacia do Rio Araguaia,1429,1,1,1,2,JHF.PB.006,13


In [9]:
info_genetica = pd.read_sql_query('select * from "fungos_infogenetica"',con=engine)
info_genetica.sample(3)


Unnamed: 0,id,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia,observacao,isolado_id,primer,tipo_primer,numero_deposito
82,109,CBS,99.82,Hanseniaspora opuntiae,,,Numero Sequenciamento 79,528,,,
219,70,CBS,100.0,Hanseniaspora opuntiae,,,Numero Sequenciamento 169,407,,,
173,380,CBS,98.93,Aureobasidium thailandense,CBS 133857,,,45,,,


### Feitas as devidas leituras, vamos ao passo 2:
**Integrar** esses dataframes de forma a construir um unico dataframe (tabela denormalizada) com todas as informações pertinentes;


In [10]:
geral = pd.read_csv('data/01 - geral_normalizada.csv', index_col='id')
geral.sample(3)


Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,nome_cientifico,cidade,uf
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
74,2015,8573,JHF.PB.005.001,JHF.PB.005,-14.688.683,-52.341.708,2015-08-11,Parque Bacaba,Jheferson Paulino,Fruto de Buriti,Mauritia flexuosa,Nova Xavantina,MT
335,2014,6837,ANA.CAN.001.040,ANA.CAN.001,-9.978.136,-5.004.615,2014-01-24,Centro de Pesquisa Canguçú (Pium-TO),Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Pium,TO
495,2014,6894,ANA.CAN.001.067,ANA.CAN.001,-9.978.136,-5.004.615,2014-01-24,Centro de Pesquisa Canguçú (Pium-TO),Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Pium,TO


In [11]:
geral.sort_index(inplace=True)

In [12]:
isolados.sort_index(inplace=True)

In [13]:
geral.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            759, 760, 761, 762, 763, 764, 765, 766, 767, 768],
           dtype='int64', name='id', length=768)

In [14]:
isolados.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            759, 760, 761, 762, 763, 764, 765, 766, 767, 768],
           dtype='int64', name='id', length=768)

In [15]:
# operacao de concatenacao (junta os bichos tudo)
result = pd.concat([geral, isolados], axis=1, sort=False)
result.sample(3)


In [17]:
result.columns

Index(['ano', 'ccr', 'amostra', 'coleta', 'latitude', 'longitude',
       'data_coleta', 'localidade', 'equipe', 'substrato', 'nome_cientifico',
       'cidade', 'uf', 'foto', 'variedade', 'codigo_levedura', 'meio_liquido',
       'observacao', 'ccr_codigo', 'data_cadastro', 'elevacao', 'borda', 'cor',
       'aspecto', 'brotamento', 'amostra_id', 'esporos_tipo',
       'esporos_subtipo', 'esporos_forma', 'esporos_numero', 'especie',
       'numero_sequenciamento', 'instituicao_id', 'ano', 'microorganismo',
       'sistematizado_por_id'],
      dtype='object')

In [18]:
result.drop(['foto', 'variedade', 'codigo_levedura', 'meio_liquido', 
             'observacao', 'data_cadastro', 'elevacao', 'borda', 
             'cor', 'aspecto', 'brotamento', 'amostra_id', 'esporos_tipo', 
             'esporos_subtipo', 'esporos_forma', 'esporos_numero',
            'especie', 'numero_sequenciamento', 'instituicao_id', 'sistematizado_por_id'], axis=1, inplace=True)


### Novas transformações no dataframe:
1. Add instituicao = 'UFT'
2. Remove colunas repetidas: id, ano


In [19]:
# 1. Add instituicao = 'UFT'
result['instituicao'] = 'UFT'

# caso queira, pode-se adicionar o projeto também:
#result['projeto'] = 'Palmeiras'


In [20]:
# 2. Remove colunas repetidas: id, ano
result = result.loc[:,~result.columns.duplicated()]


### tabelinha bonitinha agora:
 - sem colunas mortas (colunas em branco);
 - sem colunas duplicadas;
 - com valores reais (nome da instancia/classe) ao inves do ID;


In [21]:
result.sample(3)


Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,nome_cientifico,cidade,uf,ccr_codigo,microorganismo,instituicao
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
642,2015,7913,STL.TAQ.001.001,STL.TAQ.001,-1.031.507,-4.815.651,2015-01-11,"Distrito de Taquarucu, Palmas - TO",Stella Barros,Folha de Babaçu,Attalea speciosa,Palmas,TO,7913,L,UFT
185,2014,7836,ANA.CAN.001.016,ANA.CAN.001,-9.978.136,-5.004.615,2014-01-24,Centro de Pesquisa Canguçú (Pium-TO),Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Pium,TO,7836,L,UFT
490,2014,7767,ANA.CAN.001.066,ANA.CAN.001,-9.978.136,-5.004.615,2014-01-24,Centro de Pesquisa Canguçú (Pium-TO),Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Pium,TO,7767,L,UFT


In [22]:
result['ccr_codigo'] = pd.NaT


In [23]:
for i in result.index.values:
    result.loc[i, 'ccr_codigo'] = f"UFT.{result.loc[i]['ano']}(L){result.loc[i]['ccr']}"
    

### 2 - Prepara mais um novo dataframe a ser integrado ao resultado final:
Neste deve haver 6 colunas, a saber:
 1. Id do isolado;
 2. Sequenciado? 1 - Sim, 0 - Não;
 3. Confirmacao genetica? # caso sim, add similaridade_indice, identificacao_taxonomica, database_internacional, url_referencia
 4. Experimentacao Temperatura?
 5. Experimentacao Fermentacao?
 6. Outras Experimentacoes (outros grupos de compostos que nao Fermentacao ou Temperatura)?

### 2.1 Construção do dataframe de Informações Genéticas:

In [25]:
# lida no inicio, apenas com select simples: 
info_genetica.sample(3)


Unnamed: 0,id,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia,observacao,isolado_id,primer,tipo_primer,numero_deposito
41,42,GENBANK,99.0,Candida sp,KF830183.1,https://www.ncbi.nlm.nih.gov/nuccore/KF830183.1,,54,,,
380,341,GenBank,98.0,Cryptococcus taibaiensis,AY557601.1,,,578,,,
329,294,GenBank,100.0,Candida carpophila,FM180531.1,http://www.ncbi.nlm.nih.gov/nucleotide/2518151...,Numero Sequenciamento 111,534,,,


In [26]:
# constroi um novo dataframe com isolado_id distintos e para cada um deles sua respectiva linha (demais colunas):

nova_infogenetica = pd.read_sql_query('''select *
from (
   select *,
          row_number() over (partition by fi.isolado_id order by fi.isolado_id) as row_number
   from fungos_infogenetica fi where fi.similaridade_indice >= 99 order by fi.isolado_id asc
   ) as rows
where row_number = 1;
''',con=engine, index_col='isolado_id')


In [27]:
nova_infogenetica.head(3)

Unnamed: 0_level_0,id,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia,observacao,primer,tipo_primer,numero_deposito,row_number
isolado_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,GENBANK,99.0,Candida naeodendra,KC798430.1,https://www.ncbi.nlm.nih.gov/nuccore/KC798430.1,,,,,1
4,2,GENBANK,100.0,Candida carpophila,FM180531.1,https://www.ncbi.nlm.nih.gov/nuccore/FM180531.1,,,,,1
6,3,GENBANK,99.0,Candida parapsilosis,FJ746057.1,https://www.ncbi.nlm.nih.gov/nuccore/FJ746057.1,,,,,1


In [28]:
# apagar as colunas desnecessarias:

nova_infogenetica.drop(['id', 'observacao', 'primer', 'tipo_primer', 
                        'numero_deposito', 'row_number'], axis=1, inplace=True)


In [29]:
nova_infogenetica.head(3)


Unnamed: 0_level_0,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia
isolado_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,GENBANK,99.0,Candida naeodendra,KC798430.1,https://www.ncbi.nlm.nih.gov/nuccore/KC798430.1
4,GENBANK,100.0,Candida carpophila,FM180531.1,https://www.ncbi.nlm.nih.gov/nuccore/FM180531.1
6,GENBANK,99.0,Candida parapsilosis,FJ746057.1,https://www.ncbi.nlm.nih.gov/nuccore/FJ746057.1


### 2.2 Construção do dataframe de Reações:
apenas resultados booleanos aqui (valores aceitos nas celulas são somente 0 ou 1);


In [30]:
# le a tabela fermentacao.csv trazendo somente as colunas ccr e fermentacao para o dataframe:
fermentacao = pd.read_csv('data/grupos/fermentacao.csv', usecols = ['id','fermentacao'], index_col='id',)


In [31]:
temperatura = pd.read_csv('data/grupos/temperatura.csv', usecols = ['id','temperatura'], index_col='id')


In [32]:
outras_reacoes = pd.read_csv('data/grupos/outros.csv', usecols = ['id','outros'], index_col='id')


In [33]:
fermentacao.sample(3)

Unnamed: 0_level_0,fermentacao
id,Unnamed: 1_level_1
124,1
241,1
93,1


### 2.3 Dataframes de apoio:
utilizados para permitir a combinação dos dataframes anteiores através dos índices (isolado_id)


In [34]:
# indices do dataframe result
indices_result = result.index.tolist()


In [35]:
# indices do dataframe nova_infogenetica
indices_infogenetica = nova_infogenetica.index.values.tolist()


In [36]:
# uma vez com ambas listas de indices (do result e da infogenetica), verifica-se se aquele indice do result possui 
## valores no dataframe da infogenetica:

possui_infogenetica = {}
for indice in indices_result:
    if(indice in indices_infogenetica):
        possui_infogenetica[indice] = 1
    else:
        possui_infogenetica[indice] = 0
    

In [37]:
# transforma dicionario em um novo dataframe para futuramente integrá-lo ao result:
possui_infogenetica = pd.DataFrame(possui_infogenetica, index=[0])


In [38]:

possui_infogenetica = pd.melt(possui_infogenetica)


In [39]:
possui_infogenetica.rename(columns={'variable': 'id', 'value': 'infogenetica'}, inplace=True)


In [40]:
# coloca coluna id como indice ao mesmo tempo que descarta a coluna atual de indice (coluna sem label):
possui_infogenetica.set_index('id', inplace=True)
possui_infogenetica.sample(3)


Unnamed: 0_level_0,infogenetica
id,Unnamed: 1_level_1
767,0
10,1
300,0


### 3. Juntando tudo em um unico dataframe e fazendo ultimos reparos:

Os dataframes em questao sao:
1. result
2. fermentacao, temperatura, outras_reacoes
3. possui_infogenetica


In [None]:
# completar a lista de ids dos dataframes do item 2 com zero, por nao possuirem tais reacoes daquele grupo específico

In [None]:

# necessario completar os 768 ccr para poder mapea-los com o dataframe result


In [41]:
# para fermentacao
for indice in indices_result:
    # print(indice)
    if(indice not in fermentacao.index):
        nova_linha = pd.DataFrame({'id':[indice], 'fermentacao':[0]})
        nova_linha.set_index('id', inplace=True)
        fermentacao = pd.concat([fermentacao, nova_linha])
        

In [42]:
# para temperatura
for indice in indices_result:
    if(indice not in temperatura.index):
        nova_linha = pd.DataFrame({'id':[indice], 'temperatura':[0]})
        nova_linha.set_index('id', inplace=True)
        temperatura = pd.concat([temperatura, nova_linha])


In [43]:
# para outras reacoes:
for indice in indices_result:
    if(indice not in outras_reacoes.index):
        nova_linha = pd.DataFrame({'id':[indice], 'outros':[0]})
        nova_linha.set_index('id', inplace=True)
        outras_reacoes = pd.concat([outras_reacoes, nova_linha])
        

In [44]:
fermentacao.sample(3)
#temperatura.sample(3)
#outras_reacoes.sample(3)


Unnamed: 0_level_0,fermentacao
id,Unnamed: 1_level_1
336,1
653,0
125,0


### Finalmente, vamos juntar esses dataframes:

In [45]:
final = pd.concat([result, fermentacao], axis=1,)


In [46]:
final = pd.concat([final, temperatura], axis=1,)


In [47]:
final = pd.concat([final, outras_reacoes], axis=1,)


In [48]:
final = pd.concat([final, possui_infogenetica], axis=1,)


In [49]:
final.sample(3)

Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,nome_cientifico,cidade,uf,ccr_codigo,microorganismo,instituicao,fermentacao,temperatura,outros,infogenetica
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
406,2014,7995,ANA.TAQ.001.053,ANA.TAQ.001,-10.307.444,-48.191.167,2014-11-17,Distrito de Taquaruçu (Palmas – TO),Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Palmas,TO,UFT.2014(L)7995,L,UFT,0,0,1,0
2,2015,8501,JHF.BU.001.002,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,Mauritia flexuosa,Nova Xavantina,MT,UFT.2015(L)8501,L,UFT,0,0,0,1
353,2014,7240,ANA.TAG.001.021,ANA.TAG.001,-12.392.825,-46.418.475,2014-01-31,Municipio de Taguatinga – TO,Ana Paula Guimarães,Fruto de Buriti,Mauritia flexuosa,Taguatinga,TO,UFT.2014(L)7240,L,UFT,0,0,1,1


In [50]:
# salva o dataframe final em arquivo csv:
final.to_csv('final.csv')


Precisamos dos detalhes geneticos de cada um dos isolados sob observação:
* Somente aqueles que tenham mais de 99% de similaridade, os demais não serão aceitos.


In [51]:
# faz uma copia do dataframe de info genetica:
info = nova_infogenetica.copy()

In [52]:
# percore lista de indices (id isolados) e verifica:
# Se possui dados geneticos adiciona-os;
# Senão, adiciona None áquela célula em todas as demais colunas
for indice in indices_result:
    if(indice not in indices_infogenetica):
        nova_linha = pd.DataFrame({'isolado_id':[indice], 'database_internacional':None, 'similaridade_indice':None,
                                  'identificacao_taxonomica':None, 'acession':None, 'url_referencia':None})
        nova_linha.set_index('isolado_id', inplace=True)
        info = pd.concat([info, nova_linha])


In [53]:
info.sample(5)


Unnamed: 0_level_0,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia
isolado_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
351,,,,,
463,,,,,
59,GENBANK,100.0,Candida carpophila,FM180531.2,https://www.ncbi.nlm.nih.gov/nuccore/FM180531.1
551,,,,,
158,CBS,99.64,Candida carpophila,,


In [54]:
info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 768 entries, 2 to 768
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   database_internacional    195 non-null    object 
 1   similaridade_indice       195 non-null    float64
 2   identificacao_taxonomica  195 non-null    object 
 3   acession                  195 non-null    object 
 4   url_referencia            181 non-null    object 
dtypes: float64(1), object(4)
memory usage: 36.0+ KB


Agora é só juntar tudo em um único dataframe:


In [55]:
# alterar o indice do info: de 'isolado_id' para 'id'
info.index.names = ['id']
info.sample(3)


Unnamed: 0_level_0,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
622,,,,,
51,GENBANK,99.0,Meyerozyma guilliermondii,KM279364.1,https://www.ncbi.nlm.nih.gov/nuccore/KM279364.1
25,GENBANK,99.0,Hanseniaspora opuntiae,FM180549.1,https://www.ncbi.nlm.nih.gov/nuccore/FM180549.1


In [56]:
# concatenar os dois dataframes:
final = pd.concat([final, info], axis=1,)
final.head(3)


Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,...,instituicao,fermentacao,temperatura,outros,infogenetica,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
266,2014,7972,ANA.TAQ.001.030,ANA.TAQ.001,-10.307.444,-48.191.167,2014-11-17,Distrito de Taquaruçu (Palmas – TO),Ana Paula Guimarães,Fruto de Buriti,...,UFT,0,0,1,1,GenBank,100.0,Candida sorboxylosa,EF550253.1,http://www.ncbi.nlm.nih.gov/nucleotide/1560997...
640,2015,7886,STL.TAQ.001.001,STL.TAQ.001,-1.031.507,-4.815.651,2015-01-11,"Distrito de Taquarucu, Palmas - TO",Stella Barros,Folha de Babaçu,...,UFT,0,0,0,0,,,,,
320,2014,7272,ANA.TAG.001.019,ANA.TAG.001,-12.392.825,-46.418.475,2014-01-31,Municipio de Taguatinga – TO,Ana Paula Guimarães,Fruto de Buriti,...,UFT,1,1,1,0,,,,,


In [58]:
# ordena as linhas em ordem crescente de indices: para fins estéticos apenas:
final.sort_index(inplace=True)


In [59]:
# salvar a versão final em arquivo csv:
final.to_csv('final.csv')


#### Agregar o dataframe de reacoes ao dataframe final pode vir a calhar por isso, já vamos deixá-lo pronto:


In [60]:
reac = pd.read_csv('data/03 - reacoes.csv', index_col='id')
reac.head(3)


Unnamed: 0_level_0,ccr,1,2,3,4,5,6,7,8,9,...,52,53,64,65,66,67,68,69,78,79
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2,UFT.2015(L)8501,,+,+,-,-,+,+,-,-,...,,,,,,,,,,
4,UFT.2015(L)8503,,+,+,+w,+,+,-+,-,+w,...,,,,,,,,,,
6,UFT.2015(L)8505,,-+,+,-+,-+,-,+,-+,-,...,,,,,,,,,,


In [61]:
final.head(3)

Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,...,instituicao,fermentacao,temperatura,outros,infogenetica,database_internacional,similaridade_indice,identificacao_taxonomica,acession,url_referencia
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2015,8500,JHF.BU.001.001,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,UFT,0,0,0,0,,,,,
2,2015,8501,JHF.BU.001.002,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,UFT,0,0,0,1,GENBANK,99.0,Candida naeodendra,KC798430.1,https://www.ncbi.nlm.nih.gov/nuccore/KC798430.1
3,2015,8502,JHF.BU.001.002,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,UFT,0,0,0,0,,,,,


In [62]:
result = pd.concat([final, reac], axis=1)
result.head(5)


Unnamed: 0_level_0,ano,ccr,amostra,coleta,latitude,longitude,data_coleta,localidade,equipe,substrato,...,52,53,64,65,66,67,68,69,78,79
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2015,8500,JHF.BU.001.001,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,,,,,,,,,,
2,2015,8501,JHF.BU.001.002,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,,,,,,,,,,
3,2015,8502,JHF.BU.001.002,JHF.BU.001,-14.681.193,-52.367.863,2015-08-10,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,,,,,,,,,,
4,2015,8503,JHF.BU.003.001,JHF.BU.003,-14.681.243,-52.367.831,2015-08-14,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,,,,,,,,,,
5,2015,8504,JHF.BU.003.002,JHF.BU.003,-14.681.243,-52.367.831,2015-08-14,Fazenda São Francisco,Jheferson Paulino,Fruto de Buriti,...,,,,,,,,,,


In [63]:
result.to_csv('result.csv')