## TEPT: Construção do Dataset

In [None]:
from itertools import product
import pandas as pd
import numpy as np

# Importação das bibliotecas que serão utilizadas

### Atributos

<p>O Transtorno de Estresse Pós-Traumático (TEPT) possui 5 categorias de critérios diagnósticos, identificadas como A, B, C, D e E.</p>
<p>Para que o diagnóstico seja realizado, uma quantidade mínima de critérios deve ser atingida em cada categoria:</p>
<ul>
<li> Pelo menos 1 dos 4 critérios da categoria A;</li>
<li> Pelo menos 1 dos 5 critérios da categoria B;</li>
<li> Pelo menos 1 dos 2 critérios da categoria C;</li>
<li> Pelo menos 2 dos 7 critérios da categoria D;</li>
<li> Pelo menos 2 dos 6 critérios da categoria E.</li>
</ul>
<p>Considerando estas informações, foi criado um dataframe com 24 colunas/variáveis, cada uma referente a um critério diagnóstico.</p>
<p>Cada linha do dataframe é uma observação/caso.</p>
<p>A ausência ou a presença de cada critério diagnóstico foi identificada como 0 ou 1, respectivamente.</p>

In [None]:
tept_combinations = list(product([0, 1], repeat=24))

# Uso de iterações através da função product da biblioteca itertools;
# Cria uma tabela com as combinações possíveis de 0 e 1 em 24 colunas;
# Guarda o resultado na variável tept_combinations.

In [None]:
tept_df = pd.DataFrame(tept_combinations)

# Cria um dataframe do pandas com os dados de tept_combinations;
# Armazena o dataframe criado na variável tept_df;
# O dataframe possui 16.777.216 observações e 24 variáveis.

In [None]:
conditions = [
    (tept_df[0] + tept_df[1] + tept_df[2] + tept_df[3] >= 1) &
    (tept_df[4] + tept_df[5] + tept_df[6] + tept_df[7] + tept_df[8] >= 1) &
    (tept_df[9] + tept_df[10] >= 1) &
    (tept_df[11] + tept_df[12] + tept_df[13] + tept_df[14] + tept_df[15] + tept_df[16] + tept_df[17] >= 2) &
    (tept_df[18] + tept_df[19] + tept_df[20] + tept_df[21] + tept_df[22] + tept_df[23] >= 2),
]

result = ['sim']

# Cria condições que avaliam os critérios mínimos para o diagnóstico de TEPT, conforme citado anteriormente;
# Retorna e armazena o valor "sim" na variável result, caso os critérios mínimos sejam atingidos.

In [None]:
tept_df['resultado'] = np.select(conditions, result, default='não')

# Cria a coluna/variável resultado no dataframe tept_df;
# A função select do numpy aplica as condições e retorna "sim" ou "não" para cada observação.

In [None]:
tept_df.rename({
    0:'a1',
    1:'a2',
    2:'a3',
    3:'a4',
    4:'b1',
    5:'b2',
    6:'b3',
    7:'b4',
    8:'b5',
    9:'c1',
    10:'c2',
    11:'d1',
    12:'d2',
    13:'d3',
    14:'d4',
    15:'d5',
    16:'d6',
    17:'d7',
    18:'e1',
    19:'e2',
    20:'e3',
    21:'e4',
    22:'e5',
    23:'e6',
}, axis=1, inplace=True)

# Renomeia as colunas do dataframe de acordo com os critérios diagnósticos e suas categorias.

In [None]:
amostra = tept_df.sample(50000)

# Define uma amostra aleatória composta por 50.000 observações.

In [None]:
tept = amostra['resultado'].replace({'não':0, 'sim':1})
df_amostra = amostra.assign(tept=tept)

# Seleciona e copia a coluna resultado e substitui os valores "não" e "sim" por 0 e 1, respectivamente;
# O resultado é atribuído à variável tept;
# tept é adicionada como uma nova coluna do dataframe através do método assign do pandas.

In [None]:
df_amostra.to_csv('tept_df.csv')

# Salva o dataframe como um arquivo csv.

In [None]:
tept_df = pd.read_csv('tept_df.csv')

# Importa os dados do arquivo csv e armazena em tept_df.

In [None]:
tept_df.rename(columns={'Unnamed: 0': 'id', 'resultado': 'tept', 'tept': 'resultado'}, inplace=True)

# Renomeando colunas do dataset.

In [None]:
tept_df.to_csv("tept_dataset.csv", index=False)

# Dataset definitivo.