**CÉLULAS DE IMPORTAÇÃO**

In [9]:
import pandas as pd
import numpy as np

data = pd.read_csv("data/Dados_Bruna_Mestrado_2023.csv", sep=",")

**TRANSFORMAÇÃO DE PERGUNTAS DAS ESCALAS PHQ-9 E GAD-7 EM TERMOS DE FÁCIL IDENTIFICAÇÃO**

In [12]:
questions_phq = {
                "Pouco interesse ou pouco prazer em fazer as coisas.": "PHQ1",
                "Se sentiu “para baixo”, deprimido(a) ou sem perspectiva?": "PHQ2",
                "Sentiu dificuldade para pegar no sono ou permanecer dormindo ou dormir mais do que de costume?" : "PHQ3",
                "Se sentiu cansado(a) ou com pouca energia?": "PHQ4",
                "Sentiu falta de apetite ou comendo demais?": "PHQ5",
                "Se sentiu mal consigo mesmo(a) — ou achou que você é um fracasso ou que decepcionou sua família ou você mesmo(a).": "PHQ6",
                "Sentiu dificuldade para se concentrar nas coisas, como ler o jornal ou ver televisão.": "PHQ7",
                "Apresentou lentidão para se movimentar ou falar, a ponto das outras pessoas perceberem? Ou o oposto – esteve tão agitado(a) ou irrequieto(a) que você ficou andando de um lado para o outro muito mais do que de costume.": "PHQ8",
                "Pensou em se ferir de alguma maneira ou que seria melhor estar morto(a).": "PHQ9"
                }

In [13]:
questions_gad = {
                    "Se sentiu nervoso(a), ansioso(a) ou muito tenso(a)?": "GAD1",
                    "Não foi capaz de impedir ou de controlar as preocupações.": "GAD2",
                    "Preocupou-se muito com diversas coisas.": "GAD3",
                    "Teve dificuldade para relaxar.": "GAD4",
                    "Ficou tão agitado/a que se torna difícil permanecer sentado(a).": "GAD5",
                    "Ficou facilmente aborrecido (a) ou irritado(a).": "GAD6",
                    "Sentiu medo como se algo horrível fosse acontecer.": "GAD7"
                }

**IDENTIFCAÇÃO DE COLUNAS DE METADADOS E COLUNAS PARA REMOÇÃO**

In [14]:
columns_to_remove = [
    "ip_address",
    "email_address",
    "Você gostaria de receber os resultados das escalas de ansiedade e depressão respondidas por você nessa pesquisa?",
    "Você gostaria de receber os materiais de educação em saúde sobre saúde mental desenvolvidos por esse projeto?",
    "Se você respondeu sim para alguma das questões anteriores, informe seu e-mail:"
]

In [15]:
metadata = {
    "Qual sua cor ou raça?": "Raça/Cor",
    "Qual a sua idade? Informe sua idade em anos. Utilize apenas números": "Idade",
    "Com qual gênero você se identifica?": "Genero",
    "Qual o seu estado civil?": "Estado Civil",
    "Além de estudar, você desenvolve alguma atividade remunerada?": "Atividade Remunerada",
    "Você precisou trabalhar presencialmente durante a pandemia?": "Trabalhou Presencialmente na Pandemia",
    "Qual seu Campus?": "Campus",
    "Qual o seu curso de graduação?": "Curso",
    "Em qual ano iniciaram suas atividades acadêmicas?": "Ano de Início do Curso",
    "Seu curso ocorre em qual turno?": "Turno do Curso",
    "Eu, concordo em participar voluntariamente do presente estudo como participante. O pesquisador me informou sobre tudo o que vai acontecer na pesquisa, o que terei que fazer, inclusive sobre os possíveis riscos e benefícios envolvidos na minha participação. O pesquisador me garantiu que eu poderei sair da pesquisa a qualquer momento, sem dar nenhuma explicação, e que esta decisão não me trará nenhum tipo de penalidade ou interrupção de meu tratamento. Fui informado(a) também que devo imprimir ou gerar um pdf do TCLE para ter a minha cópia do TCLE e que posso solicitar uma versão dele via e-mail para os pesquisadores.": "Concordo em Participar",
    "Você tem diagnóstico para transtorno de depressão realizado por psicólogo ou psiquiatra?": "Diagnóstico de Depressão",
    "Você tem diagnóstico para o transtorno de ansiedade realizado por psicólogo ou psiquiatra? Ex.: Transtorno Obsessivo Compulsivo (TOC), Transtorno de Ansiedade Generalizada (TAG), Fobia social, Síndrome do pânico, Ansiedade por estresse pós-traumático": "Diagnóstico de Ansiedade",
    "Você faz uso de algum tratamento (medicamentoso ou não-medicamentoso) para tratar os sintomas de ansiedade e/ou depressão?": "Faz Tratamento para Depressão/Ansiedade",
    "Você faz uso de medicamento(s) para tratar ansiedade e/ou depressão?": "Usa Medicamento para Depressão/Ansiedade",
    "Qual(is) medicamento(s)? (Se necessário, você poderá assinalar mais de uma opção)": "Medicamentos",
    "Os medicamentos que você utiliza foram prescritos pelo seu médico?": "Medicamentos Prescritos por Médico",
    "Em que ano você iniciou o tratamento medicamentoso para ansiedade e/ou depressão? (Considere o último tratamento iniciado)": "Ano de Início de Tratamento com Medicamento",
    "Você faz uso de algum tratamento não-medicamentoso para ansiedade e/ou depressão?Ex.: psicoterapia, acupuntura, yoga, meditação, etc.": "Faz Tratamento Não-Medicamentoso para Depressão/Ansiedade",
    "Qual tratamento não-medicamentoso você faz uso para ansiedade e/ou depressão?Pode assinalar mais de uma opção": "Tratamentos Não-Medicamentosos"
}

**FUNÇÃO DE LIMPEZA DO DATASET**

In [16]:
def data_cleaning(dataset, phq9, gad7, metadata, columns_to_remove):
    dataset = dataset.rename(columns=phq9)
    dataset = dataset.rename(columns=gad7)
    dataset = dataset.rename(columns=metadata)
    dataset = dataset.drop(columns=columns_to_remove, axis=1)

    return dataset

In [17]:
data = data_cleaning(data, questions_phq, questions_gad, metadata, columns_to_remove)
#data.columns

KeyError: "['ip_address', 'email_address', 'Você gostaria de receber os resultados das escalas de ansiedade e depressão respondidas por você nessa pesquisa?', 'Você gostaria de receber os materiais de educação em saúde sobre saúde mental desenvolvidos por esse projeto?', 'Se você respondeu sim para alguma das questões anteriores, informe seu e-mail:'] not found in axis"

**TRANSFORMANDO VALORES CATEGÓRICOS DAS ESCALAS PARA NUMÉRICOS**

In [18]:
phq9_values = {
    "Nenhuma vez": 0,
    "Vários dias": 1,
    "Mais da metade dos dias": 2,
    "Quase todos os dias": 3
}

In [19]:
gad7_values = {
    "Nenhuma vez": 0,
    "Vários dias": 1,
    "Mais da metade dos dias": 2,
    "Quase todos os dias": 3
}

In [20]:
def scales_categoric_to_numeric(dataset, phq9, gad7):
    for i in range (1, 10):
        dataset[f"PHQ{i}"] = dataset[f"PHQ{i}"].replace(phq9)

        if i < 8:
            dataset[f"GAD{i}"] = dataset[f"GAD{i}"].replace(gad7)

    return dataset

In [21]:
data = scales_categoric_to_numeric(data, phq9_values, gad7_values)

KeyError: 'PHQ1'

**Criação de Coluna de Somatório da Pontuação das Escalas**

In [22]:
def creating_scale_sum(dataset):
    sum_phq_values = []
    sum_gad_values = []

    for index, row in dataset.iterrows():
        sum_phq = 0
        sum_gad = 0

        for i in range(1, 10):
            if row[f"PHQ{i}"] != 'Response' and not(pd.isna(row[f"PHQ{i}"])):
                sum_phq += row[f"PHQ{i}"]

            if i < 8:
                if row[f"GAD{i}"] != 'Response' and not(pd.isna(row[f"GAD{i}"])):
                    sum_gad += row[f"GAD{i}"]

        sum_phq_values.append(sum_phq)
        sum_gad_values.append(sum_gad)

    dataset.insert(1, "PHQ9_Sum", sum_phq_values)
    dataset.insert(1, "GAD7_Sum", sum_gad_values)

In [23]:
creating_scale_sum(data)

KeyError: 'PHQ1'

**AGORA PRECISAMOS REMOVER AS LINHAS EM QUE EXISTEM VALORES NAN OU NULOS**

In [1]:
data.to_csv("data/PHQ9_GAD7_Clean_Dataset.csv", index=False)

NameError: name 'data' is not defined