# Projeto de Ciências de Dados

## **Impacto das Redes Sociais na Saúde Mental**

As redes sociais, apesar de oferecerem diversos benefícios, também podem apresentar efeitos negativos na saúde mental dos usuários. Estudos recentes indicam que o uso excessivo das redes sociais pode estar associado a diversos transtornos, como ansiedade, depressão, baixa autoestima, problemas de sono e até mesmo vício.

Este projeto se propõe a contribuir para a compreensão mais profunda dos efeitos do uso excessivo das redes sociais na saúde mental, fornecendo dados empíricos que possibilitem a criação de intervenções eficazes para prevenir e mitigar tais efeitos.

Os objetivos especificos do projeto são:
> Identificar os principais impactos do uso excessivo das redes sociais na saúde mental dos indivíduos;

> Investigar as variáveis que moderam a relação entre o uso das redes sociais e a saúde mental;

> Desenvolver um modelo preditivo para identificar indivíduos em risco de desenvolver problemas de saúde mental devido ao uso excessivo das redes sociais.



## Analise de Dados



### Parte 1 



> Importação dos dados

In [None]:

import pandas as pd

dados = pd.read_excel("Questionário de Pesquisa_ Impacto das Redes Sociais na Saúde Mental.xlsx")



In [None]:
dados.head()



> Padronização dos Dados

In [None]:
dados.columns

In [None]:
colunas = pd.Series(dados.columns)

colunas_resumidas = {
    'Id' : 'Id', 'Hora de início': 'Inicio', 'Hora de conclusão': 'Fim', 'Email': 'Email', 'Nome' : 'Nome',
       'Antes de iniciarmos, gostaríamos de confirmar se você consente em utilizar suas respostas para fins de pesquisa': 'Consentimento',
       'Quantos anos você tem?': 'Idade', 'Qual é o seu sexo?': 'Sexo',
       'Quais são suas principais ocupações? (Marque todas as opções que se aplicam a você)': 'Ocupações',
       'Você usa redes sociais?': 'UsaRedesSociais',
       'Quais redes sociais você usa? (Marque todas que se aplicam)': 'RedesSociais',
       'Quanto tempo você costuma passar nas redes sociais por dia?': 'TempoRedesSociais',
       'Com que frequência você usa as redes sociais sem um propósito específico?': 'FrequenciaUsoRedes',
       'Com que frequência você se distrai com as redes sociais enquanto faz outras atividades?': 'DistraçãoRedes',
       'Você se sente ansioso se não usa as redes sociais por um tempo?': 'AnsiedadeRedes',
       'Em uma escala de 1 a 5, quão fácil é para você se distrair?': 'FacilidadeDistração',
       'Em uma escala de 1 a 5, quanto você se preocupa com pensamentos negativos?': 'PreocupaçãoNegativa',
       'Você acha difícil se concentrar nas suas atividades de trabalho/estudo?': 'DificuldadeConcentração',
       'Quais tipos de contas você costuma seguir nas redes sociais? (Marque todas as que se aplicam)': 'ContasSeguidas',
       'Em uma escala de 1 a 5, com que frequência você se compara a outras pessoas de sucesso nas redes sociais?': 'ComparaçãoSucesso',
       'Como você geralmente se sente ao se comparar com outras pessoas nas redes sociais': 'SentimentoComparação' ,
       'Com que frequência você busca validação nas redes sociais?': 'BuscaValidação',
       'Com que frequência você se sente deprimido ou desanimado?': 'FrequenciaDepressão',
       'Em uma escala de 1 a 5, com que frequência você experimenta mudanças no seu interesse pelas atividades diárias?\xa0Isso inclui trabalho, hobbies, exercícios, interações sociais e tarefas domésticas': 'MudancaInteresse',
       'Com base na pergunta anterior,\xa0marque qual das seguintes opções melhor descreve o modo como o seu interesse muda:': 'DescriçãoMudançaInteresse',
       'Em uma escala de 1 a 5, com que frequência você tem problemas para dormir?': 'ProblemasSono',
       'Você já tentou reduzir o tempo que passa no celular?': 'TentativaReduçãoCelular',
       'Se sim, o que te motivou a tentar reduzir o tempo que passa no celular?': 'MotivaçãoRedução',
       'Quais medidas você tomou para reduzir o tempo que passa no celular?\xa0(Marque todas que se aplicam)': 'MedidasRedução',
       'Em relação às medidas que você mencionou na pergunta anterior, qual foi o seu nível de sucesso em reduzir o tempo que passa no celular?': 'SucessoRedução',
       'Quais foram os principais desafios que você enfrentou ao tentar reduzir o tempo que passa no celular?': 'DesafiosRedução'}


colunas = colunas.replace(colunas_resumidas)

dados.columns = colunas

In [None]:
dados.columns

In [None]:
# Dicionario para a coluna 'Consetimento'

# Esse dicionario foi criado, após a analise da distribuição dos dados, onde se viu que seria 
# necessario para visualizar melhor os dados

dic_consentimento = {
    'Sim, eu consinto em utilizar minhas respostas para fins de pesquisa.': 'Sim',
    'Não, eu não consinto em utilizar minhas respostas para fins de pesquisa.': 'Não'
}

dados['Consentimento'] = dados['Consentimento'].map(dic_consentimento)
dados['Consentimento'].unique()

In [None]:
# Dicionario para a coluna 'DescriçãoMundaçaInteresse'

# Esse dicionario foi criado, após a analise da distribuição dos dados, onde se viu que seria 
# necessario para visualizar melhor os dados

dic_descricao_mudanca_interesse = {
    'Intensidade: O nível de entusiasmo ou motivação que você sente pela atividade.': 'Intensidade',
    'Duração: A quantidade de tempo que você consegue se concentrar ou se dedicar à atividade.': 'Duração',
    'Prazer: O quanto você se diverte ou se sente gratificado ao realizar a atividade.': 'Prazer'
}

dados['DescriçãoMudançaInteresse'] = dados['DescriçãoMudançaInteresse'].map(dic_descricao_mudanca_interesse)
dados['DescriçãoMudançaInteresse'].unique()

In [None]:
# Dicionario para a coluna 'MotivaçãoRedução'

# Esse dicionario foi criado, após a analise da distribuição dos dados, onde se viu que seria 
# necessario para visualizar melhor os dados

dic_motivacao_reducao = {
    'Motivos de produtividade': 'produtividade', 
    'Motivos de viver a vida real': 'viver_vida_real',
    'Motivos de saúde': 'saude',
    'A consciência sobre os malefícios do uso em excesso ': 'maleficios',
    'Motivos de relacionamento': 'relacionamento',
    'Por estar sempre vendo algo que no momento não consigo atingir! ': 'atingir_metas'
    }

dados['MotivaçãoRedução'] = dados['MotivaçãoRedução'].map(dic_motivacao_reducao)
dados['MotivaçãoRedução'].unique()

In [None]:
ocupacoes_dummies = dados['Ocupações'].str.get_dummies(sep=';')
ocupacoes_dummies.columns = ocupacoes_dummies.columns.str.strip().str.replace(' ', '_')

redes_sociais_dummies = dados['RedesSociais'].str.get_dummies(sep=';')
redes_sociais_dummies.columns = redes_sociais_dummies.columns.str.strip().str.replace(' ', '_')

contas_seguidas_dummies = dados['ContasSeguidas'].str.get_dummies(sep=';')
contas_seguidas_dummies.columns = contas_seguidas_dummies.columns.str.strip().str.replace(' ', '_')

medidas_reducao_dummies = dados['MedidasRedução'].str.get_dummies(sep=';')
medidas_reducao_dummies.columns = medidas_reducao_dummies.columns.str.strip().str.replace(' ', '_')


In [None]:
ocupacoes_dummies.head()


In [None]:
redes_sociais_dummies.head()

In [None]:
contas_seguidas_dummies.head()

In [None]:
medidas_reducao_dummies.head()

In [None]:
dados = pd.concat([dados, ocupacoes_dummies, redes_sociais_dummies, contas_seguidas_dummies, medidas_reducao_dummies], axis=1)

In [None]:
dados.head()

In [None]:
# Remoção das colunas que passaram pelo processo de get_dummies() e sprit()
colunas_remover_get_dummies = ['Ocupações', 'RedesSociais', 'ContasSeguidas', 'MedidasRedução']


# Após a analise da quantidade de nulos presentes na nossa base de dados. Foi observado que,
# como nossa base vem de uma pesquisa anonima, algumas colunas como `nome` sempre terá valores nulos.
colunas_remover_nulas= ['Fim', 'Email', 'Nome']

dados = dados.drop(columns=colunas_remover_get_dummies)
dados = dados.drop(columns=colunas_remover_nulas)

In [None]:
dados.columns

### Parte 2

#### Separação de dados para Validação

Separar dados para validação antes de qualquer análise é crucial para garantir a confiabilidade e generalização de modelos. Essa prática previne problemas como sobreajuste e auxilia na detecção de vazamento de dados, promovendo análises mais precisas e resultados robustos

Dado a natureza do projeto, nosso objetivo é identificar valores ou padrões que justificam certos comportamentos ou respondem a perguntas, como por exemplo, alguém que passa muitas horas nas redes sociais tendem a ter níveis de ansiedade elevadas?

Por esse motivo, nossas variáveis Targets serão as colunas `AnsiedadeRedes`, `PreocupaçãoNegativa` e `FrequenciaDepressão`, tendo como principal feature `FrequenciaDepressão`.

In [None]:
dados.head()

In [None]:
from sklearn.model_selection import train_test_split

# Ansiedade, Preocupação e Depressão como variáveis alvo
targets = ["AnsiedadeRedes", "PreocupaçãoNegativa", "FrequenciaDepressão"]

# Separação 80/20 com random_state fixo
dados_featutes = dados.drop(targets, axis=1)  # Features
dados_targets= dados[targets]  # Target variables

dados_features_train, dados_featutes_test, dados_targets_train, dados_targets_test = train_test_split(dados_featutes, dados_targets, test_size=0.2, shuffle=True, random_state=42)



In [None]:
print(dados_features_train.shape)
print(dados_featutes_test.shape)
print(dados_targets_train.shape)
print(dados_targets_test.shape)

In [None]:
dados_features_train.head()

In [None]:
dados_targets_train.head()

In [None]:
dados_features_train.info()

In [None]:
dados_targets_train.info()

In [None]:
dados_features_train.describe()

In [None]:
dados_targets_train.describe()

## Visualização de dados

**Matplotlib** é uma biblioteca de visualização de dados amplamente utilizada, oferecendo uma gama versátil de gráficos, desde simples gráficos de linha até complexos mapas de calor. Com uma sintaxe flexível, os usuários podem personalizar cada aspecto de seus gráficos, desde cores e linhas até títulos e legendas. A facilidade de integração com outras bibliotecas Python a torna uma escolha popular entre cientistas de dados e analistas.

**Seaborn** é uma extensão estilizada de Matplotlib, projetada para simplificar a criação de gráficos estatísticos complexos. Com poucas linhas de código, é possível gerar visualizações atraentes que ressaltam automaticamente padrões nos dados. Seaborn também oferece paletas de cores atraentes e funcionalidades específicas para lidar com conjuntos de dados estatísticos.

In [None]:
import matplotlib.pyplot as plt

eixo_X_features = dados_features_train.Idade.value_counts().sort_index().index
eixo_Y_features = dados_features_train.Idade.value_counts().sort_index().values

plt.figure(figsize=(15,5))

plt.bar(eixo_X_features, eixo_Y_features, color='Black')
plt.title('Histograma - Idades', fontsize=12)
plt.xlabel("Idades", fontsize = 12, color='blue')
plt.ylabel("Numero de pessoas", fontsize= 12, color='blue')
plt.grid()


## Análise Exploratória de Dados (EDA)

### Análise Univariada

#### **Variável Target**

... a principal feature (coluna) ou resultado que um modelo de machine learning tenta prever ou explicar.

No nosso caso:

`AnsiedadeRedes`, `PreocupaçãoNegativa` e `FrequenciaDepressão`

##### `AnsiedadeRedes`

In [None]:
dados_targets_train.AnsiedadeRedes.value_counts(normalize=True)

In [None]:
eixo_x = dados_targets_train.AnsiedadeRedes.value_counts().sort_values().index
eixo_y = dados_targets_train.AnsiedadeRedes.value_counts().sort_values().values

plt.figure(figsize=(15,5))

plt.bar(eixo_x, eixo_y, color='Black')
plt.title('Distribuição da variavel Target', fontsize=16)
plt.xlabel('Niveis')
plt.ylabel('Numero de pessoas')
plt.grid()

##### `PreocupaçãoNegativa`

In [None]:
eixo_x = dados_targets_train.PreocupaçãoNegativa.value_counts().sort_values().index
eixo_y = dados_targets_train.PreocupaçãoNegativa.value_counts().sort_values().values

plt.figure(figsize=(15,5))

plt.bar(eixo_x, eixo_y, color='Black')
plt.title('Distribuição da variavel Target', fontsize=16)
plt.xlabel('Niveis')
plt.ylabel('Numero de pessoas')
plt.grid()

##### `FrequenciaDepressão`

In [None]:
eixo_x = dados_targets_train.FrequenciaDepressão.value_counts().sort_values().index
eixo_y = dados_targets_train.FrequenciaDepressão.value_counts().sort_values().values

plt.figure(figsize=(15,5))

plt.bar(eixo_x, eixo_y, color='Black')
plt.title('Distribuição da variavel Target', fontsize=16)
plt.xlabel('Niveis')
plt.ylabel('Numero de pessoas')
plt.grid()

#### **Distribuição dos Dados**

In [None]:
import seaborn as sns

#função para plotar detalhadamente cada coluna
def plot_distribuicao(dados):
    plt.figure(figsize=(12,4))
    sns.histplot(dados, kde=True)
    plt.show()

In [None]:
for coluna in dados_targets_train.columns:
    plot_distribuicao(dados_targets_train[coluna])

In [None]:
for coluna in dados_features_train.columns:
    plot_distribuicao(dados_features_train[coluna])

#### **Quantidade de Nulos**

In [None]:
dados_targets_train.isna().sum().sort_values()

In [None]:
dados_features_train.isna().sum().sort_values()

#### **Outliers**

In [None]:
#Função para plotar os graficos repetidamente
def plota_boxplot(dados):
    plt.figure(figsize=(12,4))
    sns.boxplot(dados, orient='h')

In [None]:
for coluna in dados_targets_train.columns:
    plota_boxplot(dados_targets_train[coluna])

In [None]:
for coluna in dados_features_train.columns:
    plota_boxplot(dados_features_train[coluna])

## Limpeza e pré-processamento de Dados

> Tratamento de valores ausentes e outliers.

A presença de dados faltantes ou valores extremos pode distorcer significativamente as análises, comprometendo a qualidade e confiabilidade dos resultados.

> Conversão de tipos de dados.

Garantir que os tipos de dados sejam apropriados para a análise pretendida é fundamental para evitar erros e melhorar o desempenho dos modelos.

> Normalização de dados.

Diferenças significativas nas escalas de variáveis podem impactar negativamente algoritmos de aprendizado de máquina, levando a resultados distorcidos. A normalização permite padronizar as escalas, garantindo que todas as variáveis contribuam igualmente para a modelagem.

> Transformação de dados.

Essa técnica envolve a aplicação de funções matemáticas ou estatísticas aos dados existentes, resultando em novas características ou formatos. A transformação pode ser útil para normalizar distribuições, reduzir a dimensionalidade dos dados, ou mesmo para melhorar a adequação de modelos estatísticos.

> Codificação de variáveis categóricas

A representação adequada de variáveis categóricas assegura que algoritmos possam interpretar e utilizar essas características de maneira eficaz.

#### Tratamento de valores Ausentes

1. Variável target
2. Demais variáveis

> Como nossa base de dados deriva de uma pesquisa e a maioria das perguntas são obrigatorias, ou seja, um ambiente controlado, conseguimos identificar que são poucos os casos onde podem ocasionar em dados nulos

> Desse modo, é possivel indentificar que não há problemas para a nossa previsão no futuro ao excluir as linhas que possuem valores nulos`

In [None]:
dados_features_train.dropna(subset=["FrequenciaUsoRedes"], inplace=True)
dados_targets_train.dropna(inplace=True)

In [None]:
dados_targets_train.isna().sum().sort_values()

In [None]:
dados_features_train.isna().sum().sort_values()

> Para as features `MotivaçãoRedução` e `SucessoRedução` e `DesafiosRedução` será imputado o valor `Não tentou reduzir` pois esses valores só poderiam ser preenchidos caso o entrevistado respondesse "Sim" para a pergunta 'Você já tentou reduzir o tempo que passa no celular?"

In [None]:
dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']] = dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']].fillna('Não se aplica')

> Para o restante dos valores nulos presentes na feature `DesafioRedução` será imputado o valor `não quis responder` pois se tratava de uma pergunta não obrigatoria.

In [None]:
dados_features_train['DesafiosRedução'].fillna('Não quis responder', inplace=True)

In [None]:
dados_features_train.isna().sum().sort_values()

#### Tratamento de Outliers

> O outliers que foi encontrado corresponde a feature `DesafiosRedução` que possui inumeros valores categoricos diferentes, o que não permite uma visão significativa da distribuição dos dados dessa features.

> A solução encontrada para solucionar essa outlier é a criação de outras features para categorizar esses valores com base nas suas simialidades.

In [None]:
dados_features_train["DesafiosRedução"].unique()

In [None]:
def categorizar_desafio(valor):
    tédio = 0
    ansiedade = 0
    necessidade = 0
    adaptar_restrição_uso = 0
    falta_de_informações = 0
    nenhum = 0
    
    if "tédio" in valor.lower() or "Falta do que fazer" in valor.lower():
        tédio = 1
    elif "ansiedade" in valor.lower() or 'ansiosa' in valor.lower():
        ansiedade = 1
    elif "necessidade" in valor.lower() or "depender do celular" in valor.lower() or "interagir" in valor.lower() or "faculdade" in valor.lower():
        necessidade = 1
    elif "dificuldade de acostumar" in valor.lower() or "buscar substitutos ao celular" in valor.lower() or "cumprir tempo" in valor.lower():
        adaptar_restrição_uso = 1
    elif "falta de informação" in valor.lower() or "desconectado" in valor.lower():
        falta_de_informações = 1
    else:
        nenhum = 1
    
    return pd.Series([tédio, ansiedade, necessidade, adaptar_restrição_uso, falta_de_informações, nenhum])

# Aplicar a função a cada valor único da feature "DesafiosRedução"
df_categorizado = dados_features_train['DesafiosRedução'].apply(categorizar_desafio)
df_categorizado.columns = ['Desafios_Redução_Tedio', 'Desafios_Redução_Ansiedade', 'Desafios_Redução_Necessidade', 'Desafios_Redução_Adaptar_Restrição_Uso', 'Desafios_Redução_Falta_de_Informações', 'Desafios_Redução_Nenhum']

In [None]:
df_categorizado.head()

In [None]:
for coluna in df_categorizado.columns:
    plot_distribuicao(df_categorizado[coluna])

In [None]:
dados_features_train = pd.concat([dados_features_train, df_categorizado], axis=1)

dados_features_train.head()

In [None]:
dados_features_train = dados_features_train.drop(columns='DesafiosRedução')

In [None]:
dados_features_train.columns

## Limpeza e pré-processamento de Dados

> Tratamento de valores ausentes e outliers.

A presença de dados faltantes ou valores extremos pode distorcer significativamente as análises, comprometendo a qualidade e confiabilidade dos resultados.

> Conversão de tipos de dados.

Garantir que os tipos de dados sejam apropriados para a análise pretendida é fundamental para evitar erros e melhorar o desempenho dos modelos.

> Normalização de dados.

Diferenças significativas nas escalas de variáveis podem impactar negativamente algoritmos de aprendizado de máquina, levando a resultados distorcidos. A normalização permite padronizar as escalas, garantindo que todas as variáveis contribuam igualmente para a modelagem.

> Transformação de dados.

Essa técnica envolve a aplicação de funções matemáticas ou estatísticas aos dados existentes, resultando em novas características ou formatos. A transformação pode ser útil para normalizar distribuições, reduzir a dimensionalidade dos dados, ou mesmo para melhorar a adequação de modelos estatísticos.

> Codificação de variáveis categóricas

A representação adequada de variáveis categóricas assegura que algoritmos possam interpretar e utilizar essas características de maneira eficaz.

#### Tratamento de valores Ausentes

1. Variável target
2. Demais variáveis

> Como nossa base de dados deriva de uma pesquisa e a maioria das perguntas são obrigatorias, ou seja, um ambiente controlado, conseguimos identificar que são poucos os casos onde podem ocasionar em dados nulos

> Desse modo, é possivel indentificar que não há problemas para a nossa previsão no futuro ao excluir as linhas que possuem valores nulos`

In [None]:
dados_features_train.dropna(subset=["FrequenciaUsoRedes"], inplace=True)
dados_targets_train.dropna(inplace=True)

In [None]:
dados_targets_train.isna().sum().sort_values()

In [None]:
dados_features_train.isna().sum().sort_values()

> Para as features `MotivaçãoRedução` e `SucessoRedução` e `DesafiosRedução` será imputado o valor `Não tentou reduzir` pois esses valores só poderiam ser preenchidos caso o entrevistado respondesse "Sim" para a pergunta 'Você já tentou reduzir o tempo que passa no celular?"

In [None]:
dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']] = dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']].fillna('Não se aplica')

> Para o restante dos valores nulos presentes na feature `DesafioRedução` será imputado o valor `não quis responder` pois se tratava de uma pergunta não obrigatoria.

In [None]:
dados_features_train['DesafiosRedução'].fillna('Não quis responder', inplace=True)

In [None]:
dados_features_train.isna().sum().sort_values()

#### Tratamento de Outliers

> O outliers que foi encontrado corresponde a feature `DesafiosRedução` que possui inumeros valores categoricos diferentes, o que não permite uma visão significativa da distribuição dos dados dessa features.

> A solução encontrada para solucionar essa outlier é a criação de outras features para categorizar esses valores com base nas suas simialidades.

In [None]:
dados_features_train["DesafiosRedução"].unique()

In [None]:
def categorizar_desafio(valor):
    tédio = 0
    ansiedade = 0
    necessidade = 0
    adaptar_restrição_uso = 0
    falta_de_informações = 0
    nenhum = 0
    
    if "tédio" in valor.lower() or "Falta do que fazer" in valor.lower():
        tédio = 1
    elif "ansiedade" in valor.lower() or 'ansiosa' in valor.lower():
        ansiedade = 1
    elif "necessidade" in valor.lower() or "depender do celular" in valor.lower() or "interagir" in valor.lower() or "faculdade" in valor.lower():
        necessidade = 1
    elif "dificuldade de acostumar" in valor.lower() or "buscar substitutos ao celular" in valor.lower() or "cumprir tempo" in valor.lower():
        adaptar_restrição_uso = 1
    elif "falta de informação" in valor.lower() or "desconectado" in valor.lower():
        falta_de_informações = 1
    else:
        nenhum = 1
    
    return pd.Series([tédio, ansiedade, necessidade, adaptar_restrição_uso, falta_de_informações, nenhum])

# Aplicar a função a cada valor único da feature "DesafiosRedução"
df_categorizado = dados_features_train['DesafiosRedução'].apply(categorizar_desafio)
df_categorizado.columns = ['Desafios_Redução_Tedio', 'Desafios_Redução_Ansiedade', 'Desafios_Redução_Necessidade', 'Desafios_Redução_Adaptar_Restrição_Uso', 'Desafios_Redução_Falta_de_Informações', 'Desafios_Redução_Nenhum']

In [None]:
df_categorizado.head()

In [None]:
for coluna in df_categorizado.columns:
    plot_distribuicao(df_categorizado[coluna])

In [None]:
dados_features_train = pd.concat([dados_features_train, df_categorizado], axis=1)

dados_features_train.head()

In [None]:
dados_features_train = dados_features_train.drop(columns='DesafiosRedução')

In [None]:
dados_features_train.columns

## Limpeza e pré-processamento de Dados

> Tratamento de valores ausentes e outliers.

A presença de dados faltantes ou valores extremos pode distorcer significativamente as análises, comprometendo a qualidade e confiabilidade dos resultados.

> Conversão de tipos de dados.

Garantir que os tipos de dados sejam apropriados para a análise pretendida é fundamental para evitar erros e melhorar o desempenho dos modelos.

> Normalização de dados.

Diferenças significativas nas escalas de variáveis podem impactar negativamente algoritmos de aprendizado de máquina, levando a resultados distorcidos. A normalização permite padronizar as escalas, garantindo que todas as variáveis contribuam igualmente para a modelagem.

> Transformação de dados.

Essa técnica envolve a aplicação de funções matemáticas ou estatísticas aos dados existentes, resultando em novas características ou formatos. A transformação pode ser útil para normalizar distribuições, reduzir a dimensionalidade dos dados, ou mesmo para melhorar a adequação de modelos estatísticos.

> Codificação de variáveis categóricas

A representação adequada de variáveis categóricas assegura que algoritmos possam interpretar e utilizar essas características de maneira eficaz.

#### Tratamento de valores Ausentes

1. Variável target
2. Demais variáveis

> Como nossa base de dados deriva de uma pesquisa e a maioria das perguntas são obrigatorias, ou seja, um ambiente controlado, conseguimos identificar que são poucos os casos onde podem ocasionar em dados nulos

> Desse modo, é possivel indentificar que não há problemas para a nossa previsão no futuro ao excluir as linhas que possuem valores nulos`

In [None]:
dados_features_train.dropna(subset=["FrequenciaUsoRedes"], inplace=True)
dados_targets_train.dropna(inplace=True)

In [None]:
dados_targets_train.isna().sum().sort_values()

In [None]:
dados_features_train.isna().sum().sort_values()

> Para as features `MotivaçãoRedução` e `SucessoRedução` e `DesafiosRedução` será imputado o valor `Não tentou reduzir` pois esses valores só poderiam ser preenchidos caso o entrevistado respondesse "Sim" para a pergunta 'Você já tentou reduzir o tempo que passa no celular?"

In [None]:
dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']] = dados_features_train.loc[dados_features_train['TentativaReduçãoCelular'] == 'Não', ['MotivaçãoRedução', 'SucessoRedução', 'DesafiosRedução']].fillna('Não se aplica')

> Para o restante dos valores nulos presentes na feature `DesafioRedução` será imputado o valor `não quis responder` pois se tratava de uma pergunta não obrigatoria.

In [None]:
dados_features_train['DesafiosRedução'].fillna('Não quis responder', inplace=True)

In [None]:
dados_features_train.isna().sum().sort_values()

#### Tratamento de Outliers

> O outliers que foi encontrado corresponde a feature `DesafiosRedução` que possui inumeros valores categoricos diferentes, o que não permite uma visão significativa da distribuição dos dados dessa features.

> A solução encontrada para solucionar essa outlier é a criação de outras features para categorizar esses valores com base nas suas simialidades.

In [None]:
dados_features_train["DesafiosRedução"].unique()

In [None]:
def categorizar_desafio(valor):
    tédio = 0
    ansiedade = 0
    necessidade = 0
    adaptar_restrição_uso = 0
    falta_de_informações = 0
    nenhum = 0
    
    if "tédio" in valor.lower() or "Falta do que fazer" in valor.lower():
        tédio = 1
    elif "ansiedade" in valor.lower() or 'ansiosa' in valor.lower():
        ansiedade = 1
    elif "necessidade" in valor.lower() or "depender do celular" in valor.lower() or "interagir" in valor.lower() or "faculdade" in valor.lower():
        necessidade = 1
    elif "dificuldade de acostumar" in valor.lower() or "buscar substitutos ao celular" in valor.lower() or "cumprir tempo" in valor.lower():
        adaptar_restrição_uso = 1
    elif "falta de informação" in valor.lower() or "desconectado" in valor.lower():
        falta_de_informações = 1
    else:
        nenhum = 1
    
    return pd.Series([tédio, ansiedade, necessidade, adaptar_restrição_uso, falta_de_informações, nenhum])

# Aplicar a função a cada valor único da feature "DesafiosRedução"
df_categorizado = dados_features_train['DesafiosRedução'].apply(categorizar_desafio)
df_categorizado.columns = ['Desafios_Redução_Tedio', 'Desafios_Redução_Ansiedade', 'Desafios_Redução_Necessidade', 'Desafios_Redução_Adaptar_Restrição_Uso', 'Desafios_Redução_Falta_de_Informações', 'Desafios_Redução_Nenhum']

In [None]:
df_categorizado.head()

In [None]:
for coluna in df_categorizado.columns:
    plot_distribuicao(df_categorizado[coluna])

In [None]:
dados_features_train = pd.concat([dados_features_train, df_categorizado], axis=1)

dados_features_train.head()

In [None]:
dados_features_train = dados_features_train.drop(columns='DesafiosRedução')

In [None]:
dados_features_train.columns