## Ambiente Computacional

In [127]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Tradução dos dados para português
from funcoes.eda.tradutor import traduz_cols

# EDA
from funcoes.eda.explorar_cols import explorar_cols
from funcoes.eda.binario_info import binario_info
from funcoes.eda.miss_zero_values import miss_zero_cols
from funcoes.eda.drop_cols_50 import drop_cols_50_perc

## Exploração e Análise dos Dados

Este notebook tem como objetivo tratar os dados brutos da pesquisa de saúde mental online realizada pela OSMI (Open Source Mental Illness). A pesquisa abrange o período de 2016 a 2021.

Link da pesquisa original: https://osmihelp.org/research.html

## Organização

Os dados serão avaliados por ano. As métricas de análise serão as mesmas para todo ano,mantendo a integridade dos dados.

Abreviação: smt - Saúde Mental Tech

## 2016

### Carregamento da base

In [2]:
arquivo_2016 = './input_data/osmi_smt_2016.csv'
smt_2016_en = pd.read_csv(arquivo_2016)

### [Tradução da base](./funcoes/eda/tradutor.py)

A base original veio é em inglês, logo a se faz necessária a tradução para o portugês.

In [3]:
smt_2016 = traduz_cols(smt_2016_en, destination_language='pt')

### Observações gerais

In [4]:
smt_2016.head()

Unnamed: 0,Você é autônomo?,Quantos funcionários sua empresa ou organização possui?,Seu empregador é principalmente uma empresa/organização de tecnologia?,O seu papel principal na sua empresa está relacionado à tecnologia/TI?,O seu empregador oferece benefícios de saúde mental como parte da cobertura de saúde?,Você conhece as opções de cuidados de saúde mental disponíveis sob sua cobertura fornecida pelo empregador?,"Seu empregador já discutiu formalmente a saúde mental (por exemplo, como parte de uma campanha de bem -estar ou outra comunicação oficial)?",O seu empregador oferece recursos para aprender mais sobre preocupações e opções de saúde mental para procurar ajuda?,O seu anonimato está protegido se você optar por aproveitar os recursos de tratamento de saúde mental ou abuso de substâncias fornecidos pelo seu empregador?,"Se um problema de saúde mental o levasse a solicitar uma licença médica do trabalho, pedir que a licença seria:",...,"Se você tem um problema de saúde mental, sente que isso interfere no seu trabalho ao ser tratado de maneira eficaz?","Se você tem um problema de saúde mental, sente que isso interfere no seu trabalho quando não é tratado de maneira eficaz?",Qual é a sua idade?,Qual é o seu gênero?,em que país você mora?,Em que estado ou território dos EUA você mora?,Em que país você trabalha?,Em que estado ou território dos EUA você trabalha?,Qual das opções a seguir melhor descreve sua posição de trabalho?,Você trabalha remotamente?
0,0,26-100,1.0,,Not eligible for coverage / N/A,,No,No,I don't know,Very easy,...,Not applicable to me,Not applicable to me,39,Male,United Kingdom,,United Kingdom,,Back-end Developer,Sometimes
1,0,6-25,1.0,,No,Yes,Yes,Yes,Yes,Somewhat easy,...,Rarely,Sometimes,29,male,United States of America,Illinois,United States of America,Illinois,Back-end Developer|Front-end Developer,Never
2,0,6-25,1.0,,No,,No,No,I don't know,Neither easy nor difficult,...,Not applicable to me,Not applicable to me,38,Male,United Kingdom,,United Kingdom,,Back-end Developer,Always
3,1,,,,,,,,,,...,Sometimes,Sometimes,43,male,United Kingdom,,United Kingdom,,Supervisor/Team Lead,Sometimes
4,0,6-25,0.0,1.0,Yes,Yes,No,No,No,Neither easy nor difficult,...,Sometimes,Sometimes,43,Female,United States of America,Illinois,United States of America,Illinois,Executive Leadership|Supervisor/Team Lead|Dev ...,Sometimes


In [5]:
# Tamanho da base
print('OSMI 2016')
print(f"Linhas: {smt_2016.shape[0]}")
print(f"Colunas: {smt_2016.shape[1]}")

OSMI 2016
Linhas: 1433
Colunas: 63


### Tratamento das colunas

* Primeiramente, as colunas que apresentarem 50% ou mais de dados faltantes/nulos, serão excluídas. Usando [drop_cols_50.py](./funcoes/eda/drop_cols_50.py)

* As colunas envolvendo a localidade dos EUA serão removidas. Não são de interesse, no momento.

* Para as colunas restantes, devido ao caráter subjetivo das respostas, cada variável será analisada individualmente, e dependendo da natureza da pergunta, a variável poderá ser excluída ou mantida.

* Caso seja necessário, serão aplicadas técnicas como exclusão, codificação, análise de valores discrepantes, entre outras.

* Para facilitar o processo, as variáveis serão analisadas em grupos de 5, utilizando o arquivo [explorar_cols.py](./funcoes/eda/explorar_cols.py).

#### Exclusão das colunas com 50% ou mais de missings/nulls

In [6]:
# Local do arquivo onde a lista de colunas excluídas será salva
out_path = './output_data/eda/2016/droped_cols.txt'
smt_2016 = drop_cols_50_perc(smt_2016, out_path)

13 colunas foram excluídas. Ver [arquivo](./output_data/eda/2016/droped_cols.txt).

#### Exclusão das colunas de localização (EUA)

In [128]:
# Filtra as colunas que contêm 'EUA' no título
cols_drop = smt_2016.filter(like='EUA').columns

# Remove as colunas do DataFrame
smt_2016.drop(columns=cols_drop, inplace=True)

#### Exclusão das colunas com 'por que'

In [129]:
cols_drop = smt_2016.filter(like='Por que').columns

smt_2016.drop(columns=cols_drop, inplace=True)

#### Colunas restantes

In [130]:
# Local do arquivo onde a lista de colunas com missings será salva
out_path = './output_data/eda/2016/missing_values.txt'
miss_zero_cols(smt_2016, out_path, 'miss')

No [arquivo de valores faltantes ](./output_data/eda/2016/smt_2016_miss_values.txt), notamos que existem várias colunas com uma porcentagem de 20% de valores faltantes. 

Ao analisar quantas linhas são excluídas se todas esses valores forem ejetados dos dados, há uma perda de dados muito grande.

*Caso seja necessário, este passo será revisto após a avaliação das métricas.* 

### Grupo 1

In [45]:
col_index = [0,1,2,3,4]
explorar_cols(smt_2016, col_index=col_index)

Você é autônomo? (0.00% missing)
Quantos funcionários sua empresa ou organização possui? (20.03% missing)
Seu empregador é principalmente uma empresa/organização de tecnologia? (20.03% missing)
O seu empregador oferece benefícios de saúde mental como parte da cobertura de saúde? (20.03% missing)
Você conhece as opções de cuidados de saúde mental disponíveis sob sua cobertura fornecida pelo empregador? (29.31% missing)


#### Coluna 0
Você é autônomo?

Não há missing values.

In [None]:
smt_2016.iloc[:, 0].value_counts()

Você é autônomo?
0    1146
1     287
Name: count, dtype: int64

Varíavel binária:

* 0 = Não
* 1 = Sim

In [None]:
binario_info(smt_2016, 0)

Porcentagem de NÃO: 79.97%
Porcentagem de SIM: 20.03%


#### Coluna 1
Quantos funcionários sua empresa ou organização possui?
* 20.03% de valores faltantes/nulos.
* A coluna será excluída, pois não é de interesse no momento.

In [47]:
col_1 = 'Quantos funcionários sua empresa ou organização possui?'

smt_2016.drop(columns=col_1, inplace=True)

#### Coluna 2

Seu empregador é principalmente uma empresa/organização de tecnologia?
* Essa coluna possui 20% de valores faltantes.
* Os valores serão preenchidos aleatoriamente com valores 0 e 1.

In [None]:
binario_info(smt_2016, 2)

Porcentagem de NÃO: 22.95%
Porcentagem de SIM: 77.05%


In [93]:
# Preenchendo de forma aleatória
col_2 = 'Seu empregador é principalmente uma empresa/organização de tecnologia?'
smt_2016[col_2].fillna(pd.Series(np.random.randint(0, 2, size=smt_2016.shape[0])), inplace=True)

Seu empregador é principalmente uma empresa/organização de tecnologia?
1.0    1042
0.0     391
Name: count, dtype: int64

### Coluna 3
* O seu empregador oferece benefícios de saúde mental como parte da cobertura de saúde? 
* 20.03% missing
* Os missing serão preenchidos usando interpolação
* Por se tratar de uma varíavel categórica, será feito 'one-encode'

In [125]:
smt_2016.iloc[:, 3].value_counts()

Você conhece as opções de cuidados de saúde mental disponíveis sob sua cobertura fornecida pelo empregador?
No               354
I am not sure    352
Yes              307
Name: count, dtype: int64

In [126]:
s_ = s.interpolate(method='pad')

s_.value_counts()

Você conhece as opções de cuidados de saúde mental disponíveis sob sua cobertura fornecida pelo empregador?
I am not sure    508
No               505
Yes              419
Name: count, dtype: int64