# Análise de Dados: Laboratório Educativo

Bem-vindo ao laboratório de Análise de Dados! Neste projeto educativo quero explorar junto a vocês conceitos cruciais que formam a base da manipulação e análise de dados. Esse projeto é baseado no curso <a href='https://www.coursera.org/learn/data-analysis-with-python'>Data Analysis with Python</a> da plataforma Coursera. O tema aqui abordado diz respeito à segunda semana do curso, e é uma realização prática dos conceitos com um conjunto de dados colhido da plataforma Kaggle: <a href='https://www.kaggle.com/datasets/shariful07/student-mental-health'>Student Mental health</a>

Ao final deste projeto, teremos adquirido habilidades essenciais para lidar com dados ausentes, ajustar tipos de dados conforme necessário, padronizar e normalizar atributos relevantes, visualizar dados por meio de gráficos de barras agrupadas usando binning e converter dados categóricos em variáveis indicadoras numéricas.

Agradeço sinceramente à Coursera por proporcionar não apenas uma plataforma educativa abrangente e acessível, mas também por oferecer suporte financeiro (financial aid) que possibilita a prática deste curso. Expresso minha profunda gratidão à comunidade, cujo compartilhamento de conhecimento e apoio mútuo enriquece significativamente a experiência de aprendizado para todos.

## 1. <a href="#1">Lidar com Dados Ausentes</a>
Uma análise de dados robusta requer a capacidade de lidar eficazmente com dados ausentes. Existem diversas abordagens para esse desafio, desde a exclusão de entradas incompletas até a imputação de valores faltantes. Vamos explorar essas técnicas, destacando suas aplicações e considerações práticas.

## 2. Correção de Tipos de Dados
A consistência nos tipos de dados é crucial. Neste laboratório, aprenderemos a identificar e corrigir tipos de dados inadequados, garantindo que cada variável seja interpretada corretamente. Isso é fundamental para evitar erros de análise e interpretação equivocada dos dados.

## 3. Padronização e Normalização
Padronizar e normalizar dados são passos essenciais para comparar atributos em diferentes escalas. Vamos entender a diferença entre esses processos e quando aplicar cada um. Ao final, teremos dados prontos para análises mais precisas e significativas.

## 4. Visualização com Gráficos de Barras Agrupadas (Binning)
A visualização é uma ferramenta poderosa na análise de dados. Abordaremos a técnica de binning, que agrupa dados em intervalos, permitindo uma representação mais clara e interpretável. Prepare-se para criar gráficos de barras agrupadas que revelarão padrões e tendências em seus conjuntos de dados.

## 5. Conversão de Dados Categóricos
Nem sempre os algoritmos podem lidar diretamente com dados categóricos. Aprenderemos a converter essas variáveis em indicadores numéricos, tornando-as compatíveis com uma ampla gama de técnicas analíticas. Este passo é vital para garantir que todos os aspectos do seu conjunto de dados contribuam para análises robustas.

Ao longo deste projeto, concentramo-nos não apenas em realizar tarefas, mas em compreender os motivos por trás de cada passo. Estamos prontos? Vamos começar a explorar e aprimorar nossas habilidades de análise de dados!


<hr>

# Importanto as bibliotecas necessárias

Vamos agora importar as bibliotecas necessárias para dar início ao nosso projeto. Embora a explicação detalhada sobre essa etapa não esteja incluída neste trabalho, é importante compreender que a importação de bibliotecas é uma prática comum na programação em Python. Para aprofundar esse conhecimento, recomendamos explorar recursos online, como a documentação oficial do Python (https://docs.python.org/3/) e tutoriais específicos disponíveis em plataformas de aprendizado, como a própria Coursera ou sites como W3Schools. Essa habilidade será valiosa ao longo do projeto e em futuras explorações na análise de dados.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Leitura do Arquivo CSV

Vamos agora realizar a leitura do arquivo CSV que está armazenado localmente. O caminho que você está vendo na célula abaixo corresponde à localização do arquivo em **minha máquina**. Para prosseguir e ter acesso ao arquivo em sua máquina, siga os passos abaixo:

1. **Baixe o arquivo:**
   - Visite o link [Student Mental Health](https://www.kaggle.com/datasets/shariful07/student-mental-health) no Kaggle.
   - Baixe o arquivo CSV disponível na página.
2. **Salve o arquivo em sua máquina:**
   - Após o download, salve o arquivo em uma localização acessível em sua máquina.
3. **Atualize o caminho no código:**
   - Caso você tenha salvado o arquivo em um diretório diferente, ajuste o caminho do arquivo no código para refletir a localização correta.

Caso prefira, você também pode utilizar o arquivo que disponibilizei no mesmo diretório do projeto no GitHub. No entanto, baixar o arquivo do Kaggle é recomendado, pois fornece informações adicionais sobre os dados que podem ser úteis. Este procedimento é essencial para garantir que o código funcione corretamente e que você possa explorar o conjunto de dados de forma eficaz.


In [3]:
# Caminho do arquivo CSV localizado na máquina do autor (substitua pelo seu caminho)
file = r'D:\Jeanco\Meus projetos\students_mental_health\Student Mental health.csv'

# Leitura do arquivo CSV utilizando a biblioteca pandas
df = pd.read_csv(file)

# Visualização do DataFrame para verificar se o arquivo CSV foi lido corretamente
df


Unnamed: 0,Timestamp,Choose your gender,Age,What is your course?,Your current year of Study,What is your CGPA?,Marital status,Do you have Depression?,Do you have Anxiety?,Do you have Panic attack?,Did you seek any specialist for a treatment?
0,8/7/2020 12:02,Female,18.0,Engineering,year 1,3.00 - 3.49,No,Yes,No,Yes,No
1,8/7/2020 12:04,Male,21.0,Islamic education,year 2,3.00 - 3.49,No,No,Yes,No,No
2,8/7/2020 12:05,Male,19.0,BIT,Year 1,3.00 - 3.49,No,Yes,Yes,Yes,No
3,8/7/2020 12:06,Female,22.0,Laws,year 3,3.00 - 3.49,Yes,Yes,No,No,No
4,8/7/2020 12:13,Male,23.0,Mathemathics,year 4,3.00 - 3.49,No,No,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...
96,13/07/2020 19:56:49,Female,21.0,BCS,year 1,3.50 - 4.00,No,No,Yes,No,No
97,13/07/2020 21:21:42,Male,18.0,Engineering,Year 2,3.00 - 3.49,No,Yes,Yes,No,No
98,13/07/2020 21:22:56,Female,19.0,Nursing,Year 3,3.50 - 4.00,Yes,Yes,No,Yes,No
99,13/07/2020 21:23:57,Female,23.0,Pendidikan Islam,year 4,3.50 - 4.00,No,No,No,No,No


# Padronização de Nomenclatura de Colunas

Antes de nos aprofundarmos nos tópicos específicos mencionados no início deste projeto, optaremos por adotar convenções de nomenclatura mais consistentes para as colunas do conjunto de dados. Essa prática visa melhorar a legibilidade do código e facilitar a manipulação dos dados, especialmente durante processos de programação. Também colocaremos os nomes em Português do Brasil para facilitar a leitura nesse contexto.

## Convenções Adotadas:

1. **Minúsculas e Sublinhados (Snake Case):**
   - Exemplo: `submission_time`, `choose_your_gender`, `age`, `course`, etc.

## Por que estamos fazendo isso?

Ao adotar essa abordagem, tornamos os nomes das colunas mais amigáveis para programação, facilitando a referência e a manipulação dos dados. Além disso, essa padronização contribui para a consistência no código e na análise, melhorando a clareza e a compreensão do conjunto de dados.

Vamos aplicar essas convenções como no exemplo a seguir:
```python
# Exemplo de renomeação de colunas
df.rename(columns={
    'Timestamp': 'momento_envio',
    'Choose your gender': 'genero',
    'Age': 'idade',
    'What is your course?': 'curso',
    # ... (continuar para as demais colunas)
}, inplace=True)
df.head()


In [4]:
#Renomeando as colunas
df.rename(columns={
    'Timestamp': 'momento_envio',
    'Choose your gender': 'genero',
    'Age': 'idade',
    'What is your course?': 'curso',
    'Your current year of Study': 'ano_estudo_atual',
    'What is your CGPA?': 'cgpa',
    'Marital status': 'estado_civil',
    'Do you have Depression?': 'tem_depressao',
    'Do you have Anxiety?': 'tem_ansiedade',
    'Do you have Panic attack?': 'tem_ataque_panic',
    'Did you seek any specialist for a treatment?': 'buscou_especialista_para_tratamento'
}, inplace=True)

#Verificando as primeiras linhas da tabela
df.head()


Unnamed: 0,momento_envio,genero,idade,curso,ano_estudo_atual,cgpa,estado_civil,tem_depressao,tem_ansiedade,tem_ataque_panic,buscou_especialista_para_tratamento
0,8/7/2020 12:02,Female,18.0,Engineering,year 1,3.00 - 3.49,No,Yes,No,Yes,No
1,8/7/2020 12:04,Male,21.0,Islamic education,year 2,3.00 - 3.49,No,No,Yes,No,No
2,8/7/2020 12:05,Male,19.0,BIT,Year 1,3.00 - 3.49,No,Yes,Yes,Yes,No
3,8/7/2020 12:06,Female,22.0,Laws,year 3,3.00 - 3.49,Yes,Yes,No,No,No
4,8/7/2020 12:13,Male,23.0,Mathemathics,year 4,3.00 - 3.49,No,No,No,No,No


<h1 id="1">1 - Lidar com dados ausentes</h1>

**Motivação:**
   - Essa análise visa compreender a presença de dados ausentes no conjunto de dados, crucial para análises precisas.
   - Em um conjunto de dados mais complexo, identificar e tratar dados ausentes é essencial para análises confiáveis.

**Implicações:**
   - Dados ausentes podem impactar a qualidade e validade das análises.
   - A compreensão da distribuição de dados ausentes é fundamental para escolher estratégias adequadas de tratamento.

Essa análise é fundamental para garantir que possamos abordar dados ausentes de maneira informada e eficaz em nosso conjunto de dados.

A seguir analisaremos os dados em busca de "ausências" e proseguiremos com o tratamento e explicação prática da importância de lidarmos com esses vieses.

In [11]:
dados_ausentes = df.isnull()
for coluna in dados_ausentes.columns.values.tolist():
    print(dados_ausentes[coluna].value_counts())
    print("")
df.columns.isnull()

momento_envio
False    101
Name: count, dtype: int64

genero
False    101
Name: count, dtype: int64

idade
False    100
True       1
Name: count, dtype: int64

curso
False    101
Name: count, dtype: int64

ano_estudo_atual
False    101
Name: count, dtype: int64

cgpa
False    101
Name: count, dtype: int64

estado_civil
False    101
Name: count, dtype: int64

tem_depressao
False    101
Name: count, dtype: int64

tem_ansiedade
False    101
Name: count, dtype: int64

tem_ataque_panic
False    101
Name: count, dtype: int64

buscou_especialista_para_tratamento
False    101
Name: count, dtype: int64



array([False, False, False, False, False, False, False, False, False,
       False, False])

Vamos abordar a questão dos dados ausentes, considerando que nosso conjunto de dados é simples, para fins didáticos. 

Abaixo está a explicação passo a passo do código utilizado acima para lidar com dados ausentes:

1. **`dados_ausentes = df.isnull()`:**
   - Criamos um DataFrame booleano indicando True para valores ausentes e False para valores presentes em `df`.
2. **`for coluna in dados_ausentes.columns.values.tolist():`:**
   - Iteramos por cada coluna no DataFrame de dados ausentes.
3. **`print(dados_ausentes[coluna].value_counts())`:**
   - Contamos e exibimos a quantidade de valores ausentes (True) e presentes (False) em cada coluna.
4. **`print(df.columns.isnull())`:**
   - Verificamos se há dados ausentes nos rótulos das colunas do DataFrame original, em outras palavras nos indica se algum nome de coluna está vazio. Isso pode ser útil em situações onde há a necessidade de verificar a integridade dos rótulos das colunas no DataFrame.
   


Agora vamos às explicações para as saídas fornecidas por nosso código. Vejamos um exemplo:

```
momento_envio
False    101
Name: count, dtype: int64
```

Perceba que temos o nome da coluna ```momento_envio```. O False representa a quantidade de dados não nulos. Perceba que temos 101 valores não nulos para a coluna em questão. 

Agora veja a saída obtida para a coluna ```idade```:
```
idade
False    100
True       1
Name: count, dtype: int64
```


- **`False: 100`:** Indica que há 100 valores não nulos na coluna "idade".
- **`True: 1`:** Indica que há um valor nulo (ausente) na coluna "idade".

As demais informações presentes nas saídas não são relevantes para o entendimento no escopo deste projeto.

Mas qual é o valor que está no local do valor nulo na coluna "idade"? Vamos usar o método unique() para obter os valores exclusivos na coluna e descobrir isso.

In [12]:
print(df['idade'].unique())

[18. 21. 19. 22. 23. 20. 24. nan]


A saída acima indica que na coluna idade temos 18 anos, 21 anos e assim por diante. Veja o último valor: nan.

Agora identificamos que nosso valor nulo é representado por "nan" (not a number), permitindo-nos prosseguir com confiança na manipulação desse dado ausente. O uso consistente de "nan" como representação padrão traz benefícios em termos de consistência e compatibilidade em operações numéricas. Não é necessário compreender profundamente esses detalhes; o ponto chave é que o uso de "nan" como valor ausente é preferível a outras representações

Entender que estamos lidando com "nan" nos permite empregar estratégias específicas, como substituição pela média ou pelo valor mais frequente, de maneira eficaz.

**Importância de Saber o Valor no Nulo:**

Conhecer o valor específico que ocupa o lugar do nulo é fundamental para a tomada de decisões informadas sobre como lidar com ele. Por exemplo, se o valor nulo fosse representado por um caractere específico, como "?", seria necessário identificar e tratar esse caractere de maneira única, evitando ambiguidades em operações numéricas e garantindo a coerência nos dados.

Em resumo, a escolha da representação de valor nulo afeta diretamente a maneira como lidamos com esses valores durante a análise de dados, e optar por "nan" proporciona uma abordagem padronizada e eficiente.

<h2 href="1.1">1.1 - Substituição de valores nulos pela Média</h2>

Quando lidamos com atributos que possuem dados contínuos, a abordagem mais adequada para substituir valores ausentes é utilizando a média. No nosso conjunto de dados, a variável "idade" é contínua, representando valores como 18, 21, 19, e assim por diante. Se alguns desses valores estiverem ausentes, podemos preenchê-los com a média da variável.

Dados contínuos referem-se a variáveis que podem assumir qualquer valor dentro de um intervalo específico, como a idade, que pode ser representada por números reais. Em contraste com dados discretos, que assumem valores específicos e geralmente são inteiros, dados contínuos podem incluir frações ou números decimais.

Utilizando o código abaixo, substituímos os valores ausentes na coluna "idade" pela média dessa mesma coluna:

In [17]:
media_idade = df['idade'].astype('float').mean(axis=0)
df['idade'].replace(np.nan, media_idade, inplace=True)
print(df['idade'].unique())

[18.   21.   19.   22.   23.   20.   24.   20.53]


Perceba que agora temos o valor 20.53 em vez de 'nan'. Esse valor é a média de todas as idades apresentadas na coluna.

A estratégia de substituição pela média é adotada para manter a coerência na distribuição dos dados.

<h2 href="1.2">1.2 - Substituição de valores nulos pelo valor mais Frequente</h2>

### Exemplificativo

Quando lidamos com atributos que contêm dados categóricos, a abordagem recomendada para substituir valores ausentes é utilizar o valor mais frequente na categoria. Vamos considerar o cenário em que temos uma coluna categórica, por exemplo, a coluna "estado_civil", e alguns valores estão ausentes. A estratégia apropriada seria substituir esses valores pelo estado civil mais frequente.

Dados categóricos referem-se a variáveis que representam categorias discretas, como "Solteiro", "Casado" ou "Divorciado". Ao depararmos com valores ausentes nesse tipo de atributo, é benéfico preenchê-los com o valor mais comum da categoria, mantendo a integridade da distribuição.

A seguir, apresento um código genérico que exemplifica como substituir, com o valor mais frequente, os valores ausentes na coluna categórica:

```python
valor_mais_frequente_estado_civil = df['estado_civil'].value_counts().idxmax()
df['estado_civil'].replace(np.nan, valor_mais_frequente_estado_civil, inplace=True)
```

Essa abordagem garante que os valores ausentes sejam preenchidos de maneira representativa, isso visa manter a coesão na distribuição dos dados categóricos.