# **Análise Exploratória: Relações entre Música e Saúde Mental**

<p align="center">
   <b><font size='5'>Work in Progress 🛠️</b>
</p>

# Objetivos da Análise:

> Nesse projeto, irei realizar uma análise exploratória de um [Dataset](https://www.kaggle.com/datasets/catherinerasgaitis/mxmh-survey-results) que contém dados de uma pesquisa relacionada a "Music Therapy", onde se buscou compreender quais as correlações (se existirem) entre gêneros musicais preferidos pelos participantes e sua saúde mental.
> 
> Em mais detalhes, pretendo concluir essa análise seguindo alguns passos:
> - Checar as características gerais dos dados, como formato, tipo dos dados, quantidade de valores nulos e outliers (se existirem), etc;
> - Realizar a limpeza e tratamento necessários dos dados;
> - Utilizar de visualizações gráficas para gerar insights acerca dos dados;
>     - Para as visualizações, o foco desse projeto é aprimorar meus conhecimentos e aplicações principalmente da biblioteca Seaborn, porém Matplotlib também será utilizado em conjunto para modificações gráficas.
>
> Após a etapa de limpeza serão definidas algumas questões e propostas de análise, que irão ser abordadas na etapa de visualização.

## Importando Pacotes e Conhecendo o Dataset

In [71]:
# Importando as bibliotecas que serão utilizadas para a realização dos trabalhos:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Definindo parâmetros de tamanho das figuras do Seaborn:
sns.set(rc={'figure.figsize':(12,8)})

print('Pacotes prontos!')

Pacotes prontos!


In [72]:
# Criando Dataframe:
data = pd.read_csv('data/mxmh_survey_results.csv')

In [73]:
# Sample dos primeiros 5 registros:
data.head()

Unnamed: 0,Timestamp,Age,Primary streaming service,Hours per day,While working,Instrumentalist,Composer,Fav genre,Exploratory,Foreign languages,...,Frequency [R&B],Frequency [Rap],Frequency [Rock],Frequency [Video game music],Anxiety,Depression,Insomnia,OCD,Music effects,Permissions
0,8/27/2022 19:29:02,18.0,Spotify,3.0,Yes,Yes,Yes,Latin,Yes,Yes,...,Sometimes,Very frequently,Never,Sometimes,3.0,0.0,1.0,0.0,,I understand.
1,8/27/2022 19:57:31,63.0,Pandora,1.5,Yes,No,No,Rock,Yes,No,...,Sometimes,Rarely,Very frequently,Rarely,7.0,2.0,2.0,1.0,,I understand.
2,8/27/2022 21:28:18,18.0,Spotify,4.0,No,No,No,Video game music,No,Yes,...,Never,Rarely,Rarely,Very frequently,7.0,7.0,10.0,2.0,No effect,I understand.
3,8/27/2022 21:40:40,61.0,YouTube Music,2.5,Yes,No,Yes,Jazz,Yes,Yes,...,Sometimes,Never,Never,Never,9.0,7.0,3.0,3.0,Improve,I understand.
4,8/27/2022 21:54:47,18.0,Spotify,4.0,Yes,No,No,R&B,Yes,No,...,Very frequently,Very frequently,Never,Rarely,7.0,2.0,5.0,9.0,Improve,I understand.


In [74]:
# Sample aleatória:
data.sample(5)

Unnamed: 0,Timestamp,Age,Primary streaming service,Hours per day,While working,Instrumentalist,Composer,Fav genre,Exploratory,Foreign languages,...,Frequency [R&B],Frequency [Rap],Frequency [Rock],Frequency [Video game music],Anxiety,Depression,Insomnia,OCD,Music effects,Permissions
308,8/29/2022 4:10:25,26.0,Spotify,4.0,Yes,No,No,Pop,Yes,Yes,...,Rarely,Rarely,Very frequently,Rarely,8.0,7.0,2.0,10.0,No effect,I understand.
627,9/12/2022 15:07:48,21.0,I do not use a streaming service.,1.0,Yes,Yes,No,Classical,No,No,...,Never,Never,Never,Rarely,3.0,0.0,0.0,5.0,Improve,I understand.
14,8/27/2022 23:16:06,18.0,Spotify,4.0,Yes,Yes,No,Jazz,Yes,Yes,...,Never,Never,Sometimes,Rarely,6.0,4.0,7.0,0.0,Improve,I understand.
253,8/28/2022 23:50:25,22.0,Spotify,3.0,Yes,No,No,Hip hop,Yes,Yes,...,Sometimes,Very frequently,Sometimes,Rarely,6.0,6.0,8.0,0.0,Improve,I understand.
386,8/29/2022 18:09:17,17.0,Other streaming service,0.0,No,No,No,Video game music,No,Yes,...,Never,Never,Never,Very frequently,10.0,0.0,0.0,0.0,No effect,I understand.


## Características dos Dados

In [85]:
# Checando nomes das colunas do Dataset:
data.columns

Index(['Timestamp', 'Age', 'Primary streaming service', 'Hours per day',
       'While working', 'Instrumentalist', 'Composer', 'Fav genre',
       'Exploratory', 'Foreign languages', 'BPM', 'Frequency [Classical]',
       'Frequency [Country]', 'Frequency [EDM]', 'Frequency [Folk]',
       'Frequency [Gospel]', 'Frequency [Hip hop]', 'Frequency [Jazz]',
       'Frequency [K pop]', 'Frequency [Latin]', 'Frequency [Lofi]',
       'Frequency [Metal]', 'Frequency [Pop]', 'Frequency [R&B]',
       'Frequency [Rap]', 'Frequency [Rock]', 'Frequency [Video game music]',
       'Anxiety', 'Depression', 'Insomnia', 'OCD', 'Music effects',
       'Permissions'],
      dtype='object')

Para poder termos uma compreensão clara de todas as variáveis presentes no Dataset, realizaremos uma definição de cada uma a seguir.
- As definições das variáveis foram retiradas diretamente da página do Kaggle onde foram coletados os dados.

| <p align='center'>**Variável**</p>| <p align='center'>**Conteúdo**</p>                                                  |
|-----------------------------------|-------------------------------------------------------------------------------------|
| *`Timestamp`*                     | Data e Hora de quando a pesquisa foi respondida pelo participante.                  |
| *`Age`*                           | Idade do participante.                                                              |
| *`Primary Streaming Service`*     | Qual o aplicativo de música principal que o participante utiliza.                   |
| *`Hours per Day`*                 | Número de horas que o participante escuta de música por dia.                        |
| *`While Working`*                 | O participante escuta música enquanto trabalha?                                     |
| *`Instrumentalist`*               | O participante toca algum instrumento musical regularmente?                         |
| *`Composer`*                      | O participante é compositor de música?                                              |
| *`Fav Genre`*                     | Gênero musical favorito/mais escutado do participante.                              |
| *`Exploratory`*                   | O participante ativamente busca conhecer gêneros diferentes de música?              |
| *`Foreign Languages`*             | O participante regularmente escuta músicas em línguas na qual não possuí fluência?  |
| *`BPM`*                           | "Beats per Minute" (tempo) do gênero musical favorito do participante.              |
| *`Frequency [Classical]`*         | Quão frequentemente o participante escuta música Clásica.                           |
| *`Frequency [Country]`*           | Quão frequentemente o participante escuta música Country.                           |
| *`Frequency [EDM]`*               | Quão frequentemente o participante escuta música EDM.                               |
| *`Frequency [Folk]`*              | Quão frequentemente o participante escuta música folk.                              |
| *`Frequency [Gospel]`*            | Quão frequentemente o participante escuta música Gospel.                            |
| *`Frequency [Hip Hop]`*           | Quão frequentemente o participante escuta Hip Hop.                                  |
| *`Frequency [Jazz]`*              | Quão frequentemente o participante escuta Jazz.                                     |
| *`Frequency [K Pop]`*             | Quão frequentemente o participante escuta K Pop.                                    |
| *`Frequency [Latin]`*             | Quão frequentemente o participante escuta música Latina.                            |
| *`Frequency [Lofi]`*              | Quão frequentemente o participante escuta Lofi.                                     |
| *`Frequency [Metal]`*             | Quão frequentemente o participante escuta Metal.                                    |
| *`Frequency [Pop]`*               | Quão frequentemente o participante escuta música Pop.                               |
| *`Frequency [R&B]`*               | Quão frequentemente o participante escuta R&B (Rhythm and Blues).                   |
| *`Frequency [Rap]`*               | Quão frequentemente o participante escuta Rap.                                      |
| *`Frequency [Rock]`*              | Quão frequentemente o participante escuta Rock.                                     |
| *`Frequency [Video Game Music]`*  | Quão frequentemente o participante escuta músicas de Video Game.                    |
| *`Anxiety`*                       | Nível de ansiedade (classificada de 0-10) reportado pelo participante.              |
| *`Drepession`*                    | Nível de depressão (classificada de 0-10) reportado pelo participante.              |
| *`Insomnia`*                      | Nível de insônia (classificada de 0-10) reportado pelo participante.                |
| *`OCD`*                           | Nível de OCD (TOC) (classificada de 0-10) reportado pelo participante.              |
| *`Music Effects`*                 | Música melhoram ou pioram a saúde mental do participante?                           |
| *`Permissions`*                   | Permissões concedidas pelos participantes para a publicação dos dados.              |

In [75]:
# Shape:
data.shape

(736, 33)

O Dataset contém **736 registros** em **33 variáveis** diferentes.

In [78]:
# Dividindo as colunas em duas variáveis para facilitar a visualização
# utilizando o comando .info() a seguir:
columns_1 = [
    'Timestamp', 'Age', 'Primary streaming service', 'Hours per day',
    'While working', 'Instrumentalist', 'Composer', 'Fav genre',
    'Exploratory', 'Foreign languages', 'BPM', 'Frequency [Classical]',
    'Frequency [Country]', 'Frequency [EDM]', 'Frequency [Folk]',
    'Frequency [Gospel]', 'Frequency [Hip hop]'
    ]

columns_2 = [
    'Frequency [Jazz]', 'Frequency [K pop]', 'Frequency [Latin]', 'Frequency [Lofi]',
    'Frequency [Metal]', 'Frequency [Pop]', 'Frequency [R&B]',
    'Frequency [Rap]', 'Frequency [Rock]', 'Frequency [Video game music]',
    'Anxiety', 'Depression', 'Insomnia', 'OCD', 'Music effects', 'Permissions'
    ]

In [79]:
# Visualizando informações das primeiras 17 colunas:
data[columns_1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 736 entries, 0 to 735
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Timestamp                  736 non-null    object 
 1   Age                        735 non-null    float64
 2   Primary streaming service  735 non-null    object 
 3   Hours per day              736 non-null    float64
 4   While working              733 non-null    object 
 5   Instrumentalist            732 non-null    object 
 6   Composer                   735 non-null    object 
 7   Fav genre                  736 non-null    object 
 8   Exploratory                736 non-null    object 
 9   Foreign languages          732 non-null    object 
 10  BPM                        629 non-null    float64
 11  Frequency [Classical]      736 non-null    object 
 12  Frequency [Country]        736 non-null    object 
 13  Frequency [EDM]            736 non-null    object 

In [80]:
# Informações das últimas 16 colunas:
data[columns_2].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 736 entries, 0 to 735
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Frequency [Jazz]              736 non-null    object 
 1   Frequency [K pop]             736 non-null    object 
 2   Frequency [Latin]             736 non-null    object 
 3   Frequency [Lofi]              736 non-null    object 
 4   Frequency [Metal]             736 non-null    object 
 5   Frequency [Pop]               736 non-null    object 
 6   Frequency [R&B]               736 non-null    object 
 7   Frequency [Rap]               736 non-null    object 
 8   Frequency [Rock]              736 non-null    object 
 9   Frequency [Video game music]  736 non-null    object 
 10  Anxiety                       736 non-null    float64
 11  Depression                    736 non-null    float64
 12  Insomnia                      736 non-null    float64
 13  OCD  

**Primeiras 17 colunas (columns_1):**

> Sobre Nulos:
> - Algumas colunas possuem poucos valores faltantes;
>    
> - Coluna `BPM` é a que possuí mais valores nulos.
>
> Sobre Data Types:
> - Coluna `Timestamp` não está em um formato adequado. Além disso, ela não será relevante para as análises.
>
> - Coluna `Age` não tem motivo para estar em float. Será transformada em int;
> 
> - Coluna `BPM` está em float sendo que músicas são produzidas utilizando BPM's inteiros;

**Últimas 16 colunas (columns_2):**

> Sobre Nulos:
> - Apenas a coluna `Music effects` possui valores nulos.
>
> Sobre Data types:
> - As colunas `Anxiety`, `Depression`, `Insomnia` e `OCD` estão em float. Adiante irei checá-las em busca de valores float, não os encontrando, passarei todas para int;
>
> - A coluna `Permissions` não tem relevância para as análises que serão realizadas.

In [81]:
# Checando se existem valores float nas colunas mencionadas acima:
tables = {
    'Anxiety': list(data['Anxiety'].unique()),
    'Depression': list(data['Depression'].unique()),
    'Insomnia': list(data['Insomnia'].unique()),
    'OCD': list(data['OCD'].unique())
}

print('-='*50)
for column, values in tables.items():
    print(f'{column:11} --> {values}')
print('-='*50)

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Anxiety     --> [3.0, 7.0, 9.0, 8.0, 4.0, 5.0, 2.0, 1.0, 6.0, 10.0, 0.0, 7.5]
Depression  --> [0.0, 2.0, 7.0, 8.0, 3.0, 1.0, 4.0, 5.0, 9.0, 10.0, 6.0, 3.5]
Insomnia    --> [1.0, 2.0, 10.0, 3.0, 5.0, 7.0, 6.0, 0.0, 4.0, 8.0, 9.0, 3.5]
OCD         --> [0.0, 1.0, 2.0, 3.0, 9.0, 7.0, 4.0, 6.0, 10.0, 5.0, 8.0, 8.5, 5.5]
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=


Como existem valores float, não iremos alterar os Data Types dessas colunas. No entanto, iremos realizar uma categorização desses valores para facilitar as análises posteriores. Por exemplo:

- De valor X até valor Y: Condição Leve
- De valor X2 até valor Y2: Condição Moderada
- De valor X3 até valor Y3: Condição Grave

Esse processo será realizado na etapa de limpeza e tratamento dos dados.

In [90]:
# Usando método describe nas colunas numéricas:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,735.0,25.2068,12.05497,10.0,18.0,21.0,28.0,89.0
Hours per day,736.0,3.572758,3.028199,0.0,2.0,3.0,5.0,24.0
BPM,629.0,1589948.0,39872610.0,0.0,100.0,120.0,144.0,999999999.0
Anxiety,736.0,5.837636,2.793054,0.0,4.0,6.0,8.0,10.0
Depression,736.0,4.796196,3.02887,0.0,2.0,5.0,7.0,10.0
Insomnia,736.0,3.738451,3.088689,0.0,1.0,3.0,6.0,10.0
OCD,736.0,2.637228,2.842017,0.0,0.0,2.0,5.0,10.0
