### Importar bibliotecas

In [15]:
import pandas as pd
import plotly.express as px


## 1 - Ask 

### 1.1 Entender o objetivo da análise

* 1 - Qual a correlação entre os hábitos dos estudantes e o seu desempenho? 
    * Relação entre tempo de estudo e notas. Alunos que estudam mais tiram notas melhores?
    * Relação entre tempo em redes sociais e notas. Alunos que passam mais tempo em redes sociais, tem notas melhores?
    * Relação entre exercícios, dieta e saúde mental com notas. Alunos que praticam mais atividade física, possuem dieta e cuidam da saúde mental, possuem notas melhores?

## 2 - Prepare 

### 2.1 - Importando e entendendo a base de dados 

In [16]:
df = pd.read_csv('../data/student_habits_performance.csv') #(..) pra voltar uma pasta, porque os caminhos são relativos ao local do NOTEBOOK


2.2 - Visualizando a base de dados

In [17]:
df

#df.info()  #Mostra detalhes de tipo das tabelas (importante pra visualizar as colunas numéricas)

Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,S1995,21,Female,2.6,0.5,1.6,No,77.0,7.5,Fair,2,High School,Good,6,Yes,76.1
996,S1996,17,Female,2.9,1.0,2.4,Yes,86.0,6.8,Poor,1,High School,Average,6,Yes,65.9
997,S1997,20,Male,3.0,2.6,1.3,No,61.9,6.5,Good,5,Bachelor,Good,9,Yes,64.4
998,S1998,24,Male,5.4,4.1,1.1,Yes,100.0,7.6,Fair,0,Bachelor,Average,1,No,69.7


## 3 - Process 

### 3.1 - Limpar os dados para serem utilzados na análise

Separar apenas colunas de valores **numéricos** para análise de correlação. **Correlação** só funciona com números.

No vídeo a coluna "age" não é recomendada para análise, então a removi.

In [18]:
cols = df.select_dtypes(include='number')

cols = cols.drop(columns='age')

Calcular a matriz de correlação entre todas as colunas numéricas

    corr()


In [19]:
corr = cols.corr()

## 4 - Analysis 

### 4.1 - Visualização de dados com **Plotly**

### **Gráfico heatmap**

Transforma a matriz de correlação em um **heatmap**:

    imshow()

Parâmetros importantes: 

    corr → dados que vão virar imagem
    text_auto=True → escreve os valores dentro das células
    color_continuous_scale='RdBu'
        vermelho → correlação negativa
        azul → correlação positiva
    title → título do gráfico

In [45]:
fig_1 = px.imshow(
    corr,
    text_auto=True,
    color_continuous_scale='RdBu',
    title='Matriz de correlação dos dados (Azul = positivo | Vermelho = negativo)'
    
)

fig_1.show()


### 4.2 - Relação entre **hábitos** e **desempenho**

### Relação entre **horas de estudo** e **notas**

### **Gráfico de dispersão** 

    scatter()

In [29]:
fig_2 = px.scatter(
    df,
    x = 'study_hours_per_day',
    y = 'exam_score',
    title = 'Mais estudos -> notas mais altas ?',
    labels = {
        'study_hours_per_day': 'Horas de estudo por dia',
        'exam_score': 'Nota final'
    },
)

fig_2.show()

Média de notas dos alunos que estudam 5 horas ou mais por dia, e dos que estudam 2 horas ou menos.

Calcular média

    mean()

In [22]:
filtro_estudo_alto = df["study_hours_per_day"] > 5
filtro_estudo_baixo = df["study_hours_per_day"] < 2

grupo_estudo_alto = df[filtro_estudo_alto]['exam_score']
grupo_estudo_baixo = df[filtro_estudo_baixo]['exam_score']

print('Média notas (estudam 5 horas ou mais): ', grupo_estudo_alto.mean())
print('Média notas (estudam 2 horas ou menos): ', grupo_estudo_baixo.mean())


Média notas (estudam 5 horas ou mais):  90.79419354838709
Média notas (estudam 2 horas ou menos):  45.56390977443609


### Relação entre uso de **rede sociais** e **notas**

In [23]:
fig_3 = px.histogram(
    df,
    x = 'social_media_hours',
    title = 'distribuição de tempo em redes sociais'
)

fig_3.show()

### Divisão entre intervalos de períodos gastos em redes sociais

A divisão é feita por intervalos (bins) ["0-2h", "2-4h", "4-6h", "6h+"]

Função do **Pandas** de dividir intervalos

    cut()

Parâmetros importantes:

    Coluna a ser dividia -> df['social_media_hours']

As etiquetas das caixas devem ter um número de unidades a menos que o número de divisões(bins) das caixas.

    Intervalos -> bins
    Nome dos intervalos - > label

In [24]:
df['social_media_bin'] = pd.cut(
    df['social_media_hours'],
    bins = [0, 2, 4, 6],
    labels = ["0-2h", "2-4h", "4-6h"]
)


### **Gráficos boxplot**

Relação entre tempo em redes sociais e notas

In [47]:
fig_4 = px.box(
    df,
    x = 'social_media_bin',
    y = 'exam_score',
    labels = {
        'exam_score': 'Nota final',
        'social_media_bin': 'Tempo em redes sociais'
    },
    title = 'Tempos em redes sociais X Nota'
)

fig_4.show()

Relação entre exercícios, dieta e saúde mental com notas.

In [56]:
for col in ['exercise_frequency', 'mental_health_rating', 'diet_quality']:

    if col == 'exercise_frequency':

        fig_5 = px.box(
            df,
            x = col,
            y = 'exam_score',
            labels = {
                'exam_score': 'Nota final',
                'exercise_frequency': 'Frequencia de exercício físico',
                'mental_health_rating': 'Saúde mental'
            },
            title = 'Frequência de atividade física X Notas'
        )

    elif col == 'mental_health_rating':

        fig_5 = px.box(
            df,
            x = col,
            y = 'exam_score',
            labels = {
                'exam_score': 'Nota final',
                'exercise_frequency': 'Frequencia de exercício físico',
                'mental_health_rating': 'Saúde mental'
            },
            title = 'Saúde mental X Notas'
        )

    else:

        fig_5 = px.box(
            df,
            x = col,
            y = 'exam_score',
            labels = {
                'exam_score': 'Nota final',
                'exercise_frequency': 'Frequencia de exercício físico',
                'mental_health_rating': 'Saúde mental',
                'diet_quality': 'Qualidade da dieta'
            },
            title = 'Dieta X Notas'
        )


    fig_5.show()

### Estatísticas por gêneros

Aplicar funções de agregação

    agg()
        'mean' -> média
        'std' -> desvio padrão, quanto os valores se afastam da média.

In [27]:
df.groupby(['gender'])['exam_score'].agg(['mean', 'std'])

Unnamed: 0_level_0,mean,std
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,69.741372,16.899351
Male,69.368344,17.150875
Other,70.647619,13.75589


Avaliar distribuição de gênero

In [28]:
df['gender'].value_counts()

gender
Female    481
Male      477
Other      42
Name: count, dtype: int64