# Implementação PCA e Análise Multivariada

## Preparação

### Carregamento das Bibliotecas

In [1]:
import sys
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carregamentos dos Dados

In [2]:
df = pd.read_csv("../dados/student_habits_performance.csv")


## Pré-PCA

### Variáveis Dummy

Precisamos transformar nossas variáveis categóricas, que observamos anteriormente no pré-processamento, para que seja possível aplicar a Análise de Componente Principal.

In [None]:
#Todas as Colunas presentes no dataframe
print(df.columns)

Index(['student_id', 'age', 'gender', 'study_hours_per_day',
       'social_media_hours', 'netflix_hours', 'part_time_job',
       'attendance_percentage', 'sleep_hours', 'diet_quality',
       'exercise_frequency', 'parental_education_level', 'internet_quality',
       'mental_health_rating', 'extracurricular_participation', 'exam_score'],
      dtype='object')


In [None]:
#Visualização dos primeiros elementos do dataframe
print(df.head())

  student_id  age  gender  study_hours_per_day  social_media_hours  \
0      S1000   23  Female                  0.0                 1.2   
1      S1001   20  Female                  6.9                 2.8   
2      S1002   21    Male                  1.4                 3.1   
3      S1003   23  Female                  1.0                 3.9   
4      S1004   19  Female                  5.0                 4.4   

   netflix_hours part_time_job  attendance_percentage  sleep_hours  \
0            1.1            No                   85.0          8.0   
1            2.3            No                   97.3          4.6   
2            1.3            No                   94.8          8.0   
3            1.0            No                   71.0          9.2   
4            0.5            No                   90.9          4.9   

  diet_quality  exercise_frequency parental_education_level internet_quality  \
0         Fair                   6                   Master          Average  

Agrupamos as variáveis categóricas numa lista para aplicar a função get_dummies do pandas, que tem como objetivo criar as variáveis dummy, substituindo os valores categóricos. Também garantimos que os valores substituídos sejam numéricos ao usar dtype = int

In [10]:
#o id do estudante é desconsiderado, já que não nos entrega informações relevantes
colunas_categoricas = [
    "gender",
    "part_time_job",
    "diet_quality",
    "parental_education_level",
    "internet_quality",
    "extracurricular_participation"
]


In [11]:
df_dummy = pd.get_dummies(df[colunas_categoricas], drop_first= False, dtype = int)
print(df_dummy.head())

   gender_Female  gender_Male  gender_Other  part_time_job_No  \
0              1            0             0                 1   
1              1            0             0                 1   
2              0            1             0                 1   
3              1            0             0                 1   
4              1            0             0                 1   

   part_time_job_Yes  diet_quality_Fair  diet_quality_Good  diet_quality_Poor  \
0                  0                  1                  0                  0   
1                  0                  0                  1                  0   
2                  0                  0                  0                  1   
3                  0                  0                  0                  1   
4                  0                  1                  0                  0   

   parental_education_level_Bachelor  parental_education_level_High School  \
0                                  0        

Com os valores substituídos por 0s e 1s em variáveis mais específicas, juntamos os valores numéricos e categóricos novamente ao dataframe.

In [13]:
colunas_numericas = [
    "age",
    "study_hours_per_day",
    "social_media_hours",
    "netflix_hours",
    "attendance_percentage",
    "sleep_hours",
    "exercise_frequency",
    "mental_health_rating",
    "exam_score"
]

In [16]:
df_final = pd.concat([df[colunas_numericas], df_dummy], axis = 1) # axis = 1 para agrupar por coluna
print(df_final.head())

   age  study_hours_per_day  social_media_hours  netflix_hours  \
0   23                  0.0                 1.2            1.1   
1   20                  6.9                 2.8            2.3   
2   21                  1.4                 3.1            1.3   
3   23                  1.0                 3.9            1.0   
4   19                  5.0                 4.4            0.5   

   attendance_percentage  sleep_hours  exercise_frequency  \
0                   85.0          8.0                   6   
1                   97.3          4.6                   6   
2                   94.8          8.0                   1   
3                   71.0          9.2                   4   
4                   90.9          4.9                   3   

   mental_health_rating  exam_score  gender_Female  ...  diet_quality_Good  \
0                     8        56.2              1  ...                  0   
1                     8       100.0              1  ...                  1   
2 