# Sobre o projeto
- O projeto em questão pega um dataset do kaggle sobre desempenho de alunos x hábitos
- Durante o projeto existem bastante comentários, isso serviu para documentar a lógica por trás e explicar alunos sobre as diferentes funcionalidades das bibliotecas, além de servir como guia para uma forma limpa e correta de trabalhar com os dados.
- São usadas as seguintes bibliotecas nesse projeto:
  1. Pandas
  2. Numpy
  3. Matplotlib
  4. Seaborn
  5. Scikit-learn

## Importação das bibliotecas

In [1]:
import pandas as pd
import numpy as np

## Extração do arquivo

In [2]:
# Primeiro extraímos o arquivo, com o read_csv é possível evitar um retrabalho futuro.
# A ideia principal que você tem que ter em mente é que o read_csv vai ser seu maior aliado em datasets
# que você carrega periodicamente (automações principalmente) junto com outras libs como Pandera e Pytest.

# Parametros úteis do read_csv:
#   path -> str -> caminho do arquivo
#   encoding -> str -> qual é o encoding do arquivo (UTF-8 ou algum outro)
#   sep -> str -> separador das colunas do arquivo (normalmente é ; ou ,)
#   decimal -> str -> define qual será o separador decimal (pro Brasil normalmente é a vírgula)
#   thousands -> str -> define o separador de milhar (mesma lógica do decimal)
#   index_col -> str -> qual coluna será usada de índice
#   header -> int -> qual linha contém o cabeçalho (nome das colunas, geralmente = 0)  
#   usecols -> list[str] -> lista com as colunas que serão carregadas
#   na_values -> list[] -> lista com o que será considerado NA

# Tem que tomar um certo cuidado com os parâmetros porque imagina ter um erro logo no início da sua análise
# porque você não sabia que, por exemplo, o encoding é X e não Y. Futuramente vou mostrar como resolver isso.
df = pd.read_csv('student_habits_performance.csv')
df.head(5)

Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4


# Informações do dataset com o df.info() e mais

In [3]:
# o df.info() = df.shape + df.index + df.count() ou df.notnull().sum() + df.columns + df.dtypes + df.memory_usage()
df.info(memory_usage="deep")
# Total de 1000 registros, 16 colunas, memória usada 435.0 KB
# Valores nulos presentes somente em parental_education_level

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   student_id                     1000 non-null   object 
 1   age                            1000 non-null   int64  
 2   gender                         1000 non-null   object 
 3   study_hours_per_day            1000 non-null   float64
 4   social_media_hours             1000 non-null   float64
 5   netflix_hours                  1000 non-null   float64
 6   part_time_job                  1000 non-null   object 
 7   attendance_percentage          1000 non-null   float64
 8   sleep_hours                    1000 non-null   float64
 9   diet_quality                   1000 non-null   object 
 10  exercise_frequency             1000 non-null   int64  
 11  parental_education_level       909 non-null    object 
 12  internet_quality               1000 non-null   ob

Agora iremos ver como realmente o df.info() faz as mesmas coisas que os seus componentes:

In [4]:
# Retorna o número de linhas e de colunas
df.shape

(1000, 16)

In [5]:
# Retorna um range do index, nesse caso mostra que nosso índice começa em 0 e vai até 1000 de 1 em 1
df.index

RangeIndex(start=0, stop=1000, step=1)

In [6]:
#Lista com nome das colunas
df.columns 

Index(['student_id', 'age', 'gender', 'study_hours_per_day',
       'social_media_hours', 'netflix_hours', 'part_time_job',
       'attendance_percentage', 'sleep_hours', 'diet_quality',
       'exercise_frequency', 'parental_education_level', 'internet_quality',
       'mental_health_rating', 'extracurricular_participation', 'exam_score'],
      dtype='object')

In [7]:
# Faz uma contagem dos não nulos
df.count()

student_id                       1000
age                              1000
gender                           1000
study_hours_per_day              1000
social_media_hours               1000
netflix_hours                    1000
part_time_job                    1000
attendance_percentage            1000
sleep_hours                      1000
diet_quality                     1000
exercise_frequency               1000
parental_education_level          909
internet_quality                 1000
mental_health_rating             1000
extracurricular_participation    1000
exam_score                       1000
dtype: int64

In [8]:
# Outra forma de pegar os não nulos
df.notnull().sum()

student_id                       1000
age                              1000
gender                           1000
study_hours_per_day              1000
social_media_hours               1000
netflix_hours                    1000
part_time_job                    1000
attendance_percentage            1000
sleep_hours                      1000
diet_quality                     1000
exercise_frequency               1000
parental_education_level          909
internet_quality                 1000
mental_health_rating             1000
extracurricular_participation    1000
exam_score                       1000
dtype: int64

In [9]:
# Tipos das colunas
df.dtypes

student_id                        object
age                                int64
gender                            object
study_hours_per_day              float64
social_media_hours               float64
netflix_hours                    float64
part_time_job                     object
attendance_percentage            float64
sleep_hours                      float64
diet_quality                      object
exercise_frequency                 int64
parental_education_level          object
internet_quality                  object
mental_health_rating               int64
extracurricular_participation     object
exam_score                       float64
dtype: object

In [10]:
# Quanto de memória é ocupada por cada coluna em bytes
df.memory_usage()

Index                             132
student_id                       8000
age                              8000
gender                           8000
study_hours_per_day              8000
social_media_hours               8000
netflix_hours                    8000
part_time_job                    8000
attendance_percentage            8000
sleep_hours                      8000
diet_quality                     8000
exercise_frequency               8000
parental_education_level         8000
internet_quality                 8000
mental_health_rating             8000
extracurricular_participation    8000
exam_score                       8000
dtype: int64

In [11]:
df.memory_usage(index=False,deep=True)
# O parametro deep calcula de forma precisa quanto que as colunas do tipo object estão ocupando na memória

student_id                       54000
age                               8000
gender                           54004
study_hours_per_day               8000
social_media_hours                8000
netflix_hours                     8000
part_time_job                    51215
attendance_percentage             8000
sleep_hours                       8000
diet_quality                     53000
exercise_frequency                8000
parental_education_level         55567
internet_quality                 54173
mental_health_rating              8000
extracurricular_participation    51318
exam_score                        8000
dtype: int64

# Analisando nossas variáveis

Entender como nossas variáveis estão distribuídas é uma das principais partes de uma análise exploratória.
Ela se divide em duas outras partes: analisar variáveis numéricas e variáveis categóricas.

## Análise das variáveis numéricas

Só com o describe com parametro include all a gente já consegue tirar bastante informação:
1. Idade
- Média de idade é entre 20 e 21 anos e o desvio-padrão é de 2.3 o que sugere idades bem distribuídas em torno da média.
- Idade máxima é 24 anos e mínima 17.
2. Gênero
- Temos 3 categorias em gênero, sendo a mais usada "Female" com 481 de 1000
3. Horas de estudo por dia
- Média de 3.55 horas de estudo por dia, com desvio padrão de 1.46, o que indica pessoas que rendem mais e outras bem menos.
- Máximo de 8.3 horas de estudo e mínimo de 0 e olhando pelos quartis vemos que 75% está abaixo de 4.5 de estudo
4. Horas de uso em mídia social
- Média de 2.5 horas por dia
- Desvio padrão de 1.17 o que sugere que valores podem não estar bem distribuídos em torno da média.
- terceiro quartil com valor de 3.3 e máximo de 7.20 podem significar excesso de valores abaixo da média.
5. Horas de Netflix
- Média de 1.8 e desvio padrão de 1.0 novamente mostrando valores não tão bem distribuídos.
- Máximo de 5.4
6. Trabalho de meio período
- Maior frequência de estudantes que não trabalham tendo quase 80% de ocorrência
7. Porcentagem de presença em aulas
- Média em 84% com desvio padrão de 9.4%
8. Horas de sono
- Média de 6.47 com desvio padrão de 1.22 de qualquer forma pode significar sono abaixo da média ideal
9. Qualidade de dieta
- Valor mais frequente é "Fair" com quase 45%
10. Frequência de exercícios
- Média de 3.04 horas
11. Nível de educação dos pais
- Valor mais frequente foi "Ensino Médio" com 392 ocorrências, quase 40% do total
12. Qualidade de internet
- Valor mais frequente foi "Boa" com quase 45% do total
13. Avaliação de saúde mental
- Média de 5.43 com desvio padrão de quase 3 pode nos mostrar alta variabilidade dessa variável.
- Metade dos estudantes está abaixo de 5
14. Participação Extracurricular
- Quase 70% dos estudantes não possuem participação extracurricular.
15. Notas de prova
- Média de 70 com desvio de 17
- Metade dos alunos ficaram abaixo da média e 75% abaixo de 81

In [12]:
# O describe é o método que nos dá uma estatística descritiva das colunas, por padrão ele não carrega colunas que não são numéricas
# Pra isso ocorrer é necessário o parâmetro include="all" ou o tipo da coluna que se quer como include=["int64","int32"]
df.describe(include="all")

Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
count,1000,1000.0,1000,1000.0,1000.0,1000.0,1000,1000.0,1000.0,1000,1000.0,909,1000,1000.0,1000,1000.0
unique,1000,,3,,,,2,,,3,,3,3,,2,
top,S1000,,Female,,,,No,,,Fair,,High School,Good,,No,
freq,1,,481,,,,785,,,437,,392,447,,682,
mean,,20.498,,3.5501,2.5055,1.8197,,84.1317,6.4701,,3.042,,,5.438,,69.6015
std,,2.3081,,1.46889,1.172422,1.075118,,9.399246,1.226377,,2.025423,,,2.847501,,16.888564
min,,17.0,,0.0,0.0,0.0,,56.0,3.2,,0.0,,,1.0,,18.4
25%,,18.75,,2.6,1.7,1.0,,78.0,5.6,,1.0,,,3.0,,58.475
50%,,20.0,,3.5,2.5,1.8,,84.4,6.5,,3.0,,,5.0,,70.5
75%,,23.0,,4.5,3.3,2.525,,91.025,7.3,,5.0,,,8.0,,81.325


In [13]:
custom_stats = df.agg({
    'age': ['mean', 'std', 'min', 'max', 'median'],
    'study_hours_per_day': ['mean', 'std', 'min', 'max', 'median'],
    'social_media_hours': ['mean', 'std', 'min', 'max', 'median'],
    'netflix_hours': ['mean', 'std', 'min', 'max', 'median']
})

custom_stats.T

Unnamed: 0,mean,std,min,max,median
age,20.498,2.3081,17.0,24.0,20.0
study_hours_per_day,3.5501,1.46889,0.0,8.3,3.5
social_media_hours,2.5055,1.172422,0.0,7.2,2.5
netflix_hours,1.8197,1.075118,0.0,5.4,1.8


## Analisando as variáveis categóricas

### Separando as categóricas das demais colunas com df.select_dtypes()

In [14]:
# Uma forma da gente realizar uma análise bem feita é separando nossas variáveis em categóricas
# Para fazer isso sem precisar digitar cada nome de coluna fazemos uso do df.select_dtypes
categ_df = df.select_dtypes(include=['object', 'category', 'bool'])
# Como não vamos precisar do student_id
categ_df.drop(columns="student_id", inplace=True)
categ_df

Unnamed: 0,gender,part_time_job,diet_quality,parental_education_level,internet_quality,extracurricular_participation
0,Female,No,Fair,Master,Average,Yes
1,Female,No,Good,High School,Average,No
2,Male,No,Poor,High School,Poor,No
3,Female,No,Poor,Master,Good,Yes
4,Female,No,Fair,Master,Good,No
...,...,...,...,...,...,...
995,Female,No,Fair,High School,Good,Yes
996,Female,Yes,Poor,High School,Average,Yes
997,Male,No,Good,Bachelor,Good,Yes
998,Male,Yes,Fair,Bachelor,Average,No


Ok, agora temos um df apenas com nossas colunas categóricas, podemos começar a realizar uma análise em como são os valores da coluna e como estão distribuídos.

### Descobrindo quantos valores únicos temos em cada coluna com unique e nunique

In [15]:
# Para isso vamos usar métodos como unique() e nunique() que retornam os valores únicos e a contagem respectivamente
gender = categ_df["gender"].unique() # Saída: array(['Female', 'Male', 'Other'], dtype=object)
ptjob = categ_df["part_time_job"].unique()
dietqual = categ_df["diet_quality"].unique()
parenteduc = categ_df["parental_education_level"].unique()
internetqual = categ_df["internet_quality"].unique()
extracurr = categ_df["extracurricular_participation"].unique()

df_uniq_values = pd.DataFrame({
    "colunas": categ_df.columns, 
    "valores unicos": [ gender, ptjob, dietqual, parenteduc, internetqual, extracurr]
        })

df_uniq_values

Unnamed: 0,colunas,valores unicos
0,gender,"[Female, Male, Other]"
1,part_time_job,"[No, Yes]"
2,diet_quality,"[Fair, Good, Poor]"
3,parental_education_level,"[Master, High School, Bachelor, nan]"
4,internet_quality,"[Average, Poor, Good]"
5,extracurricular_participation,"[Yes, No]"


In [16]:
# Contagem de valores únicos por coluna
# Isso aqui é EXTREMAMENTE ÚTIL pra gente sabe o porquê?
# Na etapa de TRANSFORMAÇÃO é com isso que decidimos se será categorical ou não!
# Colunas categóricas só são viáveis se possuem poucos valores únicos, do contrário, melhor manter como object
categ_df.nunique()

gender                           3
part_time_job                    2
diet_quality                     3
parental_education_level         3
internet_quality                 3
extracurricular_participation    2
dtype: int64

In [17]:
# Porcentagem de cada valor na coluna gender / gênero
(df.gender.value_counts() / df.gender.count() * 100).to_frame().reset_index()

Unnamed: 0,gender,count
0,Female,48.1
1,Male,47.7
2,Other,4.2


In [18]:
# Porcentagem de cada valor na coluna part_time_job / trabalho de meio período
(df.part_time_job.value_counts() / df.part_time_job.count() * 100).to_frame().reset_index()

Unnamed: 0,part_time_job,count
0,No,78.5
1,Yes,21.5


In [19]:
# Porcentagem de cada valor na coluna diet_quality / qualidade da dieta
(df.diet_quality.value_counts() / df.diet_quality.count() * 100).to_frame().T

diet_quality,Fair,Good,Poor
count,43.7,37.8,18.5


In [20]:
# Porcentagem de cada valor na coluna parental_education_level / escolaridade dos pais
# Lembra que a gente viu que essa era a única coluna com valores NaN? Para ver é só aplicar dropna=False
(df.parental_education_level.value_counts(dropna=False) / df.parental_education_level.count() * 100).to_frame().T

parental_education_level,High School,Bachelor,Master,NaN
count,43.124312,38.50385,18.371837,10.011001


In [21]:
# Porcentagem de cada valor na coluna internet_quality / qualidade da internet
(df.internet_quality.value_counts() / df.internet_quality.count() * 100).to_frame()

Unnamed: 0_level_0,count
internet_quality,Unnamed: 1_level_1
Good,44.7
Average,39.1
Poor,16.2


In [22]:
# Porcentagem de cada valor na coluna internet_quality / qualidade da internet
(df["extracurricular_participation"].value_counts() / df["extracurricular_participation"].count() * 100).to_frame().T

extracurricular_participation,No,Yes
count,68.2,31.8


# Transformação

Essa é uma das etapas mais importantes de uma análise / fluxo de trabalho quando trabalhamos com dados.
Ela consiste basicamente em utilizar nossas informações e regras de negócio para adaptar nosso dataset.

### Deixando nossas colunas mais informativas com o df.rename()

Vou mostrar pra você agora como fazer para renomear colunas, vou mostrar duas formas de fazer isso: uma forma simples e outra otimizada.

In [23]:
# Renomeando colunas de forma simples
df_exemplo = df.copy()
# O rename renomeia as colunas de forma temporária por padrão, para fazer permanentemente isso é necessário inplace=True
df_exemplo.rename(columns={"age" : "idade", "part_time_job":"trabalha_meio_periodo"}, inplace=True)
df_exemplo

Unnamed: 0,student_id,idade,gender,study_hours_per_day,social_media_hours,netflix_hours,trabalha_meio_periodo,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,S1995,21,Female,2.6,0.5,1.6,No,77.0,7.5,Fair,2,High School,Good,6,Yes,76.1
996,S1996,17,Female,2.9,1.0,2.4,Yes,86.0,6.8,Poor,1,High School,Average,6,Yes,65.9
997,S1997,20,Male,3.0,2.6,1.3,No,61.9,6.5,Good,5,Bachelor,Good,9,Yes,64.4
998,S1998,24,Male,5.4,4.1,1.1,Yes,100.0,7.6,Fair,0,Bachelor,Average,1,No,69.7


In [24]:
# Agora de uma forma mais otimizada: utilizando um dicionário
novos_nomes = ["id","idade",
               "genero",
               "horas_estudo_pdia",
               "horas_redessoc_pdia",
               "horas_netflix_pdia",
               "trabalha_meio_periodo",
               "porcentagem_frequencia", 
               "horas_sono_pdia", 
               "qualidade_dieta",
               "frequencia_exercicio",
              "escolaridade_dos_pais",
              "qualidade_internet",
              "classificacao_saude_mental",
              "participacao_extracurricular",
              "notas_prova"]
new_names_dict = dict(zip(df_exemplo.columns , novos_nomes))
df_exemplo.rename(columns=new_names_dict, inplace=True)
df_exemplo


Unnamed: 0,id,idade,genero,horas_estudo_pdia,horas_redessoc_pdia,horas_netflix_pdia,trabalha_meio_periodo,porcentagem_frequencia,horas_sono_pdia,qualidade_dieta,frequencia_exercicio,escolaridade_dos_pais,qualidade_internet,classificacao_saude_mental,participacao_extracurricular,notas_prova
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,S1995,21,Female,2.6,0.5,1.6,No,77.0,7.5,Fair,2,High School,Good,6,Yes,76.1
996,S1996,17,Female,2.9,1.0,2.4,Yes,86.0,6.8,Poor,1,High School,Average,6,Yes,65.9
997,S1997,20,Male,3.0,2.6,1.3,No,61.9,6.5,Good,5,Bachelor,Good,9,Yes,64.4
998,S1998,24,Male,5.4,4.1,1.1,Yes,100.0,7.6,Fair,0,Bachelor,Average,1,No,69.7


### Fazendo substituição de valores nas colunas df.replace()

Muitas das vezes nossos valores podem conter erros, problemas de gramática e etc. As técnicas de substituição servem justamente para poder lidar com isso. Já que não queremos perder nossos dados por um simples erro ortográfico.

In [25]:
# Podemos fazer isso com apenas uma coluna
df_exemplo["genero"].replace(to_replace=["Male","Female"], value= ["M","F"])

# Outras formas de fazer isso em uma linha, mas é "depracated" então não é recomendado
df_exemplo["trabalha_meio_periodo"].replace(["Yes","No"],[True,False])
df_exemplo["trabalha_meio_periodo"].replace({"No": False, "Yes": True})

  df_exemplo["trabalha_meio_periodo"].replace(["Yes","No"],[True,False])
  df_exemplo["trabalha_meio_periodo"].replace({"No": False, "Yes": True})


0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996     True
997    False
998     True
999    False
Name: trabalha_meio_periodo, Length: 1000, dtype: bool

In [26]:
# O ideal é se caso você for fazer múltiplos replaces você cria um dict dentro do replace
df_exemplo.replace({
    "genero" : {"Male":"M", "Female":"F"},
    "trabalha_meio_periodo": {"Yes":True,"No":False},
    "qualidade_dieta": {"Poor":"Baixa","Good":"Boa","Fair":"Razoavel"},
    "escolaridade_dos_pais": {"Master":"Mestrado", "Bachelor":"Bacharelado", "High School":"Ensino medio"},
    "qualidade_internet": {"Poor":"Baixa","Good":"Boa","Average":"Mediana"},
    "participacao_extracurricular": {"Yes":True,"No":False}
}, inplace=True)

  df_exemplo.replace({


In [27]:
df_exemplo

Unnamed: 0,id,idade,genero,horas_estudo_pdia,horas_redessoc_pdia,horas_netflix_pdia,trabalha_meio_periodo,porcentagem_frequencia,horas_sono_pdia,qualidade_dieta,frequencia_exercicio,escolaridade_dos_pais,qualidade_internet,classificacao_saude_mental,participacao_extracurricular,notas_prova
0,S1000,23,F,0.0,1.2,1.1,False,85.0,8.0,Razoavel,6,Mestrado,Mediana,8,True,56.2
1,S1001,20,F,6.9,2.8,2.3,False,97.3,4.6,Boa,6,Ensino medio,Mediana,8,False,100.0
2,S1002,21,M,1.4,3.1,1.3,False,94.8,8.0,Baixa,1,Ensino medio,Baixa,1,False,34.3
3,S1003,23,F,1.0,3.9,1.0,False,71.0,9.2,Baixa,4,Mestrado,Boa,1,True,26.8
4,S1004,19,F,5.0,4.4,0.5,False,90.9,4.9,Razoavel,3,Mestrado,Boa,1,False,66.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,S1995,21,F,2.6,0.5,1.6,False,77.0,7.5,Razoavel,2,Ensino medio,Boa,6,True,76.1
996,S1996,17,F,2.9,1.0,2.4,True,86.0,6.8,Baixa,1,Ensino medio,Mediana,6,True,65.9
997,S1997,20,M,3.0,2.6,1.3,False,61.9,6.5,Boa,5,Bacharelado,Boa,9,True,64.4
998,S1998,24,M,5.4,4.1,1.1,True,100.0,7.6,Razoavel,0,Bacharelado,Mediana,1,False,69.7


## Lidando com valores ausentes e NaN

Muitas das vezes nossos datasets estão repletos de erros e colunas com valores ausentes. Vamos entender como podemos identificar esses valores e tratá-los da forma mais adequada que a situação 

### Como ver os valores ausentes e Na's

In [28]:
# Primeiro jeito é com o df.info() que nos dá uma coluna só dos valores ausentes
df_exemplo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   id                            1000 non-null   object 
 1   idade                         1000 non-null   int64  
 2   genero                        1000 non-null   object 
 3   horas_estudo_pdia             1000 non-null   float64
 4   horas_redessoc_pdia           1000 non-null   float64
 5   horas_netflix_pdia            1000 non-null   float64
 6   trabalha_meio_periodo         1000 non-null   bool   
 7   porcentagem_frequencia        1000 non-null   float64
 8   horas_sono_pdia               1000 non-null   float64
 9   qualidade_dieta               1000 non-null   object 
 10  frequencia_exercicio          1000 non-null   int64  
 11  escolaridade_dos_pais         909 non-null    object 
 12  qualidade_internet            1000 non-null   object 
 13  clas

In [29]:
# Segundo jeito é usando o método isnull() com o agregador sum()
df.isnull().sum()
# Você sabe o macete né? Quer ver em apenas uma coluna basta fazer df["coluna"].isnull().sum()
# O isnull percorre nossas colunas e categoriza elas com True para nulos e False pros não nulos, aí o sum vai e soma todos os valores True

student_id                        0
age                               0
gender                            0
study_hours_per_day               0
social_media_hours                0
netflix_hours                     0
part_time_job                     0
attendance_percentage             0
sleep_hours                       0
diet_quality                      0
exercise_frequency                0
parental_education_level         91
internet_quality                  0
mental_health_rating              0
extracurricular_participation     0
exam_score                        0
dtype: int64

### Decidindo o que fazer com os valores ausentes

Beleza, agora você sabe quais colunas possuem valores ausentes e tá pronto pra fazer algo a respeito disso, certo? Hmmm, acho que não hein. A grande verdade é que a nossa abordagem em relação aos valores ausentes pode mudar muito de acordo com o cenário, pensa assim:
- Valores ausentes de email em uma tabela de clientes -> Tenho apenas alguns poucos clientes na tabela com mais de 100.000 clientes, posso apenas excluir
- Valores ausentes em saldo de um cliente  -> Olhei na documentação e vi que saldo não declarado é o mesmo que R$ 0.00, show vou substituir os NA por 0.0
- Valores ausentes em altura dos clientes -> Parece uma informação que pode ser facilmente substituida pela média das alturas hein
- (NOSSO CASO) Valores ausentes em escolaridade dos pais -> Penso assim: Se meu pai não tem mestrado, nem doutorado, nem ensino médio, julgo que a escolaridade máxima que ele pode ter é o Ensino fundamental.

A verdade é que a sua ação vai depender normalmente de 3 coisas:
- O quão importante é a informação ausente
- A dimensionalidade de seus valores ausentes em relação ao seu total (ex: 1 ausente em 1000 registros é tranquilo mas 5000 em 10000 é preocupante)
- Se há ou não uma possibilidade de tratar esses valores, aplicando alguma lógica estatística ou regra de negócio.

In [30]:
# Removendo valores ausentes
df_exemplo.dropna().count()
# Aqui vimos que foram removidos 91 registros, para fazer de forma definitiva é só fazer dropna(inplace=True)

id                              909
idade                           909
genero                          909
horas_estudo_pdia               909
horas_redessoc_pdia             909
horas_netflix_pdia              909
trabalha_meio_periodo           909
porcentagem_frequencia          909
horas_sono_pdia                 909
qualidade_dieta                 909
frequencia_exercicio            909
escolaridade_dos_pais           909
qualidade_internet              909
classificacao_saude_mental      909
participacao_extracurricular    909
notas_prova                     909
dtype: int64

In [31]:
# Substituindo os valores de acordo com nossa regra
df_exemplo["escolaridade_dos_pais"] = df_exemplo["escolaridade_dos_pais"].fillna("Ensino fundamental")
df_exemplo["escolaridade_dos_pais"].value_counts()

escolaridade_dos_pais
Ensino medio          392
Bacharelado           350
Mestrado              167
Ensino fundamental     91
Name: count, dtype: int64

## Extra : Transformando intervalos em categorias com o cut()

Taí um método que eu não conhecia e aí quando fui começar a análise acabei descobrindo, pra mim foi tipo um divisor de águas. O método pd.cut() pega intervalos definidos e rótulos para criar categorias, ou seja, transforma colunas numéricas contínuas em categorias discretas. Por que isso é útil? Porque modelos de machine learning simplesmente amam categorias ao invés de valores numéricos — especialmente quando queremos reduzir a complexidade, lidar com outliers ou tornar os dados mais interpretáveis. Além disso, categorias bem definidas podem ajudar na criação de variáveis mais informativas e, consequentemente, em modelos mais eficientes e explicáveis.

In [32]:
# Por padrão chamamos variaveis que tem o intervalo de bins e as que possuem os rótulos das categorias de labels
# Vamos usar uma das nossas colunas para criar uma coluna categórica
bins = [0, 40, 70, 100] # Aqui você tá dizendo que tá criando 3 intervalos (0-40) (60-80) (70-100)
labels = ["baixa","media","boa"] # Criei agora 3 rótulos pra os intervalos criados

df_exemplo["nota_prova_cat"] = pd.cut(df_exemplo["notas_prova"], bins=bins, labels=labels) 
df_exemplo

Unnamed: 0,id,idade,genero,horas_estudo_pdia,horas_redessoc_pdia,horas_netflix_pdia,trabalha_meio_periodo,porcentagem_frequencia,horas_sono_pdia,qualidade_dieta,frequencia_exercicio,escolaridade_dos_pais,qualidade_internet,classificacao_saude_mental,participacao_extracurricular,notas_prova,nota_prova_cat
0,S1000,23,F,0.0,1.2,1.1,False,85.0,8.0,Razoavel,6,Mestrado,Mediana,8,True,56.2,media
1,S1001,20,F,6.9,2.8,2.3,False,97.3,4.6,Boa,6,Ensino medio,Mediana,8,False,100.0,boa
2,S1002,21,M,1.4,3.1,1.3,False,94.8,8.0,Baixa,1,Ensino medio,Baixa,1,False,34.3,baixa
3,S1003,23,F,1.0,3.9,1.0,False,71.0,9.2,Baixa,4,Mestrado,Boa,1,True,26.8,baixa
4,S1004,19,F,5.0,4.4,0.5,False,90.9,4.9,Razoavel,3,Mestrado,Boa,1,False,66.4,media
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,S1995,21,F,2.6,0.5,1.6,False,77.0,7.5,Razoavel,2,Ensino medio,Boa,6,True,76.1,boa
996,S1996,17,F,2.9,1.0,2.4,True,86.0,6.8,Baixa,1,Ensino medio,Mediana,6,True,65.9,media
997,S1997,20,M,3.0,2.6,1.3,False,61.9,6.5,Boa,5,Bacharelado,Boa,9,True,64.4,media
998,S1998,24,M,5.4,4.1,1.1,True,100.0,7.6,Razoavel,0,Bacharelado,Mediana,1,False,69.7,media


## Convertendo os tipos de colunas (Muito importante)

Se você me perguntasse o que eu acho mais importante no tratamento de um conjunto de dados eu provavelmente diria que:
1. Lidar com os dados ausentes
2. Escolher os melhores tipos de dados para cada coluna
Parece bem óbvio né, mas para pra pensar um pouco: Quanto de memória você acha que uma coluna do tipo object usa? Será que não tem como otimizar isso? Vamos ver na prática.

In [33]:
# Genero está tomando simplesmente 50300 bytes na nossa memória, sendo que são literalmente 3 opções de gênero apenas (M,F e Other)
df_exemplo.genero.memory_usage(deep=True)


50300

Olha o que acontece se eu simplesmnte converto a coluna genero que era object (string) para uma category

In [34]:
df_exemplo["genero"] = df_exemplo["genero"].astype("category")
df_exemplo.genero.memory_usage(deep=True)

1394

Parece até covardia né? Pois é, esse é o poder que a conversão de tipos tem dentro do pandas. Imagina se você aplica esse tipo de conversão pra todas colunas com menos de 8 opções? Vamos testar isso.

In [35]:
df_exemplo.memory_usage(deep=True).sum()
# 299649 PRESTA BEM ATENÇÃO NESSE VALOR, PORQUE ELE VAI CAIR!

299633

### Conversão de tipo em massa!

Antes de sair fazendo as conversões vamos entender os tipos que temos disponíveis e quanto cada um usa da memória.
| Tipo (`dtype`)   | Descrição                            | Intervalo / Requisitos                                                           | Uso de Memória (aprox.)        |
| ---------------- | ------------------------------------ | -------------------------------------------------------------------------------- | ------------------------------ |
| `int8`           | Inteiro com sinal, 8 bits            | -128 a 127                                                                       | 1 byte por valor               |
| `int16`          | Inteiro com sinal, 16 bits           | -32.768 a 32.767                                                                 | 2 bytes                        |
| `int32`          | Inteiro com sinal, 32 bits           | -2.147.483.648 a 2.147.483.647                                                   | 4 bytes                        |
| `int64`          | Inteiro com sinal, 64 bits           | ±9.22e18                                                                         | 8 bytes                        |
| `uint8`          | Inteiro sem sinal, 8 bits            | 0 a 255                                                                          | 1 byte                         |
| `uint16`         | Inteiro sem sinal, 16 bits           | 0 a 65.535                                                                       | 2 bytes                        |
| `uint32`         | Inteiro sem sinal, 32 bits           | 0 a 4.29e9                                                                       | 4 bytes                        |
| `uint64`         | Inteiro sem sinal, 64 bits           | 0 a 1.84e19                                                                      | 8 bytes                        |
| `float16`        | Ponto flutuante, 16 bits             | \~±6.55e4, com menor precisão                                                    | 2 bytes                        |
| `float32`        | Ponto flutuante, 32 bits             | \~±3.4e38, precisão \~7 dígitos                                                  | 4 bytes                        |
| `float64`        | Ponto flutuante, 64 bits             | \~±1.8e308, precisão \~15 dígitos                                                | 8 bytes                        |
| `bool`           | Booleano (True/False)                | True ou False                                                                    | 1 byte                         |
| `object`         | Texto ou tipos mistos                | Strings, listas, dicionários, etc.                                               | Varia (muito custoso)          |
| `string`         | Tipo string otimizado (Pandas ≥ 1.0) | Texto puro, mais eficiente que `object` para texto                               | \~ variável, mas mais leve     |
| `category`       | Categórico com valores fixos         | Valores únicos conhecidos ou limitados (ótimo para colunas com muitos repetidos) | Muito leve (\~1 byte + índice) |
| `datetime64[ns]` | Datas com precisão de nanossegundos  | Datas entre anos \~1677 a 2262                                                   | 8 bytes                        |
| `timedelta[ns]`  | Diferença entre datas                | Intervalos temporais com precisão de nanossegundos                               | 8 bytes                        |


Não sei se você teve um "click" na sua cabeça nesse momento, mas tem uma etapa que nós fizemos anteriormente que se usarmos agora vai ser um divisor de águas. Dá pra imaginar qual é né? Sim, quando nós fizemos a análise das nossas variáveis numéricas com o describe() e quando analisamos as categóricas com o value_counts(). Entender como nossos valores estão distribuídos, principalmente saber o mínimo e o máximo, vai nos dizer exatamente qual é o intervalo de valores que estamos trabalhando e assim podemos escolher o melhor tipo. 

In [36]:
# Função nova do pandas para converter automaticamente os dados, não significa que vai escolher o tipo mais performático
df_exemplo.convert_dtypes().dtypes

id                              string[python]
idade                                    Int64
genero                                category
horas_estudo_pdia                      Float64
horas_redessoc_pdia                    Float64
horas_netflix_pdia                     Float64
trabalha_meio_periodo                  boolean
porcentagem_frequencia                 Float64
horas_sono_pdia                        Float64
qualidade_dieta                 string[python]
frequencia_exercicio                     Int64
escolaridade_dos_pais           string[python]
qualidade_internet              string[python]
classificacao_saude_mental               Int64
participacao_extracurricular           boolean
notas_prova                            Float64
nota_prova_cat                        category
dtype: object

In [37]:
df_exemplo= df_exemplo.astype({
    "idade": "uint8", #Ninguém terá uma idade negativa e também ninguém vai passar de 255 anos
    "genero": "category",
    "horas_estudo_pdia": "float16",
    "horas_redessoc_pdia": "float16",
    "horas_netflix_pdia": "float16",
    "trabalha_meio_periodo": "bool",
    "porcentagem_frequencia": "float16",
    "horas_sono_pdia": "float16",
    "qualidade_dieta": "category",
    "frequencia_exercicio": "uint8",
    "escolaridade_dos_pais": "category",
    "qualidade_internet": "category",
    "classificacao_saude_mental": "uint8",
    "participacao_extracurricular": "bool",
    "notas_prova": "float16",
})

df_exemplo.memory_usage(deep=True).sum()
# Agora temos o número 77636 contra o antigo 299649 , uma redução de aproximadamente 75% do consumo de memória

77620

# Carregando o dataset

Aqui está outra questão bem importante, presta atenção: Se você escolher exportar o dataset como csv, excel, JSON ou SQL o pandas simplesmente vai ignorar os dtypes e exportá-los sem os tipos das colunas, se você não tiver problemas com isso tudo bem, mas caso você queira manter os tipos para evitar um retrabalho futuro é interessante pensar em tipos de arquivos que possua essa característica de salvar os tipos das colunas.

In [38]:
df_exemplo.to_parquet("dados_parquet")
df_exemplo.to_csv("dados_csv")

In [39]:
df_parquet = pd.read_parquet("dados_parquet")
df_parquet.dtypes

id                                object
idade                              uint8
genero                          category
horas_estudo_pdia                float16
horas_redessoc_pdia              float16
horas_netflix_pdia               float16
trabalha_meio_periodo               bool
porcentagem_frequencia           float16
horas_sono_pdia                  float16
qualidade_dieta                 category
frequencia_exercicio               uint8
escolaridade_dos_pais           category
qualidade_internet              category
classificacao_saude_mental         uint8
participacao_extracurricular        bool
notas_prova                      float16
nota_prova_cat                  category
dtype: object

In [41]:
df_csv = pd.read_csv("dados_csv")
df_csv.dtypes

Unnamed: 0                        int64
id                               object
idade                             int64
genero                           object
horas_estudo_pdia               float64
horas_redessoc_pdia             float64
horas_netflix_pdia              float64
trabalha_meio_periodo              bool
porcentagem_frequencia          float64
horas_sono_pdia                 float64
qualidade_dieta                  object
frequencia_exercicio              int64
escolaridade_dos_pais            object
qualidade_internet               object
classificacao_saude_mental        int64
participacao_extracurricular       bool
notas_prova                     float64
nota_prova_cat                   object
dtype: object