### Aqui começa o notebook de testes, no qual foi realizado o ETL dos dados de perfomance e hábitos dos Estudantes

O primeiro passo é realizar o carregamento dos dados, que estão no formato csv. Para isso foi importado o pacote Pandas.

In [1]:
import pandas as pd

Carregamos o arquivo e atribuimos a variável df, que é do tipo Dataframe.


In [2]:
df = pd.read_csv("student_habits_performance.csv")

Utilizando o método 'head' e passando o parâmetro 5, podemos analisar as primeiras 5 linhas do Dataframe.

In [4]:
df.head(5)

Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4


O primeiro passo de toda análise de dados, é verificar os tipos de dados que possuimos, bem como se há anomalias dentro dos dados que estamos analisando (dados nulos, incorretos, faltantes). Para isso, utilizamos o método 'info' do Dataframe, que retorna os tipos de dados de cada

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   student_id                     1000 non-null   object 
 1   age                            1000 non-null   int64  
 2   gender                         1000 non-null   object 
 3   study_hours_per_day            1000 non-null   float64
 4   social_media_hours             1000 non-null   float64
 5   netflix_hours                  1000 non-null   float64
 6   part_time_job                  1000 non-null   object 
 7   attendance_percentage          1000 non-null   float64
 8   sleep_hours                    1000 non-null   float64
 9   diet_quality                   1000 non-null   object 
 10  exercise_frequency             1000 non-null   int64  
 11  parental_education_level       1000 non-null   object 
 12  internet_quality               1000 non-null   ob

Podemos observar que não há valores nulos, visto que o total de linhas é 1000 e todas as colunas não possuem valores nulos. O próximo passo é verificar as colunas que nos interessam e separá-las em um dataframe a parte.
A nossa análise vai se focar no número de horas de estudo, número de horas de sono, a qualidade da alimentação e o resultado do exame final. Esse novo Dataframe será 'df_selecionado'.

In [22]:
df_selecionado = df[['study_hours_per_day','sleep_hours','diet_quality','exam_score']].copy()

In [23]:
df_selecionado.head(5)

Unnamed: 0,study_hours_per_day,sleep_hours,diet_quality,exam_score
0,0.0,8.0,Fair,56.2
1,6.9,4.6,Good,100.0
2,1.4,8.0,Poor,34.3
3,1.0,9.2,Poor,26.8
4,5.0,4.9,Fair,66.4


Agora, iremos analisar traduzir tanto os nomes das colunas, quanto os dos dados contidos nelas. Vamos começar renomeando as colunas com o método 'rename'

In [24]:
renomear ={
    "study_hours_per_day" : "Horas de estudo por dia",
    "sleep_hours" : "Horas de sono por dia",
    "diet_quality" : "Nível de qualidade da dieta",
    "exam_score" : "Resultado do exame final"
}

df_selecionado = df_selecionado.rename(columns=renomear)

In [25]:
df_selecionado.head()

Unnamed: 0,Horas de estudo por dia,Horas de sono por dia,Nível de qualidade da dieta,Resultado do exame final
0,0.0,8.0,Fair,56.2
1,6.9,4.6,Good,100.0
2,1.4,8.0,Poor,34.3
3,1.0,9.2,Poor,26.8
4,5.0,4.9,Fair,66.4


Para realizar a tradução dos valores da coluna 'Nível de qualidade da dieta', é necessário saber quais são os valores únicos dentro desta coluna. Para isso, utilizamos o método 'unique'.

In [26]:
df_selecionado['Nível de qualidade da dieta'].unique()

array(['Fair', 'Good', 'Poor'], dtype=object)

Descobrimos que os valores unicos, agora iremos traduzi-los. Para isso, utilizamos o método 'map' direto na coluna que queremos traduzir.

In [27]:
renomear = {
    'Poor' : "Pobre",
    'Good' : "Boa",
    'Fair' : "Razoável"
}

df_selecionado['Nível de qualidade da dieta'] = df_selecionado['Nível de qualidade da dieta'].map(renomear)

In [28]:
df_selecionado.head()

Unnamed: 0,Horas de estudo por dia,Horas de sono por dia,Nível de qualidade da dieta,Resultado do exame final
0,0.0,8.0,Razoável,56.2
1,6.9,4.6,Boa,100.0
2,1.4,8.0,Pobre,34.3
3,1.0,9.2,Pobre,26.8
4,5.0,4.9,Razoável,66.4


Agora, iremos criar um novo arquivo .csv, com apenas os dados que iremos utilizar no Power BI. Todo este tratamento foi realizado, com o intuito de reduzir a quantidade de dados que devem ser carregados e trabalhados no Power BI, representando um ganho expressivo de performance, mesmo para um arquivo pequeno.

In [29]:
df_selecionado.to_csv('dados_trabalhados.csv', sep=',', index=False)