# Projeto Integrador - Analista de Dados

Uma instituição de ensino deseja **compreender os fatores que mais influenciam o desempenho acadêmico dos estudantes**, considerando não apenas as notas, mas também aspectos comportamentais, familiares e de acesso a recursos educacionais.

Para isso, a equipe de dados recebeu um **dataset sintético de desempenho estudantil**, contendo informações demográficas, hábitos de estudo, frequência, acesso à internet e notas em disciplinas-chave.

A gestão escolar espera que a análise gere **insights práticos** que possam subsidiar:

- Estratégias pedagógicas
- Ações de apoio ao estudante
- Melhor uso de recursos educacionais

Você foi contratado como **Analista de Dados Júnior** para conduzir esse estudo.

## **Proposta**

Realizar uma análise completa do conjunto de dados, seguindo todas as etapas do ciclo de análise de dados, e apresentar conclusões fundamentadas em dados, utilizando visualizações claras e interpretáveis.

## Objetivo

Aplicar o ciclo de análise de dados (Perguntar, Coletar, Preparar, Analisar, Visualizar e Comunicar) para extrair insights relevantes sobre o desempenho acadêmico dos estudantes.

## Etapas da Situação de Aprendizagem (Ciclo da Análise de Dados)

### Entendimento do Problema (Ask)

O aluno deverá responder, por escrito, perguntas como:

- Quais fatores parecem influenciar o desempenho acadêmico?
- Existe relação entre horas de estudo e nota final?
- A frequência impacta o overall_score?
- O tipo de escola influencia o desempenho médio?

## Coleta dos Dados (Collect)

- Análise do arquivo `Student_Performance.csv`
- Identificação das colunas, tipos de dados e possíveis limitações
- Verificação da origem e natureza sintética dos dados

## Preparação e Limpeza dos Dados (Prepare)

Atividades esperadas:

- Verificação de valores ausentes
- Padronização de categorias textuais
- Conversão de tipos de dados
- Criação de colunas auxiliares (se necessário)

Ferramentas sugeridas:

- Python (Pandas)
    
    ou
    
- Power Query (Power BI)

## Análise Exploratória dos Dados (Analyze)

O aluno deverá aplicar:

- Estatísticas descritivas (média, mediana, desvio padrão)
- Agrupamentos por:
    - Gênero
    - Tipo de escola
    - Escolaridade dos pais
    - Método de estudo
- Comparação de desempenho entre grupos

## Visualização dos Dados (Visualize)

Nesta etapa,  **poderá escolher**:

**Opção A – Python**

- Bibliotecas sugeridas: Matplotlib e/ou Seaborn
- Gráficos esperados:
    - Barras (médias por grupo)
    - Boxplot (distribuição de notas)
    - Histogramas
    - Scatter plot (horas de estudo × desempenho)

**Opção B – Power BI**

- Criação de um dashboard contendo:
    - KPIs principais
    - Gráficos comparativos
    - Filtros interativos (school_type, gender, study_method)

In [3]:
import pandas as pd
import numpy as np


In [4]:
df = pd.read_csv('/content/Student_Performance.csv')

# Identificação das colunas, tipos de dados e possíveis limitações

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000 entries, 0 to 24999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   student_id             25000 non-null  int64  
 1   age                    25000 non-null  int64  
 2   gender                 25000 non-null  object 
 3   school_type            25000 non-null  object 
 4   parent_education       25000 non-null  object 
 5   study_hours            25000 non-null  float64
 6   attendance_percentage  25000 non-null  float64
 7   internet_access        25000 non-null  object 
 8   travel_time            25000 non-null  object 
 9   extra_activities       25000 non-null  object 
 10  study_method           25000 non-null  object 
 11  math_score             25000 non-null  float64
 12  science_score          25000 non-null  float64
 13  english_score          25000 non-null  float64
 14  overall_score          25000 non-null  float64
 15  fi

In [6]:
df

Unnamed: 0,student_id,age,gender,school_type,parent_education,study_hours,attendance_percentage,internet_access,travel_time,extra_activities,study_method,math_score,science_score,english_score,overall_score,final_grade
0,1,14,male,public,post graduate,3.1,84.3,yes,<15 min,yes,notes,42.7,55.4,57.0,53.1,e
1,2,18,female,public,graduate,3.7,87.8,yes,>60 min,no,textbook,57.6,68.8,64.8,61.3,d
2,3,17,female,private,post graduate,7.9,65.5,no,<15 min,no,notes,84.8,95.0,79.2,89.6,b
3,4,16,other,public,high school,1.1,58.1,no,15-30 min,no,notes,44.4,27.5,54.7,41.6,e
4,5,16,female,public,high school,1.3,61.0,yes,30-60 min,yes,group study,8.9,32.7,30.0,25.4,f
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24995,12047,17,female,public,phd,1.8,55.2,yes,15-30 min,no,mixed,55.8,48.5,46.7,46.1,e
24996,1102,16,female,private,diploma,2.7,97.1,yes,<15 min,no,coaching,64.8,48.2,52.3,56.5,d
24997,4422,19,other,private,post graduate,1.0,63.0,yes,<15 min,no,group study,50.5,20.3,36.1,36.7,f
24998,7858,14,male,private,diploma,1.0,69.4,yes,15-30 min,yes,group study,13.0,34.2,7.3,34.1,f


In [7]:
df.isnull().sum()

Unnamed: 0,0
student_id,0
age,0
gender,0
school_type,0
parent_education,0
study_hours,0
attendance_percentage,0
internet_access,0
travel_time,0
extra_activities,0


In [8]:
df.isna().sum()

Unnamed: 0,0
student_id,0
age,0
gender,0
school_type,0
parent_education,0
study_hours,0
attendance_percentage,0
internet_access,0
travel_time,0
extra_activities,0


# Análise Exploratória dos Dados

In [9]:
df.duplicated().sum() #Achar quantas duplicatas possui

df.drop_duplicates(inplace=True) #Eliminar as duplicatas

In [10]:
df.duplicated().sum() #Verificar se ainda possui duplicatas

np.int64(0)

In [11]:
df.describe() #Visualização das Estatísticas Descritivas dos dados

Unnamed: 0,student_id,age,study_hours,attendance_percentage,math_score,science_score,english_score,overall_score
count,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0
mean,7500.5,16.4764,4.25936,74.99176,63.774553,63.751227,63.709227,64.0155
std,4330.271354,1.704475,2.17244,14.401139,20.919958,21.027675,20.860201,18.977811
min,1.0,14.0,0.5,50.0,0.0,0.0,0.0,14.5
25%,3750.75,15.0,2.4,62.6,48.2,48.1,48.3,49.0
50%,7500.5,16.0,4.3,75.0,64.1,64.0,64.2,64.3
75%,11250.25,18.0,6.1,87.4,80.1,80.1,80.0,79.1
max,15000.0,19.0,8.0,100.0,100.0,100.0,100.0,100.0


In [12]:
#Mediana das idade

Median_Age = df['age'].median()
Median_Age

16.0

In [13]:
#Importação de Dataframe limpo para csv

df.to_csv('Student_Performance_Clean.csv')

# Agrupamentos do DataFrame

In [14]:
# Contagem de estudantes por idade

count_age = df['age'].value_counts()
count_age

Unnamed: 0_level_0,count
age,Unnamed: 1_level_1
17,2553
14,2541
15,2529
16,2496
19,2442
18,2439


In [15]:
# Contagem de alunos por sexo

count_gender = df['gender'].value_counts()
count_gender

Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
other,5042
male,4979
female,4979


In [16]:
# Relação entre genero e tipo de escola

gender_type = df.groupby('gender')['school_type'].value_counts()
gender_type

Unnamed: 0_level_0,Unnamed: 1_level_0,count
gender,school_type,Unnamed: 2_level_1
female,private,2544
female,public,2435
male,private,2509
male,public,2470
other,private,2534
other,public,2508


In [17]:
# Relação de genero e media de horas de estudo

gender_study = df.groupby('gender')['study_hours'].mean()
gender_study.round(2)

Unnamed: 0_level_0,study_hours
gender,Unnamed: 1_level_1
female,4.28
male,4.26
other,4.24


In [18]:
# Genero que possui maior registro de horas de estudo

max_gender_study = df.groupby('gender')['study_hours'].max()
max_gender_study

Unnamed: 0_level_0,study_hours
gender,Unnamed: 1_level_1
female,8.0
male,8.0
other,8.0


In [19]:
# Relação entre educação dos pais e frequencia dos alunos

parental_attendance = df.groupby('parent_education')['attendance_percentage'].mean()
parental_attendance.round(2)

Unnamed: 0_level_0,attendance_percentage
parent_education,Unnamed: 1_level_1
diploma,74.97
graduate,75.11
high school,75.11
no formal,74.9
phd,74.86
post graduate,74.99


In [20]:
# Media de frequencia dos alunos por tipo de escola

mean_school = df.groupby('school_type')['attendance_percentage'].mean()
mean_school.round(2)

Unnamed: 0_level_0,attendance_percentage
school_type,Unnamed: 1_level_1
private,75.06
public,74.92


In [21]:
# Maior historico de frequência por tipo de escola

max_school = df.groupby('school_type')['attendance_percentage'].max()
max_school.round(2)

Unnamed: 0_level_0,attendance_percentage
school_type,Unnamed: 1_level_1
private,100.0
public,100.0


In [22]:
# Menor frequência registrada por tipo de escola

min_school = df.groupby('school_type')['attendance_percentage'].min()
min_school.round(2)

Unnamed: 0_level_0,attendance_percentage
school_type,Unnamed: 1_level_1
private,50.0
public,50.0


In [23]:
# Media de horas de estudo por tipo de escola

mean_study_school = df.groupby('school_type')['study_hours'].mean()
mean_study_school.round(2)

Unnamed: 0_level_0,study_hours
school_type,Unnamed: 1_level_1
private,4.27
public,4.25


In [24]:
# Relação entre educação dos pais, media de horas de estudos e acesso a internet

parental_study_internet = df.pivot_table(index='parent_education', columns='internet_access',
                                         values='study_hours', aggfunc='mean')
parental_study_internet.round(2)

internet_access,no,yes
parent_education,Unnamed: 1_level_1,Unnamed: 2_level_1
diploma,4.18,4.39
graduate,4.13,4.25
high school,4.25,4.18
no formal,4.18,4.22
phd,4.29,4.27
post graduate,4.46,4.25


In [25]:
# Contagem geral de alunos que possuem acesso a internet

internet_acess = df['internet_access'].value_counts()
internet_acess

Unnamed: 0_level_0,count
internet_access,Unnamed: 1_level_1
yes,12754
no,2246


In [26]:
# Contagem de alunos que possuem acesso a internet por genero

internet_acess_gender = df.groupby('gender')['internet_access'].value_counts()
internet_acess_gender

Unnamed: 0_level_0,Unnamed: 1_level_0,count
gender,internet_access,Unnamed: 2_level_1
female,yes,4227
female,no,752
male,yes,4227
male,no,752
other,yes,4300
other,no,742


In [27]:
# Contagem geral de alunos que fazem atividades extra curriculares

extra_activities = df['extra_activities'].value_counts()
extra_activities

Unnamed: 0_level_0,count
extra_activities,Unnamed: 1_level_1
no,7506
yes,7494


In [28]:
# Contagem de alunos por genero que fazem atividades extra curriculares

gender_activities = df.groupby('gender')['extra_activities'].value_counts()
gender_activities

Unnamed: 0_level_0,Unnamed: 1_level_0,count
gender,extra_activities,Unnamed: 2_level_1
female,yes,2494
female,no,2485
male,no,2509
male,yes,2470
other,yes,2530
other,no,2512


In [29]:
# Principais metodos de estudo adotados por genero

gender_study_method = df.groupby('gender')['study_method'].value_counts()
gender_study_method

Unnamed: 0_level_0,Unnamed: 1_level_0,count
gender,study_method,Unnamed: 2_level_1
female,mixed,880
female,textbook,866
female,notes,831
female,coaching,818
female,group study,817
female,online videos,767
male,mixed,870
male,online videos,847
male,textbook,840
male,notes,839


In [30]:
# Desempenho geral dos alunos em matematica

math_mean = df['math_score'].mean()
math_mean.round(1)


np.float64(63.8)

In [31]:
# Desempenho por genero dos alunos em matematica

gender_math = df.groupby('gender')['math_score'].mean()
gender_math.round(1)

Unnamed: 0_level_0,math_score
gender,Unnamed: 1_level_1
female,64.1
male,63.8
other,63.5


In [32]:
# Desempenho geral dos alunos em ciencias

science_mean = df['science_score'].mean()
science_mean.round(1)

np.float64(63.8)

In [33]:
# Desempenho por genero dos alunos em ciencias

gender_science = df.groupby('gender')['science_score'].mean()
gender_science.round(1)

Unnamed: 0_level_0,science_score
gender,Unnamed: 1_level_1
female,64.1
male,63.8
other,63.4


In [34]:
# Desempenho geral dos alunos em ingles

english_mean = df['english_score'].mean()
english_mean.round(1)

np.float64(63.7)

In [35]:
# Desempenho por genero dos alunos em ingles

gender_english = df.groupby('gender')['english_score'].mean()
gender_english.round(1)

Unnamed: 0_level_0,english_score
gender,Unnamed: 1_level_1
female,64.0
male,63.6
other,63.5


In [36]:
# Media geral de todas materias por genero dos alunos

mean_geral_score = df.groupby('gender')[['math_score', 'science_score', 'english_score']].mean()
mean_geral_score.round(1)


Unnamed: 0_level_0,math_score,science_score,english_score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,64.1,64.1,64.0
male,63.8,63.8,63.6
other,63.5,63.4,63.5


In [37]:
# Contagem de grade final por aluno

final_count_grade = df.groupby('gender')['final_grade'].value_counts()
final_count_grade


Unnamed: 0_level_0,Unnamed: 1_level_0,count
gender,final_grade,Unnamed: 2_level_1
female,c,1273
female,d,1236
female,e,1084
female,f,591
female,b,542
female,a,253
male,d,1249
male,c,1231
male,e,1137
male,f,593
