# Projeto em Data Science - Escola Mondial

#####**Etapa 01**: *Importação e Exploração dos Dados*

In [109]:
# Importando as bibliotecas
import pandas as pd
import numpy as np

In [110]:
# Importando o conjunto de dados
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
dataset = pd.read_csv(url)

In [111]:
# Obtendo as informações gerais do dataframe
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nome      18 non-null     object 
 1   Idade     18 non-null     int64  
 2   Notas     12 non-null     float64
 3   Aprovado  18 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 578.0+ bytes


In [112]:
# Observando as primeiras linhas
dataset.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True


In [113]:
# Observando as últimas linhas
dataset.tail()

Unnamed: 0,Nome,Idade,Notas,Aprovado
13,Mirla,25,9.0,True
14,Paulo,37,,False
15,Mylena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,True


#####**Etapa 02**: *Limpeza dos Dados*

In [114]:
# Removendo os alunos transferidos (Alice e Carlos)
alunos_transferidos = ['Alice', 'Carlos']
indices = dataset.query('Nome in @alunos_transferidos').index
dataset.drop(indices, axis=0, inplace=True)

In [115]:
# Obtendo os índices das linhas com valores nulos (NaN)
indices = dataset.query('not Notas == Notas').index

In [116]:
# Limpando o conjunto de dados de valores nulos (NaN)
dataset.drop(indices, axis=0, inplace=True)
dataset

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
6,Dara,21,7.0,True
11,Igor,24,4.5,False
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
15,Mylena,29,7.0,True
17,Nadia,34,8.0,True


#####**Etapa 03**: *Análises dos Dados*

In [117]:
# Obtendo a média de notas dos alunos
media_notas = dataset.Notas.mean()
media_notas

7.0

In [118]:
# Ordenando o conjunto de dados com base nas notas
dataset.sort_values('Notas', ascending=False)

Unnamed: 0,Nome,Idade,Notas,Aprovado
4,Beto,21,10.0,True
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
17,Nadia,34,8.0,True
0,Ary,20,7.5,True
6,Dara,21,7.0,True
15,Mylena,29,7.0,True
3,Denis,18,5.0,False
11,Igor,24,4.5,False
2,Cátia,27,2.5,False


In [119]:
# Verificando a porcentagem de alunos aprovados e reprovados
df_quantidade_aprovados = dataset.Aprovado.value_counts(normalize=True).to_frame()
df_quantidade_aprovados

Unnamed: 0_level_0,proportion
Aprovado,Unnamed: 1_level_1
True,0.7
False,0.3


In [120]:
# Alterando o nome da coluna
df_quantidade_aprovados.rename(columns={'proportion': 'Percentual'}, inplace=True)
df_quantidade_aprovados

Unnamed: 0_level_0,Percentual
Aprovado,Unnamed: 1_level_1
True,0.7
False,0.3


In [121]:
# Incrementando uma coluna possuindo a nota adicional dos alunos
# OBS: cada receberá um bônus de 40% referente a sua nota
dataset['Nota_bonus'] = dataset['Notas'] * 0.4
dataset.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado,Nota_bonus
0,Ary,20,7.5,True,3.0
2,Cátia,27,2.5,False,1.0
3,Denis,18,5.0,False,2.0
4,Beto,21,10.0,True,4.0
6,Dara,21,7.0,True,2.8


In [122]:
# Criando a coluna de nota final dos alunos
dataset['Nota_final'] = dataset['Notas'].apply(lambda nota: 10.0 if nota + nota * 0.4 > 10.0 else nota + nota * 0.4)
dataset.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado,Nota_bonus,Nota_final
0,Ary,20,7.5,True,3.0,10.0
2,Cátia,27,2.5,False,1.0,3.5
3,Denis,18,5.0,False,2.0,7.0
4,Beto,21,10.0,True,4.0,10.0
6,Dara,21,7.0,True,2.8,9.8


In [123]:
# Removendo a coluna de aprovação
dataset.drop(columns=['Aprovado'], inplace=True)

In [124]:
# Incluindo uma coluna de situação do aluno (aprov. ou reprov.)
dataset['Aprovado'] = dataset['Nota_final'].apply(lambda nota: True if nota >= 6.0 else False)
dataset.head()

Unnamed: 0,Nome,Idade,Notas,Nota_bonus,Nota_final,Aprovado
0,Ary,20,7.5,3.0,10.0,True
2,Cátia,27,2.5,1.0,3.5,False
3,Denis,18,5.0,2.0,7.0,True
4,Beto,21,10.0,4.0,10.0,True
6,Dara,21,7.0,2.8,9.8,True


#####**Etapa 05**: *Exportação dos Dados*

In [125]:
# Exportando o conjunto de dados tratado e modificado
dataset.to_csv('dados_alunos.csv', index=False)

In [126]:
# Obtendo os nomes dos alunos aprovados e suas respectivas notas
aprovados = dataset['Aprovado']
df_aprovados = dataset[aprovados][['Nome', 'Nota_final']]

In [127]:
# Exportando os dados dos alunos aprovados para um arquivo csv
df_aprovados.to_csv('aprovados.csv', index=False)

In [128]:
# Realizando a leitura do arquivo exportado
pd.read_csv('dados_alunos.csv')

Unnamed: 0,Nome,Idade,Notas,Nota_bonus,Nota_final,Aprovado
0,Ary,20,7.5,3.0,10.0,True
1,Cátia,27,2.5,1.0,3.5,False
2,Denis,18,5.0,2.0,7.0,True
3,Beto,21,10.0,4.0,10.0,True
4,Dara,21,7.0,2.8,9.8,True
5,Igor,24,4.5,1.8,6.3,True
6,Sthefanie,26,9.5,3.8,10.0,True
7,Mirla,25,9.0,3.6,10.0,True
8,Mylena,29,7.0,2.8,9.8,True
9,Nadia,34,8.0,3.2,10.0,True


In [129]:
# Realizando a leitura do arquivo exportado
pd.read_csv('aprovados.csv')

Unnamed: 0,Nome,Nota_final
0,Ary,10.0
1,Denis,7.0
2,Beto,10.0
3,Dara,9.8
4,Igor,6.3
5,Sthefanie,10.0
6,Mirla,10.0
7,Mylena,9.8
8,Nadia,10.0
