In [50]:
import pandas as pd


## Análise exploratória

### 1. Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas

In [51]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
alunos = pd.read_csv(url)


### 2) Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.

In [52]:
alunos.head(7)


Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True


In [53]:
alunos.tail()


Unnamed: 0,Nome,Idade,Notas,Aprovado
13,Mirla,25,9.0,True
14,Paulo,37,,False
15,Mylena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,True


### 3) Confira a quantidade de linhas e colunas desse DataFrame.



In [54]:
lines, columns = alunos.shape
print(f'( Linhas: {lines}, Colunas: {columns} )')


( Linhas: 18, Colunas: 4 )


### 4) Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.

In [55]:
alunos.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nome      18 non-null     object 
 1   Idade     18 non-null     int64  
 2   Notas     12 non-null     float64
 3   Aprovado  18 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 582.0+ bytes


### Extra: Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc).

O describe apresenta estatísticas descritivas dos dados, porém apresenta estatísticas diferentes para dados quantitativos (como idade e notas) e qualitativos (como nome e aprovado). Então essas informações estarão em dois DataFrames separados.

In [56]:
alunos.describe()


Unnamed: 0,Idade,Notas
count,18.0,12.0
mean,25.5,6.8
std,6.070662,2.204953
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


In [57]:
alunos[['Nome', 'Aprovado']].describe()


Unnamed: 0,Nome,Aprovado
count,18,18
unique,18,2
top,Ary,False
freq,1,10


## Tratamento e Filtragem de Dados

### 1) Verifique se a base de dados possui dados nulos e, caso tenha, realize o tratamento desses dados nulos da forma que achar mais coerente com a situação.



In [58]:
alunos.isna().sum()


Nome        0
Idade       0
Notas       6
Aprovado    0
dtype: int64

In [59]:
alunos[alunos.Notas.isna()]


Unnamed: 0,Nome,Idade,Notas,Aprovado
1,Ana,18,,False
5,Bruna,23,,False
9,Vitor,28,,False
10,Daniel,21,,False
14,Paulo,37,,False
16,Lucas,33,,False


In [60]:
alunos.fillna(0, inplace=True)
alunos.isna().sum()


Nome        0
Idade       0
Notas       0
Aprovado    0
dtype: int64

### 2) Os alunos "Alice" e "Carlos", não fazem mais parte da turma. Sendo assim, remova-os da base de dados.

In [61]:
indices_a_remover = alunos.query('Nome == "Alice" | Nome == "Carlos"').index

alunos.drop(indices_a_remover, inplace=True)
alunos


Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,0.0,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,0.0,False
6,Dara,21,7.0,True
9,Vitor,28,0.0,False
10,Daniel,21,0.0,False
11,Igor,24,4.5,False


### 3) Aplique um filtro que selecione apenas os alunos que foram aprovados.

In [62]:
alunos_aprovados = alunos[alunos['Aprovado'] == True]
alunos_aprovados


Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
4,Beto,21,10.0,True
6,Dara,21,7.0,True
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
15,Mylena,29,7.0,True
17,Nadia,34,8.0,True


### 4) Salve o DataFrame que possui apenas os alunos aprovados em um arquivo csv chamado "alunos_aprovados.csv".

In [63]:
alunos_aprovados.to_csv('output/alunos_aprovados.csv', index=False, sep=';')


In [64]:
pd.read_csv('output/alunos_aprovados.csv', sep=';')


Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Beto,21,10.0,True
2,Dara,21,7.0,True
3,Sthefanie,26,9.5,True
4,Mirla,25,9.0,True
5,Mylena,29,7.0,True
6,Nadia,34,8.0,True


### Extra: Ao conferir as notas dos alunos aprovados, notamos que algumas notas estavam incorretas. As alunas que tiraram nota 7.0, na verdade, tinham um ponto extra que não foi contabilizado. Sendo assim, substitua as notas 7.0 da base de dados por 8.0.

In [69]:
alunos.replace({ 'Notas': 7 }, { 'Notas': 8 }, inplace=True)
alunos


Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,0.0,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,0.0,False
6,Dara,21,8.0,True
9,Vitor,28,0.0,False
10,Daniel,21,0.0,False
11,Igor,24,4.5,False
