## Descrição

Esse notebook foi construído para realizar os desafios propostos no final de cada aula do curso **Pandas: conhecendo a biblioteca**

## Aula 1: Conhecendo a base de dados

### Desafio 1
Importe o arquivo [**alunos.csv**](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv) e armazene seu conteúdo em um DataFrame Pandas

In [15]:
!pip install scipy



In [16]:
# IMPORT DA BIBLIOTECA DO PANDAS
import pandas as pd

In [17]:
# LEITURA DO ARQUIVO PELA URL
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
df = pd.read_csv(url)

df

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True
7,Carlos,19,6.0,True
8,Alice,35,5.6,False
9,Vitor,28,,False


### Desafio 2
Visualize as primeiras 7 linhas do DataFrame e as 5 últimas

In [18]:
df.head(7)

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True


In [19]:
df.tail(5)

Unnamed: 0,Nome,Idade,Notas,Aprovado
13,Mirla,25,9.0,True
14,Paulo,37,,False
15,Mylena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,True


### Desafio 3
Confira a quantidade de linhas e colunas do DataFrame

In [20]:
print("Quantidade de linhas: ", df.shape[0])
print("Quantidade de colunas: ", df.shape[1])

Quantidade de linhas:  18
Quantidade de colunas:  4


### Desafio 4
Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nome      18 non-null     object 
 1   Idade     18 non-null     int64  
 2   Notas     12 non-null     float64
 3   Aprovado  18 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 582.0+ bytes


### **Extra**
Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc) - Dica: pesquise pelo método **describe**

In [22]:
df.describe()

Unnamed: 0,Idade,Notas
count,18.0,12.0
mean,25.5,6.8
std,6.070662,2.204953
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


### Desafio 1
Verifique se a base de dados possui dados nulos e caso tenha, realize o tratamento desses dados nulos

In [23]:
df.isnull().sum()

Nome        0
Idade       0
Notas       6
Aprovado    0
dtype: int64

In [24]:
# CALCULANDO MÉDIA E DESVIO PADRÃO E SKEWNESS (MEDIDA DA SIMETRIA DA DISTRIBUIÇÃO DOS DADOS EM RELAÇÃO A MÉDIA)
from scipy.stats import skew

print("Média de notas: ", df['Notas'].mean())
print("Mediana das notas: ", df['Notas'].median())
print("Desvio Padrão: ", df['Notas'].std())

# Calcular skewness
skewness = df["Notas"].skew(skipna=True)
print(f"Skewness: {skewness}")

"""
Média de notas:  6.8
Mediana das notas:  7.0
Desvio Padrão:  2.204953101954366
Skewness: -0.3516934050821136
"""

# Devido a leve assimetria, baixo desvio padrão, a mediana se faz mais robusta para substituição dos valores nulos

Média de notas:  6.8
Mediana das notas:  7.0
Desvio Padrão:  2.204953101954366
Skewness: -0.3516934050821136


'\nMédia de notas:  6.8\nMediana das notas:  7.0\nDesvio Padrão:  2.204953101954366\nSkewness: -0.3516934050821136\n'

In [25]:
# SUBSTITUINDO NOTAS EM FALTA PELA MEDIANA DAS NOTAS
df.fillna(df['Notas'].median(), inplace=True)


In [28]:
# CORRIGINDO APROVAÇÕES:
def verifica_aprovacao(nota):
    return True if nota >= 6 else False

df['Aprovado'] = df['Notas'].apply(verifica_aprovacao)
df

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,7.0,True
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,7.0,True
6,Dara,21,7.0,True
7,Carlos,19,6.0,True
8,Alice,35,5.6,False
9,Vitor,28,7.0,True


### Desafio 2
Os alunos "Alice" e "Carlos", não fazem mais parte da turma. Sendo assim, remova-os da base de dados

In [30]:
selecao_indices_excluir = df.query('Nome == "Alice" | Nome == "Carlos"').index
df.drop(selecao_indices_excluir, inplace=True, axis=0)


In [32]:
# ATUALIZAÇÃO DOS ÍNDICES
df.reset_index(drop=True)

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,7.0,True
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,7.0,True
6,Dara,21,7.0,True
7,Vitor,28,7.0,True
8,Daniel,21,7.0,True
9,Igor,24,4.5,False


### Desafio 3
Aplique um filtro que selecione apenas os alunos que foram aprovados

In [34]:
aprovados = df.query('Aprovado == True').reset_index(drop=True)
aprovados

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,7.0,True
2,Beto,21,10.0,True
3,Bruna,23,7.0,True
4,Dara,21,7.0,True
5,Vitor,28,7.0,True
6,Daniel,21,7.0,True
7,Sthefanie,26,9.5,True
8,Mirla,25,9.0,True
9,Paulo,37,7.0,True


### Desafio 4
Salve o DataFrame que possui apenas os alunos aprovados em um arquivo csv chamado "alunos_aprovados.csv"

In [36]:
aprovados.to_csv('alunos_aprovados.csv', sep=',', index=False)

In [37]:
df_aprovados = pd.read_csv('alunos_aprovados.csv')
df_aprovados

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,7.0,True
2,Beto,21,10.0,True
3,Bruna,23,7.0,True
4,Dara,21,7.0,True
5,Vitor,28,7.0,True
6,Daniel,21,7.0,True
7,Sthefanie,26,9.5,True
8,Mirla,25,9.0,True
9,Paulo,37,7.0,True


### **Extra**
Ao conferir as notas dos alunos aprovados, notamos que algumas notas estavam incorretas. As alunas que tiraram nota 7.0, na verdade tinham um ponto extra que não foi contabilizado. Sendo assim, substitua as notas 7.0 da base de dados por 8.0. **Dica**: pesquise pelo método **replace**

In [65]:
# ALTERAÇÃO
# Filtro dos índices alunas que tiraram 7:
selecao = df.query('Notas == 7 and Nome.str.endswith("a")') # Todos os nomes de alunas terminam com 'a'
selecao = selecao.replace(7, 8)

# Atualizando df principal:
df.loc[selecao.index, :] = selecao

# Atualizando índices
df = df.reset_index(drop=True)
df

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,8.0,True
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,8.0,True
6,Dara,21,8.0,True
7,Vitor,28,7.0,True
8,Daniel,21,7.0,True
9,Igor,24,4.5,False


### Desafio 5
Os alunos participaram de uma atividade extracurricular e ganharam pontos extras. Esses pontos extras correspondem a 40% da nota atual de cada um deles. Com base nisso, crie uma coluna chamada "Pontos_extras" que contenha os pontos extras de cada aluno, ou seja, 40% da nota atual deles

### Desafio 6
Crie mais uma coluna, chamada "Notas_finais" que possua as notas de cada aluno somada com os pontos extras

### Desafio 7
Como os alunos ganharam pontos extras, alguns que não tinham sido aprovados antes podem ter sido aprovados agora. Com base nisso, crie uma coluna chamada "Aprovado_final" com os seguintes valores:

* True: caso o aluno esteja aprovado (nota final deve ser maior ou igual a 6);
* False: caso o aluno esteja reprovado (nota final deve ser menor que 6).


### Desafio 8
Faça uma seleção e verifique quais alunos não tinham sido aprovados anteriormente, mas foram aprovados após a soma dos pontos extras