# Exercicios e testes praticos

O Pandas oferece diversas funções para importar dados em diferentes formatos.  Você pode usar:
- read_csv(): para ler arquivos CSV (Comma Separated Values), que são arquivos de texto com dados separados por vírgulas.
- read_excel(): para ler arquivos do Excel (.xls ou .xlsx).
- read_json(): para ler arquivos JSON (JavaScript Object Notation), que são arquivos de texto com dados em formato de objeto JavaScript.
- read_html(): para ler tabelas HTML, que são estruturas de dados organizadas em formato de tabela em uma página da web.
- read_sql(): para ler dados de um banco de dados relacional, como o MySQL, PostgreSQL e SQL Server.

Para praticar os métodos aprendidos no decorrer dessa aula e também aprender novos, vamos realizar algumas análises utilizando um arquivo csv diferente: alunos.csv.

1) Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas.

2) Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.

3) Confira a quantidade de linhas e colunas desse DataFrame.

4) Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.

Extra: Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc). Dica: pesquise pelo método describe.

In [77]:
import pandas as pd

In [78]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'

In [79]:
pd.read_csv(url)
dados_alunos = pd.read_csv(url)

In [80]:
dados_alunos.head(7)

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True


In [81]:
dados_alunos.tail(5)

Unnamed: 0,Nome,Idade,Notas,Aprovado
13,Mirla,25,9.0,True
14,Paulo,37,,False
15,Mylena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,True


In [82]:
dados_alunos.shape

(18, 4)

In [83]:
dados_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nome      18 non-null     object 
 1   Idade     18 non-null     int64  
 2   Notas     12 non-null     float64
 3   Aprovado  18 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 582.0+ bytes


In [84]:
dados_alunos.describe()

Unnamed: 0,Idade,Notas
count,18.0,12.0
mean,25.5,6.8
std,6.070662,2.204953
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


A ideia por trás do groupby é dividir os dados em grupos com base nos critérios selecionados e, em seguida, aplicar uma operação a esses grupos. Essa operação pode ser uma função de agregação, como soma, média, contagem, desvio padrão, entre outras, ou mesmo uma operação personalizada definida pela pessoa usuária.

Esse método possui diversos parâmetros, alguns deles são:

by: esse é o parâmetro mais comum e é usado para especificar a coluna ou colunas que queremos agrupar. Como argumento dele, podemos passar o nome de uma coluna ou uma lista de nomes de colunas;

axis: utilizamos esse parâmetro para especificar o eixo ao longo do qual queremos agrupar. O valor padrão dele é 0, o que significa que as linhas serão agrupadas. Se quisermos agrupar as colunas, devemos definir esse parâmetro como 1;

sort: esse parâmetro é um booleano (True ou False) que indica se os grupos devem ser ordenados pelo valor da coluna de agrupamento. O valor padrão é True;

dropna: utilizamos esse parâmetro para controlar se os valores ausentes (NaN) serão excluídos ou não durante o processo de agrupamento. O valor padrão é True.

In [85]:
import pandas as pd

df = pd.DataFrame({
   'Animal': ['Cachorro', 'Gato', 'Elefante', 'Cachorro', 'Gato', 'Elefante'],
   'Cor': ['Preto', 'Branco', 'Cinza', 'Marrom', 'Preto', 'Marrom'],
   'Quantidade': [2, 3, 1, 4, 2, 2]
})
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


In [86]:
df.groupby('Animal').sum(numeric_only=True)

Unnamed: 0_level_0,Quantidade
Animal,Unnamed: 1_level_1
Cachorro,6
Elefante,3
Gato,5


In [87]:
df.groupby(['Animal', 'Cor'])[['Quantidade']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade
Animal,Cor,Unnamed: 2_level_1
Cachorro,Marrom,4
Cachorro,Preto,2
Elefante,Cinza,1
Elefante,Marrom,2
Gato,Branco,3
Gato,Preto,2


Remover os dados nulos:  

O método dropna()  é como um "faxineiro" que remove as linhas ou colunas que possuem valores nulos.  É uma solução rápida, mas cuidado! Se você remover muitas linhas, pode perder informações importantes. 
Preencher os dados nulos: O método fillna()  é como um "artista" que preenche os espaços vazios com um valor que você escolher.  Você pode usar um valor fixo, como zero, ou usar valores de outras linhas, como o method="ffill" ou method="bfill". 
Interpolar os dados nulos: O método interpolate() é como um "mágico" que preenche os espaços vazios com valores calculados a partir dos valores vizinhos.  É uma boa opção quando você tem dados que seguem um padrão, como uma série temporal.

Lembrese que a melhor forma de tratar os dados nulos depende do seu problema e do que você quer analisar.

### Utilizando metodo Drop

In [88]:
import pandas as pd

dados = pd.DataFrame([['Feira', 'Cebola', 2.5], 
                        ['Mercado', 'Cebola', 1.99], 
                        ['Supermercado', 'Cebola', 1.69], 
                        ['Feira', 'Tomate', 4], 
                        ['Mercado', 'Tomate', 3.29], 
                        ['Supermercado', 'Tomate', 2.99], 
                        ['Feira', 'Batata', 4.2], 
                        ['Mercado', 'Batata', 3.99], 
                        ['Supermercado', 'Batata', 3.69]],
                        columns = ['Local', 'Produto', 'Preço'])
dados

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
2,Supermercado,Cebola,1.69
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
5,Supermercado,Tomate,2.99
6,Feira,Batata,4.2
7,Mercado,Batata,3.99
8,Supermercado,Batata,3.69


In [89]:
#dados_alunos.drop([2, 5, 8], axis=0, inplace=True)
#dados_alunos

Continuando tratamento de dados da base de alunos. 

1) Verifique se a base de dados possui dados nulos e, caso tenha, realize o tratamento desses dados nulos da forma que achar mais coerente com a situação.

In [90]:
dados_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,,False
6,Dara,21,7.0,True
7,Carlos,19,6.0,True
8,Alice,35,5.6,False
9,Vitor,28,,False


In [91]:
dados_alunos.isnull().sum()

Nome        0
Idade       0
Notas       6
Aprovado    0
dtype: int64

In [92]:
dados_alunos =dados_alunos.fillna(0)

In [93]:
dados_alunos.isnull().sum()

Nome        0
Idade       0
Notas       0
Aprovado    0
dtype: int64

In [94]:
dados_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,0.0,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,0.0,False
6,Dara,21,7.0,True
7,Carlos,19,6.0,True
8,Alice,35,5.6,False
9,Vitor,28,0.0,False


2) Os alunos "Alice" e "Carlos", não fazem mais parte da turma. Sendo assim, remova-os da base de dados.

In [95]:
remove_df = dados_alunos.query('Nome == "Carlos" | Nome == "Alice" ').index
remove_df
dados_alunos.drop(remove_df, axis=0, inplace=True)
dados_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,0.0,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True
5,Bruna,23,0.0,False
6,Dara,21,7.0,True
9,Vitor,28,0.0,False
10,Daniel,21,0.0,False
11,Igor,24,4.5,False


3) Aplique um filtro que selecione apenas os alunos que foram aprovados.

In [96]:
alunos_aprovados = dados_alunos.query('Aprovado == True')
alunos_aprovados

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
4,Beto,21,10.0,True
6,Dara,21,7.0,True
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
15,Mylena,29,7.0,True
17,Nadia,34,8.0,True


4) Salve o DataFrame que possui apenas os alunos aprovados em um arquivo csv chamado "alunos_aprovados.csv".

In [97]:
alunos_aprovados.to_csv('alunos_aprovados.csv',index=False)
pd.read_csv('alunos_aprovados.csv')

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Beto,21,10.0,True
2,Dara,21,7.0,True
3,Sthefanie,26,9.5,True
4,Mirla,25,9.0,True
5,Mylena,29,7.0,True
6,Nadia,34,8.0,True


Extra: Ao conferir as notas dos alunos aprovados, notamos que algumas notas estavam incorretas. As alunas que tiraram nota 7.0, na verdade, tinham um ponto extra que não foi contabilizado. Sendo assim, substitua as notas 7.0 da base de dados por 8.0. Dica: pesquise pelo método replace.

In [98]:
alunos_aprovados = alunos_aprovados.replace(7.0, 8.0)
alunos_aprovados

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
4,Beto,21,10.0,True
6,Dara,21,8.0,True
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
15,Mylena,29,8.0,True
17,Nadia,34,8.0,True


In [99]:
alunos_aprovados.to_csv('alunos_aprovados.csv',index=False)
pd.read_csv('alunos_aprovados.csv')

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Beto,21,10.0,True
2,Dara,21,8.0,True
3,Sthefanie,26,9.5,True
4,Mirla,25,9.0,True
5,Mylena,29,8.0,True
6,Nadia,34,8.0,True


In [100]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = [7, 8, 9]
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [101]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


In [102]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df = df.assign(C=[7, 8, 9])
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [103]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'].apply(lambda x: x * 2)
df

Unnamed: 0,A,B,C
0,1,4,2
1,2,5,4
2,3,6,6


1) Os alunos participaram de uma atividade extracurricular e ganharam pontos extras. Esses pontos extras correspondem a 40% da nota atual de cada um deles. Com base nisso, crie uma coluna chamada "Pontos_extras" que contenha os pontos extras de cada aluno, ou seja, 40% da nota atual deles.

In [104]:

dados_alunos.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,0.0,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True


In [105]:
dados_alunos['Pontos_extras'] =  dados_alunos['Notas'] *0.4
dados_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras
0,Ary,20,7.5,True,3.0
1,Ana,18,0.0,False,0.0
2,Cátia,27,2.5,False,1.0
3,Denis,18,5.0,False,2.0
4,Beto,21,10.0,True,4.0
5,Bruna,23,0.0,False,0.0
6,Dara,21,7.0,True,2.8
9,Vitor,28,0.0,False,0.0
10,Daniel,21,0.0,False,0.0
11,Igor,24,4.5,False,1.8


2) Crie mais uma coluna, chamada "Notas_finais" que possua as notas de cada aluno somada com os pontos extras.

In [106]:
dados_alunos['Notas_finais'] = dados_alunos['Notas'] + dados_alunos['Pontos_extras']
dados_alunos


Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras,Notas_finais
0,Ary,20,7.5,True,3.0,10.5
1,Ana,18,0.0,False,0.0,0.0
2,Cátia,27,2.5,False,1.0,3.5
3,Denis,18,5.0,False,2.0,7.0
4,Beto,21,10.0,True,4.0,14.0
5,Bruna,23,0.0,False,0.0,0.0
6,Dara,21,7.0,True,2.8,9.8
9,Vitor,28,0.0,False,0.0,0.0
10,Daniel,21,0.0,False,0.0,0.0
11,Igor,24,4.5,False,1.8,6.3


In [107]:
dados_alunos['Aprovacao_final'] =  dados_alunos['Notas_finais'].apply(lambda x: True if x >=6 else False)
dados_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras,Notas_finais,Aprovacao_final
0,Ary,20,7.5,True,3.0,10.5,True
1,Ana,18,0.0,False,0.0,0.0,False
2,Cátia,27,2.5,False,1.0,3.5,False
3,Denis,18,5.0,False,2.0,7.0,True
4,Beto,21,10.0,True,4.0,14.0,True
5,Bruna,23,0.0,False,0.0,0.0,False
6,Dara,21,7.0,True,2.8,9.8,True
9,Vitor,28,0.0,False,0.0,0.0,False
10,Daniel,21,0.0,False,0.0,0.0,False
11,Igor,24,4.5,False,1.8,6.3,True


In [108]:
dados_alunos.query('Aprovado == False & Aprovacao_final == True')

Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras,Notas_finais,Aprovacao_final
3,Denis,18,5.0,False,2.0,7.0,True
11,Igor,24,4.5,False,1.8,6.3,True
