# Exercícios do curso de pandas e dados

## Importando dados

### Informações de um DataFrame

Considere o seguinte código Python no Jupyter:

In [1]:
import pandas as pd
data = [['Fulano', 12, 7.0, True],
        ['Sicrano', 15, 3.5, False], 
        ['Beltrano', 18, 9.3, True]]
dados = pd.DataFrame(data, 
        columns = ['Aluno', 'Idade', 'Nota', 'Aprovado'])
dados

Unnamed: 0,Aluno,Idade,Nota,Aprovado
0,Fulano,12,7.0,True
1,Sicrano,15,3.5,False
2,Beltrano,18,9.3,True


Para obtermos uma tabela contendo os nomes das variáveis e seus respectivos tipos de dados, conforme o exemplo abaixo, que linhas de código devemos executar no Jupyter?

In [8]:
tipos_de_dados = pd.DataFrame(dados.dtypes, columns = ['Tipos de dados'])

In [10]:
tipos_de_dados.columns.name = 'Variáveis'
tipos_de_dados

Variáveis,Tipos de dados
Aluno,object
Idade,int64
Nota,float64
Aprovado,bool


## Series e index

### Utilizando métodos no pandas

O pandas disponibiliza um método de DataFrame para remoção de linhas duplicadas. Este método é o `drop_duplicates()`, que apresenta um conjunto de argumentos de configuração. Considerando as duas linhas de código abaixo:

In [12]:
import pandas as pd
dados = pd.DataFrame([1, 1, 2, 3, 3, 3, 4, 4], columns = ['X'])

Assinale a opção onde o método drop_duplicates() é corretamente aplicado!

In [13]:
dados.drop_duplicates(inplace = True)

In [14]:
dados

Unnamed: 0,X
0,1
2,2
3,3
6,4


## Filtrando dados

### Determinando seleções

In [1]:
import pandas as pd

numeros = [i for i in range(11)]
letras = [chr(i + 65) for i in range(11)]
nome_coluna = ['N']

df = pd.DataFrame(data = numeros, index = letras, columns = nome_coluna)

In [2]:
selecao = df['N'].isin([i for i in range(11) if i % 2 == 0])
df = df[selecao]
df

Unnamed: 0,N
A,0
C,2
E,4
G,6
I,8
K,10


###  Mais sobre classificações

In [4]:
df_A = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Carlos', 'Beto', 'Bruna', 'Ana'],
                    'Sexo': ['M', 'F', 'M', 'M', 'F', 'F'],
                    'Idade': [21, 19, 50, 29, 31, 42]})
df_A

Unnamed: 0,Nome,Sexo,Idade
0,Ary,M,21
1,Cátia,F,19
2,Carlos,M,50
3,Beto,M,29
4,Bruna,F,31
5,Ana,F,42


In [6]:
df_B = df_A.sort_values(by = ['Sexo', 'Nome'])
df_B

Unnamed: 0,Nome,Sexo,Idade
5,Ana,F,42
4,Bruna,F,31
1,Cátia,F,19
0,Ary,M,21
3,Beto,M,29
2,Carlos,M,50


## Frequências de imóveis

In [7]:
import pandas as pd
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6], 
                        'Aprovado': [True, False, False, True, True, True, False, False]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas', 'Aprovado'])

Crie um DataFrame somente com os alunos aprovados.

In [8]:
alunos[alunos.Aprovado]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


In [10]:
# ou
selecao = alunos['Aprovado'] == True
alunos[selecao]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


Crie um DataFrame somente com as alunas aprovadas.

In [12]:
selecao = (alunos['Aprovado'] == True) & (alunos['Sexo'] == 'F')
alunos[selecao]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


In [14]:
# ou 
selecao = (alunos.Aprovado == True) & (alunos.Sexo == 'F')
alunos[selecao]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


Crie apenas uma visualização dos alunos com idade entre 10 e 20 anos ou com idade maior ou igual a 40 anos.

In [16]:
selecao = ((alunos.Idade >= 10) & (alunos.Idade <= 20)) | (alunos.Idade >= 40)
alunos[selecao]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
2,Denis,56,M,5.0,False
4,Bruna,42,F,8.2,True
6,Carlos,19,M,6.0,False


Crie um DataFrame somente com os alunos reprovados e mantenha neste DataFrame apenas as colunas Nome, Sexo e Idade, nesta ordem.

In [18]:
selecao = alunos.Aprovado == False
alunos[selecao][['Nome', 'Sexo', 'Idade']]

Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


In [19]:
alunos[['Nome', 'Sexo', 'Idade']][selecao]

Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


Crie uma visualização com os três alunos mais novos.

In [22]:
alunos.sort_values(by = 'Idade')[:3]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
6,Carlos,19,M,6.0,False
5,Dara,21,F,7.0,True


## Tratando dados faltantes

### Revisando o processo

In [32]:
imoveis = pd.DataFrame([['Apartamento', None, 970, 68], 
                        ['Apartamento', 2000, 878, 112], 
                        ['Casa', 5000, None, 500], 
                        ['Apartamento', None, 1010, 170], 
                        ['Apartamento', 1500, 850, None], 
                        ['Casa', None, None, None], 
                        ['Apartamento', 2000, 878, None], 
                        ['Apartamento', 1550, None, 228], 
                        ['Apartamento', 2500, 880, 195]], 
                        columns = ['Tipo', 'Valor', 'Condominio', 'IPTU'])
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,,970.0,68.0
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
3,Apartamento,,1010.0,170.0
4,Apartamento,1500.0,850.0,
5,Casa,,,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [33]:
# 1) Elimina os registros que não apresentam a variável Valor:
imoveis.dropna(subset = ['Valor'], inplace = True)
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [34]:
# 2) Elimina os imóveis do tipo Apartamento que não apresentam valor Condominio:
selecao = (imoveis['Tipo'] == 'Apartamento') & (imoveis['Condominio'].isnull())
imoveis = imoveis[~selecao]
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
8,Apartamento,2500.0,880.0,195.0


In [35]:
# 3) Substitui os valores faltantes que restam nas variáveis Condominio e IPTU por zero:
imoveis = imoveis.fillna({'Condominio': 0, 'IPTU': 0})
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,0.0,500.0
4,Apartamento,1500.0,850.0,0.0
6,Apartamento,2000.0,878.0,0.0
8,Apartamento,2500.0,880.0,195.0


In [36]:
# 4) Reconstrói o índice do DataFrame resultante:
imoveis.index = range(imoveis.shape[0])
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,2000.0,878.0,112.0
1,Casa,5000.0,0.0,500.0
2,Apartamento,1500.0,850.0,0.0
3,Apartamento,2000.0,878.0,0.0
4,Apartamento,2500.0,880.0,195.0
