In [2]:
import pandas as pd

## Formas de Criar uma lista

### Usando espaço e a função split

In [3]:
data = ['1 2 3 4'.split(),
       '5 6 7 8 '.split(),
       '9 10 11 12'.split(),
       '13 14 15 16'.split()]
data

[['1', '2', '3', '4'],
 ['5', '6', '7', '8'],
 ['9', '10', '11', '12'],
 ['13', '14', '15', '16']]

## Passando int para cada elemento

### Com a função map

In [4]:
# map usa os parâmetros (function sem parênteses, variável)
for i, l in enumerate(data):
    data[i] = list(map(int, l))
data

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

### Com for e range

In [5]:
for l in range(len(data)):
    for i in range(len(data[l])):
        data[l][i] = int(data[l][i])
data

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

### Com for e enumerate

In [6]:
for i, l in enumerate(data):
    for p, n in enumerate(data[i]):
        data[i][p] = int(n)
data

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

## Criando um Dataframe com split
* para criar o index e as columns pode-se passar uma str e a função split
* o split usa por padrão o espaço vazio como separador
* se for usado outro separador, deve ser passado como parâmetro

In [7]:
data = [(1, 2, 3, 4),
       (5, 6, 7, 8),
       (9, 10, 11, 12),
       (13, 14, 15, 16)]
df = pd.DataFrame(data, 'l1 l2 l3 l4'.split(), 'c1 c2 c3 c4'.split())
df

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,9,10,11,12
l4,13,14,15,16


## Tipos de Seleção

### Selecionar coluna
* em outras palavras, selecionando uma series

In [8]:
df['c1']

l1     1
l2     5
l3     9
l4    13
Name: c1, dtype: int64

In [9]:
type(df['c1'])

pandas.core.series.Series

### Mais de uma coluna

In [10]:
df[['c3', 'c1']]
# as colunas são apresentadas na ordem que foi passada

Unnamed: 0,c3,c1
l1,3,1
l2,7,5
l3,11,9
l4,15,13


In [11]:
type(df[['c3', 'c1']])

pandas.core.frame.DataFrame

### Seleção por linha

In [12]:
# a seleção por linha obedece ao padrão de fatiamento de string
# não se usa o index sozinho, usa-se os ':'
# e mais ':' se for usar o passo além do intervalo
# ex => [::2] => seleciona tudo dando 2 passos
df[:]

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,9,10,11,12
l4,13,14,15,16


### Seleção de linhas e colunas

In [13]:
# selecionar a partir da linha de index 1
# e ainda, as colunas c3 e c1, nessa ordem
df[1:][['c3', 'c1']]

Unnamed: 0,c3,c1
l2,7,5
l3,11,9
l4,15,13


### Selecionando linhas com o loc
* o loc permite selecionar linhas usando o label da linha

In [14]:
df

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,9,10,11,12
l4,13,14,15,16


In [15]:
# pega uma linha e transforma numa series
df.loc['l1']

c1    1
c2    2
c3    3
c4    4
Name: l1, dtype: int64

In [16]:
# obedece o mesmo formato para selecionar mais de uma linha
df.loc[['l3', 'l2']]

Unnamed: 0,c1,c2,c3,c4
l3,9,10,11,12
l2,5,6,7,8


In [17]:
# para selecionar um elemento, usa-se a conotação matricial
df.loc['l3', 'c1']

9

### Selecionando com iloc
* o iloc tem a mesma função do loc, mas usa o index da linha, não o label

In [18]:
# selecionando o mesmo elemento com o iloc
df.iloc[2, 0]

9

### Selecionando várias linhas e colunas com loc e iloc

In [19]:
df

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,9,10,11,12
l4,13,14,15,16


In [20]:
# usando o loc
df.loc[['l3', 'l1'], ['c4', 'c1']]

Unnamed: 0,c4,c1
l3,12,9
l1,4,1


In [21]:
# usando o iloc
df.iloc[[2, 0], [3, 0]]

Unnamed: 0,c4,c1
l3,12,9
l1,4,1


## Exercícios

### Crie um DataFrame somente com os alunos reprovados e mantenha neste DataFrame apenas as colunas Nome, Sexo e Idade, nesta ordem.

In [22]:
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6], 
                        'Aprovado': [True, False, False, True, True, True, False, False]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas', 'Aprovado'])
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


### Resposta do exercício

In [50]:
selecao = alunos['Aprovado'] == False
reprovados = alunos[['Nome', 'Sexo', 'Idade']][selecao]
reprovados

Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


### Resposta organizando por sexo, colocando em ordem alfabética e refazendo o index

In [45]:
reprovados = alunos['Aprovado'] == False
# cria uma variável em que a coluna Aprovado tem valor False
alunos_reprovados = alunos[reprovados]
# cria um Dataframe apenas com Aprovado == False
alunos_reprovados = alunos_reprovados[['Nome', 'Sexo', 'Idade']].sort_values(by=['Sexo', 'Nome'])
# sobrescreve o Dataframe apenas com as colunas desejadas e com o filtro criado
alunos_reprovados.index = range(alunos_reprovados.shape[0])
# refaz o index com o range do tamanho do nº de linhas desse Dataframe
alunos_reprovados

Unnamed: 0,Nome,Sexo,Idade
0,Alice,F,35
1,Cátia,F,27
2,Carlos,M,19
3,Denis,M,56


### Crie uma visualização com os três alunos mais novos

In [52]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


In [54]:
alunos.sort_values(by='Idade', inplace=True)
alunos.iloc[:3]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
6,Carlos,19,M,6.0,False
5,Dara,21,F,7.0,True
