### Biblioteca Pandas

In [None]:
!pip install pandas

In [None]:
import pandas as pd

Um DataFrame representa uma tabela de dados retangular e contém uma coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente (numérico, string, booleano etc.).

Trata-se de uma estrutura de dados bidimensional semelhante a uma tabela de banco de dados ou uma planilha do Excel.

Os DataFrames são altamente versáteis e são frequentemente usados para representar conjuntos de dados completos.


**Como criar um DataFrame**

Vamos começar criando um DataFrame de exemplo a partir de um dicionário de dados:


In [3]:
# Dicionário (dataset)
dados = {
    'Nome': ['Fábio', 'Ana', 'Ricardo', 'Daniela'],
    'Idade': [45, 30, 22, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Recife']
}

# DataFrame criado a partir do dicionário
df = pd.DataFrame(dados)
print(df)


      Nome  Idade          Cidade
0    Fábio     45       São Paulo
1      Ana     30  Rio de Janeiro
2  Ricardo     22  Belo Horizonte
3  Daniela     28          Recife


Outro exemplo: vamos criar mais um DataFrame a partir de outro dicionário que contém nomes de países, quantidade de títulos mundiais, e ano em que ganhou o primeiro título.


In [4]:
dicionario={'País':['Brasil','Uruguai','Inglaterra','Espanha','Holanda','Itália','Argentina','Alemanha','França'],
           'Ano':[1958,1930,1966,2010,None,1934,1978,1954,1998],
           'Titulos':[5,2,1,1,0,4,3,4,2]
           }

dados = pd.DataFrame(dicionario)
print(dados)


         País     Ano  Titulos
0      Brasil  1958.0        5
1     Uruguai  1930.0        2
2  Inglaterra  1966.0        1
3     Espanha  2010.0        1
4     Holanda     NaN        0
5      Itália  1934.0        4
6   Argentina  1978.0        3
7    Alemanha  1954.0        4
8      França  1998.0        2


Note que na linha correspondente à Holanda a coluna Ano traz o valor NaN, que significa "Not a Number" (Não é um Número), indicando que este dado está ausente (a Holanda ainda não ganhou nenhuma copa, por isso o ano não existe!)

Se o conjunto de dados for muito grande e não quisermos exibi-lo inteiro na tela, podemos imprimir apenas as cinco primeiras ou as cinco últimas linhas com os métodos .head() e .tail(), respectivamentes:


In [5]:
# 5 primeiras linhas
print(dados.head())
print()
# 5 últimas linhas
print(dados.tail())


         País     Ano  Titulos
0      Brasil  1958.0        5
1     Uruguai  1930.0        2
2  Inglaterra  1966.0        1
3     Espanha  2010.0        1
4     Holanda     NaN        0

        País     Ano  Titulos
4    Holanda     NaN        0
5     Itália  1934.0        4
6  Argentina  1978.0        3
7   Alemanha  1954.0        4
8     França  1998.0        2


Podemos alterar a ordem das colunas passando como parâmetro ao método .DataFrame() uma lista de valores a serem usados como cabeçalho:


In [6]:
# Alterar ordem das colunas:
dados = pd.DataFrame(dados, columns=['Titulos','País','Ano'])
print(dados)

   Titulos        País     Ano
0        5      Brasil  1958.0
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
3        1     Espanha  2010.0
4        0     Holanda     NaN
5        4      Itália  1934.0
6        3   Argentina  1978.0
7        4    Alemanha  1954.0
8        2      França  1998.0


In [None]:
Para ver apenas os nomes das colunas constituintes do df:

In [7]:
# Ver nomes das colunas
print(dados.columns)

Index(['Titulos', 'País', 'Ano'], dtype='object')


Para imprimir colunas individuais (em vez do DataFrame completo) podemos passar o nome da coluna desejada como valor de índice (entre colchetes), ou então chamar a coluna pelo seu nome como uma propriedade (precedida de um ponto):

In [9]:
print('Países:')
print(dados['País'])
print('\nAnos:')
print(dados.Ano)


Países:
0        Brasil
1       Uruguai
2    Inglaterra
3       Espanha
4       Holanda
5        Itália
6     Argentina
7      Alemanha
8        França
Name: País, dtype: object

Anos:
0    1958.0
1    1930.0
2    1966.0
3    2010.0
4       NaN
5    1934.0
6    1978.0
7    1954.0
8    1998.0
Name: Ano, dtype: float64


Podemos imprimir mais de uma coluna (em vez do DataFrame completo) passando os nomes das colunas desejadas como valor de índice dentro de uma lista:

In [13]:
print('Países e Títulos:')
print(dados[['País','Titulos']])

Países e Títulos:
         País  Titulos
0      Brasil        5
1     Uruguai        2
2  Inglaterra        1
3     Espanha        1
4     Holanda        0
5      Itália        4
6   Argentina        3
7    Alemanha        4
8      França        2


**Acrescentar colunas**  
Adicionamos uma nova coluna ao DF simplesmente passando seu nome entre colchetes, e atribuindo valores a partir de uma sequência, como uma lista. Podemos inicializar a coluna com um único valor também (mesmo valor em todas as linhas), como por exemplo o valor 0:

In [14]:
# Acrescentar uma coluna ao DataFrame:
dados['Participações'] = 0
print(dados)


   Titulos        País     Ano  Participações
0        5      Brasil  1958.0              0
1        2     Uruguai  1930.0              0
2        1  Inglaterra  1966.0              0
3        1     Espanha  2010.0              0
4        0     Holanda     NaN              0
5        4      Itália  1934.0              0
6        3   Argentina  1978.0              0
7        4    Alemanha  1954.0              0
8        2      França  1998.0              0


E podemos então preencher essa nova coluna com valores oriundos de uma lista

In [15]:
# Preencher a coluna com valores de uma lista:
part = [22,14,16,16,11,18,18,20,16]
dados['Participações'] = part
print(dados)


   Titulos        País     Ano  Participações
0        5      Brasil  1958.0             22
1        2     Uruguai  1930.0             14
2        1  Inglaterra  1966.0             16
3        1     Espanha  2010.0             16
4        0     Holanda     NaN             11
5        4      Itália  1934.0             18
6        3   Argentina  1978.0             18
7        4    Alemanha  1954.0             20
8        2      França  1998.0             16


**Excluir colunas**  
Para excluir uma coluna do DataFrame empregamos a função del:

In [16]:
# Excluir coluna "Participações"
del dados['Participações']
print(dados)


   Titulos        País     Ano
0        5      Brasil  1958.0
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
3        1     Espanha  2010.0
4        0     Holanda     NaN
5        4      Itália  1934.0
6        3   Argentina  1978.0
7        4    Alemanha  1954.0
8        2      França  1998.0


**Excluir linha**  
É possível excluir uma linha usando o método .drop(), passando o número da linha a excluir como um valor de índice. No exemplo a seguir vamos criar um novo DataFrame a partir do atual, excluindo nele a linha 4:

In [17]:
# Excluir a linha 4 (Holanda)
dados2 = dados.drop([4])
print(dados2)


   Titulos        País     Ano
0        5      Brasil  1958.0
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
3        1     Espanha  2010.0
5        4      Itália  1934.0
6        3   Argentina  1978.0
7        4    Alemanha  1954.0
8        2      França  1998.0


Para excluir várias linhas de uma vez, basta passar uma lista com seus números de índice:

In [18]:
# Excluir as linhas 3, 4 e 5 de uma vez
dados2 = dados.drop([4, 3, 5])
print(dados2)

   Titulos        País     Ano
0        5      Brasil  1958.0
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
6        3   Argentina  1978.0
7        4    Alemanha  1954.0
8        2      França  1998.0


Para excluir uma linha no DataFrame em si, sem precisar criar uma cópia dele, usamos o parâmetro inplace=True:

In [19]:
# Excluir linhas in loco
dados.drop(4, inplace=True)
print(dados)

   Titulos        País     Ano
0        5      Brasil  1958.0
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
3        1     Espanha  2010.0
5        4      Itália  1934.0
6        3   Argentina  1978.0
7        4    Alemanha  1954.0
8        2      França  1998.0


Podemos retornar um conjunto de linhas passando seus índices, inclusive usando fatiamento (slicing):

In [20]:
# Retornar linhas de 1 a 5:
print(dados[1:5])


   Titulos        País     Ano
1        2     Uruguai  1930.0
2        1  Inglaterra  1966.0
3        1     Espanha  2010.0
5        4      Itália  1934.0


Também é possível realizar essa operação usando rótulos em vez de números de índice:

In [21]:
# Fatiamento com rótulos

dicionario={'País':['Brasil','Uruguai','Inglaterra','Espanha','Holanda','Itália','Argentina','Alemanha','França'],
           'Ano':[1958,1930,1966,2010,None,1934,1978,1954,1998],
           'Titulos':[5,2,1,1,0,4,3,4,2]
           }

dados = pd.DataFrame(dicionario, index=['a','b','c','d','e','f','g','h','i'])
# Mostra df completo
print(dados, '\n')
# Mostra apenas linhas de índices c até f:
print(dados['c':'f'])


         País     Ano  Titulos
a      Brasil  1958.0        5
b     Uruguai  1930.0        2
c  Inglaterra  1966.0        1
d     Espanha  2010.0        1
e     Holanda     NaN        0
f      Itália  1934.0        4
g   Argentina  1978.0        3
h    Alemanha  1954.0        4
i      França  1998.0        2 

         País     Ano  Titulos
c  Inglaterra  1966.0        1
d     Espanha  2010.0        1
e     Holanda     NaN        0
f      Itália  1934.0        4


Podemos realizar indexação com método .loc(), retornando linhas e colunas específicas apenas por meio de seus rótulos:

In [22]:
# Indexação com loc
# Linha b, colunas de País e Títulos
print(dados.loc['b',['País', 'Titulos']])

# Linhas de a a d, coluna de Ano:
print(dados.loc[:'d','Ano'])


País       Uruguai
Titulos          2
Name: b, dtype: object
a    1958.0
b    1930.0
c    1966.0
d    2010.0
Name: Ano, dtype: float64


Ou ainda indexar com método .iloc(), que retorna as linhas e colunas específicas de acordo com números de índices:

In [23]:
# Indexação com iloc
print(dados.iloc[1,[0, 2]])


País       Uruguai
Titulos          2
Name: b, dtype: object


Podemos exibir os dados ordenados por índice tanto em ordem crescente quando descrescente com o método sort_index():

In [24]:
# Ordenação por índice
print(dados.sort_index())
print()
# Ordenação por índice em ordem inversa
print(dados.sort_index(ascending=False))


         País     Ano  Titulos
a      Brasil  1958.0        5
b     Uruguai  1930.0        2
c  Inglaterra  1966.0        1
d     Espanha  2010.0        1
e     Holanda     NaN        0
f      Itália  1934.0        4
g   Argentina  1978.0        3
h    Alemanha  1954.0        4
i      França  1998.0        2

         País     Ano  Titulos
i      França  1998.0        2
h    Alemanha  1954.0        4
g   Argentina  1978.0        3
f      Itália  1934.0        4
e     Holanda     NaN        0
d     Espanha  2010.0        1
c  Inglaterra  1966.0        1
b     Uruguai  1930.0        2
a      Brasil  1958.0        5


Para ordenar os dados pelos valores de uma coluna específica usamos o método sort_values(), passando os nomes das colunas na ordem em que desejamos a ordenação:

In [25]:
# Ordenação por colunas: ordem alfabética de país
print(dados.sort_values(by='País'))

         País     Ano  Titulos
h    Alemanha  1954.0        4
g   Argentina  1978.0        3
a      Brasil  1958.0        5
d     Espanha  2010.0        1
i      França  1998.0        2
e     Holanda     NaN        0
c  Inglaterra  1966.0        1
f      Itália  1934.0        4
b     Uruguai  1930.0        2


In [26]:
# Ordem alfabética inversa:
print(dados.sort_values(by='País', ascending=False))

         País     Ano  Titulos
b     Uruguai  1930.0        2
f      Itália  1934.0        4
c  Inglaterra  1966.0        1
e     Holanda     NaN        0
i      França  1998.0        2
d     Espanha  2010.0        1
a      Brasil  1958.0        5
g   Argentina  1978.0        3
h    Alemanha  1954.0        4


In [27]:
# Ordenação por várias colunas: ordem crescente de títulos e alfabética de países.
print(dados.sort_values(by=['Titulos','País']))

         País     Ano  Titulos
e     Holanda     NaN        0
d     Espanha  2010.0        1
c  Inglaterra  1966.0        1
i      França  1998.0        2
b     Uruguai  1930.0        2
g   Argentina  1978.0        3
h    Alemanha  1954.0        4
f      Itália  1934.0        4
a      Brasil  1958.0        5


In [28]:
# Ou ainda ordem decrescente de títulos e alfabética de países
# Ordenação por várias colunas
print(dados.sort_values(by=['Titulos','País'],
                       ascending = [False, True]))

         País     Ano  Titulos
a      Brasil  1958.0        5
h    Alemanha  1954.0        4
f      Itália  1934.0        4
g   Argentina  1978.0        3
i      França  1998.0        2
b     Uruguai  1930.0        2
d     Espanha  2010.0        1
c  Inglaterra  1966.0        1
e     Holanda     NaN        0


**Renomear colunas**

É possível renomear uma ou mais colunas de um DF usando o método rename(). Para tal, passamos um mapeamento de dicionário para o parâmetro "columns" contendo pares chave:valor nos quais a chave é o nome da coluna a renomear, e o valor é o novo nome que será usado.

Por exemplo, vamos renomear a coluna "Titulos" para "Campeonatos":


In [29]:
# Renomear uma coluna 
dados2=dados.rename(columns = {'Titulos':'Campeonatos'})
print(dados2.columns)


Index(['País', 'Ano', 'Campeonatos'], dtype='object')


Uma alternativa é usar o parâmetro axis='columns' ou axis='1':

In [30]:
# Renomear a coluna de volta
dados2=dados.rename({'Campeonatos':'Titulos'}, axis='columns')
print(dados2.columns)


Index(['País', 'Ano', 'Titulos'], dtype='object')


Para alterar o nome da coluna in loco (sem criar outro df), usamos novamente o parâmetro inplace:


In [31]:
# Renomear coluna no DataFrame atual (inplace).
dados2.rename({'Titulos':'Campeonatos'}, axis='columns', inplace=True)
print(dados2.columns)

Index(['País', 'Ano', 'Campeonatos'], dtype='object')


Para renomear múltiplas colunas o processo é o mesmo, bastando passá-las como um mapeamento de dicionário.
Por exemplo, vamos renomear as colunas "Campeonatos" e "Ano" para "Titulos" e "Primeiro_Titulo" respectivamente no df dados2:

In [32]:
# Renomear várias colunas de uma vez no DataFrame atual.
dados2.rename({'Campeonatos':'Titulos', 'Ano':'Primeiro_Titulo'}, axis='columns', inplace=True)
print(dados2.columns)

Index(['País', 'Primeiro_Titulo', 'Titulos'], dtype='object')


Também podemos renomear todas as colunas de um dataframe de uma vez, passando para isso uma lista com os novos nomes a usar. O comprimento da lista deve ser igual ao número de colunas existentes no df, e as colunas serão renomeadas na ordem em que aparecem.

Note que neste caso renomeamos as colunas SEM usar o método rename().

Por exemplo:

In [33]:
# Renomear colunas com lista
nomes = ['Nação','Ano_Ganhou','Qtde_Titulos']
dados2.columns = nomes
print(dados2.columns)

Index(['Nação', 'Ano_Ganhou', 'Qtde_Titulos'], dtype='object')


**Renomear colunas adicionando sufixos ou prefixos**

Às vezes precisamos renomear colunas adicionando sufixos ou prefixos na forma de uma sequência de caracteres. Podemos fazer isso usando os métodos add_prefix() ou add_suffix(). Por exemplo, vamos adicionar o prefixo "copa_"  a todas as colunas do dataframe dados2:

In [34]:
# Renomear todas as colunas adicionando um prefixo
dados2 = dados2.add_prefix('copa_')
print(dados2.columns)

Index(['copa_Nação', 'copa_Ano_Ganhou', 'copa_Qtde_Titulos'], dtype='object')


Mais aqui: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.add_prefix.html

Para remover um prefixo ou sufixo, podemos usar (entre outros) o método str.replace(), que substitui todas as ocorrências de uma determinada string por outra string (ou nenhuma string, que é o caso). Vamos remover o prefixo "copa_" adicionado anteriormente para testar:

In [35]:
# Remover prefixo com método str.replace
dados2.columns = dados.columns.str.replace('copa_', '')
dados2

Unnamed: 0,País,Ano,Titulos
a,Brasil,1958.0,5
b,Uruguai,1930.0,2
c,Inglaterra,1966.0,1
d,Espanha,2010.0,1
e,Holanda,,0
f,Itália,1934.0,4
g,Argentina,1978.0,3
h,Alemanha,1954.0,4
i,França,1998.0,2


Cuidado ao usar esse método para remover prefixos e sufixos, pois se houverem outras sequências de caracteres nos nomes das colunas iguais às que se deseja remover, estas também serão removidas, alterando de forma indesejada os nomes.