Introdução ao Pandas

In [159]:
!pip install pandas




[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [160]:
# convenções usadas!
import numpy as np
import pandas as pd

Estruturas de dados do pandas

Series e DataFrame são as estruturas usadas no pandas e são úteis para maior parte das aplicações.

Series: objeto tipo array unidimensional com uma sequência de valores e um array associado de rótulos (labels) de dados, chamado de índice.

In [161]:
obj = pd.Series([4, 7, -5, 3])
obj # índice à esquerda

0    4
1    7
2   -5
3    3
dtype: int64

não especificamos um índice para os dados, então o índice default é constituído de inteiros 0 a N - 1 (N é o tamanho dos dados).

In [162]:
obj.values # valores do array de Series

array([ 4,  7, -5,  3], dtype=int64)

In [163]:
obj.index # valores do índice // como range(4)

RangeIndex(start=0, stop=4, step=1)

In [164]:
obj2 = pd.Series([6, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [165]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [166]:
obj2['d'], obj2['c'] # podemos acessar os valores pelo seu índice

(6, 3)

In [167]:
obj2[['d', 'c']] # lista de índices

d    6
c    3
dtype: int64

In [168]:
obj2[obj2 > 0] # preservamos ligação entre índice e valor

d    6
b    7
c    3
dtype: int64

In [169]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [170]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

uma Series pode ser vista também como um dicionário ordenado de tamanho fixo.

In [171]:
'b' in obj2, 'e' in obj2

(True, False)

Dados contido em um dicionário em Python puro pode ser convertido para uma Series.

In [172]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [173]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, states) # usa os índices de states e une com os valores achados em sdata
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

`isnull` e `notnull` do pandas são usadas para encontrar dados ausentes.

In [174]:
pd.isnull(obj4), pd.notnull(obj4)
# ou
# obj4.isnull(), obj4.notnull()

(California     True
 Ohio          False
 Oregon        False
 Texas         False
 dtype: bool,
 California    False
 Ohio           True
 Oregon         True
 Texas          True
 dtype: bool)

In [175]:
# alinhamento automático feito pelo rótulo dos índices
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

o objeto Series e seu índice têm um atributo `name`.

In [176]:
obj4.name = 'population'  # nome relativo a valores
obj4.index.name = 'state' # nome relativo ao índice
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

um índice de Series pode ser alterado in-place por atribuição.

In [177]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [178]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

DataFrame: representa uma tabela de dados retangular e contém uma coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente; o DataFrame tem um índice para coluna e linha; pode ser visto como um dicionário de Series.

In [179]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [180]:
frame.head(3) # 3 primeiras linhas do dataframe

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


In [181]:
frame.tail(3) # 3 últimas linhas do dataframe

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [182]:
# podemos especificar uma ordem para a organização das colunas
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'inexistente'])

In [183]:
# coluna em um DataFrame pode ser obtida como uma Series (duas formas)
frame2['state'], frame2.year
# frame2.column só funciona quando o nome da coluna for um nome de variável aceito pelo Python

(0      Ohio
 1      Ohio
 2      Ohio
 3    Nevada
 4    Nevada
 5    Nevada
 Name: state, dtype: object,
 0    2000
 1    2001
 2    2002
 3    2001
 4    2002
 5    2003
 Name: year, dtype: int64)

In [184]:
# podemos modificar colunas por atribuição
frame2['inexistente'] = 16.5
frame2

Unnamed: 0,year,state,pop,inexistente
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [185]:
frame2['inexistente'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,inexistente
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


ao atribuir listas/arrays a uma coluna, o tamanho do valor deve coincidir com o tamanho do DataFrame.

In [186]:
val = pd.Series([-1.2, -1.5, -1.7], index=['0', '2', '3'])
frame2['inexistente'] = val
frame2 # não funcionou!

Unnamed: 0,year,state,pop,inexistente
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


fazer uma atribuição a uma coluna que não exista fará uma nova coluna ser criada; `del` apagará colunas, como ocorre em um dicionário.

In [187]:
# novas colunas NÃO podem ser criadas com a sintaxe 'frame2.column'
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,inexistente,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [188]:
del frame2['eastern']
del frame2['inexistente']
frame2.columns

Index(['year', 'state', 'pop'], dtype='object')

In [189]:
# outro formato de dados comum é um dicionário de dicionários aninhados
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


podemos fazer a transposição do DataFrame (trocar linhas e colunas) com uma sintaxe semelhante àquela usada em um array NumPy.

In [190]:
# as chaves dos dicionários mais internos são combinadas e ordenadas para compor o índice no resultado
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


possíveis entradas para o construtor de DataFrame: ndarray 2D, Dicionário de arrays, listas
ou tuplas, Array NumPy estruturado/de registros, Dicionário de Series, Dicionário de dicionários, Lista de dicionários ou de Series, Lista de listas ou de tuplas, Outro DataFrame, MaskedArray do NumPy

In [196]:
frame2.values

array([[2000, 'Ohio', 1.5],
       [2001, 'Ohio', 1.7],
       [2002, 'Ohio', 3.6],
       [2001, 'Nevada', 2.4],
       [2002, 'Nevada', 2.9],
       [2003, 'Nevada', 3.2]], dtype=object)

Objetos Index

os objetos Index do pandas são responsáveis por armazenar os rótulos dos eixos e outros metadados (como o nome ou os nomes dos eixos).