# 10 Minutos para Pandas

Esta é uma breve introdução ao pandas, voltada principalmente para novos usuários. Você pode ver receitas mais complexas no [Cookbook](https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html) (documentação oficial em inglês).

Por convenção, importamos as bibliotecas da seguinte forma:

In [1]:
import numpy as np
import pandas as pd

## Estruturas de Dados Básicas no Pandas

O Pandas oferece duas classes principais para manipulação de dados:

1.  **`Series`**: Um array unidimensional rotulado capaz de armazenar dados de qualquer tipo (inteiros, strings, objetos Python, etc.). Pense nela como uma única coluna de uma tabela.
2.  **`DataFrame`**: Uma estrutura de dados bidimensional, como uma tabela com linhas e colunas, onde cada coluna pode ter um tipo de dado diferente. É a estrutura mais utilizada no Pandas.

## Criação de Objetos

Veja mais detalhes na seção [Introdução às Estruturas de Dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html) da documentação oficial.

### Criando uma `Series`
Criando uma `Series` passando uma lista de valores, permitindo ao Pandas criar um `RangeIndex` (índice numérico padrão).

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Note que `np.nan` representa um valor ausente (Not a Number).

### Criando um `DataFrame`

#### Usando um array NumPy com índice de data e colunas rotuladas:
Usamos `pd.date_range` para criar um índice baseado em datas.

In [3]:
# Criando um intervalo de datas
datas = pd.date_range("20230101", periods=6) # 6 períodos a partir de 01/01/2023
print("Índice de Datas Criado:")
print(datas)

# Criando o DataFrame com dados aleatórios (distribuição normal padrão)
# index=datas define o rótulo das linhas
# columns=list("ABCD") cria 4 colunas com rótulos A, B, C, D
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("\nDataFrame Criado:")
df

Índice de Datas Criado:
DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06'],
              dtype='datetime64[ns]', freq='D')

DataFrame Criado:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,1.355357,0.347516,0.939968
2023-01-06,0.63796,-0.186411,0.738073,-0.512852


#### Usando um dicionário de objetos:
As chaves do dicionário se tornam os nomes das colunas e os valores (que podem ser listas, Series, etc.) se tornam os dados das colunas.

In [4]:
df2 = pd.DataFrame(
    {
        "A": 1.0,  # Valor escalar, será repetido para todas as linhas
        "B": pd.Timestamp("20230102"), # Data e hora, será repetida
        "C": pd.Series(1, index=list(range(4)), dtype="float32"), # Uma Series, alinhada pelo índice
        "D": np.array([3] * 4, dtype="int32"), # Um array NumPy
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]), # Dados categóricos
        "F": "foo",  # String, será repetida
        "G": [10, 20, 30, 40] # Lista, definirá o tamanho das outras colunas se não especificado
    }
)
df2

Unnamed: 0,A,B,C,D,E,F,G
0,1.0,2023-01-02,1.0,3,teste,foo,10
1,1.0,2023-01-02,1.0,3,treino,foo,20
2,1.0,2023-01-02,1.0,3,teste,foo,30
3,1.0,2023-01-02,1.0,3,treino,foo,40


As colunas do `DataFrame` resultante possuem diferentes `dtypes` (tipos de dados):

In [5]:
print("Tipos de dados (dtypes) de cada coluna em df2:")
df2.dtypes

Tipos de dados (dtypes) de cada coluna em df2:


A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
G            int64
dtype: object

Se você estiver usando IPython (como no Jupyter Notebook), o autocompletar com a tecla TAB para nomes de colunas (assim como para atributos públicos) é ativado automaticamente. Por exemplo, se você digitar `df2.` e pressionar TAB, verá uma lista de sugestões como:

```
df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
...
```
As colunas `A`, `B`, `C`, `D`, `E`, `F` e `G` estarão lá. O restante dos atributos foi omitido por brevidade.

## Visualizando Dados

Formas de inspecionar rapidamente os dados em um DataFrame.

### `head()` e `tail()`
Use `.head()` para ver as primeiras linhas e `.tail()` para ver as últimas linhas do DataFrame.

In [6]:
print("Primeiras 5 linhas de df (padrão):")
display(df.head()) # Mostra as 5 primeiras linhas por padrão

print("\nÚltimas 3 linhas de df:")
display(df.tail(3))

Primeiras 5 linhas de df (padrão):


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,1.355357,0.347516,0.939968



Últimas 3 linhas de df:


Unnamed: 0,A,B,C,D
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,1.355357,0.347516,0.939968
2023-01-06,0.63796,-0.186411,0.738073,-0.512852


### `index`, `columns`
Exiba o índice (rótulos das linhas) ou as colunas (rótulos das colunas) do DataFrame.

In [7]:
print("Índice de df:")
print(df.index)

print("\nColunas de df:")
print(df.columns)

Índice de df:
DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06'],
              dtype='datetime64[ns]', freq='D')

Colunas de df:
Index(['A', 'B', 'C', 'D'], dtype='object')


### `to_numpy()`
Retorna uma representação NumPy dos dados subjacentes do DataFrame, *sem* os rótulos de índice ou coluna.

In [8]:
print("Representação NumPy de df:")
df_numpy = df.to_numpy()
print(df_numpy)

Representação NumPy de df:
[[-0.56666056 -0.55393464  1.32087803 -0.19333028]
 [-0.29557456 -0.74629703 -0.82509923  1.51362093]
 [ 0.38737648 -0.71555111  0.33664257 -0.49338321]
 [-0.5312989   1.43741977 -0.04776482 -2.06307453]
 [-0.53683865  1.35535678  0.34751614  0.93996751]
 [ 0.63796021 -0.18641066  0.73807316 -0.51285238]]


> **Nota:** Arrays NumPy possuem um único `dtype` para todo o array, enquanto DataFrames Pandas têm um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o Pandas encontrará o `dtype` NumPy que pode comportar *todos* os `dtypes` do DataFrame. Se o tipo de dado comum for `object`, `to_numpy()` exigirá a cópia dos dados, o que pode ser custoso para DataFrames grandes.

In [9]:
print("Tipos de dados de df2:")
print(df2.dtypes)
print("\nRepresentação NumPy de df2:")
df2_numpy = df2.to_numpy()
print(df2_numpy)
print(f"\nTipo do array NumPy resultante para df2: {df2_numpy.dtype}")

Tipos de dados de df2:
A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
G            int64
dtype: object

Representação NumPy de df2:
[[1.0 Timestamp('2023-01-02 00:00:00') 1.0 3 'teste' 'foo' 10]
 [1.0 Timestamp('2023-01-02 00:00:00') 1.0 3 'treino' 'foo' 20]
 [1.0 Timestamp('2023-01-02 00:00:00') 1.0 3 'teste' 'foo' 30]
 [1.0 Timestamp('2023-01-02 00:00:00') 1.0 3 'treino' 'foo' 40]]

Tipo do array NumPy resultante para df2: object


Observe como o `dtype` do array NumPy para `df2` se tornou `object` porque `df2` contém múltiplos tipos de dados (float, datetime, int, category, string) que não podem ser representados por um único tipo NumPy mais específico sem perda de informação.

### `describe()`
Mostra um resumo estatístico rápido dos seus dados. Para colunas numéricas, inclui contagem, média, desvio padrão, mínimo, máximo e os percentis.

In [10]:
print("Resumo estatístico de df (colunas numéricas):")
display(df.describe())

Resumo estatístico de df (colunas numéricas):


Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.150839,0.098431,0.311708,-0.134842
std,0.529052,1.025242,0.724385,1.25424
min,-0.566661,-0.746297,-0.825099,-2.063075
25%,-0.535454,-0.675147,0.048337,-0.507985
50%,-0.413437,-0.370173,0.342079,-0.343357
75%,0.216639,0.969915,0.640434,0.656643
max,0.63796,1.43742,1.320878,1.513621


Para `df2`, que tem tipos mistos, `describe()` se comportará de forma diferente, mostrando estatísticas para colunas numéricas e informações descritivas para colunas `object` ou `categorical` se incluídas.

In [11]:
print("Resumo estatístico de df2 (incluindo todos os tipos):")
display(df2.describe(include='all'))

Resumo estatístico de df2 (incluindo todos os tipos):


Unnamed: 0,A,B,C,D,E,F,G
count,4.0,4,4.0,4.0,4,4,4.0
unique,,,,,2,1,
top,,,,,teste,foo,
freq,,,,,2,4,
mean,1.0,2023-01-02 00:00:00,1.0,3.0,,,25.0
min,1.0,2023-01-02 00:00:00,1.0,3.0,,,10.0
25%,1.0,2023-01-02 00:00:00,1.0,3.0,,,17.5
50%,1.0,2023-01-02 00:00:00,1.0,3.0,,,25.0
75%,1.0,2023-01-02 00:00:00,1.0,3.0,,,32.5
max,1.0,2023-01-02 00:00:00,1.0,3.0,,,40.0


### Transposição de Dados
Troca linhas por colunas.

In [12]:
print("DataFrame df original:")
display(df.head(2))
print("\nDataFrame df transposto (df.T):")
display(df.T.head(2)) # Mostrando apenas as primeiras 2 linhas do transposto para brevidade

DataFrame df original:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621



DataFrame df transposto (df.T):


Unnamed: 0,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06
A,-0.566661,-0.295575,0.387376,-0.531299,-0.536839,0.63796
B,-0.553935,-0.746297,-0.715551,1.43742,1.355357,-0.186411


### Ordenação

#### `sort_index()`
Ordena por um eixo (índice de linhas ou colunas).

In [13]:
# Ordenando as colunas (axis=1) em ordem descendente (ascending=False)
print("df ordenado pelas colunas em ordem descendente:")
display(df.sort_index(axis=1, ascending=False).head())

df ordenado pelas colunas em ordem descendente:


Unnamed: 0,D,C,B,A
2023-01-01,-0.19333,1.320878,-0.553935,-0.566661
2023-01-02,1.513621,-0.825099,-0.746297,-0.295575
2023-01-03,-0.493383,0.336643,-0.715551,0.387376
2023-01-04,-2.063075,-0.047765,1.43742,-0.531299
2023-01-05,0.939968,0.347516,1.355357,-0.536839


In [14]:
# Ordenando as linhas (axis=0, padrão) em ordem descendente
print("df ordenado pelas linhas (índice) em ordem descendente:")
display(df.sort_index(axis=0, ascending=False).head())

df ordenado pelas linhas (índice) em ordem descendente:


Unnamed: 0,A,B,C,D
2023-01-06,0.63796,-0.186411,0.738073,-0.512852
2023-01-05,-0.536839,1.355357,0.347516,0.939968
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621


#### `sort_values()`
Ordena pelos valores de uma ou mais colunas.

In [15]:
# Ordenando df pelos valores da coluna 'B' em ordem ascendente (padrão)
print("df ordenado pelos valores da coluna 'B':")
display(df.sort_values(by="B").head())

df ordenado pelos valores da coluna 'B':


Unnamed: 0,A,B,C,D
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-06,0.63796,-0.186411,0.738073,-0.512852
2023-01-05,-0.536839,1.355357,0.347516,0.939968


## Seleção de Dados (Indexing)

> **Nota:** Embora as expressões padrão Python/NumPy para selecionar e definir valores sejam intuitivas e úteis para trabalho interativo, para código de produção, recomendamos os métodos otimizados de acesso a dados do Pandas: `.at`, `.iat`, `.loc` e `.iloc`.

Veja a documentação completa em [Indexing and Selecting Data](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html) e [MultiIndex / Advanced Indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html).

### Seleção com `[]` (Getitem)

#### Selecionando uma coluna
Para um `DataFrame`, passar um único rótulo seleciona uma coluna e retorna uma `Series`, equivalente a `df.A`.

In [16]:
print("Selecionando a coluna 'A' de df:")
coluna_A = df["A"]
display(coluna_A.head())
print(f"Tipo do resultado: {type(coluna_A)}")

Selecionando a coluna 'A' de df:


2023-01-01   -0.566661
2023-01-02   -0.295575
2023-01-03    0.387376
2023-01-04   -0.531299
2023-01-05   -0.536839
Freq: D, Name: A, dtype: float64

Tipo do resultado: <class 'pandas.core.series.Series'>


#### Selecionando linhas por slice (`:`)
Para um `DataFrame`, passar um slice (`:`) seleciona as linhas correspondentes. Este método usa a posição inteira das linhas, *não* os rótulos do índice, a menos que o índice seja um `RangeIndex` padrão.

In [17]:
print("Selecionando as linhas da posição 0 até 2 (exclusivo) de df:")
display(df[0:3])

Selecionando as linhas da posição 0 até 2 (exclusivo) de df:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383


Se o índice for de data/hora ou outro tipo de rótulo, você pode usar slices com os rótulos do índice diretamente com `[]`, mas isso é geralmente tratado por `.loc` para maior clareza.

In [18]:
print("Selecionando linhas por slice de rótulos de data (usando .loc é mais explícito):")
display(df["20230102":"20230104"]) # Funciona porque o índice é de datas e está ordenado

Selecionando linhas por slice de rótulos de data (usando .loc é mais explícito):


Unnamed: 0,A,B,C,D
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075


### Seleção por Rótulo (`.loc`, `.at`)

Usado para selecionar dados com base nos *rótulos* do índice e das colunas.

#### Selecionando uma linha inteira por rótulo do índice

In [19]:
print("Selecionando a linha com rótulo de data igual a 'datas[0]':")
# datas[0] é o primeiro valor do nosso índice de datas, ex: Timestamp('2023-01-01 00:00:00')
display(df.loc[datas[0]])

Selecionando a linha com rótulo de data igual a 'datas[0]':


A   -0.566661
B   -0.553935
C    1.320878
D   -0.193330
Name: 2023-01-01 00:00:00, dtype: float64

#### Selecionando todas as linhas com colunas específicas

In [20]:
print("Selecionando todas as linhas das colunas 'A' e 'B':")
display(df.loc[:, ["A", "B"]].head()) # O ':' significa todas as linhas

Selecionando todas as linhas das colunas 'A' e 'B':


Unnamed: 0,A,B
2023-01-01,-0.566661,-0.553935
2023-01-02,-0.295575,-0.746297
2023-01-03,0.387376,-0.715551
2023-01-04,-0.531299,1.43742
2023-01-05,-0.536839,1.355357


#### Selecionando um subconjunto de linhas e colunas por rótulos (slicing por rótulo)
Para slicing por rótulo, ambos os pontos finais são *incluídos*.

In [21]:
print("Selecionando linhas de '20230102' até '20230104' (inclusivo) e colunas 'A' e 'B':")
display(df.loc["20230102":"20230104", ["A", "B"]])

Selecionando linhas de '20230102' até '20230104' (inclusivo) e colunas 'A' e 'B':


Unnamed: 0,A,B
2023-01-02,-0.295575,-0.746297
2023-01-03,0.387376,-0.715551
2023-01-04,-0.531299,1.43742


#### Selecionando um valor escalar
Selecionar um rótulo de linha e um rótulo de coluna específicos retorna um valor escalar.

In [22]:
valor_escalar_loc = df.loc[datas[0], "A"]
print(f"Valor escalar em df.loc[datas[0], 'A']: {valor_escalar_loc}")

Valor escalar em df.loc[datas[0], 'A']: -0.5666605618390602


#### Acesso rápido a um escalar com `.at`
Para obter acesso rápido a um valor escalar (equivalente ao método anterior, mas potencialmente mais rápido).

In [23]:
valor_escalar_at = df.at[datas[0], "A"]
print(f"Valor escalar em df.at[datas[0], 'A']: {valor_escalar_at}")

Valor escalar em df.at[datas[0], 'A']: -0.5666605618390602


### Seleção por Posição (`.iloc`, `.iat`)

Usado para selecionar dados com base na *posição inteira* (de 0 até tamanho-1), similar ao slicing de listas Python ou arrays NumPy.

#### Selecionando uma linha inteira por sua posição

In [24]:
print("Selecionando a quarta linha (posição 3):")
display(df.iloc[3])

Selecionando a quarta linha (posição 3):


A   -0.531299
B    1.437420
C   -0.047765
D   -2.063075
Name: 2023-01-04 00:00:00, dtype: float64

#### Slices de inteiros
Agem de forma similar ao NumPy/Python (o ponto final do slice é *exclusivo*).

In [25]:
print("Selecionando linhas da posição 3 até 4 (exclusivo) e colunas da posição 0 até 1 (exclusivo):")
display(df.iloc[3:5, 0:2]) # Linhas 3 e 4; Colunas 0 e 1

Selecionando linhas da posição 3 até 4 (exclusivo) e colunas da posição 0 até 1 (exclusivo):


Unnamed: 0,A,B
2023-01-04,-0.531299,1.43742
2023-01-05,-0.536839,1.355357


#### Listas de posições inteiras

In [26]:
print("Selecionando linhas nas posições 1, 2 e 4; e colunas nas posições 0 e 2:")
display(df.iloc[[1, 2, 4], [0, 2]])

Selecionando linhas nas posições 1, 2 e 4; e colunas nas posições 0 e 2:


Unnamed: 0,A,C
2023-01-02,-0.295575,-0.825099
2023-01-03,0.387376,0.336643
2023-01-05,-0.536839,0.347516


#### Slicing explícito de linhas

In [27]:
print("Selecionando linhas da posição 1 até 2 (exclusivo) e todas as colunas:")
display(df.iloc[1:3, :])

Selecionando linhas da posição 1 até 2 (exclusivo) e todas as colunas:


Unnamed: 0,A,B,C,D
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383


#### Slicing explícito de colunas

In [28]:
print("Selecionando todas as linhas e colunas da posição 1 até 2 (exclusivo):")
display(df.iloc[:, 1:3])

Selecionando todas as linhas e colunas da posição 1 até 2 (exclusivo):


Unnamed: 0,B,C
2023-01-01,-0.553935,1.320878
2023-01-02,-0.746297,-0.825099
2023-01-03,-0.715551,0.336643
2023-01-04,1.43742,-0.047765
2023-01-05,1.355357,0.347516
2023-01-06,-0.186411,0.738073


#### Selecionando um valor escalar por posição

In [29]:
valor_escalar_iloc = df.iloc[1, 1] # Segunda linha, segunda coluna
print(f"Valor escalar em df.iloc[1, 1]: {valor_escalar_iloc}")

Valor escalar em df.iloc[1, 1]: -0.7462970275971468


#### Acesso rápido a um escalar com `.iat`
Para obter acesso rápido a um valor escalar por posição (equivalente ao método anterior, mas potencialmente mais rápido).

In [30]:
valor_escalar_iat = df.iat[1, 1]
print(f"Valor escalar em df.iat[1, 1]: {valor_escalar_iat}")

Valor escalar em df.iat[1, 1]: -0.7462970275971468


### Indexação Booleana

Permite selecionar linhas com base em condições lógicas (booleanas).

#### Selecionar linhas onde `df.A` é maior que `0`.

In [31]:
condicao = df["A"] > 0
print("Condição Booleana (df['A'] > 0):")
print(condicao)

print("\nDataFrame filtrado onde df['A'] > 0:")
display(df[condicao])

Condição Booleana (df['A'] > 0):
2023-01-01    False
2023-01-02    False
2023-01-03     True
2023-01-04    False
2023-01-05    False
2023-01-06     True
Freq: D, Name: A, dtype: bool

DataFrame filtrado onde df['A'] > 0:


Unnamed: 0,A,B,C,D
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-06,0.63796,-0.186411,0.738073,-0.512852


#### Selecionar valores de um `DataFrame` onde uma condição booleana é satisfeita.
Isso resulta em um DataFrame da mesma forma, com `NaN` onde a condição é falsa.

In [32]:
print("DataFrame com valores onde df > 0 (outros são NaN):")
display(df[df > 0].head())

DataFrame com valores onde df > 0 (outros são NaN):


Unnamed: 0,A,B,C,D
2023-01-01,,,1.320878,
2023-01-02,,,,1.513621
2023-01-03,0.387376,,0.336643,
2023-01-04,,1.43742,,
2023-01-05,,1.355357,0.347516,0.939968


#### Usando o método `.isin()` para filtrar
Verifica se os valores de uma coluna estão contidos em uma lista.

In [33]:
df_copia = df.copy() # Criar uma cópia para não modificar o df original
df_copia["E"] = ["um", "um", "dois", "tres", "quatro", "tres"] # Adicionar uma nova coluna
print("DataFrame df_copia com nova coluna 'E':")
display(df_copia)

print("\nFiltrando df_copia onde a coluna 'E' contém 'dois' ou 'quatro':")
display(df_copia[df_copia["E"].isin(["dois", "quatro"])])

DataFrame df_copia com nova coluna 'E':


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,um
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,um
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,dois
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,tres
2023-01-05,-0.536839,1.355357,0.347516,0.939968,quatro
2023-01-06,0.63796,-0.186411,0.738073,-0.512852,tres



Filtrando df_copia onde a coluna 'E' contém 'dois' ou 'quatro':


Unnamed: 0,A,B,C,D,E
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,dois
2023-01-05,-0.536839,1.355357,0.347516,0.939968,quatro


### Atribuição (Setting)

Modificar valores no DataFrame.

#### Atribuindo uma nova coluna
Atribuir uma nova coluna alinha automaticamente os dados pelos índices. Se os índices não coincidirem perfeitamente, valores ausentes (`NaN`) podem ser introduzidos.

In [34]:
# Criando uma Series com um índice ligeiramente diferente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20230102", periods=6))
print("Series s1 (índice a partir de 02/01/2023):")
print(s1)

df_copia_set = df.copy() # Trabalhar com uma cópia
df_copia_set["F"] = s1 # Atribuir a Series s1 como nova coluna 'F'

print("\nDataFrame df_copia_set com nova coluna 'F':")
display(df_copia_set)

Series s1 (índice a partir de 02/01/2023):
2023-01-02    1
2023-01-03    2
2023-01-04    3
2023-01-05    4
2023-01-06    5
2023-01-07    6
Freq: D, dtype: int64

DataFrame df_copia_set com nova coluna 'F':


Unnamed: 0,A,B,C,D,F
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,2.0
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,3.0
2023-01-05,-0.536839,1.355357,0.347516,0.939968,4.0
2023-01-06,0.63796,-0.186411,0.738073,-0.512852,5.0


Observe que a primeira linha de `df_copia_set` (índice `2023-01-01`) tem `NaN` na coluna `F` porque `s1` não tem um valor para esse índice.

#### Atribuindo valores por rótulo com `.at`

In [35]:
print("Valor original em df_copia_set.at[datas[0], 'A']:", df_copia_set.at[datas[0], "A"])
df_copia_set.at[datas[0], "A"] = 0 # Atribuir 0 ao valor na primeira linha, coluna 'A'
print("Valor modificado:", df_copia_set.at[datas[0], "A"])
display(df_copia_set.head(1))

Valor original em df_copia_set.at[datas[0], 'A']: -0.5666605618390602
Valor modificado: 0.0


Unnamed: 0,A,B,C,D,F
2023-01-01,0.0,-0.553935,1.320878,-0.19333,


#### Atribuindo valores por posição com `.iat`

In [36]:
print("Valor original em df_copia_set.iat[0, 1] (primeira linha, segunda coluna 'B'):", df_copia_set.iat[0, 1])
df_copia_set.iat[0, 1] = 0 # Atribuir 0
print("Valor modificado:", df_copia_set.iat[0, 1])
display(df_copia_set.head(1))

Valor original em df_copia_set.iat[0, 1] (primeira linha, segunda coluna 'B'): -0.5539346378128193
Valor modificado: 0.0


Unnamed: 0,A,B,C,D,F
2023-01-01,0.0,0.0,1.320878,-0.19333,


#### Atribuindo com um array NumPy
Pode-se atribuir uma coluna inteira (ou uma fatia) usando um array NumPy.

In [37]:
print("Coluna 'D' original:")
print(df_copia_set["D"])

df_copia_set.loc[:, "D"] = np.array([5] * len(df_copia_set))

print("\nColuna 'D' modificada:")
display(df_copia_set)

Coluna 'D' original:
2023-01-01   -0.193330
2023-01-02    1.513621
2023-01-03   -0.493383
2023-01-04   -2.063075
2023-01-05    0.939968
2023-01-06   -0.512852
Freq: D, Name: D, dtype: float64

Coluna 'D' modificada:


Unnamed: 0,A,B,C,D,F
2023-01-01,0.0,0.0,1.320878,5.0,
2023-01-02,-0.295575,-0.746297,-0.825099,5.0,1.0
2023-01-03,0.387376,-0.715551,0.336643,5.0,2.0
2023-01-04,-0.531299,1.43742,-0.047765,5.0,3.0
2023-01-05,-0.536839,1.355357,0.347516,5.0,4.0
2023-01-06,0.63796,-0.186411,0.738073,5.0,5.0


#### Atribuição com condição `where`
Similar a uma operação `if-then-else` vetorizada. Onde a condição é verdadeira, o DataFrame mantém seus valores; onde é falsa, os valores são substituídos.

In [38]:
df_cond_set = df.copy()
print("DataFrame df_cond_set original:")
display(df_cond_set)

# Onde os valores em df_cond_set são > 0, substitui pelo seu negativo (-df_cond_set).
# Se a condição (df_cond_set > 0) é False, o valor original é mantido (comportamento padrão de where sem 'other').
# Para realmente modificar o DataFrame original, podemos fazer df_cond_set = df_cond_set.where(~(df_cond_set > 0), -df_cond_set)
# Ou de forma mais idiomática para este caso (modificar onde a condição é True):
df_cond_set[df_cond_set > 0] = -df_cond_set

print("\nDataFrame df_cond_set modificado (valores > 0 tornaram-se negativos):")
display(df_cond_set)

DataFrame df_cond_set original:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,1.355357,0.347516,0.939968
2023-01-06,0.63796,-0.186411,0.738073,-0.512852



DataFrame df_cond_set modificado (valores > 0 tornaram-se negativos):


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,-1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,-1.513621
2023-01-03,-0.387376,-0.715551,-0.336643,-0.493383
2023-01-04,-0.531299,-1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,-1.355357,-0.347516,-0.939968
2023-01-06,-0.63796,-0.186411,-0.738073,-0.512852


## Dados Ausentes (Missing Data)

Em tipos de dados NumPy, `np.nan` representa dados ausentes. Por padrão, não é incluído em cálculos.

#### Reindexação (`reindex`)
Permite alterar/adicionar/excluir o índice em um eixo especificado. Isso retorna uma *cópia* dos dados.

In [39]:
# Usando o DataFrame 'df' original
df1 = df.reindex(index=datas[0:4], columns=list(df.columns) + ["E"]) # Pegar as 4 primeiras linhas e adicionar uma coluna 'E'
print("DataFrame df1 reindexado (antes de preencher 'E'):")
display(df1)

# Preenchendo alguns valores na nova coluna 'E'
df1.loc[datas[0]:datas[1], "E"] = 1
print("\nDataFrame df1 após preencher alguns valores em 'E':")
display(df1)

DataFrame df1 reindexado (antes de preencher 'E'):


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,



DataFrame df1 após preencher alguns valores em 'E':


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,1.0
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,


A coluna 'E' foi adicionada com `NaN` por padrão, e depois preenchemos algumas linhas.

#### `dropna()`
Remove quaisquer linhas (ou colunas) que tenham dados ausentes.

In [40]:
print("df1 original (com NaNs):")
display(df1)

# how='any' (padrão): remove a linha se QUALQUER valor nela for NaN.
# how='all': remove a linha apenas se TODOS os valores nela forem NaN.
# axis=0 (padrão): opera nas linhas. axis=1 opera nas colunas.
df_sem_na = df1.dropna(how="any")
print("\ndf1 após dropna(how='any'):")
display(df_sem_na)

df1 original (com NaNs):


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,1.0
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,



df1 após dropna(how='any'):


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,1.0
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0


#### `fillna()`
Preenche dados ausentes com um valor específico.

In [41]:
print("df1 original (com NaNs):")
display(df1)

df_preenchido = df1.fillna(value=5)
print("\ndf1 após fillna(value=5):")
display(df_preenchido)

df1 original (com NaNs):


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,1.0
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,



df1 após fillna(value=5):


Unnamed: 0,A,B,C,D,E
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333,1.0
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621,1.0
2023-01-03,0.387376,-0.715551,0.336643,-0.493383,5.0
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075,5.0


#### `isna()`
Retorna uma máscara booleana indicando onde os valores são `NaN`.

In [42]:
print("Máscara booleana para NaNs em df1:")
display(pd.isna(df1))

Máscara booleana para NaNs em df1:


Unnamed: 0,A,B,C,D,E
2023-01-01,False,False,False,False,False
2023-01-02,False,False,False,False,False
2023-01-03,False,False,False,False,True
2023-01-04,False,False,False,False,True


## Operações

Veja mais em [Operações Binárias Básicas](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#binary-ops).

### Estatísticas (Stats)

Operações em geral *excluem* dados ausentes.

#### Média por coluna

In [43]:
print("DataFrame df:")
display(df.head(2))
print("\nMédia dos valores de cada coluna em df (axis=0, padrão):")
print(df.mean())

DataFrame df:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621



Média dos valores de cada coluna em df (axis=0, padrão):
A   -0.150839
B    0.098431
C    0.311708
D   -0.134842
dtype: float64


#### Média por linha

In [44]:
print("Média dos valores de cada linha em df (axis=1):")
print(df.mean(axis=1).head())

Média dos valores de cada linha em df (axis=1):
2023-01-01    0.001738
2023-01-02   -0.088337
2023-01-03   -0.121229
2023-01-04   -0.301180
2023-01-05    0.526500
Freq: D, dtype: float64


#### Operando com outra `Series` ou `DataFrame`
Operar com objetos que têm índices ou colunas diferentes alinhará o resultado com a união dos rótulos de índice/coluna. O Pandas preencherá automaticamente rótulos desalinhados com `np.nan` e fará o _broadcasting_ (propagação de valores) ao longo da dimensão especificada.

In [45]:
# Criando uma Series com dados e aplicando um deslocamento (shift)
s_op = pd.Series([1, 3, 5, np.nan, 6, 8], index=datas).shift(2)
print("Series s_op (com shift):")
print(s_op)

print("\nDataFrame df:")
display(df.head())

print("\nResultado de df.sub(s_op, axis='index') (subtração alinhada pelo índice):")
# df - s_op ao longo das linhas (axis='index' ou axis=0)
display(df.sub(s_op, axis="index"))

Series s_op (com shift):
2023-01-01    NaN
2023-01-02    NaN
2023-01-03    1.0
2023-01-04    3.0
2023-01-05    5.0
2023-01-06    NaN
Freq: D, dtype: float64

DataFrame df:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621
2023-01-03,0.387376,-0.715551,0.336643,-0.493383
2023-01-04,-0.531299,1.43742,-0.047765,-2.063075
2023-01-05,-0.536839,1.355357,0.347516,0.939968



Resultado de df.sub(s_op, axis='index') (subtração alinhada pelo índice):


Unnamed: 0,A,B,C,D
2023-01-01,,,,
2023-01-02,,,,
2023-01-03,-0.612624,-1.715551,-0.663357,-1.493383
2023-01-04,-3.531299,-1.56258,-3.047765,-5.063075
2023-01-05,-5.536839,-3.644643,-4.652484,-4.060032
2023-01-06,,,,


Observe os `NaN` resultantes do alinhamento e do `shift`.

### Funções Definidas pelo Usuário (`apply`, `agg`, `transform`)

#### `apply()`
Aplica uma função ao longo de um eixo do DataFrame (linhas ou colunas).

In [46]:
print("DataFrame df:")
display(df.head(2))

# Aplicando a função np.cumsum (soma acumulada) a cada coluna
print("\nSoma acumulada de cada coluna (df.apply(np.cumsum)):")
display(df.apply(np.cumsum).head())

# Aplicando uma função lambda para calcular a diferença entre o máximo e o mínimo de cada coluna
print("\nDiferença (max - min) de cada coluna:")
display(df.apply(lambda x: x.max() - x.min()))

DataFrame df:


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.295575,-0.746297,-0.825099,1.513621



Soma acumulada de cada coluna (df.apply(np.cumsum)):


Unnamed: 0,A,B,C,D
2023-01-01,-0.566661,-0.553935,1.320878,-0.19333
2023-01-02,-0.862235,-1.300232,0.495779,1.320291
2023-01-03,-0.474859,-2.015783,0.832421,0.826907
2023-01-04,-1.006158,-0.578363,0.784657,-1.236167
2023-01-05,-1.542996,0.776994,1.132173,-0.2962



Diferença (max - min) de cada coluna:


A    1.204621
B    2.183717
C    2.145977
D    3.576695
dtype: float64

#### `agg()` e `transform()`
`.agg()` (agregação) aplica uma ou mais funções que reduzem o resultado (e.g., `sum`, `mean`).
`.transform()` aplica uma função que retorna um resultado com a mesma forma do original (broadcasts).

In [47]:
print("Agregação: Média de cada coluna multiplicada por 5.6")
display(df.agg(lambda x: np.mean(x) * 5.6))

print("\nTransformação: Cada elemento multiplicado por 101.2")
display(df.transform(lambda x: x * 101.2).head())

Agregação: Média de cada coluna multiplicada por 5.6


A   -0.844700
B    0.551211
C    1.745563
D   -0.755115
dtype: float64


Transformação: Cada elemento multiplicado por 101.2


Unnamed: 0,A,B,C,D
2023-01-01,-57.346049,-56.058185,133.672857,-19.565025
2023-01-02,-29.912146,-75.525259,-83.500042,153.178438
2023-01-03,39.2025,-72.413773,34.068228,-49.930381
2023-01-04,-53.767449,145.466881,-4.833799,-208.783142
2023-01-05,-54.328071,137.162106,35.168633,95.124712


### Contagem de Valores (`value_counts`)
Conta a ocorrência de cada valor único em uma Series. Útil para histogramas e discretização.

In [48]:
s_counts = pd.Series(np.random.randint(0, 7, size=10)) # 10 inteiros aleatórios entre 0 e 6
print("Series s_counts:")
print(s_counts)

print("\nContagem de valores em s_counts:")
print(s_counts.value_counts())

Series s_counts:
0    0
1    3
2    5
3    6
4    6
5    3
6    6
7    5
8    0
9    1
dtype: int64

Contagem de valores em s_counts:
6    3
0    2
3    2
5    2
1    1
Name: count, dtype: int64


### Métodos de String
`Series` possui um conjunto de métodos de processamento de string no atributo `str` que facilitam a operação em cada elemento do array. Veja mais em [Métodos de String Vetorizados](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#string-methods).

In [49]:
s_str = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "cao", "gato"])
print("Series s_str original:")
print(s_str)

print("\ns_str convertida para minúsculas:")
print(s_str.str.lower())

Series s_str original:
0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     cao
8    gato
dtype: object

s_str convertida para minúsculas:
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     cao
8    gato
dtype: object


Outros métodos úteis incluem `str.upper()`, `str.len()`, `str.strip()`, `str.contains()`, `str.replace()`, `str.split()`, etc.

## Merge (Junção de Dados)

O Pandas fornece várias facilidades para combinar objetos `Series` e `DataFrame` com diferentes tipos de lógica de conjunto para os índices e funcionalidade de álgebra relacional no caso de operações do tipo join/merge.

### Concatenação (`concat`)
Concatenar objetos Pandas juntos (por padrão, ao longo das linhas `axis=0`). Veja mais em [Merging](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html).

In [50]:
df_concat = pd.DataFrame(np.random.randn(10, 4))
print("DataFrame df_concat original (10 linhas):")
display(df_concat.head(2)) # Mostrando apenas parte

# Quebrando em pedaços
pedacos = [df_concat[:3], df_concat[3:7], df_concat[7:]]

print("\nConcatenando os pedaços (ao longo das linhas):")
df_concatenado = pd.concat(pedacos)
display(df_concatenado.shape) # Deve ter (10, 4)
display(df_concatenado.head())

DataFrame df_concat original (10 linhas):


Unnamed: 0,0,1,2,3
0,-0.935513,-0.448033,0.087914,-1.132722
1,0.050267,-1.003319,-1.665304,-0.301547



Concatenando os pedaços (ao longo das linhas):


(10, 4)

Unnamed: 0,0,1,2,3
0,-0.935513,-0.448033,0.087914,-1.132722
1,0.050267,-1.003319,-1.665304,-0.301547
2,0.857881,-0.646844,-1.420954,-1.979454
3,2.528621,1.860275,1.738555,-0.154964
4,1.149705,-1.977367,0.867508,0.769707


> **Nota:** Adicionar uma coluna a um `DataFrame` é relativamente rápido. No entanto, adicionar uma linha requer uma cópia e pode ser caro. Recomendamos passar uma lista pré-construída de registros para o construtor do `DataFrame` em vez de construir um `DataFrame` iterativamente anexando registros a ele.

### Join (Estilo SQL com `merge`)
`pd.merge` permite junções do tipo SQL ao longo de colunas específicas. Veja a seção [Database style joining](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging).

In [51]:
df_esquerda = pd.DataFrame({"chave": ["foo", "foo", "bar"], "lval": [1, 2, 3]})
df_direita = pd.DataFrame({"chave": ["foo", "foo", "bar"], "rval": [4, 5, 6]})

print("DataFrame da Esquerda (left):")
display(df_esquerda)

print("DataFrame da Direita (right):")
display(df_direita)

print("\nMerge dos DataFrames pela coluna 'chave' (junção interna padrão):")
# Como 'foo' aparece duas vezes em left e duas em right, teremos 2*2=4 combinações para 'foo'.
# Como 'bar' aparece uma vez em cada, teremos 1*1=1 combinação para 'bar'.
display(pd.merge(df_esquerda, df_direita, on="chave"))

DataFrame da Esquerda (left):


Unnamed: 0,chave,lval
0,foo,1
1,foo,2
2,bar,3


DataFrame da Direita (right):


Unnamed: 0,chave,rval
0,foo,4
1,foo,5
2,bar,6



Merge dos DataFrames pela coluna 'chave' (junção interna padrão):


Unnamed: 0,chave,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5
4,bar,3,6


Outro exemplo com chaves diferentes para ilustrar tipos de join (inner, left, right, outer).

In [52]:
df_esquerda_2 = pd.DataFrame({"chave": ["K0", "K1", "K2", "K3"], "A": ["A0", "A1", "A2", "A3"], "B": ["B0", "B1", "B2", "B3"]})
df_direita_2 = pd.DataFrame({"chave": ["K0", "K1", "K4", "K5"], "C": ["C0", "C1", "C4", "C5"], "D": ["D0", "D1", "D4", "D5"]})

print("Esquerda 2:"); display(df_esquerda_2)
print("Direita 2:"); display(df_direita_2)

print("\nMerge com how='inner' (padrão - interseção das chaves K0, K1):")
display(pd.merge(df_esquerda_2, df_direita_2, on="chave", how="inner"))

print("\nMerge com how='outer' (união das chaves K0, K1, K2, K3, K4, K5):")
display(pd.merge(df_esquerda_2, df_direita_2, on="chave", how="outer"))

print("\nMerge com how='left' (todas as chaves da esquerda K0, K1, K2, K3):")
display(pd.merge(df_esquerda_2, df_direita_2, on="chave", how="left"))

Esquerda 2:


Unnamed: 0,chave,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


Direita 2:


Unnamed: 0,chave,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K4,C4,D4
3,K5,C5,D5



Merge com how='inner' (padrão - interseção das chaves K0, K1):


Unnamed: 0,chave,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1



Merge com how='outer' (união das chaves K0, K1, K2, K3, K4, K5):


Unnamed: 0,chave,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,,
3,K3,A3,B3,,
4,K4,,,C4,D4
5,K5,,,C5,D5



Merge com how='left' (todas as chaves da esquerda K0, K1, K2, K3):


Unnamed: 0,chave,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,,
3,K3,A3,B3,,


## Agrupamento (Grouping)

Por "group by" nos referimos a um processo envolvendo uma ou mais das seguintes etapas:

*   **Divisão (Splitting)** dos dados em grupos com base em alguns critérios.
*   **Aplicação (Applying)** de uma função a cada grupo independentemente.
*   **Combinação (Combining)** dos resultados em uma estrutura de dados.

Veja a seção [Grouping](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).

In [53]:
df_grupo = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
print("DataFrame df_grupo:")
display(df_grupo)

DataFrame df_grupo:


Unnamed: 0,A,B,C,D
0,foo,one,0.958124,0.333092
1,bar,one,1.048158,-0.172239
2,foo,two,3.160261,1.347226
3,bar,three,-1.390819,0.168909
4,foo,two,-0.418079,-1.157832
5,bar,two,0.814322,0.813972
6,foo,one,-0.185209,-2.006955
7,foo,three,1.626165,1.0687


Agrupando por um rótulo de coluna, selecionando rótulos de coluna e, em seguida, aplicando a função `.sum()` aos grupos resultantes:

In [54]:
print("Agrupando por 'A', selecionando colunas 'C' e 'D', e somando:")
display(df_grupo.groupby("A")[["C", "D"]].sum())

Agrupando por 'A', selecionando colunas 'C' e 'D', e somando:


Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,0.471661,0.810642
foo,5.141262,-0.415769


Agrupar por múltiplos rótulos de coluna forma um `MultiIndex` (índice hierárquico).

In [55]:
print("Agrupando por 'A' e 'B', e somando:")
display(df_grupo.groupby(["A", "B"]).sum())

Agrupando por 'A' e 'B', e somando:


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.048158,-0.172239
bar,three,-1.390819,0.168909
bar,two,0.814322,0.813972
foo,one,0.772915,-1.673863
foo,three,1.626165,1.0687
foo,two,2.742182,0.189393


## Remodelagem (Reshaping)

Operações para alterar a estrutura de um DataFrame, como empilhar, desempilhar e criar tabelas pivô.
Veja as seções sobre [Hierarchical Indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#hierarchical-indexing-multiindex) e [Reshaping and Pivot Tables](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html).

### Stack (Empilhar)
O método `.stack()` "comprime" um nível nas colunas do DataFrame, transformando-o em um índice de linha. Isso geralmente resulta em uma Series com um MultiIndex.

In [56]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
indice_multi = pd.MultiIndex.from_arrays(arrays, names=["primeiro", "segundo"])
df_multi = pd.DataFrame(np.random.randn(8, 2), index=indice_multi, columns=["A", "B"])
df_multi_parte = df_multi[:4] # Pegando as primeiras 4 linhas para o exemplo

print("DataFrame df_multi_parte (com MultiIndex nas linhas):")
display(df_multi_parte)

empilhado = df_multi_parte.stack() # Por padrão, empilha o nível mais interno das colunas (A, B)
print("\nDataFrame empilhado (stacked):")
display(empilhado)

DataFrame df_multi_parte (com MultiIndex nas linhas):


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
primeiro,segundo,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.499785,0.015526
bar,two,-0.08251,-0.155429
baz,one,2.594067,-0.125035
baz,two,0.183206,-1.327535



DataFrame empilhado (stacked):


primeiro  segundo   
bar       one      A    1.499785
                   B    0.015526
          two      A   -0.082510
                   B   -0.155429
baz       one      A    2.594067
                   B   -0.125035
          two      A    0.183206
                   B   -1.327535
dtype: float64

Com um DataFrame ou Series "empilhado" (tendo um `MultiIndex` como `index`), a operação inversa de `.stack()` é `.unstack()`, que por padrão desempilha o **último nível** do índice.

In [57]:
print("Desempilhando o último nível do índice (padrão):")
display(empilhado.unstack())

print("\nDesempilhando o nível de índice de nome 'segundo' (ou posição 1):")
display(empilhado.unstack(1)) # ou empilhado.unstack('segundo')

print("\nDesempilhando o nível de índice de nome 'primeiro' (ou posição 0):")
display(empilhado.unstack(0)) # ou empilhado.unstack('primeiro')

Desempilhando o último nível do índice (padrão):


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
primeiro,segundo,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.499785,0.015526
bar,two,-0.08251,-0.155429
baz,one,2.594067,-0.125035
baz,two,0.183206,-1.327535



Desempilhando o nível de índice de nome 'segundo' (ou posição 1):


Unnamed: 0_level_0,segundo,one,two
primeiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,1.499785,-0.08251
bar,B,0.015526,-0.155429
baz,A,2.594067,0.183206
baz,B,-0.125035,-1.327535



Desempilhando o nível de índice de nome 'primeiro' (ou posição 0):


Unnamed: 0_level_0,primeiro,bar,baz
segundo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.499785,2.594067
one,B,0.015526,-0.125035
two,A,-0.08251,0.183206
two,B,-0.155429,-1.327535


### Tabelas Dinâmicas (Pivot Tables)
Permite remodelar dados de forma similar às tabelas dinâmicas do Excel. Veja a seção sobre [Pivot Tables](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#pivot-tables).

In [58]:
df_pivot_ex = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 3,
        "B": ["X", "Y", "Z"] * 4,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
        "D_valor": np.random.randn(12),
        "E_contagem": np.random.randint(1, 5, 12),
    }
)
print("DataFrame df_pivot_ex:")
display(df_pivot_ex.head())

DataFrame df_pivot_ex:


Unnamed: 0,A,B,C,D_valor,E_contagem
0,one,X,foo,1.803288,4
1,one,Y,foo,0.169405,3
2,two,Z,foo,0.820465,1
3,three,X,bar,0.328316,3
4,one,Y,bar,-1.229713,1


In [59]:
print("Tabela dinâmica: valores de 'D_valor', índice por ['A', 'B'], colunas por ['C']")
# Por padrão, a função de agregação é a média (np.mean)
tabela_pivot = pd.pivot_table(df_pivot_ex, values="D_valor", index=["A", "B"], columns=["C"])
display(tabela_pivot)

Tabela dinâmica: valores de 'D_valor', índice por ['A', 'B'], colunas por ['C']


Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,X,0.7232,1.803288
one,Y,-1.229713,0.169405
one,Z,1.282875,-0.771052
three,X,0.328316,
three,Y,,0.735673
three,Z,0.035953,
two,X,,0.554968
two,Y,-0.474141,
two,Z,,0.820465


## Séries Temporais (Time Series)

O Pandas possui funcionalidades simples, poderosas e eficientes para realizar operações de reamostragem durante a conversão de frequência (por exemplo, converter dados de segundos para dados de 5 minutos). Isso é extremamente comum em, mas não limitado a, aplicações financeiras. Veja a seção [Time Series / Date functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html).

In [60]:
# Criando uma série temporal com frequência de segundos
rng_segundos = pd.date_range("1/1/2023", periods=100, freq="s") # 100 segundos
ts_segundos = pd.Series(np.random.randint(0, 500, len(rng_segundos)), index=rng_segundos)
print("Série Temporal ts_segundos (primeiras 5 entradas):")
display(ts_segundos.head())

# Reamostrando para frequência de 5 minutos e somando os valores dentro de cada intervalo
print("\nSérie reamostrada para 5 minutos (soma):")
display(ts_segundos.resample("5Min").sum())

Série Temporal ts_segundos (primeiras 5 entradas):


2023-01-01 00:00:00    182
2023-01-01 00:00:01    218
2023-01-01 00:00:02    216
2023-01-01 00:00:03      6
2023-01-01 00:00:04     24
Freq: s, dtype: int64


Série reamostrada para 5 minutos (soma):


2023-01-01    25463
Freq: 5min, dtype: int64

### Localização e Conversão de Fuso Horário
`.tz_localize()` localiza uma série temporal para um fuso horário (adiciona informação de fuso horário a dados "naive").
`.tz_convert()` converte uma série temporal ciente de fuso horário para outro fuso horário.

In [61]:
rng_datas_naive = pd.date_range("3/6/2023 00:00", periods=5, freq="D") # Datas sem fuso horário
ts_naive = pd.Series(np.random.randn(len(rng_datas_naive)), rng_datas_naive)
print("Série Temporal ts_naive (sem fuso horário):")
print(ts_naive)

ts_utc = ts_naive.tz_localize("UTC") # Localizar para UTC
print("\nSérie Temporal ts_utc (localizada em UTC):")
print(ts_utc)

ts_eastern = ts_utc.tz_convert("US/Eastern") # Converter para fuso horário US/Eastern
print("\nSérie Temporal ts_eastern (convertida para US/Eastern):")
print(ts_eastern)

Série Temporal ts_naive (sem fuso horário):
2023-03-06   -2.533967
2023-03-07   -2.008962
2023-03-08    0.962245
2023-03-09    0.815468
2023-03-10    0.936925
Freq: D, dtype: float64

Série Temporal ts_utc (localizada em UTC):
2023-03-06 00:00:00+00:00   -2.533967
2023-03-07 00:00:00+00:00   -2.008962
2023-03-08 00:00:00+00:00    0.962245
2023-03-09 00:00:00+00:00    0.815468
2023-03-10 00:00:00+00:00    0.936925
Freq: D, dtype: float64

Série Temporal ts_eastern (convertida para US/Eastern):
2023-03-05 19:00:00-05:00   -2.533967
2023-03-06 19:00:00-05:00   -2.008962
2023-03-07 19:00:00-05:00    0.962245
2023-03-08 19:00:00-05:00    0.815468
2023-03-09 19:00:00-05:00    0.936925
Freq: D, dtype: float64


### Adicionando Duração (Offsets)
Pode-se adicionar durações, incluindo aquelas não fixas como dias úteis (`BusinessDay`).

In [62]:
print("Intervalo de datas original:")
print(rng_datas_naive)

print("\nIntervalo de datas + 5 Dias Úteis:")
print(rng_datas_naive + pd.offsets.BusinessDay(5))

Intervalo de datas original:
DatetimeIndex(['2023-03-06', '2023-03-07', '2023-03-08', '2023-03-09',
               '2023-03-10'],
              dtype='datetime64[ns]', freq='D')

Intervalo de datas + 5 Dias Úteis:
DatetimeIndex(['2023-03-13', '2023-03-14', '2023-03-15', '2023-03-16',
               '2023-03-17'],
              dtype='datetime64[ns]', freq=None)


## Dados Categóricos (Categoricals)

O Pandas pode incluir dados categóricos em um `DataFrame`. Para documentação completa, veja a [introdução a dados categóricos](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html) e a [documentação da API](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html#categoricalarray).

Dados categóricos são úteis quando uma coluna tem um número limitado e fixo de valores possíveis (categorias).

In [63]:
df_cat = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6], "conceito_bruto": ["A", "B", "B", "A", "A", "E"]}
)
print("DataFrame df_cat original:")
display(df_cat)

DataFrame df_cat original:


Unnamed: 0,id,conceito_bruto
0,1,A
1,2,B
2,3,B
3,4,A
4,5,A
5,6,E


Convertendo os conceitos brutos para um tipo de dado categórico:

In [64]:
df_cat["conceito"] = df_cat["conceito_bruto"].astype("category")
print("\nColuna 'conceito' (tipo categórico):")
print(df_cat["conceito"])
print(f"Tipo da coluna 'conceito': {df_cat['conceito'].dtype}")


Coluna 'conceito' (tipo categórico):
0    A
1    B
2    B
3    A
4    A
5    E
Name: conceito, dtype: category
Categories (3, object): ['A', 'B', 'E']
Tipo da coluna 'conceito': category


Renomeando as categorias para nomes mais significativos:

In [65]:
# Os nomes das categorias são inferidos na ordem em que aparecem
print("Categorias atuais:", df_cat["conceito"].cat.categories)

# Supondo que A=ótimo, B=bom, E=ruim
novas_categorias = {"A": "Ótimo", "B": "Bom", "E": "Ruim"}
df_cat["conceito"] = df_cat["conceito"].cat.rename_categories(novas_categorias)

print("\nColuna 'conceito' com categorias renomeadas:")
print(df_cat["conceito"])
print("Novas categorias:", df_cat["conceito"].cat.categories)

Categorias atuais: Index(['A', 'B', 'E'], dtype='object')

Coluna 'conceito' com categorias renomeadas:
0    Ótimo
1      Bom
2      Bom
3    Ótimo
4    Ótimo
5     Ruim
Name: conceito, dtype: category
Categories (3, object): ['Ótimo', 'Bom', 'Ruim']
Novas categorias: Index(['Ótimo', 'Bom', 'Ruim'], dtype='object')


Reordenando as categorias e adicionando simultaneamente categorias ausentes (métodos em `.cat` retornam uma nova `Series` por padrão):

In [66]:
df_cat["conceito"] = df_cat["conceito"].cat.set_categories(
    ["Ruim", "Regular", "Bom", "Ótimo"]
)
print("\nColuna 'conceito' com categorias reordenadas e 'Regular' adicionada (como NaN inicialmente):")
print(df_cat["conceito"])
print("Categorias e sua ordem:", df_cat["conceito"].cat.categories)


Coluna 'conceito' com categorias reordenadas e 'Regular' adicionada (como NaN inicialmente):
0    Ótimo
1      Bom
2      Bom
3    Ótimo
4    Ótimo
5     Ruim
Name: conceito, dtype: category
Categories (4, object): ['Ruim', 'Regular', 'Bom', 'Ótimo']
Categorias e sua ordem: Index(['Ruim', 'Regular', 'Bom', 'Ótimo'], dtype='object')


A ordenação é pela ordem nas categorias, não pela ordem lexical:

In [67]:
print("DataFrame ordenado pela coluna 'conceito':")
display(df_cat.sort_values(by="conceito"))

DataFrame ordenado pela coluna 'conceito':


Unnamed: 0,id,conceito_bruto,conceito
5,6,E,Ruim
1,2,B,Bom
2,3,B,Bom
0,1,A,Ótimo
3,4,A,Ótimo
4,5,A,Ótimo


Agrupar por uma coluna categórica com `observed=False` também mostra categorias vazias:

In [68]:
print("Contagem de observações por 'conceito' (incluindo categorias não observadas):")
print(df_cat.groupby("conceito", observed=False).size())

Contagem de observações por 'conceito' (incluindo categorias não observadas):
conceito
Ruim       1
Regular    0
Bom        2
Ótimo      3
dtype: int64


## Plotagem (Plotting)

O Pandas integra-se com a biblioteca `Matplotlib` para plotagem. Veja a documentação de [Plotting](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html).

Usamos a convenção padrão para referenciar a API do Matplotlib:

In [69]:
import matplotlib.pyplot as plt

# %matplotlib inline # Mágica do Jupyter para mostrar plots inline (geralmente não mais necessário nas versões recentes)

plt.close("all") # Fecha quaisquer figuras abertas de execuções anteriores

ModuleNotFoundError: No module named 'matplotlib'

Plotando uma `Series`:

In [None]:
ts_plot = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2020", periods=1000))
ts_plot_acumulado = ts_plot.cumsum() # Soma acumulada

print("Plotando a série temporal acumulada...")
ts_plot_acumulado.plot()
plt.title("Plot Básico de Série Temporal Acumulada")
plt.xlabel("Data")
plt.ylabel("Valor Acumulado")
plt.grid(True)
plt.show() # Garante que o plot seja exibido

> **Nota:** Ao usar Jupyter, o plot geralmente aparece após `.plot()`. Caso contrário (em scripts Python puros), use `matplotlib.pyplot.show()` para exibi-lo ou `matplotlib.pyplot.savefig()` para salvá-lo em um arquivo.

Plotando um `DataFrame`:
`.plot()` em um DataFrame plota todas as colunas numéricas por padrão.

In [None]:
df_plot = pd.DataFrame(
    np.random.randn(1000, 4), index=ts_plot.index, columns=["A", "B", "C", "D"]
)
df_plot_acumulado = df_plot.cumsum()

print("Plotando todas as colunas do DataFrame acumulado...")
plt.figure(); # Cria uma nova figura
df_plot_acumulado.plot();
plt.title("Plot de Múltiplas Séries Temporais Acumuladas")
plt.xlabel("Data")
plt.ylabel("Valores Acumulados")
plt.legend(loc='best'); # Adiciona legenda na melhor localização
plt.grid(True)
plt.show()

## Importando e Exportando Dados

O Pandas suporta uma variedade de formatos de arquivo. Veja a seção [IO Tools](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [None]:
# DataFrame de exemplo para exportação
df_io = pd.DataFrame(np.random.randint(0, 100, (10, 5)), columns=[f"Col_{i}" for i in range(5)])
display(df_io.head(3))

### CSV

#### Escrevendo para um arquivo CSV (`to_csv`)

In [None]:
nome_arquivo_csv = "arquivo_exemplo.csv"
try:
    df_io.to_csv(nome_arquivo_csv, index=False) # index=False para não escrever o índice do DataFrame no arquivo
    print(f"Arquivo '{nome_arquivo_csv}' salvo com sucesso.")
except Exception as e:
    print(f"Erro ao salvar CSV: {e}")

#### Lendo de um arquivo CSV (`read_csv`)

In [None]:
try:
    df_lido_csv = pd.read_csv(nome_arquivo_csv)
    print(f"Conteúdo lido de '{nome_arquivo_csv}':")
    display(df_lido_csv.head())
except Exception as e:
    print(f"Erro ao ler CSV: {e}")

In [None]:
# Limpeza opcional do arquivo criado
import os
if os.path.exists(nome_arquivo_csv):
    try:
        os.remove(nome_arquivo_csv)
        print(f"Arquivo '{nome_arquivo_csv}' removido.")
    except Exception as e:
        print(f"Erro ao remover '{nome_arquivo_csv}': {e}")

### Parquet
Formato de armazenamento colunar eficiente. Requer as bibliotecas `pyarrow` ou `fastparquet`.
Você pode precisar instalar uma delas: `!pip install pyarrow` ou `!pip install fastparquet`

#### Escrevendo para um arquivo Parquet (`to_parquet`)

In [None]:
nome_arquivo_parquet = "arquivo_exemplo.parquet"
try:
    df_io.to_parquet(nome_arquivo_parquet, index=False)
    print(f"Arquivo '{nome_arquivo_parquet}' salvo com sucesso.")
except Exception as e:
    print(f"Erro ao salvar Parquet: {e}. Verifique se 'pyarrow' ou 'fastparquet' está instalado.")

#### Lendo de um arquivo Parquet (`read_parquet`)

In [None]:
if os.path.exists(nome_arquivo_parquet):
    try:
        df_lido_parquet = pd.read_parquet(nome_arquivo_parquet)
        print(f"Conteúdo lido de '{nome_arquivo_parquet}':")
        display(df_lido_parquet.head())
    except Exception as e:
        print(f"Erro ao ler Parquet: {e}")
else:
    print(f"Arquivo '{nome_arquivo_parquet}' não encontrado para leitura.")

In [None]:
# Limpeza opcional do arquivo criado
if os.path.exists(nome_arquivo_parquet):
    try:
        os.remove(nome_arquivo_parquet)
        print(f"Arquivo '{nome_arquivo_parquet}' removido.")
    except Exception as e:
        print(f"Erro ao remover '{nome_arquivo_parquet}': {e}")

### Excel
Leitura e escrita para arquivos Excel (`.xlsx`). Requer a biblioteca `openpyxl`.
Você pode precisar instalá-la: `!pip install openpyxl`

#### Escrevendo para um arquivo Excel (`to_excel`)

In [None]:
nome_arquivo_excel = "arquivo_exemplo.xlsx"
try:
    df_io.to_excel(nome_arquivo_excel, sheet_name="Planilha1", index=False)
    print(f"Arquivo '{nome_arquivo_excel}' salvo com sucesso.")
except Exception as e:
    print(f"Erro ao salvar Excel: {e}. Verifique se 'openpyxl' está instalado.")

#### Lendo de um arquivo Excel (`read_excel`)

In [None]:
if os.path.exists(nome_arquivo_excel):
    try:
        df_lido_excel = pd.read_excel(nome_arquivo_excel, sheet_name="Planilha1", na_values=["N/A", "Ausente"])
        print(f"Conteúdo lido de '{nome_arquivo_excel}':")
        display(df_lido_excel.head())
    except Exception as e:
        print(f"Erro ao ler Excel: {e}")
else:
    print(f"Arquivo '{nome_arquivo_excel}' não encontrado para leitura.")

In [None]:
# Limpeza opcional do arquivo criado
if os.path.exists(nome_arquivo_excel):
    try:
        os.remove(nome_arquivo_excel)
        print(f"Arquivo '{nome_arquivo_excel}' removido.")
    except Exception as e:
        print(f"Erro ao remover '{nome_arquivo_excel}': {e}")

## Armadilhas (Gotchas)

Se você tentar realizar uma operação booleana em uma `Series` ou `DataFrame` inteira diretamente em um contexto que espera um único valor booleano (como um `if` do Python), você pode ver uma exceção como `ValueError: The truth value of a Series is ambiguous...`.

In [None]:
try:
    if pd.Series([False, True, False]): # Isso causará um erro
        print("Eu era verdadeiro")
except ValueError as e:
    print(f"Erro capturado (esperado): {e}")

Isso ocorre porque o Python não sabe como interpretar uma `Series` de booleanos (com múltiplos `True`/`False`) como um único valor de verdade.

Para verificar se *algum* valor na Series é `True`, use `.any()`.
Para verificar se *todos* os valores na Series são `True`, use `.all()`.
Para operações elemento a elemento, use os operadores lógicos `&` (E), `|` (OU), `~` (NÃO), e envolva as comparações em parênteses devido à precedência de operadores.

Exemplo corrigido:

In [None]:
minha_serie_bool = pd.Series([False, True, False])

if minha_serie_bool.any():
    print("Pelo menos um valor na série é True.")
else:
    print("Nenhum valor na série é True.")

if minha_serie_bool.all():
    print("Todos os valores na série são True.")
else:
    print("Nem todos os valores na série são True (ou a série está vazia).")

outra_serie_bool = pd.Series([True, False, True])
resultado_e = (minha_serie_bool & outra_serie_bool) # E elemento a elemento
print("\nResultado de 'minha_serie_bool & outra_serie_bool':")
print(resultado_e)

Veja mais em [Comparações](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#comparisons) e [Armadilhas (Gotchas)](https://pandas.pydata.org/pandas-docs/stable/user_guide/gotchas.html) na documentação oficial.

---
Referência: [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)