<a href="https://colab.research.google.com/github/py200041592/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [76]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [77]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [78]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [79]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [80]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [81]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [82]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [83]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [84]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [85]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [86]:
data = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])
valores = [100, 200, 300, 400]

serie = pd.Series(data, valores)
print(serie)

100   2023-01-01
200   2023-03-15
300   2023-07-20
400   2023-12-25
dtype: datetime64[ns]


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [87]:
tabela = pd.DataFrame(
    {
        "Número":  np.arange(1, 11, 1),
        "Quadrado": [1,4,9,16,25,32,49,64,81,100],
        "Cubo": [1,8,27,64,125,216,343,512,729,1000],
    }
)

tabela

Unnamed: 0,Número,Quadrado,Cubo
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125
5,6,32,216
6,7,49,343
7,8,64,512
8,9,81,729
9,10,100,1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [88]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -1.696470  0.652852 -1.532977 -0.425647
2019-01-02 -0.338938 -0.767095  0.656363 -0.926482
2019-01-03 -0.574726 -1.366486  0.592359  1.166578
2019-01-04 -0.667099  0.127305 -0.700088  0.600405
2019-01-05  0.494335 -1.379933 -1.543964 -0.522236
2019-01-06  0.086366 -1.151293  0.801782  0.162342

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-1.69647,0.652852,-1.532977,-0.425647
2019-01-02,-0.338938,-0.767095,0.656363,-0.926482
2019-01-03,-0.574726,-1.366486,0.592359,1.166578


In [89]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-0.667099,0.127305,-0.700088,0.600405
2019-01-05,0.494335,-1.379933,-1.543964,-0.522236
2019-01-06,0.086366,-1.151293,0.801782,0.162342


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [90]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [91]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [92]:
df.to_numpy() ## resulta em um array bidimensional

array([[-1.69646958,  0.65285207, -1.53297736, -0.42564669],
       [-0.33893842, -0.76709478,  0.65636335, -0.92648202],
       [-0.5747258 , -1.36648649,  0.59235916,  1.16657788],
       [-0.66709857,  0.12730537, -0.7000877 ,  0.60040537],
       [ 0.49433537, -1.3799329 , -1.54396446, -0.52223578],
       [ 0.08636601, -1.15129277,  0.80178154,  0.16234214]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [93]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [94]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [95]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.449422,-0.647442,-0.287754,0.00916
std,0.749422,0.850029,1.109208,0.782242
min,-1.69647,-1.379933,-1.543964,-0.926482
25%,-0.644005,-1.312688,-1.324755,-0.498089
50%,-0.456832,-0.959194,-0.053864,-0.131652
75%,-0.01996,-0.096295,0.640362,0.49089
max,0.494335,0.652852,0.801782,1.166578


Transpondo os dados:

In [96]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-1.69647,-0.338938,-0.574726,-0.667099,0.494335,0.086366
B,0.652852,-0.767095,-1.366486,0.127305,-1.379933,-1.151293
C,-1.532977,0.656363,0.592359,-0.700088,-1.543964,0.801782
D,-0.425647,-0.926482,1.166578,0.600405,-0.522236,0.162342


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [97]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06  0.086366 -1.151293  0.801782  0.162342
2019-01-05  0.494335 -1.379933 -1.543964 -0.522236
2019-01-04 -0.667099  0.127305 -0.700088  0.600405
2019-01-03 -0.574726 -1.366486  0.592359  1.166578
2019-01-02 -0.338938 -0.767095  0.656363 -0.926482
2019-01-01 -1.696470  0.652852 -1.532977 -0.425647
                   D         C         B         A
2019-01-01 -0.425647 -1.532977  0.652852 -1.696470
2019-01-02 -0.926482  0.656363 -0.767095 -0.338938
2019-01-03  1.166578  0.592359 -1.366486 -0.574726
2019-01-04  0.600405 -0.700088  0.127305 -0.667099
2019-01-05 -0.522236 -1.543964 -1.379933  0.494335
2019-01-06  0.162342  0.801782 -1.151293  0.086366


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [98]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-05,0.494335,-1.379933,-1.543964,-0.522236
2019-01-03,-0.574726,-1.366486,0.592359,1.166578
2019-01-06,0.086366,-1.151293,0.801782,0.162342
2019-01-02,-0.338938,-0.767095,0.656363,-0.926482
2019-01-04,-0.667099,0.127305,-0.700088,0.600405
2019-01-01,-1.69647,0.652852,-1.532977,-0.425647


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [99]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -1.400463  0.856613 -0.412266  0.127120
2019-01-02  0.164257 -1.004508 -0.786935 -0.216835
2019-01-03  0.233635  0.488056  0.679385 -1.114765
2019-01-04 -0.058825  0.024610  1.487952  0.606252
2019-01-05 -1.173206 -0.268880  1.068956 -0.222212
2019-01-06  0.220365 -0.179600  2.463427  0.221746


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [100]:
df["A"]

Unnamed: 0,A
2019-01-01,-1.400463
2019-01-02,0.164257
2019-01-03,0.233635
2019-01-04,-0.058825
2019-01-05,-1.173206
2019-01-06,0.220365


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [101]:
df.A

Unnamed: 0,A
2019-01-01,-1.400463
2019-01-02,0.164257
2019-01-03,0.233635
2019-01-04,-0.058825
2019-01-05,-1.173206
2019-01-06,0.220365


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [102]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,-1.400463,0.856613,-0.412266,0.12712
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835
2019-01-03,0.233635,0.488056,0.679385,-1.114765


A seleção também funciona para valores dos índices:

In [103]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835
2019-01-03,0.233635,0.488056,0.679385,-1.114765
2019-01-04,-0.058825,0.02461,1.487952,0.606252


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [104]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,-1.400463
B,0.856613
C,-0.412266
D,0.12712


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [105]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,-1.400463,0.856613
2019-01-02,0.164257,-1.004508
2019-01-03,0.233635,0.488056
2019-01-04,-0.058825,0.02461
2019-01-05,-1.173206,-0.26888
2019-01-06,0.220365,-0.1796


Ao selecionar linhas, ambos os limites são incluídos:

In [112]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,0.164257,-1.004508
2019-01-03,0.233635,0.488056
2019-01-04,-0.058825,0.02461


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [113]:
df.loc[datas[0], "A"]

np.float64(-1.4004630733124412)

Um método de acesso mais rápido é:

In [114]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(-1.4004630733124412)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [115]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,-0.058825
B,0.02461
C,1.487952
D,0.606252


Seleção por inteiros age de forma similar no *NumPy*:

In [116]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,-0.058825,0.02461
2019-01-05,-1.173206,-0.26888


Selecionando por listas de inteiros:

In [117]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,0.164257,-0.786935
2019-01-03,0.233635,0.679385
2019-01-05,-1.173206,1.068956


Selecionando linhas explicitamente:

In [118]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835
2019-01-03,0.233635,0.488056,0.679385,-1.114765


Selecionando colunas explicitamente:

In [119]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,0.856613,-0.412266
2019-01-02,-1.004508,-0.786935
2019-01-03,0.488056,0.679385
2019-01-04,0.02461,1.487952
2019-01-05,-0.26888,1.068956
2019-01-06,-0.1796,2.463427


Selecionando os valores explicitamente:

In [120]:
df.iloc[1, 1]

np.float64(-1.0045080214048898)

Para fazer um acesso rápido usando o escalar:

In [121]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(-1.0045080214048898)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [122]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835
2019-01-03,0.233635,0.488056,0.679385,-1.114765
2019-01-06,0.220365,-0.1796,2.463427,0.221746


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [142]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,,0.856613,,0.12712
2019-01-02,0.164257,,,
2019-01-03,0.233635,0.488056,0.679385,
2019-01-04,,0.02461,1.487952,0.606252
2019-01-05,,,1.068956,
2019-01-06,0.220365,,2.463427,0.221746


Usando `isin()` para seleção:

In [143]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,-1.400463,0.856613,-0.412266,0.12712,um
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835,um
2019-01-03,0.233635,0.488056,0.679385,-1.114765,dois
2019-01-04,-0.058825,0.02461,1.487952,0.606252,três
2019-01-05,-1.173206,-0.26888,1.068956,-0.222212,quatro
2019-01-06,0.220365,-0.1796,2.463427,0.221746,três


In [144]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,-1.400463,0.856613,-0.412266,0.12712,um
2019-01-02,0.164257,-1.004508,-0.786935,-0.216835,um
2019-01-05,-1.173206,-0.26888,1.068956,-0.222212,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [123]:
tabela2 = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

idade = tabela2.Idade; print(f"{idade} \n")
colunas = tabela2.loc[:, ["Nome", "Cidade"]]; print(f"{colunas} \n")
idade30 = tabela2[tabela2["Idade"] > 30]; print(idade30)

0    23
1    35
2    29
3    40
Name: Idade, dtype: int64 

    Nome          Cidade
0    Ana       São Paulo
1  Bruno  Rio de Janeiro
2  Clara  Belo Horizonte
3  Diego        Curitiba 

    Nome  Idade          Cidade
1  Bruno     35  Rio de Janeiro
3  Diego     40        Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [148]:
tabela3 = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

sete_a_um = tabela3.loc[["Brasil","Alemanha"],]; print(f"{sete_a_um} \n")
usa = tabela3.iloc[2, 0:2]; print(f"{usa} \n")
dois = tabela3.iloc[0:2, ]; print(f"{dois} \n")
aa = tabela3[tabela3["Continente"].isin(["América", "Asia"])]; print(aa)

          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa 

População (milhões)      331
PIB (trilhões USD)     22.68
Name: Estados Unidos, dtype: object 

        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rússia                  144                1.48       Asia 

                População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                1.84    América
Rússia                          144                1.48       Asia
Estados Unidos                  331               22.68    América


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [149]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01 -0.650348 -0.865069 -1.362123 -1.884798
2019-01-02 -1.232974  1.924163 -0.215076 -0.736902
2019-01-03  0.356934  0.217230 -0.723072  1.429694
2019-01-04  1.834466  0.770720  0.359313 -1.036932
2019-01-05  0.398435 -0.388449  0.133441  0.232972
2019-01-06  0.274232 -1.512657  0.142912  1.169699

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01 -0.650348 -0.865069 -1.362123 -1.884798  NaN
2019-01-02 -1.232974  1.924163 -0.215076 -0.736902  1.0
2019-01-03  0.356934  0.217230 -0.723072  1.429694  2.0
2019-01-04  1.834466  0.770720  0.359313 -1.036932  3.0
2019-01-05  0.398435 -0.388449  0.133441  0.232972  4.0
2019-01-06  0.274232 -1.512657  0.142912  1.169699  5.0


Atualizando valores por nome:

In [150]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,-0.865069,-1.362123,-1.884798,
2019-01-02,-1.232974,1.924163,-0.215076,-0.736902,1.0
2019-01-03,0.356934,0.21723,-0.723072,1.429694,2.0
2019-01-04,1.834466,0.77072,0.359313,-1.036932,3.0
2019-01-05,0.398435,-0.388449,0.133441,0.232972,4.0
2019-01-06,0.274232,-1.512657,0.142912,1.169699,5.0


Atualizando valores por posição:

In [151]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-1.362123,-1.884798,
2019-01-02,-1.232974,1.924163,-0.215076,-0.736902,1.0
2019-01-03,0.356934,0.21723,-0.723072,1.429694,2.0
2019-01-04,1.834466,0.77072,0.359313,-1.036932,3.0
2019-01-05,0.398435,-0.388449,0.133441,0.232972,4.0
2019-01-06,0.274232,-1.512657,0.142912,1.169699,5.0


Atualização de valores com uma matriz *NumPy*:

In [152]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-1.362123,5.0,
2019-01-02,-1.232974,1.924163,-0.215076,5.0,1.0
2019-01-03,0.356934,0.21723,-0.723072,5.0,2.0
2019-01-04,1.834466,0.77072,0.359313,5.0,3.0
2019-01-05,0.398435,-0.388449,0.133441,5.0,4.0
2019-01-06,0.274232,-1.512657,0.142912,5.0,5.0


Uma operação `where` como atualização de valores:

In [153]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -1.362123  5.0  NaN
2019-01-02 -1.232974  1.924163 -0.215076  5.0  1.0
2019-01-03  0.356934  0.217230 -0.723072  5.0  2.0
2019-01-04  1.834466  0.770720  0.359313  5.0  3.0
2019-01-05  0.398435 -0.388449  0.133441  5.0  4.0
2019-01-06  0.274232 -1.512657  0.142912  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False  False  True  False
2019-01-02  False   True  False  True   True
2019-01-03   True   True  False  True   True
2019-01-04   True   True   True  True   True
2019-01-05   True  False   True  True   True
2019-01-06   True  False   True  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -1.362123 -5.0  NaN
2019-01-02 -1.232974 -1.924163 -0.215076 -5.0 -1.0
2019-01-03 -0.356934 -0.217230 -0.723072 -5.0 -2.0
2019-01-04 -1.834466 -0.770720 -0.359313 -5.0 -3.0
2019-01-05 -0.398435 -0.388449 -0.133441 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [154]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -0.542589  0.168964  0.191051 -0.737074
2019-01-02 -0.318564 -0.556256  2.042421  1.366967
2019-01-03 -0.255969       NaN  0.985696  1.170030
2019-01-04  0.427021       NaN -1.975702 -1.887742
2019-01-05  0.198532 -0.550483 -0.075772  0.020568
2019-01-06  0.809213 -0.870530 -0.024161  1.034967


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [155]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,-0.542589,0.168964,0.191051,-0.737074
2019-01-02,-0.318564,-0.556256,2.042421,1.366967
2019-01-05,0.198532,-0.550483,-0.075772,0.020568
2019-01-06,0.809213,-0.87053,-0.024161,1.034967


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [156]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,-0.542589,0.168964,0.191051,-0.737074
2019-01-02,-0.318564,-0.556256,2.042421,1.366967
2019-01-03,-0.255969,5.0,0.985696,1.17003
2019-01-04,0.427021,5.0,-1.975702,-1.887742
2019-01-05,0.198532,-0.550483,-0.075772,0.020568
2019-01-06,0.809213,-0.87053,-0.024161,1.034967


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [157]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [158]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [159]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [160]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [161]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [210]:
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

tabela4 = pd.DataFrame(dados)

tabela4.iat[2, 1] = 1800
tabela4.loc[tabela4["Categoria"] == "Eletrônicos", "Preço"] *= 0.8
aa = tabela4.dropna(how="any"); print(aa)
tabela4["Estoque"].fillna(value=0)

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2000.0     10.0  Eletrônicos        4.5
2          Tablet  1440.0      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2


Unnamed: 0,Estoque
0,10.0
1,5.0
2,2.0
3,50.0
4,0.0
5,150.0
