<a href="https://colab.research.google.com/github/leinaishihara/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [None]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [None]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [None]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [None]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [None]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [None]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [None]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [None]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [None]:
import numpy as np
import pandas as pd

datas = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])
valores = [100, 200, 300, 400]

serie1 = pd.Series(data = valores, index = datas)

print(serie1)

2023-01-01    100
2023-03-15    200
2023-07-20    300
2023-12-25    400
dtype: int64


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [5]:
import numpy as np
import pandas as pd

numeros = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
quadrados = numeros**2
cubos = numeros**3

df2 = pd.DataFrame({
    "Número" : numeros,
    "Quadrado" : quadrados,
    "Cubo" : cubos
})

df2

Unnamed: 0,Número,Quadrado,Cubo
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125
5,6,36,216
6,7,49,343
7,8,64,512
8,9,81,729
9,10,100,1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [None]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01  2.269235 -1.763119 -1.487940 -0.689605
2019-01-02  0.241059 -2.294633 -0.261523  1.314998
2019-01-03  0.946043  0.544985 -1.421395 -0.601721
2019-01-04 -0.484789  1.263113 -0.047617  0.712972
2019-01-05  1.291142  0.090411 -0.163146 -0.942673
2019-01-06  0.251700 -0.456348 -0.941070  2.528196

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,2.269235,-1.763119,-1.48794,-0.689605
2019-01-02,0.241059,-2.294633,-0.261523,1.314998
2019-01-03,0.946043,0.544985,-1.421395,-0.601721


In [None]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-0.484789,1.263113,-0.047617,0.712972
2019-01-05,1.291142,0.090411,-0.163146,-0.942673
2019-01-06,0.2517,-0.456348,-0.94107,2.528196


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [None]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [None]:
df.to_numpy() ## resulta em um array bidimensional

array([[ 2.26923548, -1.76311889, -1.48794022, -0.68960451],
       [ 0.24105931, -2.294633  , -0.26152273,  1.3149981 ],
       [ 0.94604337,  0.5449849 , -1.42139485, -0.60172091],
       [-0.48478947,  1.26311271, -0.04761725,  0.71297206],
       [ 1.29114196,  0.09041126, -0.16314629, -0.942673  ],
       [ 0.25170037, -0.45634824, -0.94107   ,  2.52819562]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [None]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [None]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.752399,-0.435932,-0.720449,0.387028
std,0.966575,1.366938,0.648528,1.37527
min,-0.484789,-2.294633,-1.48794,-0.942673
25%,0.24372,-1.436426,-1.301314,-0.667634
50%,0.598872,-0.182968,-0.601296,0.055626
75%,1.204867,0.431341,-0.18774,1.164492
max,2.269235,1.263113,-0.047617,2.528196


Transpondo os dados:

In [None]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,2.269235,0.241059,0.946043,-0.484789,1.291142,0.2517
B,-1.763119,-2.294633,0.544985,1.263113,0.090411,-0.456348
C,-1.48794,-0.261523,-1.421395,-0.047617,-0.163146,-0.94107
D,-0.689605,1.314998,-0.601721,0.712972,-0.942673,2.528196


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [None]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06  0.251700 -0.456348 -0.941070  2.528196
2019-01-05  1.291142  0.090411 -0.163146 -0.942673
2019-01-04 -0.484789  1.263113 -0.047617  0.712972
2019-01-03  0.946043  0.544985 -1.421395 -0.601721
2019-01-02  0.241059 -2.294633 -0.261523  1.314998
2019-01-01  2.269235 -1.763119 -1.487940 -0.689605
                   D         C         B         A
2019-01-01 -0.689605 -1.487940 -1.763119  2.269235
2019-01-02  1.314998 -0.261523 -2.294633  0.241059
2019-01-03 -0.601721 -1.421395  0.544985  0.946043
2019-01-04  0.712972 -0.047617  1.263113 -0.484789
2019-01-05 -0.942673 -0.163146  0.090411  1.291142
2019-01-06  2.528196 -0.941070 -0.456348  0.251700


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [None]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-02,0.241059,-2.294633,-0.261523,1.314998
2019-01-01,2.269235,-1.763119,-1.48794,-0.689605
2019-01-06,0.2517,-0.456348,-0.94107,2.528196
2019-01-05,1.291142,0.090411,-0.163146,-0.942673
2019-01-03,0.946043,0.544985,-1.421395,-0.601721
2019-01-04,-0.484789,1.263113,-0.047617,0.712972


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [14]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.466327  0.270802  1.528052 -0.148463
2019-01-02 -0.638865  2.701385 -0.316609  1.541941
2019-01-03  0.533527  0.066755 -2.714513 -0.065106
2019-01-04  0.413227  1.209933  1.900091 -0.624886
2019-01-05  0.138048  1.475118 -2.022129 -1.223369
2019-01-06 -0.895098  1.233449  1.248631 -0.132887


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [None]:
df["A"]

Unnamed: 0,A
2019-01-01,0.074961
2019-01-02,0.159663
2019-01-03,0.395513
2019-01-04,0.436073
2019-01-05,-0.736636
2019-01-06,0.175249


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [None]:
df.A

Unnamed: 0,A
2019-01-01,0.074961
2019-01-02,0.159663
2019-01-03,0.395513
2019-01-04,0.436073
2019-01-05,-0.736636
2019-01-06,0.175249


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [None]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,0.074961,-1.038767,-1.400505,-0.318234
2019-01-02,0.159663,-1.505336,1.061221,-0.45559
2019-01-03,0.395513,-0.506823,-1.180306,0.103172


A seleção também funciona para valores dos índices:

In [15]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,-0.638865,2.701385,-0.316609,1.541941
2019-01-03,0.533527,0.066755,-2.714513,-0.065106
2019-01-04,0.413227,1.209933,1.900091,-0.624886


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [16]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,0.466327
B,0.270802
C,1.528052
D,-0.148463


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [None]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,0.074961,-1.038767
2019-01-02,0.159663,-1.505336
2019-01-03,0.395513,-0.506823
2019-01-04,0.436073,-0.579246
2019-01-05,-0.736636,2.166834
2019-01-06,0.175249,-0.461567


Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,0.159663,-1.505336
2019-01-03,0.395513,-0.506823
2019-01-04,0.436073,-0.579246


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

np.float64(0.07496133942855893)

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(0.07496133942855893)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [7]:
df.iloc[3]

Unnamed: 0,3
Nome,Diego
Idade,40
Cidade,Curitiba


Seleção por inteiros age de forma similar no *NumPy*:

In [None]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,0.436073,-0.579246
2019-01-05,-0.736636,2.166834


Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,0.159663,1.061221
2019-01-03,0.395513,-1.180306
2019-01-05,-0.736636,-1.217196


Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,0.159663,-1.505336,1.061221,-0.45559
2019-01-03,0.395513,-0.506823,-1.180306,0.103172


Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,-1.038767,-1.400505
2019-01-02,-1.505336,1.061221
2019-01-03,-0.506823,-1.180306
2019-01-04,-0.579246,-1.780132
2019-01-05,2.166834,-1.217196
2019-01-06,-0.461567,-0.808538


Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

np.float64(-1.5053359726349032)

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(-1.5053359726349032)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-01,0.074961,-1.038767,-1.400505,-0.318234
2019-01-02,0.159663,-1.505336,1.061221,-0.45559
2019-01-03,0.395513,-0.506823,-1.180306,0.103172
2019-01-04,0.436073,-0.579246,-1.780132,-0.979189
2019-01-06,0.175249,-0.461567,-0.808538,0.917596


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,0.074961,,,
2019-01-02,0.159663,,1.061221,
2019-01-03,0.395513,,,0.103172
2019-01-04,0.436073,,,
2019-01-05,,2.166834,,0.429449
2019-01-06,0.175249,,,0.917596


Usando `isin()` para seleção:

In [None]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,0.074961,-1.038767,-1.400505,-0.318234,um
2019-01-02,0.159663,-1.505336,1.061221,-0.45559,um
2019-01-03,0.395513,-0.506823,-1.180306,0.103172,dois
2019-01-04,0.436073,-0.579246,-1.780132,-0.979189,três
2019-01-05,-0.736636,2.166834,-1.217196,0.429449,quatro
2019-01-06,0.175249,-0.461567,-0.808538,0.917596,três


In [None]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,0.074961,-1.038767,-1.400505,-0.318234,um
2019-01-02,0.159663,-1.505336,1.061221,-0.45559,um
2019-01-05,-0.736636,2.166834,-1.217196,0.429449,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [10]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

#1
df["Idade"]

#2
df.loc[:, ["Nome", "Cidade"]]

#3
df[df["Idade"] > 30]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,35,Rio de Janeiro
3,Diego,40,Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [11]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

#1
df.loc

Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Rússia,144,1.48,Asia
Estados Unidos,331,22.68,América
França,67,2.83,Europa
Alemanha,83,4.22,Europa


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01 -1.276137  0.721624  0.751370  0.441122
2019-01-02 -1.113685 -0.241696 -0.271133 -1.306256
2019-01-03  1.556484 -0.619181  1.753039  0.438655
2019-01-04  0.228707 -0.407620 -0.762444  0.939655
2019-01-05 -0.491504 -0.368470  0.427654 -1.263355
2019-01-06 -0.945221 -0.837942 -1.297464  0.443477

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01 -1.276137  0.721624  0.751370  0.441122  NaN
2019-01-02 -1.113685 -0.241696 -0.271133 -1.306256  1.0
2019-01-03  1.556484 -0.619181  1.753039  0.438655  2.0
2019-01-04  0.228707 -0.407620 -0.762444  0.939655  3.0
2019-01-05 -0.491504 -0.368470  0.427654 -1.263355  4.0
2019-01-06 -0.945221 -0.837942 -1.297464  0.443477  5.0


Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.721624,0.75137,0.441122,
2019-01-02,-1.113685,-0.241696,-0.271133,-1.306256,1.0
2019-01-03,1.556484,-0.619181,1.753039,0.438655,2.0
2019-01-04,0.228707,-0.40762,-0.762444,0.939655,3.0
2019-01-05,-0.491504,-0.36847,0.427654,-1.263355,4.0
2019-01-06,-0.945221,-0.837942,-1.297464,0.443477,5.0


Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.75137,0.441122,
2019-01-02,-1.113685,-0.241696,-0.271133,-1.306256,1.0
2019-01-03,1.556484,-0.619181,1.753039,0.438655,2.0
2019-01-04,0.228707,-0.40762,-0.762444,0.939655,3.0
2019-01-05,-0.491504,-0.36847,0.427654,-1.263355,4.0
2019-01-06,-0.945221,-0.837942,-1.297464,0.443477,5.0


Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.75137,5.0,
2019-01-02,-1.113685,-0.241696,-0.271133,5.0,1.0
2019-01-03,1.556484,-0.619181,1.753039,5.0,2.0
2019-01-04,0.228707,-0.40762,-0.762444,5.0,3.0
2019-01-05,-0.491504,-0.36847,0.427654,5.0,4.0
2019-01-06,-0.945221,-0.837942,-1.297464,5.0,5.0


Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000  0.751370  5.0  NaN
2019-01-02 -1.113685 -0.241696 -0.271133  5.0  1.0
2019-01-03  1.556484 -0.619181  1.753039  5.0  2.0
2019-01-04  0.228707 -0.407620 -0.762444  5.0  3.0
2019-01-05 -0.491504 -0.368470  0.427654  5.0  4.0
2019-01-06 -0.945221 -0.837942 -1.297464  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False   True  True  False
2019-01-02  False  False  False  True   True
2019-01-03   True  False   True  True   True
2019-01-04   True  False  False  True   True
2019-01-05  False  False   True  True   True
2019-01-06  False  False  False  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.751370 -5.0  NaN
2019-01-02 -1.113685 -0.241696 -0.271133 -5.0 -1.0
2019-01-03 -1.556484 -0.619181 -1.753039 -5.0 -2.0
2019-01-04 -0.228707 -0.407620 -0.762444 -5.0 -3.0
2019-01-05 -0.491504 -0.368470 -0.427654 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -0.544638 -1.817773 -0.333384 -0.896217
2019-01-02 -0.469973 -1.298862  1.582607  1.002759
2019-01-03  0.862076       NaN  0.329243 -0.882814
2019-01-04  0.961594       NaN  0.278745  0.265142
2019-01-05  1.202922 -0.676338  1.422784 -0.482480
2019-01-06  0.142288 -1.252233 -0.174919 -0.764506


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,-0.544638,-1.817773,-0.333384,-0.896217
2019-01-02,-0.469973,-1.298862,1.582607,1.002759
2019-01-05,1.202922,-0.676338,1.422784,-0.48248
2019-01-06,0.142288,-1.252233,-0.174919,-0.764506


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,-0.544638,-1.817773,-0.333384,-0.896217
2019-01-02,-0.469973,-1.298862,1.582607,1.002759
2019-01-03,0.862076,5.0,0.329243,-0.882814
2019-01-04,0.961594,5.0,0.278745,0.265142
2019-01-05,1.202922,-0.676338,1.422784,-0.48248
2019-01-06,0.142288,-1.252233,-0.174919,-0.764506


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [None]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [None]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.