<a href="https://colab.research.google.com/github/julia-nosralla/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [None]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [None]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [None]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [None]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [None]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [None]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [None]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [None]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [None]:
import pandas as pd
import numpy as np

a = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])
print(a)

b = pd.Series([100, 200, 300, 400])
print(b)

DatetimeIndex(['2023-01-01', '2023-03-15', '2023-07-20', '2023-12-25'], dtype='datetime64[ns]', freq=None)
0    100
1    200
2    300
3    400
dtype: int64


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [None]:
import pandas as pd
import numpy as np

numero = np.arange(1, 11)
quadrado = numero**2
cubo = numero**3

df = pd.DataFrame({
    "Número": numero,
    "Quadrado": quadrado,
    "Cubo": cubo
}
)

print(df)

   Número  Quadrado  Cubo
0       1         1     1
1       2         4     8
2       3         9    27
3       4        16    64
4       5        25   125
5       6        36   216
6       7        49   343
7       8        64   512
8       9        81   729
9      10       100  1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [None]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -0.213902 -1.237697  0.621236 -0.460431
2019-01-02 -0.082543  0.108814  0.565810 -1.567424
2019-01-03 -1.256578  0.334373 -0.691927  0.573847
2019-01-04 -1.447572  0.214351 -0.840637 -0.053521
2019-01-05 -0.714333  0.131937 -1.085304  0.247820
2019-01-06 -1.296950 -1.661725  0.782754 -0.926923

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-0.213902,-1.237697,0.621236,-0.460431
2019-01-02,-0.082543,0.108814,0.56581,-1.567424
2019-01-03,-1.256578,0.334373,-0.691927,0.573847


In [None]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-1.447572,0.214351,-0.840637,-0.053521
2019-01-05,-0.714333,0.131937,-1.085304,0.24782
2019-01-06,-1.29695,-1.661725,0.782754,-0.926923


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [None]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [None]:
df.to_numpy() ## resulta em um array bidimensional

array([[-0.21390175, -1.23769674,  0.62123604, -0.46043069],
       [-0.08254272,  0.10881368,  0.56581001, -1.5674244 ],
       [-1.25657801,  0.33437302, -0.69192651,  0.57384696],
       [-1.44757184,  0.21435137, -0.84063675, -0.05352053],
       [-0.71433312,  0.13193654, -1.08530381,  0.24781963],
       [-1.29695041, -1.66172461,  0.7827543 , -0.92692314]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [None]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [None]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.835313,-0.351658,-0.108011,-0.364439
std,0.588708,0.864667,0.849953,0.79053
min,-1.447572,-1.661725,-1.085304,-1.567424
25%,-1.286857,-0.901069,-0.803459,-0.8103
50%,-0.985456,0.120375,-0.063058,-0.256976
75%,-0.33901,0.193748,0.60738,0.172485
max,-0.082543,0.334373,0.782754,0.573847


Transpondo os dados:

In [None]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-0.213902,-0.082543,-1.256578,-1.447572,-0.714333,-1.29695
B,-1.237697,0.108814,0.334373,0.214351,0.131937,-1.661725
C,0.621236,0.56581,-0.691927,-0.840637,-1.085304,0.782754
D,-0.460431,-1.567424,0.573847,-0.053521,0.24782,-0.926923


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [None]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06 -1.296950 -1.661725  0.782754 -0.926923
2019-01-05 -0.714333  0.131937 -1.085304  0.247820
2019-01-04 -1.447572  0.214351 -0.840637 -0.053521
2019-01-03 -1.256578  0.334373 -0.691927  0.573847
2019-01-02 -0.082543  0.108814  0.565810 -1.567424
2019-01-01 -0.213902 -1.237697  0.621236 -0.460431
                   D         C         B         A
2019-01-01 -0.460431  0.621236 -1.237697 -0.213902
2019-01-02 -1.567424  0.565810  0.108814 -0.082543
2019-01-03  0.573847 -0.691927  0.334373 -1.256578
2019-01-04 -0.053521 -0.840637  0.214351 -1.447572
2019-01-05  0.247820 -1.085304  0.131937 -0.714333
2019-01-06 -0.926923  0.782754 -1.661725 -1.296950


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [None]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-06,-1.29695,-1.661725,0.782754,-0.926923
2019-01-01,-0.213902,-1.237697,0.621236,-0.460431
2019-01-02,-0.082543,0.108814,0.56581,-1.567424
2019-01-05,-0.714333,0.131937,-1.085304,0.24782
2019-01-04,-1.447572,0.214351,-0.840637,-0.053521
2019-01-03,-1.256578,0.334373,-0.691927,0.573847


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [None]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.637465 -1.252646  0.626705  0.170827
2019-01-02 -1.071675 -0.027382  0.420280  2.127290
2019-01-03  0.576929 -0.069483  1.247003  0.999273
2019-01-04  0.980860 -1.458511 -1.039167 -0.227427
2019-01-05  0.607946  0.301107 -0.652920 -1.144923
2019-01-06  2.251034  0.043925  0.834708  0.070517


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [None]:
df["A"]

Unnamed: 0,A
2019-01-01,0.637465
2019-01-02,-1.071675
2019-01-03,0.576929
2019-01-04,0.98086
2019-01-05,0.607946
2019-01-06,2.251034


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [None]:
df.A

Unnamed: 0,A
2019-01-01,0.637465
2019-01-02,-1.071675
2019-01-03,0.576929
2019-01-04,0.98086
2019-01-05,0.607946
2019-01-06,2.251034


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [None]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,0.637465,-1.252646,0.626705,0.170827
2019-01-02,-1.071675,-0.027382,0.42028,2.12729
2019-01-03,0.576929,-0.069483,1.247003,0.999273


A seleção também funciona para valores dos índices:

In [None]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,-1.071675,-0.027382,0.42028,2.12729
2019-01-03,0.576929,-0.069483,1.247003,0.999273
2019-01-04,0.98086,-1.458511,-1.039167,-0.227427


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [None]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,0.637465
B,-1.252646
C,0.626705
D,0.170827


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [None]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,0.637465,-1.252646
2019-01-02,-1.071675,-0.027382
2019-01-03,0.576929,-0.069483
2019-01-04,0.98086,-1.458511
2019-01-05,0.607946,0.301107
2019-01-06,2.251034,0.043925


Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,-1.071675,-0.027382
2019-01-03,0.576929,-0.069483
2019-01-04,0.98086,-1.458511


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

np.float64(0.6374651067680616)

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(0.6374651067680616)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [None]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,0.98086
B,-1.458511
C,-1.039167
D,-0.227427


Seleção por inteiros age de forma similar no *NumPy*:

In [None]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,0.98086,-1.458511
2019-01-05,0.607946,0.301107


Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,-1.071675,0.42028
2019-01-03,0.576929,1.247003
2019-01-05,0.607946,-0.65292


Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,-1.071675,-0.027382,0.42028,2.12729
2019-01-03,0.576929,-0.069483,1.247003,0.999273


Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,-1.252646,0.626705
2019-01-02,-0.027382,0.42028
2019-01-03,-0.069483,1.247003
2019-01-04,-1.458511,-1.039167
2019-01-05,0.301107,-0.65292
2019-01-06,0.043925,0.834708


Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

np.float64(-0.0273823456581171)

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(-0.0273823456581171)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-01,0.637465,-1.252646,0.626705,0.170827
2019-01-03,0.576929,-0.069483,1.247003,0.999273
2019-01-04,0.98086,-1.458511,-1.039167,-0.227427
2019-01-05,0.607946,0.301107,-0.65292,-1.144923
2019-01-06,2.251034,0.043925,0.834708,0.070517


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,0.637465,,0.626705,0.170827
2019-01-02,,,0.42028,2.12729
2019-01-03,0.576929,,1.247003,0.999273
2019-01-04,0.98086,,,
2019-01-05,0.607946,0.301107,,
2019-01-06,2.251034,0.043925,0.834708,0.070517


Usando `isin()` para seleção:

In [None]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,0.637465,-1.252646,0.626705,0.170827,um
2019-01-02,-1.071675,-0.027382,0.42028,2.12729,um
2019-01-03,0.576929,-0.069483,1.247003,0.999273,dois
2019-01-04,0.98086,-1.458511,-1.039167,-0.227427,três
2019-01-05,0.607946,0.301107,-0.65292,-1.144923,quatro
2019-01-06,2.251034,0.043925,0.834708,0.070517,três


In [None]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,0.637465,-1.252646,0.626705,0.170827,um
2019-01-02,-1.071675,-0.027382,0.42028,2.12729,um
2019-01-05,0.607946,0.301107,-0.65292,-1.144923,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

df

Unnamed: 0,Nome,Idade,Cidade
0,Ana,23,São Paulo
1,Bruno,35,Rio de Janeiro
2,Clara,29,Belo Horizonte
3,Diego,40,Curitiba


In [None]:
df["Idade"]

Unnamed: 0,Idade
0,23
1,35
2,29
3,40


In [None]:
df.loc[:, ["Nome", "Cidade"]]

Unnamed: 0,Nome,Cidade
0,Ana,São Paulo
1,Bruno,Rio de Janeiro
2,Clara,Belo Horizonte
3,Diego,Curitiba


In [None]:
df[df["Idade"] > 30]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,35,Rio de Janeiro
3,Diego,40,Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [None]:
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

df

Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Rússia,144,1.48,Asia
Estados Unidos,331,22.68,América
França,67,2.83,Europa
Alemanha,83,4.22,Europa


In [None]:
df.loc[["Brasil", "Alemanha"], :]

Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Alemanha,83,4.22,Europa


In [None]:
df.loc[["Estados Unidos"], ["População (milhões)","PIB (trilhões USD)"]]

Unnamed: 0,População (milhões),PIB (trilhões USD)
Estados Unidos,331,22.68


In [None]:
df.iloc[0:2, :]

Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Rússia,144,1.48,Asia


In [None]:
df[df["Continente"].isin(["América", "Asia"])]

Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Rússia,144,1.48,Asia
Estados Unidos,331,22.68,América


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01 -2.408872  1.256775 -0.047895  0.210072
2019-01-02  0.562212 -0.422399 -1.587595 -1.460912
2019-01-03 -0.301848 -0.122433  1.508617  0.835030
2019-01-04 -1.454497  1.415607  0.926494 -1.510713
2019-01-05  0.040198 -0.610018 -0.631568 -1.486645
2019-01-06  0.594842 -0.107674 -1.476051  1.546042

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01 -2.408872  1.256775 -0.047895  0.210072  NaN
2019-01-02  0.562212 -0.422399 -1.587595 -1.460912  1.0
2019-01-03 -0.301848 -0.122433  1.508617  0.835030  2.0
2019-01-04 -1.454497  1.415607  0.926494 -1.510713  3.0
2019-01-05  0.040198 -0.610018 -0.631568 -1.486645  4.0
2019-01-06  0.594842 -0.107674 -1.476051  1.546042  5.0


Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,1.256775,-0.047895,0.210072,
2019-01-02,0.562212,-0.422399,-1.587595,-1.460912,1.0
2019-01-03,-0.301848,-0.122433,1.508617,0.83503,2.0
2019-01-04,-1.454497,1.415607,0.926494,-1.510713,3.0
2019-01-05,0.040198,-0.610018,-0.631568,-1.486645,4.0
2019-01-06,0.594842,-0.107674,-1.476051,1.546042,5.0


Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.047895,0.210072,
2019-01-02,0.562212,-0.422399,-1.587595,-1.460912,1.0
2019-01-03,-0.301848,-0.122433,1.508617,0.83503,2.0
2019-01-04,-1.454497,1.415607,0.926494,-1.510713,3.0
2019-01-05,0.040198,-0.610018,-0.631568,-1.486645,4.0
2019-01-06,0.594842,-0.107674,-1.476051,1.546042,5.0


Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.047895,5.0,
2019-01-02,0.562212,-0.422399,-1.587595,5.0,1.0
2019-01-03,-0.301848,-0.122433,1.508617,5.0,2.0
2019-01-04,-1.454497,1.415607,0.926494,5.0,3.0
2019-01-05,0.040198,-0.610018,-0.631568,5.0,4.0
2019-01-06,0.594842,-0.107674,-1.476051,5.0,5.0


Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.047895  5.0  NaN
2019-01-02  0.562212 -0.422399 -1.587595  5.0  1.0
2019-01-03 -0.301848 -0.122433  1.508617  5.0  2.0
2019-01-04 -1.454497  1.415607  0.926494  5.0  3.0
2019-01-05  0.040198 -0.610018 -0.631568  5.0  4.0
2019-01-06  0.594842 -0.107674 -1.476051  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False  False  True  False
2019-01-02   True  False  False  True   True
2019-01-03  False  False   True  True   True
2019-01-04  False   True   True  True   True
2019-01-05   True  False  False  True   True
2019-01-06   True  False  False  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.047895 -5.0  NaN
2019-01-02 -0.562212 -0.422399 -1.587595 -5.0 -1.0
2019-01-03 -0.301848 -0.122433 -1.508617 -5.0 -2.0
2019-01-04 -1.454497 -1.415607 -0.926494 -5.0 -3.0
2019-01-05 -0.040198 -0.610018 -0.631568 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.502268 -0.064797  0.354022 -0.632227
2019-01-02 -0.178190 -0.501334 -0.447563 -1.309562
2019-01-03 -1.021904       NaN  0.108239 -2.392309
2019-01-04  0.885624       NaN  2.272191 -1.731911
2019-01-05 -0.793448  0.542443  0.615206 -0.629303
2019-01-06 -0.669817 -1.131092 -0.263244  0.038174


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,0.502268,-0.064797,0.354022,-0.632227
2019-01-02,-0.17819,-0.501334,-0.447563,-1.309562
2019-01-05,-0.793448,0.542443,0.615206,-0.629303
2019-01-06,-0.669817,-1.131092,-0.263244,0.038174


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,0.502268,-0.064797,0.354022,-0.632227
2019-01-02,-0.17819,-0.501334,-0.447563,-1.309562
2019-01-03,-1.021904,5.0,0.108239,-2.392309
2019-01-04,0.885624,5.0,2.272191,-1.731911
2019-01-05,-0.793448,0.542443,0.615206,-0.629303
2019-01-06,-0.669817,-1.131092,-0.263244,0.038174


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [None]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [None]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [None]:
import pandas as pd
import numpy as np

dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)

df

Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2500.0,10.0,Eletrônicos,4.5
1,Celular,1500.0,5.0,Eletrônicos,
2,Tablet,,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
4,Monitor,800.0,,Periféricos,3.9
5,Mouse,100.0,150.0,Periféricos,


In [None]:
df.loc[2, "Preço"] = 1800

df

Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2500.0,10.0,Eletrônicos,4.5
1,Celular,1500.0,5.0,Eletrônicos,
2,Tablet,1800.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
4,Monitor,800.0,,Periféricos,3.9
5,Mouse,100.0,150.0,Periféricos,


In [None]:
df.loc[df["Categoria"] == "Eletrônicos", "Preço"] = df.loc[df["Categoria"] == "Eletrônicos", "Preço"] * 0.8

df

Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2000.0,10.0,Eletrônicos,4.5
1,Celular,1200.0,5.0,Eletrônicos,
2,Tablet,1440.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
4,Monitor,800.0,,Periféricos,3.9
5,Mouse,100.0,150.0,Periféricos,


In [None]:
df.dropna(how="any")

Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2000.0,10.0,Eletrônicos,4.5
2,Tablet,1440.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2


In [None]:
df["Estoque"] = df["Estoque"].fillna(0)

df

Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2000.0,10.0,Eletrônicos,4.5
1,Celular,1200.0,5.0,Eletrônicos,
2,Tablet,1440.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
4,Monitor,800.0,0.0,Periféricos,3.9
5,Mouse,100.0,150.0,Periféricos,
