<a href="https://colab.research.google.com/github/marcoswell/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [1]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [3]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [4]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [5]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [6]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [7]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [8]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [9]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [10]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [11]:
datas = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])
valores = [100,200,300,400]

df = pd.DataFrame(index = datas, data = valores)
df


Unnamed: 0,0
2023-01-01,100
2023-03-15,200
2023-07-20,300
2023-12-25,400


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [12]:
colunas = ["Número", "Quadrado", "Cubo"]
sequencia = list(range(1,11))
potencia = lambda x, y: pow(x,y)

df = pd.DataFrame({
    colunas[0]: sequencia,
    colunas[1]: [potencia(x, 2) for x in sequencia],
    colunas[2]: [potencia(x, 3) for x in sequencia]
                  }
                  )

df

Unnamed: 0,Número,Quadrado,Cubo
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125
5,6,36,216
6,7,49,343
7,8,64,512
8,9,81,729
9,10,100,1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [13]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -0.517639  1.179141  0.345888  0.642496
2019-01-02 -0.844064 -1.419998 -0.040127  1.520443
2019-01-03  0.489478  1.054929  0.325001 -2.771570
2019-01-04  1.103191  0.761532  0.555484 -0.598903
2019-01-05 -1.474706  0.868855  1.346617 -0.334715
2019-01-06 -1.887552 -0.583861 -1.437734  1.134412

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-0.517639,1.179141,0.345888,0.642496
2019-01-02,-0.844064,-1.419998,-0.040127,1.520443
2019-01-03,0.489478,1.054929,0.325001,-2.77157


In [14]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,1.103191,0.761532,0.555484,-0.598903
2019-01-05,-1.474706,0.868855,1.346617,-0.334715
2019-01-06,-1.887552,-0.583861,-1.437734,1.134412


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [15]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [16]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [17]:
df.to_numpy() ## resulta em um array bidimensional

array([[-0.51763923,  1.17914055,  0.34588804,  0.64249644],
       [-0.84406357, -1.41999787, -0.04012698,  1.52044308],
       [ 0.48947757,  1.05492934,  0.32500148, -2.77157032],
       [ 1.1031907 ,  0.76153224,  0.55548431, -0.59890263],
       [-1.47470645,  0.86885494,  1.34661653, -0.33471469],
       [-1.88755246, -0.58386104, -1.43773432,  1.13441218]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [18]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [19]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [20]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.521882,0.3101,0.182522,-0.067973
std,1.143718,1.060038,0.91826,1.55795
min,-1.887552,-1.419998,-1.437734,-2.77157
25%,-1.317046,-0.247513,0.051155,-0.532856
50%,-0.680851,0.815194,0.335445,0.153891
75%,0.237698,1.008411,0.503085,1.011433
max,1.103191,1.179141,1.346617,1.520443


Transpondo os dados:

In [21]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-0.517639,-0.844064,0.489478,1.103191,-1.474706,-1.887552
B,1.179141,-1.419998,1.054929,0.761532,0.868855,-0.583861
C,0.345888,-0.040127,0.325001,0.555484,1.346617,-1.437734
D,0.642496,1.520443,-2.77157,-0.598903,-0.334715,1.134412


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [22]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06 -1.887552 -0.583861 -1.437734  1.134412
2019-01-05 -1.474706  0.868855  1.346617 -0.334715
2019-01-04  1.103191  0.761532  0.555484 -0.598903
2019-01-03  0.489478  1.054929  0.325001 -2.771570
2019-01-02 -0.844064 -1.419998 -0.040127  1.520443
2019-01-01 -0.517639  1.179141  0.345888  0.642496
                   D         C         B         A
2019-01-01  0.642496  0.345888  1.179141 -0.517639
2019-01-02  1.520443 -0.040127 -1.419998 -0.844064
2019-01-03 -2.771570  0.325001  1.054929  0.489478
2019-01-04 -0.598903  0.555484  0.761532  1.103191
2019-01-05 -0.334715  1.346617  0.868855 -1.474706
2019-01-06  1.134412 -1.437734 -0.583861 -1.887552


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [23]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-02,-0.844064,-1.419998,-0.040127,1.520443
2019-01-06,-1.887552,-0.583861,-1.437734,1.134412
2019-01-04,1.103191,0.761532,0.555484,-0.598903
2019-01-05,-1.474706,0.868855,1.346617,-0.334715
2019-01-03,0.489478,1.054929,0.325001,-2.77157
2019-01-01,-0.517639,1.179141,0.345888,0.642496


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [24]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -1.419718 -1.787726  0.898107 -1.980563
2019-01-02  0.703463 -0.652429 -1.615561 -0.586448
2019-01-03 -0.469207  0.158082 -0.471249  1.189329
2019-01-04 -0.569615 -0.479861 -0.080058 -0.515932
2019-01-05  0.768383 -0.028265 -1.547002 -1.137436
2019-01-06  1.040717 -0.023674 -0.446599  1.198862


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [25]:
df["A"]

Unnamed: 0,A
2019-01-01,-1.419718
2019-01-02,0.703463
2019-01-03,-0.469207
2019-01-04,-0.569615
2019-01-05,0.768383
2019-01-06,1.040717


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [26]:
df.A

Unnamed: 0,A
2019-01-01,-1.419718
2019-01-02,0.703463
2019-01-03,-0.469207
2019-01-04,-0.569615
2019-01-05,0.768383
2019-01-06,1.040717


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [27]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,-1.419718,-1.787726,0.898107,-1.980563
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448
2019-01-03,-0.469207,0.158082,-0.471249,1.189329


A seleção também funciona para valores dos índices:

In [28]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448
2019-01-03,-0.469207,0.158082,-0.471249,1.189329
2019-01-04,-0.569615,-0.479861,-0.080058,-0.515932


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [29]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,-1.419718
B,-1.787726
C,0.898107
D,-1.980563


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [30]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,-1.419718,-1.787726
2019-01-02,0.703463,-0.652429
2019-01-03,-0.469207,0.158082
2019-01-04,-0.569615,-0.479861
2019-01-05,0.768383,-0.028265
2019-01-06,1.040717,-0.023674


Ao selecionar linhas, ambos os limites são incluídos:

In [31]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,0.703463,-0.652429
2019-01-03,-0.469207,0.158082
2019-01-04,-0.569615,-0.479861


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [32]:
df.loc[datas[0], "A"]

np.float64(-1.4197181255118985)

Um método de acesso mais rápido é:

In [33]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(-1.4197181255118985)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [34]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,-0.569615
B,-0.479861
C,-0.080058
D,-0.515932


Seleção por inteiros age de forma similar no *NumPy*:

In [35]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,-0.569615,-0.479861
2019-01-05,0.768383,-0.028265


Selecionando por listas de inteiros:

In [36]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,0.703463,-1.615561
2019-01-03,-0.469207,-0.471249
2019-01-05,0.768383,-1.547002


Selecionando linhas explicitamente:

In [37]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448
2019-01-03,-0.469207,0.158082,-0.471249,1.189329


Selecionando colunas explicitamente:

In [38]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,-1.787726,0.898107
2019-01-02,-0.652429,-1.615561
2019-01-03,0.158082,-0.471249
2019-01-04,-0.479861,-0.080058
2019-01-05,-0.028265,-1.547002
2019-01-06,-0.023674,-0.446599


Selecionando os valores explicitamente:

In [39]:
df.iloc[1, 1]

np.float64(-0.6524292912468531)

Para fazer um acesso rápido usando o escalar:

In [40]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(-0.6524292912468531)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [41]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448
2019-01-05,0.768383,-0.028265,-1.547002,-1.137436
2019-01-06,1.040717,-0.023674,-0.446599,1.198862


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [42]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,,,0.898107,
2019-01-02,0.703463,,,
2019-01-03,,0.158082,,1.189329
2019-01-04,,,,
2019-01-05,0.768383,,,
2019-01-06,1.040717,,,1.198862


Usando `isin()` para seleção:

In [43]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,-1.419718,-1.787726,0.898107,-1.980563,um
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448,um
2019-01-03,-0.469207,0.158082,-0.471249,1.189329,dois
2019-01-04,-0.569615,-0.479861,-0.080058,-0.515932,três
2019-01-05,0.768383,-0.028265,-1.547002,-1.137436,quatro
2019-01-06,1.040717,-0.023674,-0.446599,1.198862,três


In [44]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,-1.419718,-1.787726,0.898107,-1.980563,um
2019-01-02,0.703463,-0.652429,-1.615561,-0.586448,um
2019-01-05,0.768383,-0.028265,-1.547002,-1.137436,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [45]:
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

# 1
print(df['Idade'])

# 2
print(df[['Nome','Cidade']])

# 3
print(df[df['Idade'] > 30])

0    23
1    35
2    29
3    40
Name: Idade, dtype: int64
    Nome          Cidade
0    Ana       São Paulo
1  Bruno  Rio de Janeiro
2  Clara  Belo Horizonte
3  Diego        Curitiba
    Nome  Idade          Cidade
1  Bruno     35  Rio de Janeiro
3  Diego     40        Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [46]:
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])


# 1
print(df.loc[['Brasil','Alemanha']])
print()
print('-'*80)

# 2
print(df.loc['Estados Unidos', ['População (milhões)', 'PIB (trilhões USD)']])
print()
print('-'*80)

# 3
print(df.iloc[:2])
print()
print('-'*80)

# 4
print(df[df['Continente'].isin(['América','Asia'])])

          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa

--------------------------------------------------------------------------------
População (milhões)      331
PIB (trilhões USD)     22.68
Name: Estados Unidos, dtype: object

--------------------------------------------------------------------------------
        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rússia                  144                1.48       Asia

--------------------------------------------------------------------------------
                População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                1.84    América
Rússia                          144                1.48       Asia
Estados Unidos                  331               22.68    América


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [47]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.596084  0.725568  0.216230  0.190984
2019-01-02  0.500958 -0.079689 -0.300219 -0.346041
2019-01-03 -0.471078 -0.712240  2.343346  1.102392
2019-01-04  0.821964 -0.226874  1.738573 -0.938839
2019-01-05 -0.511677  0.636894 -0.379269 -0.617292
2019-01-06 -1.658898  0.830988  0.360726 -1.594875

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01  0.596084  0.725568  0.216230  0.190984  NaN
2019-01-02  0.500958 -0.079689 -0.300219 -0.346041  1.0
2019-01-03 -0.471078 -0.712240  2.343346  1.102392  2.0
2019-01-04  0.821964 -0.226874  1.738573 -0.938839  3.0
2019-01-05 -0.511677  0.636894 -0.379269 -0.617292  4.0
2019-01-06 -1.658898  0.830988  0.360726 -1.594875  5.0


Atualizando valores por nome:

In [48]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.725568,0.21623,0.190984,
2019-01-02,0.500958,-0.079689,-0.300219,-0.346041,1.0
2019-01-03,-0.471078,-0.71224,2.343346,1.102392,2.0
2019-01-04,0.821964,-0.226874,1.738573,-0.938839,3.0
2019-01-05,-0.511677,0.636894,-0.379269,-0.617292,4.0
2019-01-06,-1.658898,0.830988,0.360726,-1.594875,5.0


Atualizando valores por posição:

In [49]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.21623,0.190984,
2019-01-02,0.500958,-0.079689,-0.300219,-0.346041,1.0
2019-01-03,-0.471078,-0.71224,2.343346,1.102392,2.0
2019-01-04,0.821964,-0.226874,1.738573,-0.938839,3.0
2019-01-05,-0.511677,0.636894,-0.379269,-0.617292,4.0
2019-01-06,-1.658898,0.830988,0.360726,-1.594875,5.0


Atualização de valores com uma matriz *NumPy*:

In [50]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.21623,5.0,
2019-01-02,0.500958,-0.079689,-0.300219,5.0,1.0
2019-01-03,-0.471078,-0.71224,2.343346,5.0,2.0
2019-01-04,0.821964,-0.226874,1.738573,5.0,3.0
2019-01-05,-0.511677,0.636894,-0.379269,5.0,4.0
2019-01-06,-1.658898,0.830988,0.360726,5.0,5.0


Uma operação `where` como atualização de valores:

In [51]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000  0.216230  5.0  NaN
2019-01-02  0.500958 -0.079689 -0.300219  5.0  1.0
2019-01-03 -0.471078 -0.712240  2.343346  5.0  2.0
2019-01-04  0.821964 -0.226874  1.738573  5.0  3.0
2019-01-05 -0.511677  0.636894 -0.379269  5.0  4.0
2019-01-06 -1.658898  0.830988  0.360726  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False   True  True  False
2019-01-02   True  False  False  True   True
2019-01-03  False  False   True  True   True
2019-01-04   True  False   True  True   True
2019-01-05  False   True  False  True   True
2019-01-06  False   True   True  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.216230 -5.0  NaN
2019-01-02 -0.500958 -0.079689 -0.300219 -5.0 -1.0
2019-01-03 -0.471078 -0.712240 -2.343346 -5.0 -2.0
2019-01-04 -0.821964 -0.226874 -1.738573 -5.0 -3.0
2019-01-05 -0.511677 -0.636894 -0.379269 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [52]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  2.166866  0.165640  1.796148 -0.182444
2019-01-02 -0.735661 -0.097227 -1.317945  1.068109
2019-01-03  0.190022       NaN -0.200992  0.974217
2019-01-04  0.611915       NaN  1.369258 -0.042794
2019-01-05  0.351099 -1.462553 -0.722137 -1.187707
2019-01-06 -0.218601  0.453520  0.268984 -1.511450


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [53]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,2.166866,0.16564,1.796148,-0.182444
2019-01-02,-0.735661,-0.097227,-1.317945,1.068109
2019-01-05,0.351099,-1.462553,-0.722137,-1.187707
2019-01-06,-0.218601,0.45352,0.268984,-1.51145


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [54]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,2.166866,0.16564,1.796148,-0.182444
2019-01-02,-0.735661,-0.097227,-1.317945,1.068109
2019-01-03,0.190022,5.0,-0.200992,0.974217
2019-01-04,0.611915,5.0,1.369258,-0.042794
2019-01-05,0.351099,-1.462553,-0.722137,-1.187707
2019-01-06,-0.218601,0.45352,0.268984,-1.51145


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [55]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [56]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [57]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [58]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [59]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [60]:
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)


# 1
df.loc[df['Produto']  == 'Tablet', 'Preço'] = 1800

# 2
df.loc[df['Categoria'] == 'Eletrônicos', 'Preço'] = df['Preço']*0.8

# 3
print(df.dropna(inplace = True))

# 4
df['Estoque'] = df['Estoque'].fillna(0)

df

None


Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2000.0,10.0,Eletrônicos,4.5
2,Tablet,1440.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
