<a href="https://colab.research.google.com/github/py242016019/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [None]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [None]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [None]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [None]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [None]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [None]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [None]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [None]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [None]:
import numpy as np
import pandas as pd

datas1= pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])
valores1= [100, 200, 300, 400]
serie1= pd.Series(data= valores1, index= datas1)

print(serie1)

2023-01-01    100
2023-03-15    200
2023-07-20    300
2023-12-25    400
dtype: int64


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [None]:
df= pd.DataFrame({
    "Número": np.arange(1, 11),
    "Quadrado": np.arange(1, 11)**2,
    "Cubo": np.arange(1, 11)**3})
print(df)

   Número  Quadrado  Cubo
0       1         1     1
1       2         4     8
2       3         9    27
3       4        16    64
4       5        25   125
5       6        36   216
6       7        49   343
7       8        64   512
8       9        81   729
9      10       100  1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [None]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -1.328102 -0.022778  1.188504  1.330422
2019-01-02  1.450106  0.518625 -0.173351  0.631464
2019-01-03 -0.528256 -0.020169 -1.719605 -1.729848
2019-01-04 -0.069308 -0.290982  0.213883  1.767460
2019-01-05 -0.173553 -0.570872 -0.044099 -0.574207
2019-01-06  0.642840 -0.682492  0.164586 -0.610252

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-1.328102,-0.022778,1.188504,1.330422
2019-01-02,1.450106,0.518625,-0.173351,0.631464
2019-01-03,-0.528256,-0.020169,-1.719605,-1.729848


In [None]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-0.069308,-0.290982,0.213883,1.76746
2019-01-05,-0.173553,-0.570872,-0.044099,-0.574207
2019-01-06,0.64284,-0.682492,0.164586,-0.610252


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [None]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [None]:
df.to_numpy() ## resulta em um array bidimensional

array([[-1.32810216, -0.02277818,  1.18850441,  1.33042217],
       [ 1.4501062 ,  0.51862511, -0.17335142,  0.63146386],
       [-0.52825604, -0.02016928, -1.71960482, -1.72984823],
       [-0.06930813, -0.29098192,  0.21388327,  1.76745962],
       [-0.17355327, -0.57087169, -0.04409865, -0.5742069 ],
       [ 0.64284021, -0.68249196,  0.16458562, -0.61025155]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [None]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [None]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.001046,-0.178111,-0.06168,0.13584
std,0.958528,0.437245,0.943566,1.332401
min,-1.328102,-0.682492,-1.719605,-1.729848
25%,-0.43958,-0.500899,-0.141038,-0.60124
50%,-0.121431,-0.15688,0.060243,0.028628
75%,0.464803,-0.020822,0.201559,1.155683
max,1.450106,0.518625,1.188504,1.76746


Transpondo os dados:

In [None]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-1.328102,1.450106,-0.528256,-0.069308,-0.173553,0.64284
B,-0.022778,0.518625,-0.020169,-0.290982,-0.570872,-0.682492
C,1.188504,-0.173351,-1.719605,0.213883,-0.044099,0.164586
D,1.330422,0.631464,-1.729848,1.76746,-0.574207,-0.610252


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [None]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)
#O padrao desse comando (.sort_index) é ascendente
b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06  0.642840 -0.682492  0.164586 -0.610252
2019-01-05 -0.173553 -0.570872 -0.044099 -0.574207
2019-01-04 -0.069308 -0.290982  0.213883  1.767460
2019-01-03 -0.528256 -0.020169 -1.719605 -1.729848
2019-01-02  1.450106  0.518625 -0.173351  0.631464
2019-01-01 -1.328102 -0.022778  1.188504  1.330422
                   D         C         B         A
2019-01-01  1.330422  1.188504 -0.022778 -1.328102
2019-01-02  0.631464 -0.173351  0.518625  1.450106
2019-01-03 -1.729848 -1.719605 -0.020169 -0.528256
2019-01-04  1.767460  0.213883 -0.290982 -0.069308
2019-01-05 -0.574207 -0.044099 -0.570872 -0.173553
2019-01-06 -0.610252  0.164586 -0.682492  0.642840


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [None]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-06,0.64284,-0.682492,0.164586,-0.610252
2019-01-05,-0.173553,-0.570872,-0.044099,-0.574207
2019-01-04,-0.069308,-0.290982,0.213883,1.76746
2019-01-01,-1.328102,-0.022778,1.188504,1.330422
2019-01-03,-0.528256,-0.020169,-1.719605,-1.729848
2019-01-02,1.450106,0.518625,-0.173351,0.631464


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [None]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.462886 -0.471805  0.467222  0.283826
2019-01-02  0.943458 -0.531639  0.037758  0.407051
2019-01-03 -1.014975  1.478313 -2.102609  0.292970
2019-01-04 -0.819698  0.292325  0.613746 -1.046672
2019-01-05  0.211699  0.251308  0.270533 -0.377498
2019-01-06 -1.389951  0.167878 -1.240408 -1.005813


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [None]:
df["A"]

Unnamed: 0,A
2019-01-01,0.462886
2019-01-02,0.943458
2019-01-03,-1.014975
2019-01-04,-0.819698
2019-01-05,0.211699
2019-01-06,-1.389951


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [None]:
df.A

Unnamed: 0,A
2019-01-01,0.462886
2019-01-02,0.943458
2019-01-03,-1.014975
2019-01-04,-0.819698
2019-01-05,0.211699
2019-01-06,-1.389951


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [None]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,0.462886,-0.471805,0.467222,0.283826
2019-01-02,0.943458,-0.531639,0.037758,0.407051
2019-01-03,-1.014975,1.478313,-2.102609,0.29297


A seleção também funciona para valores dos índices:

In [None]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,0.943458,-0.531639,0.037758,0.407051
2019-01-03,-1.014975,1.478313,-2.102609,0.29297
2019-01-04,-0.819698,0.292325,0.613746,-1.046672


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [None]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,0.462886
B,-0.471805
C,0.467222
D,0.283826


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [None]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,0.462886,-0.471805
2019-01-02,0.943458,-0.531639
2019-01-03,-1.014975,1.478313
2019-01-04,-0.819698,0.292325
2019-01-05,0.211699,0.251308
2019-01-06,-1.389951,0.167878


Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,0.943458,-0.531639
2019-01-03,-1.014975,1.478313
2019-01-04,-0.819698,0.292325


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

np.float64(0.46288600387122886)

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(0.46288600387122886)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [None]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,-0.819698
B,0.292325
C,0.613746
D,-1.046672


Seleção por inteiros age de forma similar no *NumPy*:

In [None]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,-0.819698,0.292325
2019-01-05,0.211699,0.251308


Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,0.943458,0.037758
2019-01-03,-1.014975,-2.102609
2019-01-05,0.211699,0.270533


Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,0.943458,-0.531639,0.037758,0.407051
2019-01-03,-1.014975,1.478313,-2.102609,0.29297


Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,-0.471805,0.467222
2019-01-02,-0.531639,0.037758
2019-01-03,1.478313,-2.102609
2019-01-04,0.292325,0.613746
2019-01-05,0.251308,0.270533
2019-01-06,0.167878,-1.240408


Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

np.float64(-0.5316389961389912)

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(-0.5316389961389912)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-01,0.462886,-0.471805,0.467222,0.283826
2019-01-02,0.943458,-0.531639,0.037758,0.407051
2019-01-05,0.211699,0.251308,0.270533,-0.377498


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,0.462886,,0.467222,0.283826
2019-01-02,0.943458,,0.037758,0.407051
2019-01-03,,1.478313,,0.29297
2019-01-04,,0.292325,0.613746,
2019-01-05,0.211699,0.251308,0.270533,
2019-01-06,,0.167878,,


Usando `isin()` para seleção:

In [None]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,0.462886,-0.471805,0.467222,0.283826,um
2019-01-02,0.943458,-0.531639,0.037758,0.407051,um
2019-01-03,-1.014975,1.478313,-2.102609,0.29297,dois
2019-01-04,-0.819698,0.292325,0.613746,-1.046672,três
2019-01-05,0.211699,0.251308,0.270533,-0.377498,quatro
2019-01-06,-1.389951,0.167878,-1.240408,-1.005813,três


In [None]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,0.462886,-0.471805,0.467222,0.283826,um
2019-01-02,0.943458,-0.531639,0.037758,0.407051,um
2019-01-05,0.211699,0.251308,0.270533,-0.377498,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [None]:
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]})

print(df.loc[:, ["Idade"]], "\n")

print(df.loc[:, ["Nome", "Cidade"]], "\n")

print(df[df["Idade"] > 30])

   Idade
0     23
1     35
2     29
3     40 

    Nome          Cidade
0    Ana       São Paulo
1  Bruno  Rio de Janeiro
2  Clara  Belo Horizonte
3  Diego        Curitiba 

    Nome  Idade          Cidade
1  Bruno     35  Rio de Janeiro
3  Diego     40        Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [None]:
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

print(df.loc[["Brasil", "Alemanha"], :], "\n")

print(df.loc[["Estados Unidos"], ["População (milhões)", "PIB (trilhões USD)"]], "\n")

print(df.iloc[0:2, :], "\n")

print(df[df["Continente"].isin(["América", "Asia"])])

          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa 

                População (milhões)  PIB (trilhões USD)
Estados Unidos                  331               22.68 

        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rússia                  144                1.48       Asia 

                População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                1.84    América
Rússia                          144                1.48       Asia
Estados Unidos                  331               22.68    América


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01 -0.374287  0.265753  0.172450  0.976620
2019-01-02  0.062585 -1.103643  1.805336 -2.490845
2019-01-03 -0.533235 -0.865232 -1.618115  0.835416
2019-01-04 -0.299510 -1.064426 -0.313564 -0.387114
2019-01-05 -0.163996 -0.556720 -0.347380 -0.118846
2019-01-06 -0.604389  0.441391  0.877629 -2.120914

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01 -0.374287  0.265753  0.172450  0.976620  NaN
2019-01-02  0.062585 -1.103643  1.805336 -2.490845  1.0
2019-01-03 -0.533235 -0.865232 -1.618115  0.835416  2.0
2019-01-04 -0.299510 -1.064426 -0.313564 -0.387114  3.0
2019-01-05 -0.163996 -0.556720 -0.347380 -0.118846  4.0
2019-01-06 -0.604389  0.441391  0.877629 -2.120914  5.0


Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.265753,0.17245,0.97662,
2019-01-02,0.062585,-1.103643,1.805336,-2.490845,1.0
2019-01-03,-0.533235,-0.865232,-1.618115,0.835416,2.0
2019-01-04,-0.29951,-1.064426,-0.313564,-0.387114,3.0
2019-01-05,-0.163996,-0.55672,-0.34738,-0.118846,4.0
2019-01-06,-0.604389,0.441391,0.877629,-2.120914,5.0


Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.17245,0.97662,
2019-01-02,0.062585,-1.103643,1.805336,-2.490845,1.0
2019-01-03,-0.533235,-0.865232,-1.618115,0.835416,2.0
2019-01-04,-0.29951,-1.064426,-0.313564,-0.387114,3.0
2019-01-05,-0.163996,-0.55672,-0.34738,-0.118846,4.0
2019-01-06,-0.604389,0.441391,0.877629,-2.120914,5.0


Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,0.17245,5.0,
2019-01-02,0.062585,-1.103643,1.805336,5.0,1.0
2019-01-03,-0.533235,-0.865232,-1.618115,5.0,2.0
2019-01-04,-0.29951,-1.064426,-0.313564,5.0,3.0
2019-01-05,-0.163996,-0.55672,-0.34738,5.0,4.0
2019-01-06,-0.604389,0.441391,0.877629,5.0,5.0


Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000  0.172450  5.0  NaN
2019-01-02  0.062585 -1.103643  1.805336  5.0  1.0
2019-01-03 -0.533235 -0.865232 -1.618115  5.0  2.0
2019-01-04 -0.299510 -1.064426 -0.313564  5.0  3.0
2019-01-05 -0.163996 -0.556720 -0.347380  5.0  4.0
2019-01-06 -0.604389  0.441391  0.877629  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False   True  True  False
2019-01-02   True  False   True  True   True
2019-01-03  False  False  False  True   True
2019-01-04  False  False  False  True   True
2019-01-05  False  False  False  True   True
2019-01-06  False   True   True  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.172450 -5.0  NaN
2019-01-02 -0.062585 -1.103643 -1.805336 -5.0 -1.0
2019-01-03 -0.533235 -0.865232 -1.618115 -5.0 -2.0
2019-01-04 -0.299510 -1.064426 -0.313564 -5.0 -3.0
2019-01-05 -0.163996 -0.556720 -0.347380 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -2.009410  0.776016  0.531689  0.774181
2019-01-02 -0.406680 -0.169775 -0.635823  0.887762
2019-01-03 -2.461264       NaN  0.050405  1.880140
2019-01-04  1.346664       NaN  0.642346  1.292757
2019-01-05 -1.134790  2.826445 -0.823414 -2.007269
2019-01-06  1.242176  0.128074 -0.042028  0.282933


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,-2.00941,0.776016,0.531689,0.774181
2019-01-02,-0.40668,-0.169775,-0.635823,0.887762
2019-01-05,-1.13479,2.826445,-0.823414,-2.007269
2019-01-06,1.242176,0.128074,-0.042028,0.282933


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,-2.00941,0.776016,0.531689,0.774181
2019-01-02,-0.40668,-0.169775,-0.635823,0.887762
2019-01-03,-2.461264,5.0,0.050405,1.88014
2019-01-04,1.346664,5.0,0.642346,1.292757
2019-01-05,-1.13479,2.826445,-0.823414,-2.007269
2019-01-06,1.242176,0.128074,-0.042028,0.282933


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [None]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [None]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [None]:
import pandas as pd
import numpy as np

dados = {"Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]}

df = pd.DataFrame(dados)

print(df, "\n")

df.loc[df["Produto"] == "Tablet", "Preço"] = 1800

df.loc[df["Categoria"] == "Eletrônicos", "Preço"] *= 0.8

print(df.dropna(), "\n")

df["Estoque"] = df["Estoque"].fillna(0)
df


          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2500.0     10.0  Eletrônicos        4.5
1         Celular  1500.0      5.0  Eletrônicos        NaN
2          Tablet     NaN      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
4         Monitor   800.0      NaN  Periféricos        3.9
5           Mouse   100.0    150.0  Periféricos        NaN 

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2000.0     10.0  Eletrônicos        4.5
2          Tablet  1440.0      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2 



Unnamed: 0,Produto,Preço,Estoque,Categoria,Avaliação
0,Notebook,2000.0,10.0,Eletrônicos,4.5
1,Celular,1200.0,5.0,Eletrônicos,
2,Tablet,1440.0,2.0,Eletrônicos,3.8
3,Fone de Ouvido,200.0,50.0,Acessórios,4.2
4,Monitor,800.0,0.0,Periféricos,3.9
5,Mouse,100.0,150.0,Periféricos,
