<a href="https://colab.research.google.com/github/py222015328/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [None]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [None]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [None]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [None]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [None]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [None]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [None]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [None]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [None]:
import pandas as pd

datas =pd.to_datetime(["20230101", "20230315", "20230720", "20231225"])
dados= 100,200,300,400
a=pd.Series(data=dados,index=datas)
print(a)

2023-01-01    100
2023-03-15    200
2023-07-20    300
2023-12-25    400
dtype: int64


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [None]:
numero= list(range(1,11))
qq = [i**2 for i in numero]
cubo =[i**3 for i in numero]

data = pd.DataFrame(
    { "Número":numero,
      "Quadrado": qq,
      "Cubo": cubo
      }
)
print(data)

   Número  Quadrado  Cubo
0       1         1     1
1       2         4     8
2       3         9    27
3       4        16    64
4       5        25   125
5       6        36   216
6       7        49   343
7       8        64   512
8       9        81   729
9      10       100  1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [None]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01  0.395366  0.410560  0.396357  0.462140
2019-01-02 -0.287272  0.584664  0.750493 -0.447231
2019-01-03 -1.242972  2.740280  0.920311  0.767975
2019-01-04  1.491330  0.227229  1.267792 -1.343916
2019-01-05 -0.017969  0.548562  0.352663 -1.579195
2019-01-06  1.786897 -1.419042  0.158799 -0.169855

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,0.395366,0.41056,0.396357,0.46214
2019-01-02,-0.287272,0.584664,0.750493,-0.447231
2019-01-03,-1.242972,2.74028,0.920311,0.767975


In [None]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,1.49133,0.227229,1.267792,-1.343916
2019-01-05,-0.017969,0.548562,0.352663,-1.579195
2019-01-06,1.786897,-1.419042,0.158799,-0.169855


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [None]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [None]:
df.to_numpy() ## resulta em um array bidimensional

array([[ 0.39536642,  0.4105597 ,  0.39635702,  0.46214026],
       [-0.28727246,  0.58466427,  0.75049338, -0.44723118],
       [-1.24297244,  2.74027969,  0.92031118,  0.76797542],
       [ 1.49133005,  0.2272289 ,  1.26779199, -1.34391634],
       [-0.01796932,  0.54856202,  0.35266308, -1.57919528],
       [ 1.78689744, -1.41904219,  0.1587989 , -0.16985505]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [None]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [None]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.35423,0.515375,0.641069,-0.385014
std,1.135635,1.326053,0.414338,0.942633
min,-1.242972,-1.419042,0.158799,-1.579195
25%,-0.219947,0.273062,0.363587,-1.119745
50%,0.188699,0.479561,0.573425,-0.308543
75%,1.217339,0.575639,0.877857,0.304141
max,1.786897,2.74028,1.267792,0.767975


Transpondo os dados:

In [None]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,0.395366,-0.287272,-1.242972,1.49133,-0.017969,1.786897
B,0.41056,0.584664,2.74028,0.227229,0.548562,-1.419042
C,0.396357,0.750493,0.920311,1.267792,0.352663,0.158799
D,0.46214,-0.447231,0.767975,-1.343916,-1.579195,-0.169855


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [None]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06  1.786897 -1.419042  0.158799 -0.169855
2019-01-05 -0.017969  0.548562  0.352663 -1.579195
2019-01-04  1.491330  0.227229  1.267792 -1.343916
2019-01-03 -1.242972  2.740280  0.920311  0.767975
2019-01-02 -0.287272  0.584664  0.750493 -0.447231
2019-01-01  0.395366  0.410560  0.396357  0.462140
                   D         C         B         A
2019-01-01  0.462140  0.396357  0.410560  0.395366
2019-01-02 -0.447231  0.750493  0.584664 -0.287272
2019-01-03  0.767975  0.920311  2.740280 -1.242972
2019-01-04 -1.343916  1.267792  0.227229  1.491330
2019-01-05 -1.579195  0.352663  0.548562 -0.017969
2019-01-06 -0.169855  0.158799 -1.419042  1.786897


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [None]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-06,1.786897,-1.419042,0.158799,-0.169855
2019-01-04,1.49133,0.227229,1.267792,-1.343916
2019-01-01,0.395366,0.41056,0.396357,0.46214
2019-01-05,-0.017969,0.548562,0.352663,-1.579195
2019-01-02,-0.287272,0.584664,0.750493,-0.447231
2019-01-03,-1.242972,2.74028,0.920311,0.767975


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [None]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.607584 -0.551213  0.255820  0.917712
2019-01-02 -1.937012  0.222811 -0.207331  0.003439
2019-01-03  1.045800 -1.946797  2.103408 -1.587121
2019-01-04  0.571691 -0.052445 -0.321377 -0.761753
2019-01-05 -0.994753 -0.391532  1.557855 -0.029080
2019-01-06  0.936006  0.214504 -0.436461 -0.273455


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [None]:
df["A"]

Unnamed: 0,A
2019-01-01,0.607584
2019-01-02,-1.937012
2019-01-03,1.0458
2019-01-04,0.571691
2019-01-05,-0.994753
2019-01-06,0.936006


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [None]:
df.A

Unnamed: 0,A
2019-01-01,0.607584
2019-01-02,-1.937012
2019-01-03,1.0458
2019-01-04,0.571691
2019-01-05,-0.994753
2019-01-06,0.936006


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [None]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,0.607584,-0.551213,0.25582,0.917712
2019-01-02,-1.937012,0.222811,-0.207331,0.003439
2019-01-03,1.0458,-1.946797,2.103408,-1.587121


A seleção também funciona para valores dos índices:

In [None]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,-1.937012,0.222811,-0.207331,0.003439
2019-01-03,1.0458,-1.946797,2.103408,-1.587121
2019-01-04,0.571691,-0.052445,-0.321377,-0.761753


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [None]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,0.607584
B,-0.551213
C,0.25582
D,0.917712


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [None]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,0.607584,-0.551213
2019-01-02,-1.937012,0.222811
2019-01-03,1.0458,-1.946797
2019-01-04,0.571691,-0.052445
2019-01-05,-0.994753,-0.391532
2019-01-06,0.936006,0.214504


Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,-1.937012,0.222811
2019-01-03,1.0458,-1.946797
2019-01-04,0.571691,-0.052445


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

np.float64(0.6075837065378995)

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(0.6075837065378995)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [None]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,0.571691
B,-0.052445
C,-0.321377
D,-0.761753


Seleção por inteiros age de forma similar no *NumPy*:

In [None]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,0.571691,-0.052445
2019-01-05,-0.994753,-0.391532


Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,-1.937012,-0.207331
2019-01-03,1.0458,2.103408
2019-01-05,-0.994753,1.557855


Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :] #Pode ser só df.iloc[1:3] tbm

Unnamed: 0,A,B,C,D
2019-01-02,-1.937012,0.222811,-0.207331,0.003439
2019-01-03,1.0458,-1.946797,2.103408,-1.587121


Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,-0.551213,0.25582
2019-01-02,0.222811,-0.207331
2019-01-03,-1.946797,2.103408
2019-01-04,-0.052445,-0.321377
2019-01-05,-0.391532,1.557855
2019-01-06,0.214504,-0.436461


Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

np.float64(0.22281053681781116)

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(0.22281053681781116)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-01,0.607584,-0.551213,0.25582,0.917712
2019-01-03,1.0458,-1.946797,2.103408,-1.587121
2019-01-04,0.571691,-0.052445,-0.321377,-0.761753
2019-01-06,0.936006,0.214504,-0.436461,-0.273455


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,0.607584,,0.25582,0.917712
2019-01-02,,0.222811,,0.003439
2019-01-03,1.0458,,2.103408,
2019-01-04,0.571691,,,
2019-01-05,,,1.557855,
2019-01-06,0.936006,0.214504,,


Usando `isin()` para seleção:

In [None]:
df2 = df.copy() #Pra não alterar df, criou-se uma cópia

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,0.607584,-0.551213,0.25582,0.917712,um
2019-01-02,-1.937012,0.222811,-0.207331,0.003439,um
2019-01-03,1.0458,-1.946797,2.103408,-1.587121,dois
2019-01-04,0.571691,-0.052445,-0.321377,-0.761753,três
2019-01-05,-0.994753,-0.391532,1.557855,-0.02908,quatro
2019-01-06,0.936006,0.214504,-0.436461,-0.273455,três


In [None]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,0.607584,-0.551213,0.25582,0.917712,um
2019-01-02,-1.937012,0.222811,-0.207331,0.003439,um
2019-01-05,-0.994753,-0.391532,1.557855,-0.02908,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [None]:
import pandas as pd

df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23,35,29,40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
print(df, "\n")

idade = df.loc[:, ["Idade"]]
print(idade, "\n")

colunas=df.iloc[:, [0,2]]
print(colunas, "\n")

maior_que_30 = df[df["Idade"]>30]
print(maior_que_30, "\n")

    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba 

   Idade
0     23
1     35
2     29
3     40 

    Nome          Cidade
0    Ana       São Paulo
1  Bruno  Rio de Janeiro
2  Clara  Belo Horizonte
3  Diego        Curitiba 

    Nome  Idade          Cidade
1  Bruno     35  Rio de Janeiro
3  Diego     40        Curitiba 



## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [None]:
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Ásia", "América", "Europa", "Europa"]
},
index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

print(df, "\n")
brasil_alem = df.loc[["Brasil", "Alemanha"], :]
print(brasil_alem, "\n")

pib_pop_eua= df.loc[["Estados Unidos"], ["População (milhões)","PIB (trilhões USD)"]]
print(pib_pop_eua, "\n")

primeiros_paises = df.iloc[:2,:]
print(primeiros_paises, "\n")

america_asia = df['Continente'].isin(["América", "Ásia"])
print(df[america_asia])

                População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                1.84    América
Rússia                          144                1.48       Ásia
Estados Unidos                  331               22.68    América
França                           67                2.83     Europa
Alemanha                         83                4.22     Europa 

          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa 

                População (milhões)  PIB (trilhões USD)
Estados Unidos                  331               22.68 

        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rússia                  144                1.48       Ásia 

                População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                

## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.032729  0.482738 -0.434064  0.373350
2019-01-02  0.389528  0.584003  1.577985  1.686118
2019-01-03  0.182197 -1.287405  0.736047  0.322246
2019-01-04 -0.937617  0.098907 -0.341654 -0.504252
2019-01-05 -0.769121  0.241455 -1.053399 -1.026633
2019-01-06 -2.039581 -0.213536  0.974184 -0.583717

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01  0.032729  0.482738 -0.434064  0.373350  NaN
2019-01-02  0.389528  0.584003  1.577985  1.686118  1.0
2019-01-03  0.182197 -1.287405  0.736047  0.322246  2.0
2019-01-04 -0.937617  0.098907 -0.341654 -0.504252  3.0
2019-01-05 -0.769121  0.241455 -1.053399 -1.026633  4.0
2019-01-06 -2.039581 -0.213536  0.974184 -0.583717  5.0


Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.482738,-0.434064,0.37335,
2019-01-02,0.389528,0.584003,1.577985,1.686118,1.0
2019-01-03,0.182197,-1.287405,0.736047,0.322246,2.0
2019-01-04,-0.937617,0.098907,-0.341654,-0.504252,3.0
2019-01-05,-0.769121,0.241455,-1.053399,-1.026633,4.0
2019-01-06,-2.039581,-0.213536,0.974184,-0.583717,5.0


Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.434064,0.37335,
2019-01-02,0.389528,0.584003,1.577985,1.686118,1.0
2019-01-03,0.182197,-1.287405,0.736047,0.322246,2.0
2019-01-04,-0.937617,0.098907,-0.341654,-0.504252,3.0
2019-01-05,-0.769121,0.241455,-1.053399,-1.026633,4.0
2019-01-06,-2.039581,-0.213536,0.974184,-0.583717,5.0


Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.434064,5.0,
2019-01-02,0.389528,0.584003,1.577985,5.0,1.0
2019-01-03,0.182197,-1.287405,0.736047,5.0,2.0
2019-01-04,-0.937617,0.098907,-0.341654,5.0,3.0
2019-01-05,-0.769121,0.241455,-1.053399,5.0,4.0
2019-01-06,-2.039581,-0.213536,0.974184,5.0,5.0


Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()#Criou-se uma cópia mezer com o dataframe sem alterar df

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.434064  5.0  NaN
2019-01-02  0.389528  0.584003  1.577985  5.0  1.0
2019-01-03  0.182197 -1.287405  0.736047  5.0  2.0
2019-01-04 -0.937617  0.098907 -0.341654  5.0  3.0
2019-01-05 -0.769121  0.241455 -1.053399  5.0  4.0
2019-01-06 -2.039581 -0.213536  0.974184  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False  False  True  False
2019-01-02   True   True   True  True   True
2019-01-03   True  False   True  True   True
2019-01-04  False   True  False  True   True
2019-01-05  False   True  False  True   True
2019-01-06  False  False   True  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.434064 -5.0  NaN
2019-01-02 -0.389528 -0.584003 -1.577985 -5.0 -1.0
2019-01-03 -0.182197 -1.287405 -0.736047 -5.0 -2.0
2019-01-04 -0.937617 -0.098907 -0.341654 -5.0 -3.0
2019-01-05 -0.769121 -0.241455 -1.053399 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  0.438274 -0.048999  0.587486  0.500211
2019-01-02  0.008310  0.040074  0.568253  1.478969
2019-01-03  0.332792       NaN  0.975719  0.249947
2019-01-04  0.184269       NaN  0.295931  0.230032
2019-01-05  0.502206  0.593794  0.621933 -1.525264
2019-01-06 -0.358358 -0.252879  1.611645  1.182813


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,0.438274,-0.048999,0.587486,0.500211
2019-01-02,0.00831,0.040074,0.568253,1.478969
2019-01-05,0.502206,0.593794,0.621933,-1.525264
2019-01-06,-0.358358,-0.252879,1.611645,1.182813


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,0.438274,-0.048999,0.587486,0.500211
2019-01-02,0.00831,0.040074,0.568253,1.478969
2019-01-03,0.332792,5.0,0.975719,0.249947
2019-01-04,0.184269,5.0,0.295931,0.230032
2019-01-05,0.502206,0.593794,0.621933,-1.525264
2019-01-06,-0.358358,-0.252879,1.611645,1.182813


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [None]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [None]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [9]:
import numpy as np
import pandas as pd

dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}
df = pd.DataFrame(dados)
print(df,'\n')

df.loc[2,["Preço"]] = 1800
print(df,'\n')

eletronicos= df[df['Categoria'] == 'Eletrônicos']
lista_novo = eletronicos['Preço'].apply(lambda a: a - (0.2)*a)
df.loc[0:2, ['Preço']] = lista_novo
print(df,'\n')

print(df.dropna(how='any'),'\n')

df = df.fillna(value=0)
print(df)

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2500.0     10.0  Eletrônicos        4.5
1         Celular  1500.0      5.0  Eletrônicos        NaN
2          Tablet     NaN      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
4         Monitor   800.0      NaN  Periféricos        3.9
5           Mouse   100.0    150.0  Periféricos        NaN 

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2500.0     10.0  Eletrônicos        4.5
1         Celular  1500.0      5.0  Eletrônicos        NaN
2          Tablet  1800.0      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
4         Monitor   800.0      NaN  Periféricos        3.9
5           Mouse   100.0    150.0  Periféricos        NaN 

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2000.0     10.0  Eletrônicos        4.5
1         Celular  1200.0      5.0  Eletrônicos     