<a href="https://colab.research.google.com/github/py242005463/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [2]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [4]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [5]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [6]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [7]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [8]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [9]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [10]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [11]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [12]:
import pandas as pd

a = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])

pd.Series(data=[100, 200, 300, 400], index=a)



Unnamed: 0,0
2023-01-01,100
2023-03-15,200
2023-07-20,300
2023-12-25,400


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [13]:
import pandas as pd

n = pd.Series(range(1, 11))

df = pd.DataFrame({
    "Número": n,
    "Quadrado": n**2,
    "Cubo": n**3
})

print(df)

   Número  Quadrado  Cubo
0       1         1     1
1       2         4     8
2       3         9    27
3       4        16    64
4       5        25   125
5       6        36   216
6       7        49   343
7       8        64   512
8       9        81   729
9      10       100  1000


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [14]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -0.757870  0.174539 -0.459721 -1.525173
2019-01-02 -0.977661 -1.150629  1.062927  1.356391
2019-01-03 -0.856276  1.487865  1.173044  0.935047
2019-01-04 -1.266031 -1.518934 -0.898442  1.865525
2019-01-05 -0.686727  0.959876  0.955726 -0.824329
2019-01-06  1.320804  0.962208  0.536397  1.752567

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-0.75787,0.174539,-0.459721,-1.525173
2019-01-02,-0.977661,-1.150629,1.062927,1.356391
2019-01-03,-0.856276,1.487865,1.173044,0.935047


In [15]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-1.266031,-1.518934,-0.898442,1.865525
2019-01-05,-0.686727,0.959876,0.955726,-0.824329
2019-01-06,1.320804,0.962208,0.536397,1.752567


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [16]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [17]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [18]:
df.to_numpy() ## resulta em um array bidimensional

array([[-0.75786953,  0.17453941, -0.45972134, -1.52517266],
       [-0.97766109, -1.15062858,  1.06292748,  1.35639072],
       [-0.85627566,  1.48786488,  1.17304424,  0.93504722],
       [-1.26603124, -1.51893401, -0.89844197,  1.86552541],
       [-0.68672673,  0.9598759 ,  0.95572577, -0.82432946],
       [ 1.32080407,  0.9622081 ,  0.53639681,  1.75256707]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [19]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [20]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [21]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.537293,0.152488,0.394988,0.593338
std,0.932764,1.231503,0.870566,1.425423
min,-1.266031,-1.518934,-0.898442,-1.525173
25%,-0.947315,-0.819337,-0.210692,-0.384485
50%,-0.807073,0.567208,0.746061,1.145719
75%,-0.704512,0.961625,1.036127,1.653523
max,1.320804,1.487865,1.173044,1.865525


Transpondo os dados:

In [22]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-0.75787,-0.977661,-0.856276,-1.266031,-0.686727,1.320804
B,0.174539,-1.150629,1.487865,-1.518934,0.959876,0.962208
C,-0.459721,1.062927,1.173044,-0.898442,0.955726,0.536397
D,-1.525173,1.356391,0.935047,1.865525,-0.824329,1.752567


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [23]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06  1.320804  0.962208  0.536397  1.752567
2019-01-05 -0.686727  0.959876  0.955726 -0.824329
2019-01-04 -1.266031 -1.518934 -0.898442  1.865525
2019-01-03 -0.856276  1.487865  1.173044  0.935047
2019-01-02 -0.977661 -1.150629  1.062927  1.356391
2019-01-01 -0.757870  0.174539 -0.459721 -1.525173
                   D         C         B         A
2019-01-01 -1.525173 -0.459721  0.174539 -0.757870
2019-01-02  1.356391  1.062927 -1.150629 -0.977661
2019-01-03  0.935047  1.173044  1.487865 -0.856276
2019-01-04  1.865525 -0.898442 -1.518934 -1.266031
2019-01-05 -0.824329  0.955726  0.959876 -0.686727
2019-01-06  1.752567  0.536397  0.962208  1.320804


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [24]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-04,-1.266031,-1.518934,-0.898442,1.865525
2019-01-02,-0.977661,-1.150629,1.062927,1.356391
2019-01-01,-0.75787,0.174539,-0.459721,-1.525173
2019-01-05,-0.686727,0.959876,0.955726,-0.824329
2019-01-06,1.320804,0.962208,0.536397,1.752567
2019-01-03,-0.856276,1.487865,1.173044,0.935047


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [25]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01 -1.141790  0.421011  0.888895 -1.664904
2019-01-02 -1.831588  0.273499 -0.893017 -2.499795
2019-01-03  0.873652 -1.225079 -0.489160 -0.587257
2019-01-04  0.153694  0.803814 -0.516332  0.544526
2019-01-05 -0.989370 -0.204367 -2.139056 -0.016731
2019-01-06 -0.353642 -0.465833 -0.518963 -1.040735


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [26]:
df["A"]

Unnamed: 0,A
2019-01-01,-1.14179
2019-01-02,-1.831588
2019-01-03,0.873652
2019-01-04,0.153694
2019-01-05,-0.98937
2019-01-06,-0.353642


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [27]:
df.A

Unnamed: 0,A
2019-01-01,-1.14179
2019-01-02,-1.831588
2019-01-03,0.873652
2019-01-04,0.153694
2019-01-05,-0.98937
2019-01-06,-0.353642


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [28]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,-1.14179,0.421011,0.888895,-1.664904
2019-01-02,-1.831588,0.273499,-0.893017,-2.499795
2019-01-03,0.873652,-1.225079,-0.48916,-0.587257


A seleção também funciona para valores dos índices:

In [29]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,-1.831588,0.273499,-0.893017,-2.499795
2019-01-03,0.873652,-1.225079,-0.48916,-0.587257
2019-01-04,0.153694,0.803814,-0.516332,0.544526


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [30]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,-1.14179
B,0.421011
C,0.888895
D,-1.664904


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [31]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,-1.14179,0.421011
2019-01-02,-1.831588,0.273499
2019-01-03,0.873652,-1.225079
2019-01-04,0.153694,0.803814
2019-01-05,-0.98937,-0.204367
2019-01-06,-0.353642,-0.465833


Ao selecionar linhas, ambos os limites são incluídos:

In [32]:
df.loc["20190102":"20190104", ["A", "B"]]

Unnamed: 0,A,B
2019-01-02,-1.831588,0.273499
2019-01-03,0.873652,-1.225079
2019-01-04,0.153694,0.803814


Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [33]:
df.loc[datas[0], "A"]

np.float64(-1.141789977876986)

Um método de acesso mais rápido é:

In [34]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

np.float64(-1.141789977876986)

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [35]:
df.iloc[3]

Unnamed: 0,2019-01-04
A,0.153694
B,0.803814
C,-0.516332
D,0.544526


Seleção por inteiros age de forma similar no *NumPy*:

In [36]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Unnamed: 0,A,B
2019-01-04,0.153694,0.803814
2019-01-05,-0.98937,-0.204367


Selecionando por listas de inteiros:

In [37]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2019-01-02,-1.831588,-0.893017
2019-01-03,0.873652,-0.48916
2019-01-05,-0.98937,-2.139056


Selecionando linhas explicitamente:

In [38]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2019-01-02,-1.831588,0.273499,-0.893017,-2.499795
2019-01-03,0.873652,-1.225079,-0.48916,-0.587257


Selecionando colunas explicitamente:

In [39]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2019-01-01,0.421011,0.888895
2019-01-02,0.273499,-0.893017
2019-01-03,-1.225079,-0.48916
2019-01-04,0.803814,-0.516332
2019-01-05,-0.204367,-2.139056
2019-01-06,-0.465833,-0.518963


Selecionando os valores explicitamente:

In [40]:
df.iloc[1, 1]

np.float64(0.2734988982234755)

Para fazer um acesso rápido usando o escalar:

In [41]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

np.float64(0.2734988982234755)

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [42]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Unnamed: 0,A,B,C,D
2019-01-03,0.873652,-1.225079,-0.48916,-0.587257
2019-01-04,0.153694,0.803814,-0.516332,0.544526


Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [43]:
df[df > 0]

Unnamed: 0,A,B,C,D
2019-01-01,,0.421011,0.888895,
2019-01-02,,0.273499,,
2019-01-03,0.873652,,,
2019-01-04,0.153694,0.803814,,0.544526
2019-01-05,,,,
2019-01-06,,,,


Usando `isin()` para seleção:

In [44]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

Unnamed: 0,A,B,C,D,E
2019-01-01,-1.14179,0.421011,0.888895,-1.664904,um
2019-01-02,-1.831588,0.273499,-0.893017,-2.499795,um
2019-01-03,0.873652,-1.225079,-0.48916,-0.587257,dois
2019-01-04,0.153694,0.803814,-0.516332,0.544526,três
2019-01-05,-0.98937,-0.204367,-2.139056,-0.016731,quatro
2019-01-06,-0.353642,-0.465833,-0.518963,-1.040735,três


In [45]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool


Unnamed: 0,A,B,C,D,E
2019-01-01,-1.14179,0.421011,0.888895,-1.664904,um
2019-01-02,-1.831588,0.273499,-0.893017,-2.499795,um
2019-01-05,-0.98937,-0.204367,-2.139056,-0.016731,quatro


## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [48]:
import pandas as pd

df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

print("df:\n", df)

#1)
print("\n1) Selecione apenas a coluna Idade:")
print(df["Idade"])

#2)
print("\n2) Selecione as colunas Nome e Cidade:")
print(df[["Nome", "Cidade"]])

#3)
print("\n3) Filtre apenas as linhas onde a idade seja maior que 30:")
print(df[df["Idade"] > 30])


df:
     Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba

1) Selecione apenas a coluna Idade:
0    23
1    35
2    29
3    40
Name: Idade, dtype: int64

2) Selecione as colunas Nome e Cidade:
    Nome          Cidade
0    Ana       São Paulo
1  Bruno  Rio de Janeiro
2  Clara  Belo Horizonte
3  Diego        Curitiba

3) Filtre apenas as linhas onde a idade seja maior que 30:
    Nome  Idade          Cidade
1  Bruno     35  Rio de Janeiro
3  Diego     40        Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [49]:
import pandas as pd

df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

print("df:\n", df)

#1)
print("\n1) Selecione as linhas correspondentes a Brasil e Alemanha:")
print(df.loc[["Brasil", "Alemanha"]])

#2)
print("\n2) Use .loc para selecionar a população e o PIB dos Estados Unidos:")
print(df.loc["Estados Unidos", ["População (milhões)", "PIB (trilhões USD)"]])

#3)
print("\n3) Use .iloc para selecionar os dados dos dois primeiros países:")
print(df.iloc[:2])

#4)
print("\n4) Use .isin para todos os países que estão na América ou na Asia:")
print(df[df["Continente"].isin(["América", "Asia"])])





df:
                 População (milhões)  PIB (trilhões USD) Continente
Brasil                          211                1.84    América
Rússia                          144                1.48       Asia
Estados Unidos                  331               22.68    América
França                           67                2.83     Europa
Alemanha                         83                4.22     Europa

1) Selecione as linhas correspondentes a Brasil e Alemanha:
          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa

2) Use .loc para selecionar a população e o PIB dos Estados Unidos:
População (milhões)      331
PIB (trilhões USD)     22.68
Name: Estados Unidos, dtype: object

3) Use .iloc para selecionar os dados dos dois primeiros países:
        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rú

## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [50]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

df:
                    A         B         C         D
2019-01-01 -0.692464 -0.484229 -0.130907 -1.245628
2019-01-02  0.091037  0.968346  0.140787 -1.203223
2019-01-03 -0.699963  0.090123  0.314549  0.948773
2019-01-04  2.707858  0.422398 -0.847001 -0.415179
2019-01-05  0.714817  0.664673 -0.551386 -1.103907
2019-01-06 -0.222255 -0.712283  0.434237  0.159710

s1:
 2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int64

Novo df:
                    A         B         C         D    F
2019-01-01 -0.692464 -0.484229 -0.130907 -1.245628  NaN
2019-01-02  0.091037  0.968346  0.140787 -1.203223  1.0
2019-01-03 -0.699963  0.090123  0.314549  0.948773  2.0
2019-01-04  2.707858  0.422398 -0.847001 -0.415179  3.0
2019-01-05  0.714817  0.664673 -0.551386 -1.103907  4.0
2019-01-06 -0.222255 -0.712283  0.434237  0.159710  5.0


Atualizando valores por nome:

In [51]:
df.at[datas[0], "A"] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,-0.484229,-0.130907,-1.245628,
2019-01-02,0.091037,0.968346,0.140787,-1.203223,1.0
2019-01-03,-0.699963,0.090123,0.314549,0.948773,2.0
2019-01-04,2.707858,0.422398,-0.847001,-0.415179,3.0
2019-01-05,0.714817,0.664673,-0.551386,-1.103907,4.0
2019-01-06,-0.222255,-0.712283,0.434237,0.15971,5.0


Atualizando valores por posição:

In [52]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.130907,-1.245628,
2019-01-02,0.091037,0.968346,0.140787,-1.203223,1.0
2019-01-03,-0.699963,0.090123,0.314549,0.948773,2.0
2019-01-04,2.707858,0.422398,-0.847001,-0.415179,3.0
2019-01-05,0.714817,0.664673,-0.551386,-1.103907,4.0
2019-01-06,-0.222255,-0.712283,0.434237,0.15971,5.0


Atualização de valores com uma matriz *NumPy*:

In [53]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2019-01-01,0.0,0.0,-0.130907,5.0,
2019-01-02,0.091037,0.968346,0.140787,5.0,1.0
2019-01-03,-0.699963,0.090123,0.314549,5.0,2.0
2019-01-04,2.707858,0.422398,-0.847001,5.0,3.0
2019-01-05,0.714817,0.664673,-0.551386,5.0,4.0
2019-01-06,-0.222255,-0.712283,0.434237,5.0,5.0


Uma operação `where` como atualização de valores:

In [54]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.130907  5.0  NaN
2019-01-02  0.091037  0.968346  0.140787  5.0  1.0
2019-01-03 -0.699963  0.090123  0.314549  5.0  2.0
2019-01-04  2.707858  0.422398 -0.847001  5.0  3.0
2019-01-05  0.714817  0.664673 -0.551386  5.0  4.0
2019-01-06 -0.222255 -0.712283  0.434237  5.0  5.0

df2 > 0:
                 A      B      C     D      F
2019-01-01  False  False  False  True  False
2019-01-02   True   True   True  True   True
2019-01-03  False   True   True  True   True
2019-01-04   True   True  False  True   True
2019-01-05   True   True  False  True   True
2019-01-06  False  False   True  True   True

novo df2:
                    A         B         C    D    F
2019-01-01  0.000000  0.000000 -0.130907 -5.0  NaN
2019-01-02 -0.091037 -0.968346 -0.140787 -5.0 -1.0
2019-01-03 -0.699963 -0.090123 -0.314549 -5.0 -2.0
2019-01-04 -2.707858 -0.422398 -0.847001 -5.0 -3.0
2019-01-05 -0.714817 -0.664673 -0.551386 -5.

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [55]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  1.628118  0.485993  0.175122  1.217455
2019-01-02 -0.500623  2.016581  0.589352  0.432284
2019-01-03 -0.825810       NaN -1.040733  0.437558
2019-01-04  0.473885       NaN -0.212230  1.455934
2019-01-05  0.975843  0.618108 -0.042968  0.603109
2019-01-06  1.009119  0.801310 -0.131605  0.105594


`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [56]:
df.dropna(how="any")

Unnamed: 0,A,B,C,D
2019-01-01,1.628118,0.485993,0.175122,1.217455
2019-01-02,-0.500623,2.016581,0.589352,0.432284
2019-01-05,0.975843,0.618108,-0.042968,0.603109
2019-01-06,1.009119,0.80131,-0.131605,0.105594


`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [57]:
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2019-01-01,1.628118,0.485993,0.175122,1.217455
2019-01-02,-0.500623,2.016581,0.589352,0.432284
2019-01-03,-0.82581,5.0,-1.040733,0.437558
2019-01-04,0.473885,5.0,-0.21223,1.455934
2019-01-05,0.975843,0.618108,-0.042968,0.603109
2019-01-06,1.009119,0.80131,-0.131605,0.105594


`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [58]:
pd.isna(df)

Unnamed: 0,A,B,C,D
2019-01-01,False,False,False,False
2019-01-02,False,False,False,False
2019-01-03,False,True,False,False
2019-01-04,False,True,False,False
2019-01-05,False,False,False,False
2019-01-06,False,False,False,False


### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [59]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

df:
               A    B     C    D
2019-01-01  0.0  1.0   2.0  3.0
2019-01-02  4.0  5.0   6.0  7.0
2019-01-03  8.0  9.0  10.0  NaN
2019-01-04  NaN  NaN   NaN  NaN
2019-01-05  NaN  NaN   NaN  NaN
2019-01-06  NaN  NaN   NaN  NaN


Unnamed: 0,0
A,4.0
B,5.0
C,6.0
D,5.0


Calculando a média para cada linha:

In [60]:
df.mean(axis=1) ## media por linhas

Unnamed: 0,0
2019-01-01,1.5
2019-01-02,5.5
2019-01-03,9.0
2019-01-04,
2019-01-05,
2019-01-06,


As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [61]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

s:
 2019-01-01    1.0
2019-01-02    3.0
2019-01-03    5.0
2019-01-04    NaN
2019-01-05    6.0
2019-01-06    8.0
2019-01-07    2.0
Freq: D, dtype: float64

novo s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64


O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [62]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

df:
                A     B     C     D
2019-01-01   0.0   1.0   2.0   3.0
2019-01-02   4.0   5.0   6.0   7.0
2019-01-03   8.0   9.0  10.0  11.0
2019-01-04  12.0  13.0  14.0  15.0
2019-01-05  16.0  17.0  18.0  19.0
2019-01-06  20.0  21.0  22.0  23.0

s:
 2019-01-01    NaN
2019-01-02    NaN
2019-01-03    1.0
2019-01-04    3.0
2019-01-05    5.0
2019-01-06    NaN
2019-01-07    6.0
Freq: D, dtype: float64

df.sub:



Unnamed: 0,A,B,C,D
2019-01-01,,,,
2019-01-02,,,,
2019-01-03,7.0,8.0,9.0,10.0
2019-01-04,9.0,10.0,11.0,12.0
2019-01-05,11.0,12.0,13.0,14.0
2019-01-06,,,,
2019-01-07,,,,


## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [63]:
import pandas as pd

dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)

print("df:\n", df)

#1)
print("\n1) Atualize o preço do produto Tablet para 1800:")
df.loc[df["Produto"] == "Tablet", "Preço"] = 1800
print(df)

#2)
print("\n2) Reduza em 20% o preço de todos os produtos da categoria Eletrônicos:")
df.loc[df["Categoria"] == "Eletrônicos", "Preço"] *= 0.8
print(df)

#3)
print("\n2) Apague as linhas com valores faltantes:")
df = df.dropna()
print(df)

#4)
print("\n4) Preencha os valores faltantes na coluna Estoque com 0:")
df["Estoque"].fillna(0, inplace=True)
print(df)

df:
           Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2500.0     10.0  Eletrônicos        4.5
1         Celular  1500.0      5.0  Eletrônicos        NaN
2          Tablet     NaN      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
4         Monitor   800.0      NaN  Periféricos        3.9
5           Mouse   100.0    150.0  Periféricos        NaN

1) Atualize o preço do produto Tablet para 1800:
          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2500.0     10.0  Eletrônicos        4.5
1         Celular  1500.0      5.0  Eletrônicos        NaN
2          Tablet  1800.0      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
4         Monitor   800.0      NaN  Periféricos        3.9
5           Mouse   100.0    150.0  Periféricos        NaN

2) Reduza em 20% o preço de todos os produtos da categoria Eletrônicos:
          Produto   Preço  Estoque    Categori

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Estoque"].fillna(0, inplace=True)
