<a href="https://colab.research.google.com/github/py241040397/CEE2/blob/main/11_pandas_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

A biblioteca **Pandas** é uma das ferramentas mais populares para manipulação e análise de dados em Python. Projetada para lidar com grandes volumes de dados de forma eficiente, ela oferece estruturas flexíveis, como Series e DataFrames, que permitem armazenar, organizar e manipular dados tabulares com facilidade.

- Possui uma gama de funcionalidades, como leitura e escrita de arquivos (CSV, Excel, SQL, entre outros), limpeza e tratamento de dados, e suporte para operações de agrupamento e agregação.

- O Pandas é utilizada em tarefas que vão desde a análise exploratória de dados até a preparação de conjuntos de dados para modelagem e aprendizado de máquina.

- O conteúdo  deste tutorial foi baseado em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min). Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para mais detalhes sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [17]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca Pandas define 2 tipos de estrutura de dados:

- `Series`: um vetor unidimensional nomeado que armazena dados de qualquer tipo, tais como: inteiros, strings, objetos do Python, etc.

- `DataFrame`: uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [18]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) ## a partir de uma lista

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [19]:
a = np.arange(6, dtype=float) ## via array do NumPy (aula passada)

s = pd.Series( a )

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64


In [20]:
## Série temporal

# Cria um range de datas
datas = pd.date_range(start='2023-01-01', periods=6, freq='D')  # 10 dias a partir de 01/01/2023

# Valores da série
valores = [1, 3, 5, np.nan, 6, 8]

# Criar a série temporal
serie_temporal = pd.Series(data=valores, index=datas)

print(serie_temporal)

2023-01-01    1.0
2023-01-02    3.0
2023-01-03    5.0
2023-01-04    NaN
2023-01-05    6.0
2023-01-06    8.0
Freq: D, dtype: float64


Um **DataFrame** pode ser utilizando o comando `pd.DataFrame()`:

In [21]:
a = np.arange(20).reshape(4,5) ## via array bidimensional do NumPy (aula anterior)

df = pd.DataFrame( a )
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [22]:
# Também podemos representar uma série temporal multivariada

## range de datas
datas = pd.date_range("20190101", periods=5)

## Valores
valores = np.arange(20).reshape(5,4)

## DataFrame
df = pd.DataFrame(data=valores, index=datas, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2019-01-01,0,1,2,3
2019-01-02,4,5,6,7
2019-01-03,8,9,10,11
2019-01-04,12,13,14,15
2019-01-05,16,17,18,19


É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [23]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([1, 2, 3, 4], dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": np.nan,
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-01-02,1.0,1,teste,
1,1.0,2019-01-02,1.0,2,treino,
2,1.0,2019-01-02,1.0,3,teste,
3,1.0,2019-01-02,1.0,4,treino,


As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [24]:
print(df2)

df2.dtypes

     A          B    C  D       E   F
0  1.0 2019-01-02  1.0  1   teste NaN
1  1.0 2019-01-02  1.0  2  treino NaN
2  1.0 2019-01-02  1.0  3   teste NaN
3  1.0 2019-01-02  1.0  4  treino NaN


Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


Também é possível criar `DataFrame` passando um listas de objetos como colunas:

In [25]:
import pandas as pd

# Vetores como listas
nomes = ["Ana", "Bruno", "Clara", "Diego"]
idades = [23, 35, 29, 40]
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]

# Criar o DataFrame combinando os vetores por colunas
df = pd.DataFrame({
    "Nome": nomes,
    "Idade": idades,
    "Cidade": cidades
})

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte
3  Diego     40        Curitiba


e também podemos criar passando vetores como linhas:

In [26]:
import pandas as pd

# Dados como vetores (linhas)
linha1 = ["Ana", 23, "São Paulo"]
linha2 = ["Bruno", 35, "Rio de Janeiro"]
linha3 = ["Clara", 29, "Belo Horizonte"]

# Criar o DataFrame
df = pd.DataFrame(
    [linha1, linha2, linha3],            # Passar as linhas
    columns=["Nome", "Idade", "Cidade"]  # Nomear as colunas
)

print(df)


    Nome  Idade          Cidade
0    Ana     23       São Paulo
1  Bruno     35  Rio de Janeiro
2  Clara     29  Belo Horizonte


## Exercício 1:

Crie um vetor do tipo `Series` com:
* as seguintes datas como indices: "2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25".
  * dica: utilize `pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])`
* os seguintes valores:  100, 200, 300, 400



In [27]:
import numpy as np
import pandas as pd

datas = pd.to_datetime(["2023-01-01", "2023-03-15", "2023-07-20", "2023-12-25"])

valores = [100, 200, 300, 400]

serie_temporal = pd.Series(data=valores, index=datas)


## Exercício 2

Crie um `DataFrame` com 3 colunas chamadas `["Número", "Quadrado", "Cubo"]`. Preencha com os números de 1 a 10 na coluna `Número`, e nas colunas `Quadrado` e `Cubo`, insira os valores correspondentes ao quadrado e ao cubo de cada número.


In [4]:
import numpy as np
import pandas as pd

numero = np.arange(1, 11)
quadrado = numero**2
cubo = numero**3

df = pd.DataFrame({
    "Número": numero,
    "Quadrado": quadrado,
    "Cubo": cubo
})


## Visualização e ordenação

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [28]:
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

print("\ndf.head(3):")
df.head(3)

df:
                    A         B         C         D
2019-01-01 -1.043891 -0.502430 -2.313285  0.693695
2019-01-02  1.281052  0.059680  0.039743 -1.257934
2019-01-03 -1.102379  0.308786 -0.782364  0.150005
2019-01-04 -0.883239 -0.210401  0.169280  0.473628
2019-01-05  0.008564 -0.288464 -0.676742 -0.665541
2019-01-06 -0.031481 -0.829316  0.221892  0.867961

df.head(3):


Unnamed: 0,A,B,C,D
2019-01-01,-1.043891,-0.50243,-2.313285,0.693695
2019-01-02,1.281052,0.05968,0.039743,-1.257934
2019-01-03,-1.102379,0.308786,-0.782364,0.150005


In [29]:
df.tail(3)

Unnamed: 0,A,B,C,D
2019-01-04,-0.883239,-0.210401,0.16928,0.473628
2019-01-05,0.008564,-0.288464,-0.676742,-0.665541
2019-01-06,-0.031481,-0.829316,0.221892,0.867961


Use `DataFrame.index` e `DataFrame.columns` para obter, respectivamente, os índices e as colunas:

In [30]:
df.index

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

In [31]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`, descartando os indices e as colunas:

In [32]:
df.to_numpy() ## resulta em um array bidimensional

array([[-1.04389113, -0.5024298 , -2.31328528,  0.69369532],
       [ 1.2810516 ,  0.05968008,  0.03974317, -1.25793423],
       [-1.10237887,  0.30878619, -0.78236351,  0.15000495],
       [-0.88323892, -0.21040143,  0.16927967,  0.47362765],
       [ 0.00856357, -0.28846373, -0.67674158, -0.66554114],
       [-0.03148124, -0.82931622,  0.22189244,  0.86796062]])

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [33]:
df2.dtypes

Unnamed: 0,0
A,float64
B,datetime64[s]
C,float32
D,int32
E,category
F,float64


In [34]:
df2.to_numpy()

array([[1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 1, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 2, 'treino', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 3, 'teste', nan],
       [1.0, Timestamp('2019-01-02 00:00:00'), 1.0, 4, 'treino', nan]],
      dtype=object)

`describe()` mostra uma breve descrição estatística do conjunto de dados:

In [35]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.295229,-0.243691,-0.556913,0.043636
std,0.916979,0.402562,0.96332,0.8361
min,-1.102379,-0.829316,-2.313285,-1.257934
25%,-1.003728,-0.448938,-0.755958,-0.461655
50%,-0.45736,-0.249433,-0.318499,0.311816
75%,-0.001448,-0.00784,0.136896,0.638678
max,1.281052,0.308786,0.221892,0.867961


Transpondo os dados:

In [36]:
df.T

Unnamed: 0,2019-01-01,2019-01-02,2019-01-03,2019-01-04,2019-01-05,2019-01-06
A,-1.043891,1.281052,-1.102379,-0.883239,0.008564,-0.031481
B,-0.50243,0.05968,0.308786,-0.210401,-0.288464,-0.829316
C,-2.313285,0.039743,-0.782364,0.16928,-0.676742,0.221892
D,0.693695,-1.257934,0.150005,0.473628,-0.665541,0.867961


`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [37]:
a = df.sort_index(axis=0, ascending=False) # ordenação descendente pelo nome das linhas
print(a)

b = df.sort_index(axis=1, ascending=False) # ordenação descendente pelo nome das colunas
print(b)

                   A         B         C         D
2019-01-06 -0.031481 -0.829316  0.221892  0.867961
2019-01-05  0.008564 -0.288464 -0.676742 -0.665541
2019-01-04 -0.883239 -0.210401  0.169280  0.473628
2019-01-03 -1.102379  0.308786 -0.782364  0.150005
2019-01-02  1.281052  0.059680  0.039743 -1.257934
2019-01-01 -1.043891 -0.502430 -2.313285  0.693695
                   D         C         B         A
2019-01-01  0.693695 -2.313285 -0.502430 -1.043891
2019-01-02 -1.257934  0.039743  0.059680  1.281052
2019-01-03  0.150005 -0.782364  0.308786 -1.102379
2019-01-04  0.473628  0.169280 -0.210401 -0.883239
2019-01-05 -0.665541 -0.676742 -0.288464  0.008564
2019-01-06  0.867961  0.221892 -0.829316 -0.031481


`DataFrame.sort_values()` ordena os valores de acordo com uma coluna:

In [38]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2019-01-06,-0.031481,-0.829316,0.221892,0.867961
2019-01-01,-1.043891,-0.50243,-2.313285,0.693695
2019-01-05,0.008564,-0.288464,-0.676742,-0.665541
2019-01-04,-0.883239,-0.210401,0.16928,0.473628
2019-01-02,1.281052,0.05968,0.039743,-1.257934
2019-01-03,-1.102379,0.308786,-0.782364,0.150005


## Seleção de valores

Em Pandas, o fatiamento de valores pode ser feito de modo semelhante ao NumPy/Python, mas é recomendado utilizar os métodos otimizados :para acessar dados: `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`:

- `.at` e `.iat`: acesso rápido para um único elemento (rótulo ou posição).

- `.loc` e `.iloc`: acesso mais geral (por rótulos ou posições, respectivamente).

In [48]:
## DataFrame que será utilizado para ilustrar as funções
datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

df:
                    A         B         C         D
2019-01-01  1.196559 -0.317897  0.695065  0.591487
2019-01-02 -0.186085 -0.225711 -0.470659 -0.478348
2019-01-03 -0.647656 -1.249912 -1.113337  0.935612
2019-01-04 -0.783623  2.399649 -0.491066 -1.152584
2019-01-05  0.279536  1.140304  1.232019  0.221126
2019-01-06  1.813044  1.480965 -1.307716  0.167942


Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [49]:
df["A"]

Unnamed: 0,A
2019-01-01,1.196559
2019-01-02,-0.186085
2019-01-03,-0.647656
2019-01-04,-0.783623
2019-01-05,0.279536
2019-01-06,1.813044


Uma forma alternativa de referenciar uma coluna é usando `.`:

In [50]:
df.A

Unnamed: 0,A
2019-01-01,1.196559
2019-01-02,-0.186085
2019-01-03,-0.647656
2019-01-04,-0.783623
2019-01-05,0.279536
2019-01-06,1.813044


Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [51]:
df[0:3]

## no entanto, não vale para coluna
## df[0:3, 1:2] ## ERROR!

Unnamed: 0,A,B,C,D
2019-01-01,1.196559,-0.317897,0.695065,0.591487
2019-01-02,-0.186085,-0.225711,-0.470659,-0.478348
2019-01-03,-0.647656,-1.249912,-1.113337,0.935612


A seleção também funciona para valores dos índices:

In [52]:
df["20190102":"20190104"]
##  neste exemplo,  utilizamos o padrão "AAAAMMDD"
##  resultados equivalentes são obtidos para os padrões
##  "AAAA-MM-DD","AAAA/MMDD"

Unnamed: 0,A,B,C,D
2019-01-02,-0.186085,-0.225711,-0.470659,-0.478348
2019-01-03,-0.647656,-1.249912,-1.113337,0.935612
2019-01-04,-0.783623,2.399649,-0.491066,-1.152584


### Seleção por nome

Vamos utilizar as funções `DataFrame.loc()` e `DataFrame.at()`.

Selecionando uma linha relativa ao nome:

In [53]:
df.loc[datas[0]]

Unnamed: 0,2019-01-01
A,1.196559
B,-0.317897
C,0.695065
D,0.591487


Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [54]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2019-01-01,1.196559,-0.317897
2019-01-02,-0.186085,-0.225711
2019-01-03,-0.647656,-1.249912
2019-01-04,-0.783623,2.399649
2019-01-05,0.279536,1.140304
2019-01-06,1.813044,1.480965


Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

## a função .at só permite acessar uma celula por vez
## df.at[datas[0:2], "A"] ## Erro!

### Seleção por posição

Vamos utilizar as funções `DataFrame.iloc()` e `DataFrame.iat()`.

A seleção por posição é feita passando valores inteiros:

In [None]:
df.iloc[3]

Seleção por inteiros age de forma similar no *NumPy*:

In [None]:
df.iloc[3:5, 0:2]

## Erro comum: esquecer do .iloc
## df[3:5,0:2] ## gera um erro

Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :]

Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

## a função .iat só permite acessar uma celula por vez.
## df.iat[0:2, 1] ## Erro.

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0] ## seleciona as linhas em que a coluna A tem valores positivos

Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Usando `isin()` para seleção:

In [None]:
df2 = df.copy()

## acrescenta a coluna E
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

In [None]:
print( df2["E"].isin(["um", "quatro"]) )

df2[df2["E"].isin(["um", "quatro"])]

## Exercício 3

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})
```
Então:

1. Selecione apenas a coluna `Idade`.
1. Selecione as colunas ["Nome", "Cidade"].
1. Filtre apenas as linhas onde a idade seja maior que 30.

In [58]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Clara", "Diego"],
    "Idade": [23, 35, 29, 40],
    "Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba"]
})

#1
df["Idade"]

#2
df.loc[:, ["Nome", "Cidade"]]

#3
df[df["Idade"] > 30]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,35,Rio de Janeiro
3,Diego,40,Curitiba


## Exercício 4

Considere o seguinte `DataFrame`:
```python
df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])
```
Então:

1. Selecione as linhas correspondentes a "Brasil" e "Alemanha".
1. Use `.loc` para selecionar a população e o PIB dos "Estados Unidos".
1. Use `.iloc` para selecionar os dados dos dois primeiros países.
1. Use `.isin` para todos os países que estão na América ou na Asia.

In [6]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    "População (milhões)": [211, 144, 331, 67, 83],
    "PIB (trilhões USD)": [1.84, 1.48, 22.68, 2.83, 4.22],
    "Continente": ["América", "Asia", "América", "Europa", "Europa"]
    },
    index=["Brasil", "Rússia", "Estados Unidos", "França", "Alemanha"])

#1
print(df.loc[["Brasil", "Alemanha"]])

#2
print(df.loc["Estados Unidos", "PIB (trilhões USD)"])

#3
print(df.iloc[0:2, :])

#4
df[df["Continente"].isin(["América", "Asia"])]


          População (milhões)  PIB (trilhões USD) Continente
Brasil                    211                1.84    América
Alemanha                   83                4.22     Europa
22.68
        População (milhões)  PIB (trilhões USD) Continente
Brasil                  211                1.84    América
Rússia                  144                1.48       Asia


Unnamed: 0,População (milhões),PIB (trilhões USD),Continente
Brasil,211,1.84,América
Rússia,144,1.48,Asia
Estados Unidos,331,22.68,América


## Atualização de valores

Ao incluir uma nova coluna os índices são pareados automaticamente:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
print("df:\n", df)

## vetor com uma data a frente
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
print("\ns1:\n", s1)

## a primeira posição fica NaN
df["F"] = s1
print("\nNovo df:\n", df)

Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()

print("df2:\n", df2)

print("\ndf2 > 0:\n", df2 > 0)

df2[df2 > 0] = -df2

print("\nnovo df2:\n", df2)

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` (ou `pd.NA` no *Pandas*) representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))

# modifica duas célunas de B para NaN
df.iloc[2:4,1] = np.nan

print("df:\n", df)

`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df.dropna(how="any")

`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df.fillna(value=5)

`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df)

### Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
import numpy as np
import pandas as pd

datas = pd.date_range("20190101", periods=6)

valores = np.arange(24, dtype=float).reshape(6, 4)

df = pd.DataFrame(valores, index=datas, columns=list("ABCD"))

df[abs(df)>10.0] = np.nan

print("df:\n", df)

df.mean() ## média por colunas

Calculando a média para cada linha:

In [None]:
df.mean(axis=1) ## media por linhas

As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8, 2], index=pd.date_range("20190101", periods=7))
print("s:\n",s)

s = s.shift(2) ## atrasa os dados em 2 indices
print("\nnovo s:\n",s)

O método `pandas.sub()` subtrai os elementos do *dataframe* com os elementos de outro *dataframe* de acordo com os indices:

In [None]:
df = pd.DataFrame( np.arange(24, dtype=float).reshape(6, 4), index=datas, columns=list("ABCD"))

print("df:\n", df)

print("\ns:\n", s)

print("\ndf.sub:\n")
df.sub(s, axis="index") ## a subtração é feita de acordo com os indices

## Exercício 5

Considere o seguinte `DataFrame`:
```python
dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)
```
Então:

1. Atualize o preço do produto "Tablet" para 1800.
1. Reduza em 20% o preço de todos os produtos da categoria "Eletrônicos".
1. Mostre a planilha excluindo as linhas com valores faltantes.
1. Preencha os valores faltantes na coluna Estoque com 0.

In [10]:
import numpy as np
import pandas as pd

dados = {
    "Produto": ["Notebook", "Celular", "Tablet", "Fone de Ouvido", "Monitor", "Mouse"],
    "Preço": [2500, 1500, np.nan, 200, 800, 100],
    "Estoque": [10, 5, 2, 50, np.nan, 150],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Acessórios", "Periféricos", "Periféricos"],
    "Avaliação": [4.5, np.nan, 3.8, 4.2, 3.9, np.nan]
}

df = pd.DataFrame(dados)

#1
df.loc[df["Produto"].isin(["Tablet"]), "Preço"]= 1800

#2
df.loc[df["Categoria"].isin(["Eletrônicos"]), "Preço"] *=0.8

#3
print(df.dropna(how="any"))

#4
df["Estoque"]= df["Estoque"].fillna(value=0)

          Produto   Preço  Estoque    Categoria  Avaliação
0        Notebook  2000.0     10.0  Eletrônicos        4.5
2          Tablet  1440.0      2.0  Eletrônicos        3.8
3  Fone de Ouvido   200.0     50.0   Acessórios        4.2
