# Aula 12. Pandas
<img  src= "img/pandas1.jpeg" style="width:500px; height:500px">

Pandas é uma das bibliotecas mais utilizadas em Python para manipulação e análise de dados. Esta biblioteca é de código aberto, escrita em Numpy e oferece estruturas e operações para manipulação de tabelas numéricas e séries temporais.

Os principais destaques são:
- Possui dois tipos de objetos `pandas.core.frame.DataFrame` e `pandas.core.series.Series` com indexação integrada;
- Facilita a leitura, escrita e modificação de arquivos com diferentes formatos, entre os quais se destaca .csv, .txt, .xlsx, SQL, HDF5 (Hierarchical Data Format version 5) dentre outros;
- Permite tabelas com diferentes niveis de indexação;
- Permite agrupamento de dados por categorias;
- Realiza mesclagem e junção de conjuntos de dados com alto desempenho;
- Altamente otimizado com códigos escritos em Cython e C;
- Pandas é amplamente utilizado em ambientes acadêmicos e comerciais, incluindo finanças, neurociência, economia, estatística, publicidade, análise da web e muito mais.
---
Os tópicos que vamos abordar nesta série de conversar são
- Instalação de pandas;
- Importando pandas;
- Series;
- DataFrame e manipulação;
 - Criação de DataFrame;
 - Extraindo informação por colunas. CUIDADO COM NOTAÇÃO SQL;
 - Extraindo utilizando função loc;
 - Extraindo utilizando função iloc;
 - Adicionando novas colunas;
 - Adicionando novas filas (função append);
 - Eliminando colunas ou filas.
- Operadores de comparação e seleção condicional;
- Dados ausentes;
 - Dropna
 - filna
 - replace
- GroupBy
- concatenação
- Operação
- Importando e exportando dados.
- Aplicação
---
Recomento visitar o site oficial do projeto [Pandas](https://pandas.pydata.org/) para conhecer mais um pouco.

## Intalação do pandas

Para instalar pandas no nosso computador podemos utilizar o condas ou o pip.
```python
conda install pandas
pip install pandas
```

## importando pandas e numpy

In [1]:
import pandas as pd
import numpy as np

## Series
O conceito principal de uma [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) em Pandas e trabalhar com vetores a partir do indice ou labels. A sintaxe para definir uma Series é:
```python
 pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [2]:
# Definindo algumas variaveis que vamos utilizar
valores  = np.random.randn(1, 10).reshape(10,)
index_row = "A B C D E F G H I J".split(" ")
d = {key: value for key, value in zip(index_row, valores)}

In [5]:
d

{'A': 0.15305651961908812,
 'B': 0.21153782801105048,
 'C': 1.6808745508747314,
 'D': 1.1496787347954256,
 'E': -1.470054846589587,
 'F': -0.6721770724764765,
 'G': 1.3532990069558237,
 'H': 1.144829436794336,
 'I': -1.4828699750498682,
 'J': 0.73453926253763}

In [6]:
# Criando uma Series passando somente os valores
pd.Series(valores)

0    0.153057
1    0.211538
2    1.680875
3    1.149679
4   -1.470055
5   -0.672177
6    1.353299
7    1.144829
8   -1.482870
9    0.734539
dtype: float64

In [7]:
# Criando uma Series passando data e index
pd.Series(data=valores, index=index_row)

A    0.153057
B    0.211538
C    1.680875
D    1.149679
E   -1.470055
F   -0.672177
G    1.353299
H    1.144829
I   -1.482870
J    0.734539
dtype: float64

In [8]:
# Observemos que pomodes criar uma Series passando qualquer tipo de dados
pd.Series(index=valores, data=index_row)

 0.153057    A
 0.211538    B
 1.680875    C
 1.149679    D
-1.470055    E
-0.672177    F
 1.353299    G
 1.144829    H
-1.482870    I
 0.734539    J
dtype: object

In [9]:
# Observemos que uma Series se comporta muito semelhante ao dicionário dado que ela trabalhar com chave: valor,
# portanto podemos criar uma Seires passando um dicionário
pd.Series(d)

A    0.153057
B    0.211538
C    1.680875
D    1.149679
E   -1.470055
F   -0.672177
G    1.353299
H    1.144829
I   -1.482870
J    0.734539
dtype: float64

Mas qual é a vantagem de utilizar uma Series em relação ao arrays?

In [11]:
series_1 = pd.Series(data=[5, 10, 20, 30, 8], index="A B C D J".split(" "))
series_2 = pd.Series(data=[20, 15, 15, 5, 25], index="A B K D C".split(" "))
print(series_1)
print(series_2)
print(series_1 + series_2)

A     5
B    10
C    20
D    30
J     8
dtype: int64
A    20
B    15
K    15
D     5
C    25
dtype: int64
A    25.0
B    25.0
C    45.0
D    35.0
J     NaN
K     NaN
dtype: float64


## DataFrame e manipulação
O objeto principal de Pandas é o [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), este objeto se aproxima ao que conhecemos como planilha de excell (somente em aparência). Para definir um DataFrame utilizamos a seguinte sintaxe:
```python
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```
Neste caso os argumentos mais relevantes são `data`, `index` e `columns`, porém o único argumento obrigatório é o `data`.

### Criação de DataFrame

In [12]:
data = np.arange(1, 17).reshape((4,4))
index = "Row_1 Row_2 Row_3 Row_4".split(" ")
col = "Col_1 Col_2 Col_3 Col_4".split(" ")

In [14]:
data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [13]:
# Definindo um DataFrame passando data
pd.DataFrame(data)

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [15]:
# Definindo um DataFrame passando data e index
pd.DataFrame(data, index)

Unnamed: 0,0,1,2,3
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


In [32]:
# Definindo um DataFrame passando todos data, index e columns
data_frame = pd.DataFrame(data, index, col)
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


### Extraindo informação por colunas. *CUIDADO COM NOTAÇÃO SQL*

In [17]:
# Extraindo informação da columna Col_4
data_frame["Col_4"]

Row_1     4
Row_2     8
Row_3    12
Row_4    16
Name: Col_4, dtype: int64

In [18]:
# Podemos utilizar a notação de ponto e o nome da columna, porém esta forma não é recomendada
data_frame.Col_3

Row_1     3
Row_2     7
Row_3    11
Row_4    15
Name: Col_3, dtype: int64

### Extraindo utilizando função loc
A propriedade [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) permite obter os dados de um DataFrame a partir dos labels das filas e das coluna. A sintaxe para aplicar esta propriedade é:
```python
DataFrame.loc[]
```

In [19]:
# Podemos utilizar a função loc para extrair informação utilizando o índice da fila e o nome da coluna
data_frame.loc["Row_1", "Col_1"]

1

In [26]:
# Para extrair diferentes colunas ou fila passamos uma lista com os nomes das colunas e filas
data_frame.loc[["Row_1", "Row_4"], ["Col_1", "Col_4"]]

Unnamed: 0,Col_1,Col_4
Row_1,1,4
Row_4,13,16


In [23]:
# Também podemos utilizar a função loc para extrair filas
data_frame.loc["Row_3"]

Col_1     9
Col_2    10
Col_3    11
Col_4    12
Name: Row_3, dtype: int64

### Extraindo utilizando função iloc
Existe outra forma de extrair os valores de um DataFrame utilizando a notação aprendida em Numpy, para isso utilizamos a propriedade [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html):
```python
DataFrame.iloc[]
```

In [24]:
data_frame.iloc[0, 0]

1

In [25]:
data_frame.iloc[ [0, -1], [0, -1]]

Unnamed: 0,Col_1,Col_4
Row_1,1,4
Row_4,13,16


In [27]:
data_frame.iloc[2]

Col_1     9
Col_2    10
Col_3    11
Col_4    12
Name: Row_3, dtype: int64

In [28]:
data_frame.iloc[2:]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_3,9,10,11,12
Row_4,13,14,15,16


### Adicionando novas colunas

In [29]:
data_frame["Col_nova"] = data_frame.iloc[:, -1] + data_frame.iloc[:, 0]
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_nova
Row_1,1,2,3,4,5
Row_2,5,6,7,8,13
Row_3,9,10,11,12,21
Row_4,13,14,15,16,29


In [30]:
data_frame["Col_nova_2"]  = 2
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_nova,Col_nova_2
Row_1,1,2,3,4,5,2
Row_2,5,6,7,8,13,2
Row_3,9,10,11,12,21,2
Row_4,13,14,15,16,29,2


In [31]:
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_nova,Col_nova_2
Row_1,1,2,3,4,5,2
Row_2,5,6,7,8,13,2
Row_3,9,10,11,12,21,2
Row_4,13,14,15,16,29,2


### Adicionando novas filas (função append)
Para adicionar uma nova fila utilizamos a função [append()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html), essa função adiciona uma nova (ou novas) fila(s) no final do DataFrame. A sintaxe utilizada para isso é:
```python
DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)
```

In [34]:
np.array([[1,2,3,4]])

array([[1, 2, 3, 4]])

In [41]:
data_frame2 = pd.DataFrame([[1,2,3,4]], columns=col)
data_frame.append(data_frame2)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16
0,1,2,3,4


In [42]:
data_frame.append(data_frame*10)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16
Row_1,10,20,30,40
Row_2,50,60,70,80
Row_3,90,100,110,120
Row_4,130,140,150,160


### Eliminando colunas ou filas
Para eliminar colunas ou filas de um DataFrame utilizamos a função [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html). Neste caso se deve passar o indice da fila que será eliminada ou o label da coluna. Além disso, deve-se especificar o `axis` o qual é 0 para filas e 1 para columnas. A sintaxe utilizada é:

```python
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```

In [43]:
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


In [46]:
# Eliminando a primeira fila
data_frame.drop("Row_1", axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


In [47]:
# Eliminando varias filas 
data_frame.drop(["Row_1", "Row_3"], axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_2,5,6,7,8
Row_4,13,14,15,16


In [48]:
# Eliminando a primeira coluna
data_frame.drop("Col_1", axis=1)

Unnamed: 0,Col_2,Col_3,Col_4
Row_1,2,3,4
Row_2,6,7,8
Row_3,10,11,12
Row_4,14,15,16


In [51]:
data_frame

Unnamed: 0,Col_2,Col_3
Row_1,2,3
Row_2,6,7
Row_3,10,11
Row_4,14,15


In [50]:
# Eliminando a varias colunas coluna
data_frame.drop(["Col_1", "Col_4"], axis=1, inplace=True)


In [52]:
data_frame
# é interessante o fato de não modificar o data_frame original?

Unnamed: 0,Col_2,Col_3
Row_1,2,3
Row_2,6,7
Row_3,10,11
Row_4,14,15


## Operadores de comparação e seleção condicional
Da mesma forma que é possível aplicar operadores de comparação em arrays, com pandas podemos aplicar os mesmos operadores.

In [69]:
# Criando dados para trabalhar
np.random.seed(100)
data2 = np.random.randint(-10, 10, (5,5))
col2 = [f"Col_{i}" for i in range(1, 6)]
row2 = [f"Row_{i}" for i in range(1, 6)]
data_frame2 = pd.DataFrame(data2, row2, col2)
data_frame2 

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4
Row_3,-8,7,6,5,-6
Row_4,1,6,-1,-8,2
Row_5,-6,-9,3,9,-6


In [70]:
data_frame2 > 0

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,False,False,False,True,True
Row_2,False,False,False,False,True
Row_3,False,True,True,True,False
Row_4,True,True,False,False,True
Row_5,False,False,True,True,False


In [76]:
# Podemos atribuir esse teste de comparação a uma variável e utiliza-o para realizar seleção
comp = data_frame2 > 0
data_frame2[comp] 
# data_frame2[data_frame2 > 0] 
data_frame2

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4
Row_3,-8,7,6,5,-6
Row_4,1,6,-1,-8,2
Row_5,-6,-9,3,9,-6


In [77]:
# Aplicando uma comparação numa serie
comp = data_frame2["Col_5"] > 0
data_frame2[comp]["Col_1"]
data_frame2

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4
Row_3,-8,7,6,5,-6
Row_4,1,6,-1,-8,2
Row_5,-6,-9,3,9,-6


In [79]:
# Aplicando comparaões multiplas
comp1 = data_frame2["Col_5"] >= 2 #(Row_1, Row_2 e Row_4)
comp2 = data_frame2["Col_3"] < -1 # (Row_1, Row_2)
data_frame2[comp2 & comp1]


Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4


In [81]:
# As tres linhas anteriores são equivalentes a:
data_frame2[(data_frame2["Col_5"] >= 2) & (data_frame2["Col_3"] < -1)]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4


In [None]:
data_frame2

## Dados ausentes
Quando trabalhamos com dados provenientes de fontes externas (como base de dados, dados de sensores, etc), pode acontecer que existam dados com valores "inapropriados" ou valores ausentes. Nesse caso a biblioteca Pandas ajuda a processar esses valores.

Cabe destacar que o conceito de dado "inapropriado" varia de cenário para cenário e aforma de tratar esses dados pode varia. Porém Pandas possui uma diversa variedade de funções e metódos que podem ser utilizados para essa finalidade.

Recomendo a leitura de [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html). Nesta leitura a empresa desenvolvedora da biblioteca Pandas apresenta varias formas de processar dados ausentes.


In [82]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(-10, 10, (n, n)).astype(object)
col2 = [f"Col_{i}" for i in range(1, n + 1)]
row2 = [f"Row_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_nan = pd.DataFrame(data2, row2, col2)
data_frame_nan

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,-7.0,,5.0,6.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,7.0,6.0,,-6.0,1.0,6.0,-1,-8.0,
Row_3,-6.0,-9.0,3.0,9.0,-6.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,,6.0,-8.0,,9.0,-8,4.0,7.0
Row_5,6.0,5.0,-3.0,3.0,,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,,3.0,0.0,,,8.0,-2,9.0,4.0
Row_7,-10.0,,2.0,0.0,,-4.0,,5,0.0,
Row_8,-7.0,,6.0,1.0,-6.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,,2.0,-9.0,-4.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,,-1.0,,6.0,-4.0,-5,,


### Dropna

Para excluir valores faltantes `NaN` utilizamos a função [`dropna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Os argumentos necessarios para esta função são:

```python
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

In [83]:
# Elimiando os valores NaN, observemos que o resultado é somente Row_3
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_3,-6,-9,3,9,-6,-6,-7,-3,7,5


In [85]:
# Elimiando os valores NaN, observemos que o resultado é somente Col_8
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=1)

Unnamed: 0,Col_8
Row_1,-8
Row_2,-1
Row_3,-3
Row_4,-8
Row_5,-10
Row_6,-2
Row_7,5
Row_8,-4
Row_9,-8
Row_10,-5


In [86]:
# Também podemos definir a quantidade de valores no Nan que vamos aceitar. Por tanto se queremos aceitar
# pelo menos um NaN devemos de passar `thresh=9`
data_frame_nan.dropna(axis=1,thresh=9)

Unnamed: 0,Col_1,Col_4,Col_7,Col_8,Col_9
Row_1,-2.0,5.0,-8.0,-8,-8.0
Row_2,-8.0,,6.0,-1,-8.0
Row_3,-6.0,9.0,-7.0,-3,7.0
Row_4,,6.0,9.0,-8,4.0
Row_5,6.0,3.0,8.0,-10,-8.0
Row_6,7.0,0.0,8.0,-2,9.0
Row_7,-10.0,0.0,,5,0.0
Row_8,-7.0,1.0,-3.0,-4,-8.0
Row_9,8.0,-9.0,-10.0,-8,9.0
Row_10,8.0,-1.0,-4.0,-5,


In [89]:
# Observemos que a tabela original não foi modificada.
data_frame_nan

Unnamed: 0,Col_1,Col_3,Col_4,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,,5.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,6.0,,1.0,6.0,-1,-8.0,
Row_3,-6.0,3.0,9.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,6.0,,9.0,-8,4.0,7.0
Row_5,6.0,-3.0,3.0,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,3.0,0.0,,8.0,-2,9.0,4.0
Row_7,-10.0,2.0,0.0,-4.0,,5,0.0,
Row_8,-7.0,6.0,1.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,2.0,-9.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,-1.0,6.0,-4.0,-5,,


In [88]:
# Se queremos modificar o arquivo original devemos passar `inplace=True`
data_frame_nan.dropna(axis=1,thresh=7, inplace=True)
data_frame_nan

Unnamed: 0,Col_1,Col_3,Col_4,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,,5.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,6.0,,1.0,6.0,-1,-8.0,
Row_3,-6.0,3.0,9.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,6.0,,9.0,-8,4.0,7.0
Row_5,6.0,-3.0,3.0,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,3.0,0.0,,8.0,-2,9.0,4.0
Row_7,-10.0,2.0,0.0,-4.0,,5,0.0,
Row_8,-7.0,6.0,1.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,2.0,-9.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,-1.0,6.0,-4.0,-5,,


### fillna
Outra forma de processar os dados faltantes é utilizando a função [`fillna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) a qual permite substituir o valor faltante por outro valor.
```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```

In [None]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(25, 37, (n, n)).astype(object)
col2 = [f"Day_{i}" for i in range(1, n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna

In [None]:
data_frame_fillna.fillna(value="VALOR ERRADO")

In [None]:
# Caso queiramos preencher o valor faltante pelo valor anterior podemos realizar isso aplicando o `method="ffill"`
# Criando data frame com valores nan
np.random.seed(100)
n = 1440 # Equivalente a coleta de pontos cada 60 segundos por 24 h
r_n = 5
data2 = np.random.randint(27, 33, (n, r_n)).astype(object)
col2 = [f"Reactor_{i}" for i in range(1, r_n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(data2.shape[0]):
    for c in range(data2.shape[1]):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna.info()
data_frame_fillna.describe()

In [None]:
data_frame_fillna

In [None]:
data_frame_fillna.fillna(method="ffill", inplace=True)

In [None]:
data_frame_fillna

In [None]:
data_frame_fillna.info()
data_frame_fillna.describe()

### replace
Uma das alternativas mais adequadas para trabalhar com valores ausentes ou inadequados é utilizando a função [`replace`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html). Esta função trabalha de forma semelhante a `dropna` e `filna` porém agora podemos indicar qual ou quais valores queremos substituir. A sintaxe para o funcionamento deste método é:

```python
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```

In [None]:
# Vamos contiuar com data_frame_nan
data_frame_nan

In [None]:
# Observemos que temos varios valores Nan
data_frame_nan.replace(to_replace=np.nan, value=10)

In [None]:
# Podemos passar uma lista de valores para ser subtituido
data_frame_nan.replace(to_replace=[np.nan, 8], value=10)

In [None]:
# E tambpém uma lista de valores para substuir
data_frame_nan.replace(to_replace=[np.nan, 8], value=[100, 80])

In [None]:
# Voltando ao exemplo do sensor de temperatur
np.random.seed(100)
n = 1440 # Equivalente a coleta de pontos cada 60 segundos por 24 h
r_n = 3
err = [10, 15, 20, 40, 35]
data2 = np.random.uniform(27, 33, (n, r_n)).astype(object)
col2 = [f"Reactor_{i}" for i in range(1, r_n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(data2.shape[0]):
    for c in range(data2.shape[1]):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
        elif np.random.random() < 0.05:
            data2[r, c] = np.random.choice(err)
data_frame_replace = pd.DataFrame(data2, row2, col2)


In [None]:
data_frame_replace.columns

In [None]:
import matplotlib.pyplot as plt
%matplotlib nbagg
for react in data_frame_replace.columns:
    fig, ax = plt.subplots()
    ax.plot(data_frame_replace[react].values,
             ls="-",
             c='black',
             marker="o", 
             markersize=1.0,
             markeredgecolor='blue',
             lw=0.1)
    ax.set_xlabel("Time")
    ax.set_ylabel("Temperature [°C]")
    ax.set_title(react)

In [None]:
data_frame_replace.replace(to_replace=[40, 35, 20, 15, 10, np.nan], value=data_frame_replace.mean().mean() )

## Groupby
A função [`groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) é umas das função **mais importantes** da biblioteca Pandas devido a que permite realizar o agrupamento de grande quantidade de dados e aplicar funções sobre esses valores agrupados de forma rápida. Para aplicar essa função utilizamos a seguinte sintaxe:
```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)
```

In [153]:
# Para entender o funcionamento da função groupby vamos a criar uma matrix de dados
n = 1500
np.random.seed(100)
empresas = [f"Empresa {np.random.randint(1, 51)}" for _ in range(n)]
valor_investido = [np.random.uniform(500, 3500) for _ in range(n)]
retorno = [np.random.uniform(2000, 5000) for _ in range(n)]
transferencias = [np.random.randint(50, 150) for _ in range(n)]
matriz = np.c_[valor_investido, retorno, transferencias]
colum = "Valor investido ($R), Retorno ($R), Transferencias".split(", ")
#-----------------------------------------------------------------------
# Criação do DataFrame
data_frame_groupby = pd.DataFrame(data=matriz, columns=colum )
data_frame_groupby["Lucro ($)"] = data_frame_groupby["Retorno ($R)"] - data_frame_groupby["Valor investido ($R)"]
data_frame_groupby["Empresas"] = empresas
data_frame_groupby

Unnamed: 0,Valor investido ($R),Retorno ($R),Transferencias,Lucro ($),Empresas
0,2395.146139,2267.914842,147.0,-127.231297,Empresa 9
1,573.809911,4686.133772,138.0,4112.323860,Empresa 25
2,1595.693889,2063.509230,66.0,467.815341,Empresa 4
3,950.708543,3344.221121,114.0,2393.512577,Empresa 40
4,1867.941222,3312.663318,116.0,1444.722095,Empresa 24
...,...,...,...,...,...
1495,2485.341177,2692.370879,62.0,207.029702,Empresa 15
1496,840.284504,2700.582463,93.0,1860.297958,Empresa 37
1497,2250.217715,4771.450109,73.0,2521.232394,Empresa 46
1498,2396.891151,4391.564187,98.0,1994.673036,Empresa 15


In [151]:
# Para entender o conceito de Groupby, vamos agrupar os dados por empresas
dfgroupby = data_frame_groupby.groupby(by="Empresas")

In [154]:
# podemos aplicar uma serie de funções sobre o objeto que acabamos de criar
dfgroupby.mean()

Unnamed: 0_level_0,Valor investido ($R),Retorno ($R),Transferencias,Lucro ($)
Empresas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1. Empresa,1664.379181,3423.575079,92.466667,1759.195898
10. Empresa,2140.719171,3190.92619,100.814815,1050.207019
11. Empresa,2116.869748,3347.678176,90.678571,1230.808427
12. Empresa,1862.925647,3958.43734,91.086957,2095.511693
13. Empresa,1900.576222,3431.103574,94.969697,1530.527352
14. Empresa,1898.0608,3647.238621,88.678571,1749.177821
15. Empresa,2111.297602,3452.572584,89.243243,1341.274982
16. Empresa,1957.131902,3351.89795,92.0,1394.766049
17. Empresa,1978.60563,3462.21856,106.028571,1483.61293
18. Empresa,1934.803192,3371.061402,97.833333,1436.25821


In [165]:
# Podemo ir além e obter mais informação
dfgroupby.aggregate({"Lucro ($)": [min, max, np.mean, np.std],
                     "Retorno ($R)": [min, max, np.mean],
                     "Transferencias": [min, max]})

Unnamed: 0_level_0,Lucro ($),Lucro ($),Lucro ($),Lucro ($),Retorno ($R),Retorno ($R),Retorno ($R),Transferencias,Transferencias
Unnamed: 0_level_1,min,max,mean,std,min,max,mean,min,max
Empresas,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1. Empresa,-1029.43108,3822.284944,1759.195898,1037.584319,2149.619527,4947.407586,3423.575079,50.0,146.0
10. Empresa,-1030.44327,3453.502875,1050.207019,1148.871827,2087.910491,4851.489657,3190.92619,57.0,149.0
11. Empresa,-705.66245,3519.87256,1230.808427,1182.481833,2030.177115,4657.737047,3347.678176,52.0,145.0
12. Empresa,-714.737098,4381.339656,2095.511693,1404.498163,2141.494135,4996.272864,3958.43734,50.0,146.0
13. Empresa,-1148.533275,3866.567488,1530.527352,1247.353711,2023.691796,4924.526302,3431.103574,53.0,142.0
14. Empresa,263.865646,3536.995386,1749.177821,1140.728316,2155.36378,4896.790511,3647.238621,52.0,135.0
15. Empresa,-728.587438,3619.623496,1341.274982,1016.592325,2092.543773,4989.06957,3452.572584,55.0,139.0
16. Empresa,-548.48208,3854.690724,1394.766049,1141.358305,2048.649844,4985.187002,3351.89795,50.0,148.0
17. Empresa,-1240.827497,3706.601038,1483.61293,1365.839768,2062.882442,4913.065603,3462.21856,56.0,149.0
18. Empresa,-1139.793413,3898.052797,1436.25821,1392.141829,2041.851256,4963.369466,3371.061402,50.0,149.0


In [199]:
# Exemplo com dados de lingaugems de programação
df_ling = pd.read_csv("./Dados/programming_languages.csv")
df_ling

Unnamed: 0,year,language
0,1951,Regional Assembly Language
1,1952,Autocode
2,1954,IPL
3,1955,FLOW-MATIC
4,1957,FORTRAN
...,...,...
68,2011,Kotlin
69,2011,Red
70,2011,Elixir
71,2012,Julia


In [174]:
df_lig_grop = df_ling.groupby(by="year")

In [201]:
# Obtendo um dataframe com as linguagens criadas em cada
df_lig_grop["language"].apply(','.join)

year
1951                 Regional Assembly Language
1952                                   Autocode
1954                                        IPL
1955                                 FLOW-MATIC
1957                            FORTRAN,COMTRAN
1958                              LISP,ALGOL 58
1959                             FACT,COBOL,RPG
1962                          APL,Simula,SNOBOL
1963                                        CPL
1964                       Speakeasy,BASIC,PL/I
1966                                       JOSS
1967                                       BCPL
1968                                       Logo
1969                                          B
1970                               Pascal,Forth
1972                         C,Smalltalk,Prolog
1973                                         ML
1975                                     Scheme
1978                                       SQL 
1980                                       C++ 
1983                               

In [208]:
# Obtendo um dataframe com as linguagens criadas em cada
df_lig_grop["language"].apply(len)

year
1951    1
1952    1
1954    1
1955    1
1957    2
1958    2
1959    3
1962    3
1963    1
1964    3
1966    1
1967    1
1968    1
1969    1
1970    2
1972    3
1973    1
1975    1
1978    1
1980    1
1983    1
1984    3
1985    1
1986    3
1987    1
1988    2
1989    1
1990    1
1991    2
1993    2
1994    1
1995    6
1997    1
2000    1
2001    2
2002    1
2003    2
2005    1
2006    1
2007    1
2009    1
2010    1
2011    4
2012    1
2014    1
Name: language, dtype: int64