# Aula 12. Pandas

Pandas é uma das bibliotecas mais utilizadas em Python para manipulação e análise de dados. Esta biblioteca é de código aberto, escrita em Numpy e oferece estruturas e operações para manipulação de tabelas numéricas e séries temporais.

Os principais destaques são:
- Possui dois tipos de objetos `pandas.core.frame.DataFrame` e `pandas.core.series.Series` com indexação integrada;
- Facilita a leitura, escrita e modificação de arquivos com diferentes formatos, entre os quais se destaca .csv, .txt, .xlsx, SQL, HDF5 (Hierarchical Data Format version 5) dentre outros;
- Permite tabelas com diferentes tamanho de columnas;
- Permite agrupamento de dados por categorias;
- Permite mesclagem e junção de conjuntos de dados de alto desempenho;
- Altamente otimizado com códigos escritos em Cython e C.
- Pandas é amplamente utilizado em ambientes acadêmicos e comerciais, incluindo finanças, neurociência, economia, estatística, publicidade, análise da web e muito mais.
---
Os tópicos que vamos abordar nesta série de conversar são
- Instalação de pandas
- Series;
- criação de DataFrame e manipulação;
- Operadores de comparação e seleção condicional;
- Dados ausentes
- GroupBy
- concatenação
- Operação
- Importando e exportando dados.
- Aplicação
---
Recomento visitar o site oficial do projeto [Pandas](https://pandas.pydata.org/) para conhecer mais um pouco.

## Intalação do pandas

Para instalar pandas no nosso computador podemos utilizar o condas ou o pip.
```python
conda install pandas
pip install pandas
```

## importando pandas e numpy

In [3]:
import pandas as pd
import numpy as np

## Series
O concentio principal de uma [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) em pandas em trabalhar com vetores a partir do indice.
```python
 pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [36]:
valores  = np.random.randn(1, 10).reshape(10,)
index_row = "A B C D E F G H I J".split(" ")
d = {key: value for key, value in zip(index_row, valores)}

In [37]:
# Criando uma Series passando somente os data
pd.Series(valores)

0   -0.444453
1    1.526434
2   -0.763587
3    2.332262
4   -1.264820
5    0.435403
6    0.668330
7    1.557034
8   -0.092736
9    0.008358
dtype: float64

In [38]:
# Criando uma Series passando somente os data e index
pd.Series(data=valores, index=index_row)

A   -0.444453
B    1.526434
C   -0.763587
D    2.332262
E   -1.264820
F    0.435403
G    0.668330
H    1.557034
I   -0.092736
J    0.008358
dtype: float64

In [39]:
# Observemos que pomodes criar uma Series passando qualquer tipo de dados
pd.Series(index=valores, data=index_row)

-0.444453    A
 1.526434    B
-0.763587    C
 2.332262    D
-1.264820    E
 0.435403    F
 0.668330    G
 1.557034    H
-0.092736    I
 0.008358    J
dtype: object

In [41]:
# Observemos que uma Series se comporta muito semelhante ao dicionário dado que ela trabalhar com chave: valor,
# portanto podemos criar uma Seires passando um dicionário
pd.Series(d)

A   -0.444453
B    1.526434
C   -0.763587
D    2.332262
E   -1.264820
F    0.435403
G    0.668330
H    1.557034
I   -0.092736
J    0.008358
dtype: float64

Mas qual é a vantagem de utilizar uma Series em relação arrays?

In [45]:
series_1 = pd.Series(data=[5, 10, 20, 30, 8], index="A B C D J".split(" "))
series_2 = pd.Series(data=[20, 15, 15, 5, 25], index="A B K D C".split(" "))
print(series_1)
print(series_2)
print(series_1 + series_2)

A     5
B    10
C    20
D    30
J     8
dtype: int64
A    20
B    15
K    15
D     5
C    25
dtype: int64
A    25.0
B    25.0
C    45.0
D    35.0
J     NaN
K     NaN
dtype: float64


## DataFrame e manipulação
O objeto principal de Pandas é o [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), este objeto se aproxima ao que conhecemos como planilha de excell (somente em aparência). Para definir um DataFrame utilizamos a seguinte função:
```python
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```
Neste caso os argumentos mais relevantes são `data`, `index` e `columns`, porém o único argumento obrigatório é o `data`.

### Criação de DataFrame

In [104]:
data = np.arange(1, 17).reshape((4,4))
index = "Row_1 Row_2 Row_3 Row_4".split(" ")
col = "Col_1 Col_2 Col_3 Col_4".split(" ")

In [105]:
# Definindo um DataFrame passando data
pd.DataFrame(data)

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [55]:
# Definindo um DataFrame passando data e index
pd.DataFrame(data, index)

Unnamed: 0,0,1,2,3
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


In [106]:
# Definindo um DataFrame passando todos data, index e columns
data_frame = pd.DataFrame(data, index, col)
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


### Extraindo informação por colunas. *CUIDADO COM NOTAÇÃO SQL*

In [60]:
# Extraindo informação da columna Col_4
data_frame["Col_4"]

Row_1     4
Row_2     8
Row_3    12
Row_4    16
Name: Col_4, dtype: int64

In [61]:
# Podemos utilizar a notação de ponto e o nome da columna, porém esta forma não é recomendada
data_frame.Col_3

Row_1     3
Row_2     7
Row_3    11
Row_4    15
Name: Col_3, dtype: int64

### Extraindo utilizando função loc

In [62]:
# Podemos utilizar a função loc para extrair informação utilizando o índice da fila e o nome da coluna
data_frame.loc["Row_1", "Col_1"]

1

In [64]:
# Para extrair difernetes colunas ou fila passamos uma lista com os nomes das colunas e filas
data_frame.loc[["Row_1", "Row_4"], ["Col_1", "Col_4"]]

Unnamed: 0,Col_1,Col_4
Row_1,1,4
Row_4,13,16


In [65]:
# Também podemos utilizar a função loc para extrair filas
data_frame.loc["Row_3"]

Col_1     9
Col_2    10
Col_3    11
Col_4    12
Name: Row_3, dtype: int64

### Extraindo utilizando função iloc
Existe outra forma de extrair os valores de um DataFrame utilizando a notação aprendida em Numpy, para isso utilizamos a função `iloc[índice_fila, índice_coluna]`

In [70]:
data_frame.iloc[0, 0]

1

In [74]:
data_frame.iloc[ [0, -1], [0, -1]]

Unnamed: 0,Col_1,Col_4
Row_1,1,4
Row_4,13,16


In [77]:
data_frame.iloc[2]

Col_1     9
Col_2    10
Col_3    11
Col_4    12
Name: Row_3, dtype: int64

In [76]:
data_frame.iloc[2:]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_3,9,10,11,12
Row_4,13,14,15,16


### Adicionando novas colunas

In [95]:
data_frame["Col_nova"] = data_frame.iloc[:, -1] + data_frame.iloc[:, 0]
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_nova
Row_1,1,2,3,4,6
Row_2,5,6,7,8,18
Row_3,9,10,11,12,30
Row_4,13,14,15,16,42


In [82]:
data_frame["Col_nova_2"]  = 2
data_frame

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_nova,Col_nova_2
Row_1,1,2,3,4,6,2
Row_2,5,6,7,8,18,2
Row_3,9,10,11,12,30,2
Row_4,13,14,15,16,42,2


### Adicionando novas filas (função append)
Para adicionar uma nova fila utilizamos a função [append()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html), essa função adiciona uma nova (ou novas) fila(s) no final do DataFrame. A sintaxe utilizada para isso é:
```python
DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)
```

In [122]:
data_frame2 = pd.DataFrame([[1,2,3,4]], columns=col)
data_frame.append(data_frame2)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16
0,1,2,3,4


In [123]:
data_frame.append(data_frame*10)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16
Row_1,10,20,30,40
Row_2,50,60,70,80
Row_3,90,100,110,120
Row_4,130,140,150,160


### Eliminando colunas ou filas
Para eliminar colunas ou filas de um DataFrame utilizamos a função [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html). Neste caso se deve passar o indice da fila que será eliminada ou o label da coluna. Além disso, deve-se especificar o `axis` o qual é 0 para filas e 1 para columnas. A sintaxe utilizada é:

```python
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```

In [126]:
# Eliminando a primeira fila
data_frame.drop("Row_1", axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


In [132]:
# Eliminando varias filas 
data_frame.drop(["Row_1", "Row_3"], axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_2,5,6,7,8
Row_4,13,14,15,16


In [133]:
# Eliminando a primeira coluna
data_frame.drop("Col_1", axis=1)

Unnamed: 0,Col_2,Col_3,Col_4
Row_1,2,3,4
Row_2,6,7,8
Row_3,10,11,12
Row_4,14,15,16


In [134]:
# Eliminando a varias colunas coluna
data_frame.drop(["Col_1", "Col_4"], axis=1)

Unnamed: 0,Col_2,Col_3
Row_1,2,3
Row_2,6,7
Row_3,10,11
Row_4,14,15


In [135]:
data_frame
# é interessante o fato de não modificar o data_frame original?

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,1,2,3,4
Row_2,5,6,7,8
Row_3,9,10,11,12
Row_4,13,14,15,16


## Operadores de comparação e seleção condicional
Da mesma forma que é possível aplicar operadores de comparação em arrays, com pandas podemos aplicar os mesmos operadores.

In [6]:
np.random.seed(100)
data2 = np.random.randint(-10, 10, (5,5))
col2 = [f"Col_{i}" for i in range(1, 6)]
row2 = [f"Row_{i}" for i in range(1, 6)]
data_frame2 = pd.DataFrame(data2, row2, col2)
data_frame2 

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4
Row_3,-8,7,6,5,-6
Row_4,1,6,-1,-8,2
Row_5,-6,-9,3,9,-6


In [7]:
data_frame2 > 0

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,False,False,False,True,True
Row_2,False,False,False,False,True
Row_3,False,True,True,True,False
Row_4,True,True,False,False,True
Row_5,False,False,True,True,False


In [8]:
# Podemos atribuir esse teste de comparação a uma variável e utiliza-o para realizar seleção
comp = data_frame2 > 0
data_frame2[comp] 
data_frame2[data_frame2 > 0] 

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,,,,5.0,6.0
Row_2,,,,,4.0
Row_3,,7.0,6.0,5.0,
Row_4,1.0,6.0,,,2.0
Row_5,,,3.0,9.0,


In [189]:
# Aplicando uma comparação numa serie
comp = data_frame2["Col_5"] > 0
data_frame2[comp]["Col_1"]

Row_1   -4
Row_2    9
Row_4   -9
Row_5    4
Name: Col_1, dtype: int64

In [11]:
# Aplicando comparaões multiplas
comp1 = data_frame2["Col_5"] >= 2 #(Row_2 e Row_4)
comp2 = data_frame2["Col_3"] < -1 # (Row_1, Row_2, Row_4)
data_frame2[comp2 & comp1]


Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4


In [12]:
# As tres lianteriores são equivalentes a:
data_frame2[(data_frame2["Col_5"] >= 2) & (data_frame2["Col_3"] < -1)]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4


In [9]:
data_frame2

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5
Row_1,-2,-7,-3,5,6
Row_2,0,-8,-8,-8,4
Row_3,-8,7,6,5,-6
Row_4,1,6,-1,-8,2
Row_5,-6,-9,3,9,-6


## Dados ausentea
Quando trabalhamos com dados provenientes de fontes externas (como base de dados, dados de sensores, etc), pode acontecer que existam dados com valores "inapropriados" ou valores ausentes. Nesse caso a biblioteca Pandas ajuda a processar esses valores.

Cabe destacar que o conceito de dado "inapropriado" varia de cenário para cenário.

In [78]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(-10, 10, (n, n)).astype(object)
col2 = [f"Col_{i}" for i in range(1, n + 1)]
row2 = [f"Row_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_nan = pd.DataFrame(data2, row2, col2)
data_frame_nan

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,-7.0,,5.0,6.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,7.0,6.0,,-6.0,1.0,6.0,-1,-8.0,
Row_3,-6.0,-9.0,3.0,9.0,-6.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,,6.0,-8.0,,9.0,-8,4.0,7.0
Row_5,6.0,5.0,-3.0,3.0,,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,,3.0,0.0,,,8.0,-2,9.0,4.0
Row_7,-10.0,,2.0,0.0,,-4.0,,5,0.0,
Row_8,-7.0,,6.0,1.0,-6.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,,2.0,-9.0,-4.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,,-1.0,,6.0,-4.0,-5,,


### Dropna

Para excluir valores faltantes `NaN` utilizamos a função [`dropna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Os argumentos necessarios para esta função são:

```python
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

In [65]:
# Elimiando os valores NaN, observemos que o resultado é somente Row_3
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=0)

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_3,-6,-9,3,9,-6,-6,-7,-3,7,5


In [51]:
# Elimiando os valores NaN, observemos que o resultado é somente Row_3
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=0)

int

In [92]:
# Também podemos definir a quantidade de valores no Nan que vamos aceitar. Por tanto se queremos aceitar
# pelo menos um NaN devemos de passar `thresh=9`
data_frame_nan.dropna(axis=1,thresh=7)

Unnamed: 0,Col_1,Col_3,Col_4,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,,5.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,6.0,,1.0,6.0,-1,-8.0,
Row_3,-6.0,3.0,9.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,6.0,,9.0,-8,4.0,7.0
Row_5,6.0,-3.0,3.0,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,3.0,0.0,,8.0,-2,9.0,4.0
Row_7,-10.0,2.0,0.0,-4.0,,5,0.0,
Row_8,-7.0,6.0,1.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,2.0,-9.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,-1.0,6.0,-4.0,-5,,


In [94]:
# Observemos que a tabela original não foi modificada.
data_frame_nan

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,-7.0,,5.0,6.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,7.0,6.0,,-6.0,1.0,6.0,-1,-8.0,
Row_3,-6.0,-9.0,3.0,9.0,-6.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,,6.0,-8.0,,9.0,-8,4.0,7.0
Row_5,6.0,5.0,-3.0,3.0,,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,,3.0,0.0,,,8.0,-2,9.0,4.0
Row_7,-10.0,,2.0,0.0,,-4.0,,5,0.0,
Row_8,-7.0,,6.0,1.0,-6.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,,2.0,-9.0,-4.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,,-1.0,,6.0,-4.0,-5,,


In [98]:
# Se queremos modificar o arquivo original devemos passar `inplace=True`
data_frame_nan.dropna(axis=1,thresh=7, inplace=True)
data_frame_nan

Unnamed: 0,Col_1,Col_3,Col_4,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,,5.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,6.0,,1.0,6.0,-1,-8.0,
Row_3,-6.0,3.0,9.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,6.0,,9.0,-8,4.0,7.0
Row_5,6.0,-3.0,3.0,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,3.0,0.0,,8.0,-2,9.0,4.0
Row_7,-10.0,2.0,0.0,-4.0,,5,0.0,
Row_8,-7.0,6.0,1.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,2.0,-9.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,-1.0,6.0,-4.0,-5,,


### fillna
Outra forma de processar os dados faltantes é utilizando a função [`fillna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) a qual permite substituir o valor faltante por outro valor.
```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```

In [108]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(25, 37, (n, n)).astype(object)
col2 = [f"Day_{i}" for i in range(1, n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna

Unnamed: 0,Day_1,Day_2,Day_3,Day_4,Day_5,Day_6,Day_7,Day_8,Day_9,Day_10
Time_1,33.0,33.0,,32.0,32.0,25.0,35.0,29.0,,30.0
Time_2,27.0,27.0,27.0,26.0,,33.0,29.0,36.0,35.0,
Time_3,36.0,,,27.0,,29.0,26.0,30.0,28.0,29.0
Time_4,,36.0,36.0,28.0,32.0,,26.0,,32.0,
Time_5,25.0,,34.0,34.0,28.0,27.0,,36.0,33.0,
Time_6,,32.0,31.0,,25.0,33.0,27.0,30.0,35.0,26.0
Time_7,33.0,35.0,26.0,30.0,29.0,27.0,33.0,36.0,36.0,
Time_8,30.0,25.0,34.0,35.0,28.0,31.0,28.0,29.0,35.0,32.0
Time_9,,28.0,34.0,,29.0,,29.0,30.0,32.0,31.0
Time_10,31.0,,35.0,29.0,27.0,32.0,26.0,35.0,31.0,35.0


In [104]:
data_frame_fillna.fillna(value="VALOR ERRADO")

Unnamed: 0,Day_1,Day_2,Day_3,Day_4,Day_5,Day_6,Day_7,Day_8,Day_9,Day_10
Time_1,33,33,VALOR ERRADO,32,32,25,35,29,VALOR ERRADO,30
Time_2,27,27,27,26,VALOR ERRADO,33,29,36,35,VALOR ERRADO
Time_3,36,VALOR ERRADO,VALOR ERRADO,27,VALOR ERRADO,29,26,30,28,29
Time_4,VALOR ERRADO,36,36,28,32,VALOR ERRADO,26,VALOR ERRADO,32,VALOR ERRADO
Time_5,25,VALOR ERRADO,34,34,28,27,VALOR ERRADO,36,33,VALOR ERRADO
Time_6,VALOR ERRADO,32,31,VALOR ERRADO,25,33,27,30,35,26
Time_7,33,35,26,30,29,27,33,36,36,VALOR ERRADO
Time_8,30,25,34,35,28,31,28,29,35,32
Time_9,VALOR ERRADO,28,34,VALOR ERRADO,29,VALOR ERRADO,29,30,32,31
Time_10,31,VALOR ERRADO,35,29,27,32,26,35,31,35


In [162]:
# Caso queiramos preencher o valor faltante pelo valor anterior podemos realizar isso aplicando o `method="ffill"`
# Criando data frame com valores nan
np.random.seed(100)
n = 1440 # Equivalente a coleta de pontos cada 60 segundos por 24 h
r_n = 5
data2 = np.random.randint(27, 33, (n, r_n)).astype(object)
col2 = [f"Reactor_{i}" for i in range(1, r_n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(data2.shape[0]):
    for c in range(data2.shape[1]):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna.info()
data_frame_fillna.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 1440 entries, Time_1 to Time_1440
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Reactor_1  1094 non-null   object
 1   Reactor_2  1086 non-null   object
 2   Reactor_3  1096 non-null   object
 3   Reactor_4  1066 non-null   object
 4   Reactor_5  1079 non-null   object
dtypes: object(5)
memory usage: 67.5+ KB


Unnamed: 0,Reactor_1,Reactor_2,Reactor_3,Reactor_4,Reactor_5
count,1094,1086,1096,1066,1079
unique,6,6,6,6,6
top,30,29,28,27,29
freq,195,194,208,194,206


In [163]:
data_frame_fillna

Unnamed: 0,Reactor_1,Reactor_2,Reactor_3,Reactor_4,Reactor_5
Time_1,27,27,30,27,29
Time_2,31,29,32,29,
Time_3,29,,27,27,31
Time_4,,,29,27,30
Time_5,28,32,29,30,31
...,...,...,...,...,...
Time_1436,32,,,29,31
Time_1437,30,,32,32,28
Time_1438,29,30,29,31,31
Time_1439,,27,32,28,31


In [166]:
data_frame_fillna.fillna(method="ffill", inplace=True)

In [167]:
data_frame_fillna

Unnamed: 0,Reactor_1,Reactor_2,Reactor_3,Reactor_4,Reactor_5
Time_1,27,27,30,27,29
Time_2,31,29,32,29,29
Time_3,29,29,27,27,31
Time_4,29,29,29,27,30
Time_5,28,32,29,30,31
...,...,...,...,...,...
Time_1436,32,28,32,29,31
Time_1437,30,28,32,32,28
Time_1438,29,30,29,31,31
Time_1439,29,27,32,28,31


In [168]:
data_frame_fillna.info()
data_frame_fillna.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 1440 entries, Time_1 to Time_1440
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   Reactor_1  1440 non-null   int64
 1   Reactor_2  1440 non-null   int64
 2   Reactor_3  1440 non-null   int64
 3   Reactor_4  1440 non-null   int64
 4   Reactor_5  1440 non-null   int64
dtypes: int64(5)
memory usage: 67.5+ KB


Unnamed: 0,Reactor_1,Reactor_2,Reactor_3,Reactor_4,Reactor_5
count,1440.0,1440.0,1440.0,1440.0,1440.0
mean,29.471528,29.490972,29.554167,29.402778,29.5375
std,1.671997,1.666804,1.698991,1.690506,1.698623
min,27.0,27.0,27.0,27.0,27.0
25%,28.0,28.0,28.0,28.0,28.0
50%,29.0,29.0,29.5,29.0,30.0
75%,31.0,31.0,31.0,31.0,31.0
max,32.0,32.0,32.0,32.0,32.0
