![Codenation](https://forum.codenation.com.br/uploads/default/original/2X/2/2d2d2a9469f0171e7df2c4ee97f70c555e431e76.png)

__Autor__: Kazuki Yokoyama (kazuki.yokoyama@ufrgs.br)


# Pré-processamento de dados em Python

![pandas-logo](https://pandas.pydata.org/_static/pandas_logo.png)

* Manipulação de dados é uma das tarefas mais fundamentais para se fazer _data science_:
  * Não podemos extrair informações de dados através de nossos algoritmos se não pudermos manipular esses dados em primeiro lugar.
  * Precisamos de uma ferramenta robusta para usarmos durante a análise exploratória dos dados (EDA).
  * É extremamente interessante que essa ferramenta seja útil também nas fases posteriores como modelagem.
  * Também é importante que as demais ferramentas do ecossistema (modelagem, visualização etc) se integrem bem à ferramenta de manipulação de dados.
  
* Pandas é a resposta da comunidade para as premissas acima, tornando-se a biblioteca _de facto_ para manipular e explorar dados em Python.

* Ele é construído em cima do NumPy e adiciona duas novas estruturas de dados muito úteis: `Series` e `DataFrame`.
* A biblioteca também permite carregar dados a partir de fontes como arquivos CSV, JSON e até bancos de dados.
* Visualização de dados também é uma tarefa contemplada.

É sobre o pandas que vamos falar nesse módulo.

## Verificando a instalação do pandas

O nosso primeiro passo é verificar a instalação do pandas:

In [0]:
import pandas as pd # É convenção utilizar pd como alias para o pandas.

print(f"{pd.__version__} <- {'última versão!' if pd.__version__ == '0.24.2' else 'precisa atualizar :('}")

0.24.2 <- última versão!


Vamos importar o NumPy também:

In [0]:
import numpy as np # É convenção utiliar np como alias para o NumPy.

print(f"{np.__version__} <- {'também última versão! Obrigado, Collab!' if np.__version__ == '1.16.4' else 'precisa atualizar :('}")

1.16.4 <- também última versão! Obrigado, Collab!


E o scikit-learn (para carregar o data set _Iris_):

In [0]:
from sklearn.datasets import load_iris

## Pandas `Series`

A primeira estrutura de dados que vamos explorar do pandas é a `Series`. `Series` são basicamente arrays unidimensionais com índices para seus elementos.

In [0]:
# Criando uma Series a partir de uma lista.
series = pd.Series([1.0, 2, 3.5, 4.0])

series

0    1.0
1    2.0
2    3.5
3    4.0
dtype: float64

Repare como na `Series` criada a partir de uma lista acima, cada um dos elementos (1.0, 2.0, 3.5, 4.0) recebeu um índice (0, 1, 2, 3).

Ao contrário de uma lista em Python, uma `Series` deve ser homogênea quanto ao tipo de dado armazenado. Isso é consequência dessa estrutura de dados ser baseada nos arrays do NumPy, que também devem ser homogêneos.

 No caso acima, o tipo de dados armazenado foi `float64`.

Cada `Series` é composta por uma sequência de valores e de índices:

In [0]:
series.values

array([1. , 2. , 3.5, 4. ])

In [0]:
series.index

RangeIndex(start=0, stop=4, step=1)

Também podemos criar `Series` e ao mesmo tempo definir seus índices:

In [0]:
# Criando uma Series a partir de uma lista de elementos e uma lista de índices.
series = pd.Series([1.0, 2, 3.5, 4.0],
                     index=["Primeiro", "Segundo", "Terceiro", "Quarto"])

series

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
Quarto      4.0
dtype: float64

In [0]:
series["Terceiro"]

3.5

Também podemos criar `Series` a partir de dicionários onde as chaves são os índices e os valores os elementos. `Series` podem ser vistas como dicionários homogêneo, de performance melhorada em relação aos dicionários _builtin_ do Python.

In [0]:
# Criando uma Series a partir de um dicionário.
series = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0})

series

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
Quarto      4.0
dtype: float64

Quando fazendo _slicing_ de `Series` lembre-se de que, ao contrário do comum em Python, a operação considera as extremidades __inclusive__.

In [0]:
series["Primeiro":"Terceiro"]

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
dtype: float64

Outras formas de criar as `Series`:

* A partir de um único escalar que é repetido

In [0]:
print(pd.Series(2.5, index=['A', 'B', 'C']))

A    2.5
B    2.5
C    2.5
dtype: float64


 * A partir de um dicionário filtrado pela lista de índices:

In [0]:
print(pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0},
                index=["Segundo", "Terceiro"]))

Segundo     2.0
Terceiro    3.5
dtype: float64


## Pandas `DataFrame`

Nossa segunda estrutura de dados fundamental é o `DataFrame`. O `DataFrame` é análogo a um array bidimensional com linhas e colunas nomeadas.

Podemos pensar o `DataFrame` como um sequência de `Series` (cada coluna do `DataFrame` é uma `Series`).

A primeira forma de construir `DataFrame` que vamos ver é justamente essa: através de `Series`.

In [0]:
series1 = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0}) # Essa é a primeira coluna.
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 998.0, "Terceiro": 777.8, "Quarto": 1002.3}) # Segunda coluna.
                    
dataframe = pd.DataFrame({"Coluna1": series1, "Coluna2": series2}) # Criando o DataFrame a partir das duas Series.

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3


Podemos verificar o atributo `shape`, que retorna uma tupla contendo a quantidade de elementos em cada dimensão:

In [0]:
dataframe.shape

(4, 2)

Neste caso, temos que `dataframe` tem 4 linhas e 2 colunas, exatamente como o criamos.

Da mesma forma como podíamos acessar os índices de uma `Series`, também podemos acessar os índices relativos ao nosso `DataFrame`:

* Índices das linhas:

In [0]:
dataframe.index

Index(['Primeiro', 'Segundo', 'Terceiro', 'Quarto'], dtype='object')

* Índices das colunas, ou seja, os seus próprios nomes:

In [0]:
dataframe.columns

Index(['Coluna1', 'Coluna2'], dtype='object')

Acessar um único nome do `DataFrame` significa acessar a `Series` (coluna) correspondente:

In [0]:
dataframe["Coluna1"]

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
Quarto      4.0
Name: Coluna1, dtype: float64

É possível criar um `DataFrame` a partir de uma lista de dicionários. Cada dicionário da lista representa uma linha do `DataFrame`, onde cada chave do dicionário é o nome de uma coluna desse `DataFrame`.

In [0]:
dataframe = pd.DataFrame([
    {"Coluna1": 1.0, "Coluna2": 1001.2},
    {"Coluna1": 2.0, "Coluna2": 998.0},
    {"Coluna1": 3.5, "Coluna2": 777.8},
    {"Coluna1": 4.0, "Coluna2": 1002.3}
], index=["Primeiro", "Segundo", "Terceiro", "Quarto"])

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3


Se algum valor do dicionário estiver faltando, o pandas completa com `NaN`.

In [0]:
dataframe = pd.DataFrame([
    {"Coluna1": 1.0, "Coluna2": 1001.2},
    {"Coluna1": 2.0},                            # Faltando o valor da Coluna2.
    {"Coluna2": 777.8},                          # Faltando o valor da COluna1.
    {"Coluna1": 4.0, "Coluna2": 1002.3}
], index=["Primeiro", "Segundo", "Terceiro", "Quarto"])

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,
Terceiro,,777.8
Quarto,4.0,1002.3


Podemos criar um `DataFrame` a partir da sua interpretação de array multidimensional:

In [0]:
multidimensional_array = [
  [1.0, 1001.2],
  [2.0, 998.0],
  [3.5, 777.8],
  [4.0, 1002.3]
]

np_array = np.array(multidimensional_array)

In [0]:
dataframe = pd.DataFrame(
    multidimensional_array, # Ou np_array.
    index=["Primeiro", "Segundo", "Terceiro", "Quarto"],
    columns=["Coluna1", "Coluna2"]
)

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3


## Acessando `Series`

Vamos ver como acessar os campos das `Series`. Para isso, vamos utilizar nossa `Series` de exemplo:

In [0]:
series = pd.Series([1.0, 2, 3.5, 4.0],
                    index=["Primeiro", "Segundo", "Terceiro", "Quarto"])

series

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
Quarto      4.0
dtype: float64

Já vimos que podemos acessar os elementos através de seus índices:

In [0]:
series["Segundo"]

2.0

Mas também podemos acessar através de seus índices ímplicitos como em um array (iniciando a contagem sempre em zero):

In [0]:
series[1]

2.0

Podemos testar se um dado valor de índice encontra-se na `Series`:

In [0]:
"Segundo" in series

True

Além do acesso direto aos elementos, também podemos fazer a operação de _slicing_, ou seja, acessar uma "fatia" de elementos de uma única vez:

In [0]:
print(series["Segundo":"Terceiro"])

Segundo     2.0
Terceiro    3.5
dtype: float64


In [0]:
print(series[1:2])

Segundo    2.0
dtype: float64


Notem que, quando fazendo _slicing_ com os índices da `Series`, o limite superior será considerado __inclusive__. Quando fazendo _slicing_ com índices numéricos do Python, o limite superior será __exclusive__.

Assim como no NumPy, no pandas também podemos fazer algumas operações de acesso aos dados de `Series`:

* Máscara: uso de expressões lógicas para filtrar quais elementos devem ser retornados

In [0]:
series

Primeiro    1.0
Segundo     2.0
Terceiro    3.5
Quarto      4.0
dtype: float64

In [0]:
series > 3.4 ||

#series[(series > 3.4) | (series < 1.9)]

Primeiro     True
Segundo     False
Terceiro    False
Quarto      False
dtype: bool

Notem o uso de parênteses que obrigatórios para esse caso. Sem eles, a precedência seria de `3.4 | series`,  o que não faz sentido.

* _Fancy indexing_: permite acessar os elementos especificando exatamente quais índices devem ser retornados

In [0]:
series[["Segundo", "Quarto"]]

Segundo    2.0
Quarto     4.0
dtype: float64

## Acessando `DataFrame`

Agora veremos como acessar os elementos de um `DataFrame`. Para isso, vamos utilizar nosso `DataFrame` de exemplo.

In [0]:
series1 = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0}) # Essa é a primeira coluna.
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 998.0, "Terceiro": 777.8, "Quarto": 1002.3}) # Segunda coluna.
                    
dataframe = pd.DataFrame({"Coluna1": series1, "Coluna2": series2}) # Criando o DataFrame a partir das duas Series.

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3


Já vimos que podemos acessar colunas pelos seus nomes diretamente:

In [0]:
dataframe["Coluna2"]

Primeiro    1001.2
Segundo      998.0
Terceiro     777.8
Quarto      1002.3
Name: Coluna2, dtype: float64

Mas também podemos acessar essa mesma coluna como se fosse um atributo do objeto `dataframe`. Para isso, basta que o nome da coluna seja um nome de variável válido em Python (sem espaços, sem caracteres especiais etc) e não coincida com nome de um método (`add`, `mean` etc):

In [0]:
dataframe.Coluna2

Primeiro    1001.2
Segundo      998.0
Terceiro     777.8
Quarto      1002.3
Name: Coluna2, dtype: float64

Já vimos que o um `DataFrame` pode ser encarado como um array bidimensional. Vamos utilizar essa abordagem para acessar seus elementos:

In [0]:
dataframe.values

array([[1.0000e+00, 1.0012e+03],
       [2.0000e+00, 9.9800e+02],
       [3.5000e+00, 7.7780e+02],
       [4.0000e+00, 1.0023e+03]])

A transposta de uma matriz é resultado da troca de suas linhas por suas colunas:

In [0]:
dataframe.T # Transposta.

Unnamed: 0,Primeiro,Segundo,Terceiro,Quarto
Coluna1,1.0,2.0,3.5,4.0
Coluna2,1001.2,998.0,777.8,1002.3


**`iloc`** e **`loc`**

O pandas nos provê três métodos de acesso que funcionam tanto para `Series` quanto para `DataFrame`.

* __iloc__: acesso com os índices implícitos do Python (0, 1, 2 etc).
* __loc__: acesso com os índices próprios da `Series`/`DataFrame`.

Antes de seguir com exemplos, vamos aumentar nosso `dataframe`:

In [0]:
dataframe["Coluna3"] = dataframe["Coluna1"] + 2 * dataframe["Coluna2"] # col3 = col1 + 2 * col2.

dataframe["Coluna4"] = np.power(dataframe["Coluna1"], 2) + dataframe["Coluna3"] # col4 = col1**2 + col3.

dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,998.0,1998.0,2002.0
Terceiro,3.5,777.8,1559.1,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.loc["Primeiro":"Terceiro", "Coluna2":"Coluna4"] # Slicing nas linhas e nas colunas.

Unnamed: 0,Coluna2,Coluna3,Coluna4
Primeiro,1001.2,2003.4,2004.4
Segundo,998.0,1998.0,2002.0
Terceiro,777.8,1559.1,1571.35


In [0]:
dataframe.iloc[0:4, 1:5] # Slicing das mesmas linhas e colunas, mas com iloc.

Unnamed: 0,Coluna2,Coluna3,Coluna4
Primeiro,1001.2,2003.4,2004.4
Segundo,998.0,1998.0,2002.0
Terceiro,777.8,1559.1,1571.35
Quarto,1002.3,2008.6,2024.6


Com `loc` podemos combinar máscara, _fancy indexing_ e _slicing_:

In [0]:
# Combinando máscara e fancy indenxing.
dataframe.loc[dataframe.Coluna2 > 1000.0, ["Coluna2", "Coluna3"]]

Unnamed: 0,Coluna2,Coluna3
Primeiro,1001.2,2003.4
Quarto,1002.3,2008.6


__Algumas observações__:

É válido notar que:

* __Acesso direto__ (indexação) a um elemento, como em `dataframe["Coluna2"]`, acessa uma __coluna__.
* __*Slicing*__, como em `dataframe["Primeiro":"Segundo"]`, acessa __linhas__.
* __Máscara__, como em `dataframe[dataframe.Coluna2 > 1000.0]`, é sempre interpretado com relação às __linhas__.

Além disso, note que `dataframe.ColumnName` e `dataframe['ColumnName']` retornam `Series`, enquanto `dataframe[['ColumnName']]` retorna `DataFrame`.

## Explorando `DataFrame`

Aqui vamos ver algumas das funções básicas para manipular e explorar dados com o pandas. Para isso, vamos carregar um _data set_ mais completo:

In [0]:
iris_dataset = load_iris()

iris = pd.DataFrame(data=iris_dataset.data, columns=iris_dataset.feature_names)

O primeiro método, `head()`, nos dá um primeiro contato com o `DataFrame`, nos permitindo olhar as suas primeiras linhas:

In [0]:
iris.head(5) # Primeiras 5 linhas do data set.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


O oposto de `head()` é o método `tail()`, que nos permite investigar as últimas linhas do _data set_:

In [0]:
iris.tail(8) # Últimas 8 linhas do data set.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
142,5.8,2.7,5.1,1.9
143,6.8,3.2,5.9,2.3
144,6.7,3.3,5.7,2.5
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Ambos métodos `head()` e `tail()` retornam `DataFrame` de forma que podemos invocar qualquer método dessa classe normalmente no resultado.

O próximo método, `describe()`, nos dá uma visão geral das estatísticas como quantidade, média, variância e os quantis das variáveis (colunas) no _data set_:

In [0]:
iris.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


O método `info()` nos dá informações gerais sobre os índices e variáveis como quantidades, tipos de dados e memória usada pelo _data set_:

In [0]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB


Podemos também verificar os tipos de cada coluna através do atributo `dtype`:

In [0]:
iris.dtype

Além disso, é possível selecionar somente as colunas que são de determinado tipo com o método`select_dtypes()`:

In [0]:
iris.select_dtypes(["int64", "float64"]) # Retorna DataFrame.

## Operações sobre `DataFrame`

Podemos utilizar todas funções definidas no NumPy (as chamadas `ufunc`) com `Series` e `DataFrame` do pandas. Aqui, vamos nos concentrar nos `DataFrame`.

Como sempre, vamos começar recriando nosso dataframe de exemplo, mas agora a partir de quatro `Series`:

In [0]:
series1 = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0}) # Essa é a primeira coluna.
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 998.0, "Terceiro": 777.8, "Quarto": 1002.3}) # Segunda coluna.
series3 = series1 + 2 * series2 # Terceira coluna, mesma do exemplo anterior: col3 = col1 + 2 * col2.
series4 = np.power(series1, 2) + series3 # Quarta coluna, mesma do exemplo anterior também: col4 = col1**2 + col3.

dataframe = pd.DataFrame({"Coluna1": series1, "Coluna2": series2, "Coluna3": series3, "Coluna4": series4}) # Criando o DataFrame a partir das quatro Series.


dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,998.0,1998.0,2002.0
Terceiro,3.5,777.8,1559.1,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


A parte mais importante de trabalhar com operações sobre `DataFrame` é lembrar que o pandas realiza as todas operações mantendo o índice sempre em mente:

In [0]:
dataframe.loc[["Terceiro", "Segundo", "Quarto"], "Coluna1"] + dataframe.loc[["Quarto", "Terceiro"], "Coluna2"]

Quarto      1006.3
Segundo        NaN
Terceiro     781.3
dtype: float64

Desse exemplo, podemos observar algumas coisas:

* O pandas soube que devia somar a linha `Terceiro` com a linha `Terceiro` e a linha `Quarto` com a linha `Quarto`, independente da ordem em que essas linhas foram apresentadas no _fancy indexing_. Isso é o que chamamos de alinhamento dos índices.

* O pandas também soube realizar a operação mesmo quando uma das linhas estava faltante (a linha `Segundo` do segundo `DataFrame`). Como veremos adiante `2.0 + NaN = NaN`.

* Para acessar os `DataFrame` usando _fancy indexing_, utilizando o método `loc`.

O pandas também disponibiliza alguns métodos básicos que permitem dar valores _default_ em caso de dados faltantes. Por exemplo, poderíamos ter realizado a operação acima, preenchendo com 1000.0 em todos lugares onde o operando é `NaN`:

In [0]:
dataframe.loc[["Terceiro", "Segundo", "Quarto"], "Coluna1"].add(dataframe.loc[["Quarto", "Terceiro"], "Coluna2"], fill_value=1000.0)

Quarto      1006.3
Segundo     1002.0
Terceiro     781.3
dtype: float64

Podemos criar, remover e renomear colunas:

* Criando novas colunas:

In [0]:
dataframe["NovaColuna"] = np.random.rand(dataframe.shape[1])

dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4,NovaColuna
Primeiro,1.0,1001.2,2003.4,2004.4,0.2902
Segundo,2.0,998.0,1998.0,2002.0,0.087065
Terceiro,3.5,777.8,1559.1,1571.35,0.87224
Quarto,4.0,1002.3,2008.6,2024.6,0.320613


* Renomeando colunas:

In [0]:
dataframe.rename(columns={"NovaColuna": "OutraColuna"}, inplace=True)

dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4,OutraColuna
Primeiro,1.0,1001.2,2003.4,2004.4,0.2902
Segundo,2.0,998.0,1998.0,2002.0,0.087065
Terceiro,3.5,777.8,1559.1,1571.35,0.87224
Quarto,4.0,1002.3,2008.6,2024.6,0.320613


* Removendo colunas:

In [0]:
# Lembrando:
# 1. Algumas operações como drop() retornam um novo DataFrame e não modificam o original.
# 2. axis=1 significa ser relativo à coluna.
dataframe = dataframe.drop("OutraColuna", axis=1)

dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,998.0,1998.0,2002.0
Terceiro,3.5,777.8,1559.1,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


## Dados faltantes

Dados faltantes são uma realidade. Dificilmente trabalharemos com dados sempre 100% preenchidos, prontos para serem analisados.

Os dados podem não estar presentes por vários motivos: impossibilidade de coleta, problema na armazenagem, dados descartados, inexistência etc. Saber trabalhar com dados faltantes é portanto essencial no dia a dia de um cientista de dados.

O pandas considera tanto `None` - o valor nulo do Python - quanto `NaN` - adicionado pelo pandas - como representativos de dados faltantes.

Vamos começar falando do __`None`__.

Considerar o valor nulo do Python, `None`, como dado faltante é extremamente conveniente. É comum que utilizemos fontes de dados que nos entreguem dados faltantes como `None`, sem nenhum processamento prévio (ou sem transformar para `NaN`, como próximo assunto), como no caso de bancos de dados, entradas de usuário, dados enviados através de uma API etc.

As `Series` e `DataFrame` do pandas conseguem lidar com `None` simplesmente tratando-o como um `NaN`, com o efeito de ignorar o dado faltante:


In [0]:
pd.Series([1, 2, 3, None, 4]).sum() # 1 + 2 + 3 + 4 = 10.

10.0

In [0]:
pd.Series([1, 2, 3, None, 4]).mean() # (1 + 2 + 3 + 4) / 4 = 2.5.

2.5

No entanto, vale manter em mente que enquanto isso é verdade para o pandas, não é verdade para o NumPy. Qualquer estrutura do NumPy que possua `None` nos seus elementos não conseguirá realizar suas operações:

In [0]:
try:
  np.array([1, 2, 3, None, 4]).sum()
except TypeError as err:
  print(f"Exceção: \"TypeError: {err}\"")

Exceção: "TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'"


Isso se deve ao fato de que um `None` presente faz com que o `array` se torne do tipo `Object`:

In [0]:
np.array([1, 2, 3, None, 4]).dtype

dtype('O')

A dica é bastante simples: evite trabalhar com `None` sempre que possível. Converta-os para `NaN` ou preencha-os com algum valor numérico, se fizer sentido.

Agora vamos falar do __`NaN`__.

O tipo `NaN` (_Not A Number_) é um tipo de dado padronizado pela IEEE para representar valores em ponto flutuante (_floating point_, ou os clássicos "números reais" representados pelas máquinas) faltantes.

O NumPy já apresenta essa noção:

In [0]:
np.nan

nan

O `NaN` no NumPy porém tem seu inconveniente: tudo que ele toca se torna `NaN` também.

Por exemplo:

In [0]:
print(1 + np.nan)

print(np.array([1, 2, 3, np.nan, 4]).sum())

print(np.array([1, 2, 3, np.nan, 4]).mean())

print("...Batman!")

nan
nan
nan
...Batman!


Como já vimos, o pandas consegue lidar melhor com ele, simplesmente ignorando-o.

No pandas, os valores `None` e `NaN` são praticamente a mesma coisa. Sempre que possível, o pandas converte o tipo da estrutura de dados de um para o outro para acomodar o tipo mais genérico possível. Por exemplo:

In [0]:
print(pd.Series([1, 2, 3, None, 4]).dtype) # None -> NaN e int -> float64.

print(pd.Series([1, 2, 3, np.nan, 4]).dtype) # int -> float64.

print(pd.Series([True, False, np.nan]).dtype) # Tudo se torna Object.

float64
float64
object


Trabalhar com dados faltantes é facilitado pela presença de alguns métodos especializados: `isnull()`, `notnull()`, `dropna()` e `fillna()`.

* `isnull()` (ou `isna()`) é útil para gerar uma máscara (sequência com valores booleanos) que pode ser usada para filtrar valores:

In [0]:
pd.Series([1, 2, 3, np.nan, 4, None]).isnull() # True se for NaN ou None, False caso contrário.

0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool

* `notnull()` (ou `notna()`) é o contrário de `isnull()` (ou `isna()`):

In [0]:
pd.Series([1, 2, 3, np.nan, 4, None]).notnull() # True se não for NaN ou None, False caso contrário.

0     True
1     True
2     True
3    False
4     True
5    False
dtype: bool

* `dropna()` retorna uma versão sem `NaN`:

In [0]:
pd.Series([1, 2, 3, np.nan, 4, None]).dropna()

0    1.0
1    2.0
2    3.0
4    4.0
dtype: float64

* `fillna()` nos permite preencher os valores `NaN` ou `None` com algum determinado valor:

In [0]:
pd.Series([1, 2, 3, np.nan, 4, None]).fillna(1000.0)

0       1.0
1       2.0
2       3.0
3    1000.0
4       4.0
5    1000.0
dtype: float64

No caso de `DataFrame`, o `dropna()` permite especificar um eixo (_axis_):

In [0]:
series1 = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0}) # Essa é a primeira coluna.
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 998.2, "Terceiro": 777.8, "Quarto": 1002.3}) # Segunda coluna.
series3 = series1 + 2 * series2 # Terceira coluna, mesma do exemplo anterior: col3 = col1 + 2 * col2.
series4 = np.power(series1, 2) + series3 # Quarta coluna, mesma do exemplo anterior também: col4 = col1**2 + col3.

series2["Segundo"] = series3["Terceiro"] = series4["Segundo"] = np.nan

dataframe = pd.DataFrame({"Coluna1": series1, "Coluna2": series2, "Coluna3": series3, "Coluna4": series4}) # Criando o DataFrame a partir das quatro Series.


dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,,1998.4,
Terceiro,3.5,777.8,,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.dropna() # Remove todas linhas com NaN (mesmo que axis=0 abaixo).

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.dropna(axis=0) # 0 significa linhas. Poderia ser axis='rows'.

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.dropna(axis=1) # 1 significa colunas. Poderia ser axis='columns'

Unnamed: 0,Coluna1
Primeiro,1.0
Segundo,2.0
Terceiro,3.5
Quarto,4.0


In [0]:
dataframe.fillna(1000.0) # Substitui todos NaN por 1000.0.

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,1000.0,1998.4,1000.0
Terceiro,3.5,777.8,1000.0,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.fillna(method='ffill') # Substitui o NaN pelo último valor não NaN naquela coluna.

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,1001.2,1998.4,2004.4
Terceiro,3.5,777.8,1998.4,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


In [0]:
dataframe.fillna(method='bfill') # Substitui o NaN pelo próximo valor não NaN naquela coluna.

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,777.8,1998.4,1571.35
Terceiro,3.5,777.8,2008.6,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


Observem que essas operações acima não são _inplace_, ou seja, elas não modificam o `DataFrame` original, apenas retornam uma nova estrutura (`Series` ou `DataFrame`).

Se quisermos substituir a segunda coluna de `dataframe` por sua versão onde os `NaN` são preenchidos pela média dos demais elementos da coluna, podemos executar o que segue:

In [0]:
dataframe["Coluna2"] = dataframe["Coluna2"].fillna(dataframe["Coluna2"].mean())

dataframe

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,927.1,1998.4,
Terceiro,3.5,777.8,,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


## Unindo `DataFrame`

Uma operação bastane cotidiana é unir diferentes fontes de dados para realizar uma análise. Para fazermos isso, vamos estudar três funções bastante importantes do pandas: `concat()` e `append()`. Outras duas funções também muito importantes, `merge()` e `join()`, não serão vistas aqui.

A função `concat()` tem a responsabilidade de unir dois `DataFrame`, resultando em um único `DataFrame` de saída:

In [0]:
# dataframe1 é formado pelas duas primeiras colunas de dataframe do nosso exemplo anterior.
series1 = pd.Series({"Primeiro": 1.0, "Segundo": 2, "Terceiro": 3.5, "Quarto": 4.0})
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 998.0, "Terceiro": 777.8, "Quarto": 1002.3})

dataframe1 = pd.DataFrame({"Coluna1": series1, "Coluna2": series2}) # Criando o DataFrame a partir das duas Series.

dataframe1

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3


In [0]:
# dataframe2 é formado pelas duas últimas colunas de dataframe do nosso exemplo anterior.
series3 = series1 + 2 * series2
series4 = np.power(series1, 2) + series3

dataframe2 = pd.DataFrame({"Coluna3": series3, "Coluna4": series4})

dataframe2

Unnamed: 0,Coluna3,Coluna4
Primeiro,2003.4,2004.4
Segundo,1998.0,2002.0
Terceiro,1559.1,1571.35
Quarto,2008.6,2024.6


In [0]:
pd.concat([dataframe1, dataframe2], axis=1)

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Primeiro,1.0,1001.2,2003.4,2004.4
Segundo,2.0,998.0,1998.0,2002.0
Terceiro,3.5,777.8,1559.1,1571.35
Quarto,4.0,1002.3,2008.6,2024.6


Por _default_, `concat()` tenta fazer a concatenação na direção das linhas, mas para isso precisa que as colunas estejam alinhadas (tenham o mesmo nome):

In [0]:
dataframe2.columns = ["Coluna1", "Coluna2"]

dataframe2

Unnamed: 0,Coluna1,Coluna2
Primeiro,2003.4,2004.4
Segundo,1998.0,2002.0
Terceiro,1559.1,1571.35
Quarto,2008.6,2024.6


In [0]:
pd.concat([dataframe1, dataframe2]) # Mesmo que axis=0.

Unnamed: 0,Coluna1,Coluna2
Primeiro,1.0,1001.2
Segundo,2.0,998.0
Terceiro,3.5,777.8
Quarto,4.0,1002.3
Primeiro,2003.4,2004.4
Segundo,1998.0,2002.0
Terceiro,1559.1,1571.35
Quarto,2008.6,2024.6


Note como os índices da concatenação acima aparecem repetidos. Isso acontece porque por _default_ o `concat()` força a concatenação, não importando os índices. Isso pode ser evitado com a _flag_ `verify_integrity`. Quando ela está setada para `True`, o `concat()` se recusa a fazer a concatenação e levanta uma exceção `ValueError`:

In [0]:
try:
  pd.concat([dataframe1, dataframe2], verify_integrity=True)
except ValueError as err:
  print(f"Exceção: \"ValueError: {err}\"")

Exceção: "ValueError: Indexes have overlapping values: Index(['Primeiro', 'Segundo', 'Terceiro', 'Quarto'], dtype='object')"


Podemos adicionar a _flag_ `ignore_index` para fazer com que o `concat()` gere novos índices em caso de índices repetidos:

In [0]:
pd.concat([dataframe1, dataframe2], ignore_index=True)

Unnamed: 0,Coluna1,Coluna2
0,1.0,1001.2
1,2.0,998.0
2,3.5,777.8
3,4.0,1002.3
4,2003.4,2004.4
5,1998.0,2002.0
6,1559.1,1571.35
7,2008.6,2024.6


O mesmo trabalho da função `concat()` pode ser obtido com o método `append` do `DataFrame`:

In [0]:
dataframe1.append(dataframe2, ignore_index=True)

Unnamed: 0,Coluna1,Coluna2
0,1.0,1001.2
1,2.0,998.0
2,3.5,777.8
3,4.0,1002.3
4,2003.4,2004.4
5,1998.0,2002.0
6,1559.1,1571.35
7,2008.6,2024.6


Importante notar que o método `append()` retorna uma nova cópia do resultado da concatenação. Isso faz com que ele não seja exatamente eficiente ou rápido. Em caso de múltiplas concatenações (múltiplos `DataFrame`), prefira utilizar a função `concat()`.

## Processamento com `groupby()`

É comum precisarmos fazer processamentos em dados que devem ser agrupados segundo algum critério. Por exemplo, considere o `DataFrame` abaixo:

In [0]:
courses = pd.Series(["math", "bio", "bio", "math"])
names = pd.Series(["João", "Maria", "Renato", "Camila"])
ages = pd.Series([20, 32, 45, 22])
heights = pd.Series([170, 167, 165, 172])

students = pd.DataFrame({"course": courses, "names": names, "ages": ages, "heights": heights})

students

Unnamed: 0,course,names,ages,heights
0,math,João,20,170
1,bio,Maria,32,167
2,bio,Renato,45,165
3,math,Camila,22,172


Já vimos que podemos tirar diversas estatísticas a partir de dados como esses:

In [0]:
print(f"soma das idades: {students['ages'].sum()}") # Ou students.ages.sum().

print(f"Média das alturas: {students['heights'].mean()}") # students.heights.mean(). 

soma das idades: 119
Média das alturas: 168.5


Mas e se precisarmos achar a soma das idades dos alunos de cada curso? Ou a média das alturas dos alunos de cada curso? Entra em cena o `groupby()`.

O método `groupby(key)` do `DataFrame` cria um novo objeto (da classe `DataFrameGroupBy`) que funciona como uma coleção de `DataFrame` onde os elementos estão agrupados por uma determinada `key`.

In [0]:
students_grouped = students.groupby("course")

students_grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f4ec8aaf160>

Vamos ver isso mais de perto:

In [0]:
for course, dataframe in students.groupby("course"):
  print(f"Curso: {course}\n")
  print(dataframe)
  print()

Curso: bio

  course   names  ages  heights
1    bio   Maria    32      167
2    bio  Renato    45      165

Curso: math

  course   names  ages  heights
0   math    João    20      170
3   math  Camila    22      172



A partir desse objeto, podemos descobrir quaisquer estatísticas dentro de cada grupo:

In [0]:
print(f"Soma das idades em cada curso:")
print(students_grouped['ages'].sum())

Soma das idades em cada curso:
course
bio     77
math    42
Name: ages, dtype: int64


In [0]:
print(f"Média das alturas em cada curso:")
print(students_grouped['heights'].mean())

Média das alturas em cada curso:
course
bio     166
math    171
Name: heights, dtype: int64


Existem algumas funções úteis para trabalhar com `groupby()`: `aggregate()`, `transform` e `apply()` são algumas das principais. Aqui focaremos na `apply()`, mas saiba que existem outras.

O método `apply()` é bastante flexível e permite que você passe uma função (pode ser um `lambda`) para ser executada nas linhas ou colunas da coleção de  `DataFrame` do agrupamento. Essa função deve receber um `DataFrame` e retornar uma `Series`, `DataFrame` ou escalar.

Por exemplo, podemos calcular a média das alturas executando:

In [0]:
students_grouped.apply(lambda df: df["heights"].mean())

course
bio     166.0
math    171.0
dtype: float64

E a soma das idades em cada curso com:

In [0]:
students_grouped.apply(lambda df: df["ages"].sum())

course
bio     77
math    42
dtype: int64

## Utilizando `value_counts()` e `crosstab()`

Duas funções muito úteis quando estamos fazendo EDA no nosso _data set_ são a `value_counts()` e a `crosstab()`.

A `value_counts()` retorna a contagem de valores únicos em uma `Series` (por exemplo, uma coluna), enquanto a `crosstab()`, no seu caso mais simples, retorna uma matriz de frequência das variáveis envolvidas.

Vamos ver na prática com nosso _data set_ de exemplo:

In [0]:
series1 = pd.Series({"Primeiro": "A", "Segundo": "B", "Terceiro": "A", "Quarto": "C"})
series2 = pd.Series({"Primeiro": 1001.2, "Segundo": 1001.2, "Terceiro": 1001.2, "Quarto": 1002.3})

dataframe = pd.DataFrame({"Coluna1": series1, "Coluna2": series2}) # Criando o DataFrame a partir das duas Series.

dataframe

Unnamed: 0,Coluna1,Coluna2
Primeiro,A,1001.2
Segundo,B,1001.2
Terceiro,A,1001.2
Quarto,C,1002.3


In [0]:
dataframe["Coluna1"].value_counts()

A    2
B    1
C    1
Name: Coluna1, dtype: int64

In [0]:
dataframe["Coluna2"].value_counts()

1001.2    3
1002.3    1
Name: Coluna2, dtype: int64

A função `crosstab()` recebe duas variáveis (por exemplo, duas `Series`) e retorna a matriz de frequência entre elas:

In [0]:
pd.crosstab(dataframe.Coluna1, dataframe.Coluna2)

Coluna2,1001.2,1002.3
Coluna1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2,0
B,1,0
C,0,1


## Manipulando arquivos

O pandas também possui funções para leitura e escrita de arquivos de dados como CSV, JSON e até a partir de bancos de dados. A vantagem de usar essas funções e não aquelas disponíveis já no Python é que elas já carregam os dados para `DataFrame` e permitem um maior controle sobre os parâmetros de leitura/escrita.

Vamos ver como isso funciona.

> __Os exemplos a seguir consideram que existem os arquivos `data.csv` e `data.json` no mesmo diretório deste _notebook___.

**Funções auxiliares para os exemplos**:

In [0]:
def generate_csv():
  """Gera um arquivo JSON com 10 linhas e 10 colunas de valores randômicos
  entre 0 e 1, inclusive.
  """
  np.random.seed(42)
  
  pd.DataFrame({"Coluna"+str(i): np.random.rand(10) for i in np.arange(1, 11)})
    .round(3)
    .to_csv("data.csv", index=False)


generate_csv()

In [0]:
def generate_json():
  """Gera um arquivo JSON com 10 linhas e 10 colunas de valores randômicos
  entre 0 e 1, inclusive.
  """
  np.random.seed(42)

  pd.DataFrame({"Coluna"+str(i): np.random.rand(10) for i in np.arange(1, 11)})
    .round(3)
    .to_json("data.json")


generate_json()

Para leitura de arquivos CSV, utilizamos a função `read_csv()`:

In [0]:
data_from_csv = pd.read_csv("data.csv")

data_from_csv

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4,Coluna5,Coluna6,Coluna7,Coluna8,Coluna9,Coluna10
0,0.375,0.021,0.612,0.608,0.122,0.97,0.389,0.772,0.863,0.12
1,0.951,0.97,0.139,0.171,0.495,0.775,0.271,0.199,0.623,0.713
2,0.732,0.832,0.292,0.065,0.034,0.939,0.829,0.006,0.331,0.761
3,0.599,0.212,0.366,0.949,0.909,0.895,0.357,0.815,0.064,0.561
4,0.156,0.182,0.456,0.966,0.259,0.598,0.281,0.707,0.311,0.771
5,0.156,0.183,0.785,0.808,0.663,0.922,0.543,0.729,0.325,0.494
6,0.058,0.304,0.2,0.305,0.312,0.088,0.141,0.771,0.73,0.523
7,0.866,0.525,0.514,0.098,0.52,0.196,0.802,0.074,0.638,0.428
8,0.601,0.432,0.592,0.684,0.547,0.045,0.075,0.358,0.887,0.025
9,0.708,0.291,0.046,0.44,0.185,0.325,0.987,0.116,0.472,0.108


A função `read_csv()` contém uma gama de parâmetros que configuram como pandas deve ler o arquivo CSV. Por exemplo, podemos definir novos nomes de colunas ao ler o arquivo:

In [0]:
# skiprows=1 para pular os nomes originais das colunas.
data_from_csv = pd.read_csv("data.csv", names=list("ABCDEFGHIJ"), skiprows=1)

data_from_csv

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
0,0.375,0.021,0.612,0.608,0.122,0.97,0.389,0.772,0.863,0.12
1,0.951,0.97,0.139,0.171,0.495,0.775,0.271,0.199,0.623,0.713
2,0.732,0.832,0.292,0.065,0.034,0.939,0.829,0.006,0.331,0.761
3,0.599,0.212,0.366,0.949,0.909,0.895,0.357,0.815,0.064,0.561
4,0.156,0.182,0.456,0.966,0.259,0.598,0.281,0.707,0.311,0.771
5,0.156,0.183,0.785,0.808,0.663,0.922,0.543,0.729,0.325,0.494
6,0.058,0.304,0.2,0.305,0.312,0.088,0.141,0.771,0.73,0.523
7,0.866,0.525,0.514,0.098,0.52,0.196,0.802,0.074,0.638,0.428
8,0.601,0.432,0.592,0.684,0.547,0.045,0.075,0.358,0.887,0.025
9,0.708,0.291,0.046,0.44,0.185,0.325,0.987,0.116,0.472,0.108


A leitura do JSON é bastante similar com a função `read_json()`:

In [0]:
data_from_json = pd.read_json("data.json")

data_from_json

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4,Coluna5,Coluna6,Coluna7,Coluna8,Coluna9,Coluna10
0,0.375,0.021,0.612,0.608,0.122,0.97,0.389,0.772,0.863,0.12
1,0.951,0.97,0.139,0.171,0.495,0.775,0.271,0.199,0.623,0.713
2,0.732,0.832,0.292,0.065,0.034,0.939,0.829,0.006,0.331,0.761
3,0.599,0.212,0.366,0.949,0.909,0.895,0.357,0.815,0.064,0.561
4,0.156,0.182,0.456,0.966,0.259,0.598,0.281,0.707,0.311,0.771
5,0.156,0.183,0.785,0.808,0.663,0.922,0.543,0.729,0.325,0.494
6,0.058,0.304,0.2,0.305,0.312,0.088,0.141,0.771,0.73,0.523
7,0.866,0.525,0.514,0.098,0.52,0.196,0.802,0.074,0.638,0.428
8,0.601,0.432,0.592,0.684,0.547,0.045,0.075,0.358,0.887,0.025
9,0.708,0.291,0.046,0.44,0.185,0.325,0.987,0.116,0.472,0.108


## Conclusões

Isso foi apenas uma pincelada sobre o que o pandas pode oferecer. Existem muitas e muitas outras funcionalidades que não chegamos nem perto de cobrir nesse módulo como, por exemplo, visualização de dados no pandas.

É altamente recomendável que vocês continuem explorando essa ferramenta incrível e consultando sua documentação para conhecer mais a fundo sua vasta API e os diversos parâmetros de funções que não chegamos a cobrir aqui.

## Referências

* [Documentação oficial do pandas](https://pandas.pydata.org/pandas-docs/stable/)

* [Minimally Sufficient Pandas](https://medium.com/dunder-data/minimally-sufficient-pandas-a8e67f2a2428)

* [Why and How to Use Pandas with Large Data](https://towardsdatascience.com/why-and-how-to-use-pandas-with-large-data-9594dda2ea4c)

* [Getting started with Data Analysis with Python Pandas](https://towardsdatascience.com/getting-started-to-data-analysis-with-python-pandas-with-titanic-dataset-a195ab043c77)

* [Python Pandas: Tricks & Features You May Not Know](https://realpython.com/python-pandas-tricks/)

* [Essential Basic Functionality](https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html)

* [Pandas Tutorial: Essentials of Data Science in Pandas Library](https://medium.com/@shakasom/pandas-tutorial-essentials-of-data-science-in-pandas-library-9b0c81dbfcb1)

* [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)

* [Basic Time Series Manipulation with Pandas](https://towardsdatascience.com/basic-time-series-manipulation-with-pandas-4432afee64ea)

* [Tidy Data (é também uma das melhores referências para R)](https://r4ds.had.co.nz/tidy-data.html)

* [Python For Data Science - Cheat Sheet Pandas Basics](https://assets.datacamp.com/blog_assets/PandasPythonForDataScience.pdf)