# Pandas
--------

















É muito comum trabalharmos com processamento de dados que se encontram no formato de tabelas (também chamados dados "tabulares", ou dados estruturados). Como exemplo, as ferramentas Microsoft Excel e Google Spreadsheets são muito utilizadas no dia a dia dos trabalhadores de muitas empresas. Assim, se quisermos fazer trabalhos básicos em dados tabulares de forma automatizada, com o Python, precisamos de uma biblioteca com funcionalidades parecidas com as ferramentas citadas.

O **Pandas** (derivado de *panel data*) é uma biblioteca que implementa essas funcionalidades [\[1\]](#1). Criada por Wes McKinney em torno de 2009, e tendo virado uma biblioteca de código fonte aberto em torno de 2013, o pandas tem o objetivo de ser uma ferramenta em Python que ajude com análise de dados e estatística computacional. O pandas é muito versátil e simples de usar, facilitando muito o trabalho com dados estruturados.

Para entender o funcionamento do `pandas`, é importante conhecer os objetos fundamentais da biblioteca: `Series` e `DataFrame`. Esses objetos representam listas de dados e tabelas, respectivamente. Ao se trabalhar com Pandas, dados tabulares são convertidos em `DataFrame`, em cima do qual fazemos a maior parte das operações do pandas.

Além disso, é importante também ter conhecimentos básicos de NumPy, visto que ele é a biblioteca principal na qual o pandas se apoia. Assim, toda a estrutura do pandas tem forte dependência do NumPy.

1. [Instalação](#1instalacao)
2. [Introdução ao Pandas](#2introducao)
    1. [Pandas Series](#21series)
    2. [Pandas DataFrame](#22dataframe)
3. [Tratamento e limpeza de dados](#3wrangling)
4. [Exploração de Dados](#4exploratory)


## 1. Instalação  <a name="1instalacao"></a>



O pandas é uma biblioteca para linguagem Python, e para ser instalada nós procedemos da mesma forma que qualquer outra biblioteca. A forma mais fácil de instalar o Pandas, e a recomendada na documentação da biblioteca, é a partir da distribuição Anaconda.

A distribuição Anaconda (https://www.anaconda.com/distribution/) vem com o Python e diversas bibliotecas científicas e para ciência de dados instaladas. Ele também vem com um gerenciador de pacotes chamado *conda*, que podemos usar para instalação do Pandas, caso seja desejado [\[2\]](#2).


In [None]:
# $ conda install pandas

Também é possível baixar a partir do servidor da Python Software Foundation, conhecido como PyPI, através do gerenciador de pacotes `pip`.

In [None]:
# $ pip install pandas

## 2. Introdução ao Pandas  <a name="2introducao"></a>



Antes de mais nada, precisamos importar o Pandas para poder usá-lo. Nós fazemos isso da mesma forma que qualquer outra biblioteca Python. O único ponto importante de se lembrar é que o mais comum na comunidade de programação é que se use o alias `pd` para o pandas.

In [2]:
import pandas as pd

Normalmente, dados costumam vir na forma de tabelas. Nós chamamos dados com esse formato de **dados estruturados**. Isso significa que em geral, dados costumam estar na forma de uma série de linhas (ou uma série de colunas, o que é equivalente) com diversos valores e observações em cada parte da linha. A unidade básica que costumamos pensar é a de células da tabela. Uma célula é uma interseção entre uma dada linha e uma dada coluna da tabela.

Por exemplo, na tabela abaixo, nós podemos dizer que na célula \[2,1\] nós temos o valor 1. No Python, a linha 2 é a terceira, contando de cima pra baixo, em e a coluna 1 é a segunda, contando da esquerda para a direita.

In [1]:
[[1, 2, 3],
 [2, 2, 2],
 [0, 1, 0]]

[[1, 2, 3], [2, 2, 2], [0, 1, 0]]

Perceba que falar que a linha 2 é a "terceira" (devido ao Python começar a indexação do 0) é algo arbitrário. Se a gente quisesse dar nomes pras linhas, por exemplo, "a", "b" e "c", eu poderia dizer que a linha "c" é a terceira de cima pra baixo. Se os nomes das colunas então fossem "A", "B", "C", eu poderia reescrever a célula como sendo \["c","B"\].

O que o Pandas faz é exatamente isso: Ele cria um array de numpy, porém com linhas (ou índices) com nomes específicos que podemos definir como queremos. As colunas funcionam de forma semelhante, nós podemos dar os nomes que quisermos a elas.

Essa estrutura, com uma tabela, uma lista de índices (nomes das linhas) e uma lista de colunas (nomes das colunas), é o que chamamos de um `DataFrame` do Pandas.

In [9]:
dados =     [[1.69, 87.0],
             [1.59, 56.5],
             [1.69, 90.3],
             [1.74, 78.6]]

In [18]:
df = pd.DataFrame(dados, 
                  ['Fulano', 'Sicrana', 'Beltrana', 'João'],
                  ['altura', 'peso']
                      )

In [19]:
df

Unnamed: 0,altura,peso
Fulano,1.69,87.0
Sicrana,1.59,56.5
Beltrana,1.69,90.3
João,1.74,78.6


In [16]:
# ?pd.DataFrame

[1;31mInit signature:[0m
[0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m([0m[1;33m
[0m    [0mdata[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m:[0m [1;34m'Axes | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcolumns[0m[1;33m:[0m [1;34m'Axes | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m:[0m [1;34m'Dtype | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'None'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Data structure also contains labeled axes (rows and columns).
Arithmetic operations align on both row and column labels. Can be
thought of as a dict-like container for Series objects. The primary
pandas data structure.

Parameters
----------
d

In [15]:
df.iloc[:2,1]

Fulano     87.0
Sicrana    56.5
Name: peso, dtype: float64

Uma observação: É comum não passarmos uma lista de índices. Nesses casos, o pandas usa um padrão que é usar índices numéricos em sequência (por exemplo, 0, 1, 2, ...).

In [20]:
dados = [['Fulano',   1.69, 87.0],
             ['Sicrana',  1.59, 56.5],
             ['Beltrana', 1.69, 90.3],
             ['João',     1.74, 78.6]]


In [21]:
df = pd.DataFrame(dados, columns=['Nome', 'altura', 'peso'])

In [22]:
df

Unnamed: 0,Nome,altura,peso
0,Fulano,1.69,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,90.3
3,João,1.74,78.6


É interessante ter em mente que o pandas tem uma inspiração fortíssima na linguagem de programação R, muito usada para estatística e análise de dados. Um dos objetos principais para análise de dados com R também é um `DataFrame`. Por isso, para quem tem conhecimentos prévios em R, é um pouco mais fácil de se acostumar com o pandas.

Agora, se olharmos o tipo da nossa variável `df`, veremos que ele é um DataFame do pandas.

In [23]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


O outro objeto fundamental em pandas é o objeto `Series`, que nada mais é que uma lista (unidimensional) indexada. Assim como no dataframe, esse índice pode ser alterado para os nomes que quisermos. Por trás dos panos, uma variável `Series` armazena suas informações em um `ndarray`, do numpy (assim como o faz variáveis do tipo `DataFrame`).

In [24]:
minha_lista = [87.0, 56.5, 90.3, 78.6]

In [25]:
serie = pd.Series(minha_lista, index=['Fulano', 'Sicrana', 'Beltrana', 'João'])

In [26]:
serie

Fulano      87.0
Sicrana     56.5
Beltrana    90.3
João        78.6
dtype: float64

In [31]:
serie['Fulano']

87.0

In [32]:
serie = pd.Series(minha_lista)

In [33]:
serie

0    87.0
1    56.5
2    90.3
3    78.6
dtype: float64

Ao trabalhar com o pandas, estamos sempre atuando com esses dois tipos de objeto (`DataFrame` e `Series`).

Como exemplo, imagina que queiramos uma lista com os valores de uma dada coluna (ou de uma dada linha) do nosso dataframe. Nesse caso, podemos usar a sintaxe abaixo, e o objeto que iremos obter é do tipo `Series`.

In [34]:
serie = df['peso']

In [35]:
serie

0    87.0
1    56.5
2    90.3
3    78.6
Name: peso, dtype: float64

Agora que vimos o que são os objetos fundamentais do pandas, vamos nos aprofundar um pouco mais em suas características.

### 2.1. Pandas Series  <a name="21series"></a>



Como vimos, podemos criar um objeto `pd.Series` a partir de uma lista (ou de um array do numpy). Assim como com o NumPy, nós podemos controlar o tipo dos elementos da série.

In [37]:
import pandas as pd
import numpy as np
minha_lista = [10, 20, 30, 40]
serie = pd.Series(minha_lista, index=['a', 'b', 'c', 'd'], dtype=np.float32)

In [38]:
serie

a    10.0
b    20.0
c    30.0
d    40.0
dtype: float32

O nome de cada linha (o "index" da série) pode ser alterado após a criação da série. Basta atribuirmos um novo valor ao atributo `index`. O mesmo vale para o tipo dos elementos da série. Eles podem ser alterados após a criação da série, utilizando o método `astype`.

In [39]:
minha_lista = [10, 20, 30, 40]

In [40]:
serie = pd.Series(minha_lista)

In [41]:
serie

0    10
1    20
2    30
3    40
dtype: int64

In [42]:
serie.index = ['a', 'b', 'c', 'd']

In [43]:
serie.astype(np.float32)

a    10.0
b    20.0
c    30.0
d    40.0
dtype: float32

In [44]:
serie

a    10
b    20
c    30
d    40
dtype: int64

Vale notar, contudo, que a função `astype` retorna uma cópia da série. Ela não salva o resultado dentro da mesma variável que tínhamos. Isso significa que, se formos olhar a variável série novamente, após a última linha do código acima, veríamos que o `dtype` continua sendo `int64`.

Uma última propriedade das séries do pandas que podemos controlar é o nome delas.

In [45]:
minha_lista = [10, 20, 30, 40]

In [46]:
serie = pd.Series(minha_lista, index=['a', 'b', 'c', 'd'], name='Números')

In [47]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [48]:
serie2 = pd.Series(minha_lista, index=['a', 'b', 'c', 'd'], name='Números2')

#### Manipulando séries Pandas

Quando usamos listas básicas do Python, nós podemos querer usar um elemento numa posição específica. Para isso, usamos um índice ao lado da lista, como `lista_valores[3]`, que pega o elemento que se encontra na posição 3 (lembrando que o Python começa a contagem de índices da lista pelo 0).

Com uma série do pandas, a ideia é a mesma. Seja para usar um elemento específico, ou para usar um intervalo de valores da série, a sintaxe do pandas é análoga.

In [49]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [50]:
serie['c']

30

In [51]:
serie[['c','a']]   # Se pegarmos vários índices, ele nos retorna uma Série Pandas

c    30
a    10
Name: Números, dtype: int64

In [52]:
serie['a':'c']   # Podemos pegar um slicing pela ordem dos índices

a    10
b    20
c    30
Name: Números, dtype: int64

Um outro método para selecionar os elementos é usando as funções `iloc`, que seleciona pela posição do índice (começando do zero), e `loc`, que seleciona pelo índice nomeado.

In [53]:
serie.iloc[2]

30

In [59]:
serie.iloc[1:3]

b    20
c    30
Name: Números, dtype: int64

In [60]:
# serie.loc[0]

KeyError: 0

In [55]:
serie.loc['c']

30

In [56]:
serie.loc['a':'c']

a    10
b    20
c    30
Name: Números, dtype: int64

In [57]:
serie.loc['c':'a']

Series([], Name: Números, dtype: int64)

Como não existe índice depois de "c" mas antes de "a", o resultado da última linha do bloco de código acima foi uma série vazia.

Por fim, de forma análoga ao NumPy, nós podemos usar "filtros lógicos" (também chamados máscaras booleanas). Eles nada mais são que uma lista (ou `ndarray`, ou `Series`) de valores booleanos. Onde tivermos o valor `True` são as posições dos elementos que queremos utilizar.

Podemos selecionar assim apenas os elementos que satisfaçam determinada condição.

In [61]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [62]:
serie[[True, False, True, False]]

a    10
c    30
Name: Números, dtype: int64

In [63]:
serie[serie > 15]

b    20
c    30
d    40
Name: Números, dtype: int64

De forma semelhante, podemos passar essa máscara para o método `loc` e obter o mesmo comportamento.

In [64]:
mask = serie > 15

In [65]:
mask

a    False
b     True
c     True
d     True
Name: Números, dtype: bool

In [66]:
serie.loc[mask]

b    20
c    30
d    40
Name: Números, dtype: int64

Note que a variável `mask` é uma série do Pandas, resultante da operação `> 15` elemento a elemento. Por trás dos panos, o mesmo estava acontecendo no exemplo anterior.

#### Métodos e operações

Como já dito no texto, o pandas é construído em cima do NumPy. Os objetos fundamentais do pandas sempre tem um ndarray por trás. Por isso, muitas operações do pandas são análogas às do NumPy.

As operações matemáticas (`+`, `-`, `*`, `/`, `**`), por exemplo, são realizadas elemento a elemento assim como no NumPy. Uma diferença crucial é que o Pandas faz isso formando pares de elementos com o mesmo índice. Vamos ver um exemplo.

In [67]:
a = [1,2,3]
b = [2,3,4]
# [ 3, 5, 7]

In [74]:
a * 2

[1, 2, 3, 1, 2, 3]

In [72]:
a_np = np.array(a)
b_np = np.array(b)

In [75]:
a_np * 2

array([2, 4, 6])

In [69]:
a+b

[1, 2, 3, 2, 3, 4]

In [76]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [77]:
values = pd.Series([0.5, 1.0, 1.5, 2.0], index=['b', 'd', 'a', 'c'], dtype=np.float32)

In [78]:
values

b    0.5
d    1.0
a    1.5
c    2.0
dtype: float32

In [80]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [79]:
serie * values

a    15.0
b    10.0
c    60.0
d    40.0
dtype: float64

No exemplo acima, note que os elementos com índice "a" são o 10, na variável `serie`, e 1.5, na variável `values`. Logo, o resultado da multiplicação para o índice "a" é 15.

Se as séries não tiverem o mesmo conjunto de valores nos índices, as operações darão valores absurdos (o pandas não irá levantar um erro ou uma exceção).

In [81]:
other_values = pd.Series([0.5, 1.0, 1.5, 2.0], dtype=np.float32)

In [82]:
other_values

0    0.5
1    1.0
2    1.5
3    2.0
dtype: float32

In [83]:
serie * other_values

a   NaN
b   NaN
c   NaN
d   NaN
0   NaN
1   NaN
2   NaN
3   NaN
dtype: float64

Todos os valores resultantes no exemplo acima são `NaN` (Not a Number - o que significa que não há resultado ou é inválido), e temos os índices de ambas as séries. Isso porque tentamos multiplicar cada elemento de cada série por um elemento vazio (afinal, o índice "a", por exemplo, não existe na série `other_values`, e logo seu valor é "vazio").

Existem também alguns métodos para operar em cima da série de forma agregada. Eles podem retornar algum valor estatístico dos valores da série (como a média), podem só somar os valores, ou podem retornar um resumo dos dados.

Abaixo estão alguns exemplos de métodos que as séries possuem para esse tipo de operação.

|  Método          |Descrição                     |
|:----------------:|:----------------------------:|
|```sum```         |soma os valores               |
|```mean```        |média dos valores             |
|```std```         |desvio padrão dos valores     |
|```mode```        |moda dos valores              |
|```max```         |valor máximo na série         |
|```min```         |valor mínimo na série         |
|```value_counts```|conta repetições de cada valor|
|```describe```    |resumo de estatísticas básicas|

Veja alguns exemplos abaixo.

In [84]:
valores = [1, 1, 2, 3, 5, 8, 13]

In [85]:
fibonacci = pd.Series(valores)

In [86]:
fibonacci.sum()

33

In [87]:
fibonacci[fibonacci > 4].sum()

26

In [88]:
valores = [1, 1, 0, 0, 1, 0, 1, 1, 1]

In [89]:
serie = pd.Series(valores)

In [90]:
serie.value_counts()

1    6
0    3
dtype: int64

In [91]:
serie.describe()

count    9.000000
mean     0.666667
std      0.500000
min      0.000000
25%      0.000000
50%      1.000000
75%      1.000000
max      1.000000
dtype: float64

Quando as séries são compostas por elementos do tipo "string" (`str`, no Python), o pandas entenderá seu `dtype` como sendo `object`.

Nestes casos, a série tem um atributo `str`, que permite que façamos operações próprias de strings ao longo dos elementos da série.

In [92]:
pronomes = pd.Series(['eu', 'tu', 'ele/ela', 'nós', 'vós', 'eles/elas'])

In [93]:
pronomes

0           eu
1           tu
2      ele/ela
3          nós
4          vós
5    eles/elas
dtype: object

In [94]:
pronomes.str

<pandas.core.strings.accessor.StringMethods at 0x2103fa3fb20>

In [98]:
type(pronomes.str.upper())

pandas.core.series.Series

Se tentássemos usar o método `upper` diretamente com a série, veríamos o erro abaixo.

In [99]:
pronomes.upper()

AttributeError: 'Series' object has no attribute 'upper'

### 2.2. Pandas DataFrame  <a name="22dataframe"></a>


O `DataFrame` é uma representação de uma tabela. Ele possui dois eixos rotulados, que são as linhas (rotuladas pelo índice, ou `index`) e as colunas (rotuladas por um objeto índice para o nome das colunas).

Existem diversas maneiras de se criar um dataframe, podendo ser a partir de listas, dicionários etc.  
Um dos modos mais comuns é a criação a partir da leitura de um arquivo no formato `.csv`, como veremos a seguir para o caso do dataset `titanic`, muito conhecido por quem trabalha com ciência de dados. O dataset pode ser baixado [aqui](https://www.kaggle.com/competitions/titanic/data).

In [100]:
df_titanic = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv')

In [102]:
df_titanic.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [101]:
print(type(df_titanic))

<class 'pandas.core.frame.DataFrame'>


In [None]:
# pd.read_excel()

Note que `df_titanic` é um `DataFrame` com os dados do arquivo `titanic.csv`. Com relação à pasta na qual o código foi executado, este arquivo está localizado em `../datasets/`.

Vemos que o parâmetro do método `pd.read_csv` é o nome do arquivo que se deseja ler, com o caminho relativo até o arquivo.

Existem diversos parâmetros relevantes. Todos podem ser encontrados na [documentação do Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

> **Observação:**  
> Note que podemos também utilizar um arquivo do formato `.xlsx`, natural do excel.  
> Para tanto, devemos utilizar o método `pd.read_excel`.
>
> É possível também milhares de outros formatos menos comuns, como `.data`, `.txt`, e outros.
> O método mais geral para leitura destes formatos é `pd.read_table`.

A segunda forma de construir um DataFrame é a partir de variáveis do Python. O primeiro exemplo que veremos é como construir um DataFrame a partir de um dicionário do Python.

Este é um método muito útil, pois a estrutura de `dict`, nativa do Python, é bem semelhante à de um `DataFrame`.  

Neste caso, cada chave do nosso dicionário se tornará uma **coluna** enquanto os valores (que podem ser elementos de listas, arrays, series...) serão os elementos do dataframe.

In [108]:
dicionario = {
                    'coluna_A': [1, 2, 3, 4, 5],
                    'coluna_B': ['a', 'b', 'c', 'd', 'e'],
                    'coluna_C': [0.5, 1.5, 4.5, 6.5, 8.5]
                }

In [109]:
df = pd.DataFrame(dicionario)

In [110]:
df

Unnamed: 0,coluna_A,coluna_B,coluna_C
0,1,a,0.5
1,2,b,1.5
2,3,c,4.5
3,4,d,6.5
4,5,e,8.5


Um outro método, que já vimos antes neste material, é passando uma lista de listas (ou um array bidimensional do NumPy).

In [111]:
dados = [[1.69, 87.0],
             [1.59, 56.5],
             [1.69, 90.3],
             [1.74, 78.6]]

In [120]:
df = pd.DataFrame(dados, columns=['altura', 'peso'])

In [117]:
# df = pd.DataFrame(dados, columns=['altura', 'peso'], index=['Fulano', 'Sicrana', 'Beltrana', 'João'])

In [121]:
df

Unnamed: 0,altura,peso
0,1.69,87.0
1,1.59,56.5
2,1.69,90.3
3,1.74,78.6


Muitas das propriedades das séries Pandas se mantêm para DataFrames. A diferença é que agora, além de um atributo `index` com os nomes das linhas, teremos um segundo atributo `columns` com os nomes das colunas.

In [122]:
df

Unnamed: 0,altura,peso
0,1.69,87.0
1,1.59,56.5
2,1.69,90.3
3,1.74,78.6


In [123]:
df.index      # O índice padrão é uma lista de números igualmente espaçados de 0 até o tamanho

RangeIndex(start=0, stop=4, step=1)

In [124]:
df.columns

Index(['altura', 'peso'], dtype='object')

#### Manipulando dataframes Pandas

As formas de se acessar os valores de um `DataFrame` são análogas ao que vimos antes com séries do pandas. A única diferença é que agora teremos de usar dois índices, a linha e a coluna.

In [125]:
df

Unnamed: 0,altura,peso
0,1.69,87.0
1,1.59,56.5
2,1.69,90.3
3,1.74,78.6


In [129]:
# type(df['altura'][1])

numpy.float64

In [126]:
df['altura'][1]        # se tentarmos fazer como Python, fazemos [coluna][linha], usando os rótulos

1.59

In [130]:
df.iloc[1, 0]          # No caso do iloc, fazemos [linha, coluna], usando a posição

1.59

In [131]:
df.loc[1, 'altura']    # No caso do loc, fazemos [linha, coluna], usando os rótulos

1.59

No caso que fizemos `df['altura'][1]`, no fundo estamos primeiro acessando uma série do pandas, `df['altura']`, e depois usando o que vimos na sessão anterior.

Se nosso objetivo for selecionar um único elemento, também podemos usar os métodos `iat` e `at`. O método `iat` recebe como argumento a posição do elemento desejado (posição numérica, independente dos nomes das linhas e das colunas). Já o método `at` recebe os rótulos originais das linhas (índices) e das colunas.

In [132]:
df

Unnamed: 0,altura,peso
0,1.69,87.0
1,1.59,56.5
2,1.69,90.3
3,1.74,78.6


In [133]:
df.iat[1, 0]        # No caso do iat, acessamos [linha, coluna], usando a posição

1.59

In [134]:
df.at[1, 'altura']    # No caso do at, acessamos [linha, coluna], usando os rótulos

1.59

Podemos também selecionar diferentes subconjuntos do DataFrame.

In [135]:
df

Unnamed: 0,altura,peso
0,1.69,87.0
1,1.59,56.5
2,1.69,90.3
3,1.74,78.6


In [158]:
dados = [['Fulano',   1.69, 87.0],
             ['Sicrana',  1.59, 56.5],
             ['Beltrana', 1.69, 90.3],
             ['João',     1.74, 78.6]]

df = pd.DataFrame(dados, columns=['nomes', 'altura', 'peso'])

In [137]:
df.loc[1:3, ['peso', 'nomes']]

Unnamed: 0,peso,nomes
1,56.5,Sicrana
2,90.3,Beltrana
3,78.6,João


In [138]:
df[['nomes', 'altura']]

Unnamed: 0,nomes,altura
0,Fulano,1.69
1,Sicrana,1.59
2,Beltrana,1.69
3,João,1.74


Podemos usar máscaras booleanas da mesma forma que fizemos com `Series` no pandas e `ndarray` no NumPy.

In [139]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,90.3
3,João,1.74,78.6


In [140]:
df[df['peso'] > 78.0]

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,87.0
2,Beltrana,1.69,90.3
3,João,1.74,78.6


Porém, objetos do tipo `DataFrame` possuem também outro método para fazer esse tipo de filtro. Esse é o método `query`, que recebe uma string representando o filtro que queremos.

In [145]:
peso_base = 78

In [146]:
df.query(f'peso > {peso_base}')

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,87.0
2,Beltrana,1.69,90.3
3,João,1.74,78.6


Sempre que nós buscarmos alterar elementos de um `DataFrame`, devemos acessar os elementos a serem alterados através de um método dentre `at`, `iat`, `loc` e `iloc`.

In [147]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,90.3
3,João,1.74,78.6


In [148]:
df.at[1, 'altura'] = 1.50

In [149]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,87.0
1,Sicrana,1.5,56.5
2,Beltrana,1.69,90.3
3,João,1.74,78.6


In [150]:
df.loc[:2, 'peso'] = [77.2, 64.2, 85.0]

In [151]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,77.2
1,Sicrana,1.5,64.2
2,Beltrana,1.69,85.0
3,João,1.74,78.6


Uma última manipulação que fazemos com frequência é a criação de colunas novas. A sintaxe relevante se encontra abaixo.

In [152]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,1.69,77.2
1,Sicrana,1.5,64.2
2,Beltrana,1.69,85.0
3,João,1.74,78.6


In [162]:
df['nomes_devedores'] = ['Sicrana', 'Fulano' , 'João','Beltrana']

In [160]:
df

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


In [None]:
df.to_csv('alturas_e_pesos.csv')

#### Outras transformações e métodos

Existem diversas outras transformações e métodos que podemos usar com nosso DataFrame. Como exemplo, nós podemos usar os dados contidos em um dataframe como um array do NumPy.

In [163]:
df

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


In [164]:
df.drop(columns='nomes').to_numpy() # A função "drop" remove as colunas especificadas

array([[1.69, 87.0, 'Sicrana'],
       [1.59, 56.5, 'Fulano'],
       [1.69, 90.3, 'João'],
       [1.74, 78.6, 'Beltrana']], dtype=object)

In [165]:
df.to_numpy()

array([['Fulano', 1.69, 87.0, 'Sicrana'],
       ['Sicrana', 1.59, 56.5, 'Fulano'],
       ['Beltrana', 1.69, 90.3, 'João'],
       ['João', 1.74, 78.6, 'Beltrana']], dtype=object)

In [166]:
df.values  # O atributo "values" funciona igual a função to_numpy().

array([['Fulano', 1.69, 87.0, 'Sicrana'],
       ['Sicrana', 1.59, 56.5, 'Fulano'],
       ['Beltrana', 1.69, 90.3, 'João'],
       ['João', 1.74, 78.6, 'Beltrana']], dtype=object)

É possível também fazer operações matemáticas entre dataframes. No caso, o Pandas sempre vai operar entre células de mesmo índice e mesma coluna.

In [196]:
dados1 = [[1, 2],
          [2, 4],
          [3, 6],
          [4, 8],
          [10,20],
          [np.nan,40]]

df1 = pd.DataFrame(dados1, columns=['x', 'y'])

In [197]:
df1

Unnamed: 0,x,y
0,1.0,2
1,2.0,4
2,3.0,6
3,4.0,8
4,10.0,20
5,,40


In [187]:
dados2 = [[1, 3],
          [2, 6],
          [3, 9],
          [4, 12]]

df2 = pd.DataFrame(dados2, columns=['x', 'y'])

In [188]:
df2

Unnamed: 0,x,y
0,1,3
1,2,6
2,3,9
3,4,12


In [174]:
dados3 = [[1, 3],
          [2, 6],
          [3, 9],
          [4, 12],
          [10,20]]

df3 = pd.DataFrame(dados3, columns=['a', 'y'])

In [190]:
df_final = df1 + df2

In [192]:
df_final.dropna(axis=0)

Unnamed: 0,x,y
0,2.0,5.0
1,4.0,10.0
2,6.0,15.0
3,8.0,20.0


In [175]:
df1 + df3

Unnamed: 0,a,x,y
0,,,4
1,,,8
2,,,12
3,,,16


Além das operações matemáticas, podemos também rearrumar a ordem das linhas da tabela. O método `sort_index` organiza a tabela pelo índice, indo do menor valor para o maior valor, de forma ascendente. Para ordenar de forma descendente, basta colocar `sort_index(ascending=False)`.

In [198]:
df

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


In [199]:
df.sort_index()

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


De forma semelhante, podemos ordenar as linhas através dos valores de uma dada coluna, usando o método `sort_values`. É possível organizar indo do menor para o maior, ou o contrário, usando o parâmetro `ascending`.

In [200]:
df

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


In [201]:
df.sort_values('peso')

Unnamed: 0,nomes,altura,peso,nomes_devedores
1,Sicrana,1.59,56.5,Fulano
3,João,1.74,78.6,Beltrana
0,Fulano,1.69,87.0,Sicrana
2,Beltrana,1.69,90.3,João


In [202]:
df.sort_values('peso', ascending=False)

Unnamed: 0,nomes,altura,peso,nomes_devedores
2,Beltrana,1.69,90.3,João
0,Fulano,1.69,87.0,Sicrana
3,João,1.74,78.6,Beltrana
1,Sicrana,1.59,56.5,Fulano


Podemos também reorganizar as colunas. Para isso, a sintaxe mais comum é dada abaixo.

In [203]:
df

Unnamed: 0,nomes,altura,peso,nomes_devedores
0,Fulano,1.69,87.0,Sicrana
1,Sicrana,1.59,56.5,Fulano
2,Beltrana,1.69,90.3,João
3,João,1.74,78.6,Beltrana


In [204]:
df[['nomes', 'peso', 'altura']]

Unnamed: 0,nomes,peso,altura
0,Fulano,87.0,1.69
1,Sicrana,56.5,1.59
2,Beltrana,90.3,1.69
3,João,78.6,1.74


## 3. Tratamento e limpeza de dados  <a name="3wrangling"></a>

É muito comum em um conjunto de dados, seja ele proveniente de um banco dados ou de um arquivo `csv`, existirem valores nulos (ou seja, valores inválidos ou vazios).

Para fins de análises/modelos é muito importante identificar a incidência desses valores e tomar uma decisão, seja a de remover os valores nulos, ou a de substituí-los. Veremos abaixo como fazer ambos.

Identificando Elementos Nulos por Coluna: Identificar a quantidade de valores nulos por coluna é muito importante, pois assim podemos identificar qual ação é mais adequada.

In [207]:
dados = [['Fulano',   np.nan, 87.0],
             ['Sicrana',  1.59, 56.5],
             ['Beltrana', 1.69, np.nan],
             ['João',     1.74, 78.6]]

df = pd.DataFrame(dados, columns=['nomes', 'altura', 'peso'])

In [208]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [211]:
df.shape

(4, 3)

In [210]:
df.isnull().sum()/df.shape[0]

nomes     0.00
altura    0.25
peso      0.25
dtype: float64

Removendo os valores nulos: Para remover os nulos, iremos utilizar o comando `dropna`, como segue:

In [212]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [215]:
df.dropna(axis=0)

Unnamed: 0,nomes,altura,peso
1,Sicrana,1.59,56.5
3,João,1.74,78.6


In [219]:
df.dropna()

Unnamed: 0,nomes,altura,peso
1,Sicrana,1.59,56.5
3,João,1.74,78.6


In [218]:
df.dropna(axis=1)

Unnamed: 0,nomes
0,Fulano
1,Sicrana
2,Beltrana
3,João


Ou seja, ele removeu todas as linhas que contém algum valor nulo.

Substituindo valores nulos: Como muitas vezes não queremos diminuir o tamanho do nosso conjunto de dados, então uma abordagem é substituir esses valores (seja pela média dos valores, pela moda etc.).

Para fazer isso, podemos utilizar o método `fillna`, em que o parâmetro passado será o valor de substituição. Neste exemplo iremos substituir os valores por `-1`, mas poderia ser qualquer outro valor.

In [216]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [222]:
df1 = df.fillna(-1)

Se quisermos alterar um valor específico na nossa tabela (não apenas o NaN), podemos usar o método `replace`.

In [220]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [223]:
df1.replace(-1, 60)

Unnamed: 0,nomes,altura,peso
0,Fulano,60.0,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,60.0
3,João,1.74,78.6


In [None]:
# df.replace('Sao Paulo', 'SP')

Veja que alteramos os valores de todo o dataframe e não só de uma coluna.

Outro tratamento importante é remover duplicatas da nossa tabela.

In [226]:
dados_dup = [[1, 0],
          [1, 0],
          [2, 1],
          [2, 2]]

df_dup = pd.DataFrame(dados_dup, columns=['a', 'b'])

In [227]:
df_dup

Unnamed: 0,a,b
0,1,0
1,1,0
2,2,1
3,2,2


In [230]:
df_dup

Unnamed: 0,a,b
0,1,0
1,1,0
2,2,1
3,2,2


In [231]:
df_dup.drop_duplicates()

Unnamed: 0,a,b
0,1,0
2,2,1
3,2,2


In [232]:
df_dup.drop_duplicates(['a'],keep='last')

Unnamed: 0,a,b
1,1,0
3,2,2


In [233]:
df_dup.drop_duplicates(['a'])

Unnamed: 0,a,b
0,1,0
2,2,1


In [None]:
# pd.testing.assert_frame_equal

## 4. Exploração de Dados  <a name="4exploratory"></a>





Podemos aproveitar o Pandas para ajudar na exploração dos dados. Existem diversos métodos para nos ajudar a sumarizar dados e calcular algumas estatísticas descritivas.

Como um exemplo, podemos ver a média de cada coluna de um dataframe.


In [234]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [235]:
df.mean()

  df.mean()


altura     1.673333
peso      74.033333
dtype: float64

Também podemos achar outras informações, como o maior e o menor valor das colunas.

In [236]:
df

Unnamed: 0,nomes,altura,peso
0,Fulano,,87.0
1,Sicrana,1.59,56.5
2,Beltrana,1.69,
3,João,1.74,78.6


In [237]:
df.min()

nomes     Beltrana
altura        1.59
peso          56.5
dtype: object

In [238]:
df.max()

nomes     Sicrana
altura       1.74
peso         87.0
dtype: object

Um método muito útil, que reúne várias descrições ao mesmo tempo é o `describe`.

In [None]:
df

In [None]:
df.describe()

Quando estamos fazendo análises em um conjunto de dados, é muito útil saber alguns comportamentos separados por grupos. Para tanto, vamos utilizar o método `groupby` do Pandas.

Neste exemplo, iremos analisar as médias de altura e peso por gênero.

In [239]:
dados_5 = [[1.69, 87.0, 0.0, 1],
           [1.59, 56.5, 0.0, 0],
           [1.69, 90.3, 1.0, 1],
           [1.74, 78.6, 1.0, 0]]

df = pd.DataFrame(dados_5, columns=['altura', 'peso', 'genero','carioca'])

In [240]:
df

Unnamed: 0,altura,peso,genero,carioca
0,1.69,87.0,0.0,1
1,1.59,56.5,0.0,0
2,1.69,90.3,1.0,1
3,1.74,78.6,1.0,0


In [241]:
df.groupby('genero').mean()

Unnamed: 0_level_0,altura,peso,carioca
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,1.64,71.75,0.5
1.0,1.715,84.45,0.5


Também podemos cruzar informações de diferentes tipos de agrupamentos, para avaliar os dados. Para tanto, utilizamos o método `pivot_table`. É possível calcular uma função de agregação para os valores que aparecem no cruzamento também, como média, soma ou máximo.

In [242]:
df

Unnamed: 0,altura,peso,genero,carioca
0,1.69,87.0,0.0,1
1,1.59,56.5,0.0,0
2,1.69,90.3,1.0,1
3,1.74,78.6,1.0,0


In [243]:
df.pivot_table(index='genero', columns='carioca', values='peso', aggfunc=np.max)

carioca,0,1
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,56.5,87.0
1.0,78.6,90.3


In [244]:
df.pivot_table(index='genero', columns='carioca', values='peso', aggfunc=np.sum)

carioca,0,1
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,56.5,87.0
1.0,78.6,90.3


**Referências:**
--------------



1. <a name="1"></a> pandas: a Foundational Python Library for Data Analysis and Statistics; McKinney, W.; Workshop Python for High Performance and Scientific Computing - PyHPC 2011. Disponível em https://www.dlr.de/sc/Portaldata/15/Resources/dokumente/pyhpc2011/submissions/pyhpc2011_submission_9.pdf.
2. <a name="2"></a> Tutorial de instalação do Pandas, disponível em https://pandas.pydata.org/docs/getting_started/install.html.
3. <a name="3"></a> Python for Data Analysis: Data Wrangling with pandas, Numpy & Jupyter; McKinney W.; 3 ed., O'Reilly. Disponível em https://wesmckinney.com/book/.