***
# 1. Introdução ao Pandas
***

* Objetos pandas são baseados em *arrays* NumPy
* Cada linha e coluna de um objeto Pandas possui rótulos
* Para utilizar Pandas, após ter a biblioteca instalada, basta  criar um namespace com a biblioteca
* Na célula a seguir criamos dois namespaces para a biblioteca NumPy e Pandas


In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

## 1.1 Séries em Pandas

* Uma `Serie` em pandas é um vetor de uma dimensão com os dados indexados
* Uma Série pode ser criada de uma lista ou de um *array* NumPy

###### Exemplo 1

In [2]:
data = pd.Series(np.random.normal(0, 1, 4))
print(data)

0   -1.160813
1    0.535831
2    0.518770
3    0.561246
dtype: float64


In [3]:
# Acessando a DocString da Função
np.random.normal?

* Uma série possui uma sequência de valores e uma sequência de índices 
    * valores são simplesmente um vetor NumPy
    * índices são estruturas de dados do tipo `pd.Index`

In [4]:
print(type(data.values), data.values)
print()
print(type(data.index), data.index)

<class 'numpy.ndarray'> [-1.16081288  0.53583055  0.51877018  0.56124554]

<class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=4, step=1)


#### Acesso os elementos

* Acesso aos elementos de uma Série é realizada da mesma maneira que o acesso em vetores NumPy

In [5]:
print(data)

0   -1.160813
1    0.535831
2    0.518770
3    0.561246
dtype: float64


In [6]:
print(data[2])

0.5187701789731004


In [7]:
print(data[1:3])

1    0.535831
2    0.518770
dtype: float64


In [8]:
data[-4::2]

0   -1.160813
2    0.518770
dtype: float64

In [9]:
data[-1::-2]

3    0.561246
1    0.535831
dtype: float64

### 1.1.1 Series como um vetor NumPy generalizado

* Conforme visto, uma séries em Pandas é basicamente um vetor NumPy com adição de um tipo índice na estrutura de dados
* Em NumPy, um índice é definido implicitamente e é sempre uma sequência de inteiros
* Em uma Série, os índices são mutáveis, e podem ser definitos explicitamente

In [10]:
data = pd.Series(np.random.random(size=4), index=['primeiro', 'segundo', 'terceiro', 'quarto'])
print(data)

primeiro    0.994687
segundo     0.369389
terceiro    0.607274
quarto      0.013320
dtype: float64


* O acesso aos elementos do índice funciona da mesma maneira

In [11]:
print(data)

primeiro    0.994687
segundo     0.369389
terceiro    0.607274
quarto      0.013320
dtype: float64


In [12]:
data[0]

0.9946865103416385

In [13]:
data[-3:]

segundo     0.369389
terceiro    0.607274
quarto      0.013320
dtype: float64

In [14]:
data['segundo':'terceiro']

segundo     0.369389
terceiro    0.607274
dtype: float64

### 1.1.2 Series como dicionários especializados

* Uma série é uma estrutura que está mapeando chaves para um conjunto de valores
* É possível construir uma série diretamente a partir de um dicionário python

In [15]:
population_dict = {
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* O acesso aos elementos funciona da mesma maneira

In [16]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### 1.1.3 Em Resumo
* Resumindo, uma série pode ser criada explicitando dois argumentos:
    * `data`: dado a ser armazenado
    * `index`: índice dos dados

In [17]:
pd.Series([2, 3, 4])

0    2
1    3
2    4
dtype: int64

In [18]:
pd.Series(4, index=[100, 200, 300])

100    4
200    4
300    4
dtype: int64

In [19]:
pd.Series([1, 2, 3, 4], index=[1, 1, 1, 1])

1    1
1    2
1    3
1    4
dtype: int64

In [20]:
pd.Series({
    1: 'a',
    2: 'b',
    3: 'c',
    4: 'd'
}, index=[4, 1])

4    d
1    a
dtype: object

## 1.2 Pandas DataFrame

* Assim como series, um dataframe pode ser visto tanto como uma generalização de um vetor quanto de um dicionário
* Desta maneira, um dataframe pode ser visto como uma sequência de Series alinhadas (compartilham o mesmo índice)

### 1.2.1 Criando dataframe como generalização de vetores NumPy

###### Exemplo
* Criando uma série para representar a área de cada estado

In [21]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [22]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* Pode-se criar um data frame diretamente destas duas séries, visto que ambas compartilham os mesmos índices

In [23]:
states = pd.DataFrame({
    "population": population,
    "area": area    
})

In [24]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### Indíce

* Assim como serie pandas, a estrutura de um dataframe também possue o atributo `index`

In [25]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

* Adicionalmente, os dataframes também tem o atributo `columns`, na qual é um índice para as colunas

In [26]:
states.columns

Index(['population', 'area'], dtype='object')

### 1.2.2 DataFrame como uma especialização de um dicionário

* Podemos pensar em um dataframe como uma especialização de um dicionário
* Um dataframe mapea o nome de uma coluna a uma série

###### Exemplo

In [27]:
res = states['area']
print(res)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [28]:
type(res)

pandas.core.series.Series

### 1.2.3 Construindo objetos DataFrame

* Podemos construir um dataframe de várias maneiras

###### Ex. 1: De uma única série

In [29]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


###### Ex. 2: De uma lista de Dicionários

In [30]:
data = [{'a': i, 'b': 5 * i} for i in range(5)]
data

[{'a': 0, 'b': 0},
 {'a': 1, 'b': 5},
 {'a': 2, 'b': 10},
 {'a': 3, 'b': 15},
 {'a': 4, 'b': 20}]

In [31]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,5
2,2,10
3,3,15
4,4,20


* Caso na lista, contenha valores faltantes, pandas preenche os valores com `NaN`

In [32]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


###### Ex. 3: De um dicionário contendo Series

* Mesmo exemplo mostrado anterioremente

In [33]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


###### Ex. 4: De um vetor NumPy de duas dimensões

In [34]:
vetor = np.random.rand(3, 2)
vetor

array([[0.70396678, 0.48452734],
       [0.71823138, 0.12436645],
       [0.87007001, 0.93739511]])

In [35]:
pd.DataFrame(vetor, columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.703967,0.484527
b,0.718231,0.124366
c,0.87007,0.937395


###### Ex.: 5: Diretamente de um dicionário

* Se os valores do dicionários forem listas de mesmo tamanho

In [36]:
pd.DataFrame({"A": [1, 2, 3], "B":[4, 5, 6]})

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


## 1.3 Índices em Pandas

* Ambas as estruturas de dados Series e DataFrame cotém um índice para referenciação dos dados
* Pode ser pensando como um vetor imutável, or um conjunto (set) ordenado (mantém-se a ordem de inserção)
* É possível criar um índice de uma lista

###### Exemplo

In [37]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 1.3.1 Índice como um array imutável

* Um índice funciona como um array
* Podemos fazer indexação em um índice

In [38]:
ind[2]

5

In [39]:
ind[-3:]

Int64Index([5, 7, 11], dtype='int64')

* Indices possuem alguns atributos similares a vetores NumPy

In [40]:
print('Tamanho - ', ind.size, ' Quantidade Registros - ', ind.shape, ' Dimensões - ', ind.ndim, ' Tipo - ', ind.dtype)

Tamanho -  5  Quantidade Registros -  (5,)  Dimensões -  1  Tipo -  int64


* Diferente de vetores, um índice é imutável, uma vez criado, não é possível alterar o estado dos valores armazenados no índice

In [41]:
# raise TypeError("Index does not support mutable operations")
# ind[0] = 234

### 1.3.2 Índices como um conjunto ordenado

* O objetivo principal do pandas é facilitar operações como joins entre datasets
    * Muitas vezes dependendo de operações aritméticas
* Índices em Pandas seguem as mesmas convenções utilizadas na estrutura de dados `set` do python
    * União       - union()                - |
    * Interseção  - intersection()         - &
    * Diferença   - symmetric_difference() - ^
    * ...
    
###### Ex. 1

In [42]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

* Interseção

In [43]:
print(indA, indB, sep='\n')

Int64Index([1, 3, 5, 7, 9], dtype='int64')
Int64Index([2, 3, 5, 7, 11], dtype='int64')


In [44]:
print(indA & indB)
print(indA.intersection(indB))

Int64Index([3, 5, 7], dtype='int64')
Int64Index([3, 5, 7], dtype='int64')


* União

In [45]:
print(indA, indB, sep='\n')

Int64Index([1, 3, 5, 7, 9], dtype='int64')
Int64Index([2, 3, 5, 7, 11], dtype='int64')


In [46]:
print(indA.union(indB))
print(indA | indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')


* Diferença Simétrica

In [47]:
print(indA, indB, sep='\n')

Int64Index([1, 3, 5, 7, 9], dtype='int64')
Int64Index([2, 3, 5, 7, 11], dtype='int64')


In [48]:
print(indA.symmetric_difference(indB))
print(indA ^ indB)

Int64Index([1, 2, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


***
# 2 Seleção e Indexação
***

## 2.1 Indexação em Séries

* Indexação em Séries podem ser feitas da mesma maneira que em vetores NumPy e dicionários

### 2.1.1 Séries como Dicionários

In [49]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [50]:
data['b']

0.5

###### Verificando índices
* É possível verificar existência de índices em uma Série

In [51]:
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [52]:
'a' in data

True

In [53]:
'e' in data

False

###### Recuperando chaves e valores

* As mesma sintaxe utilizada em dicionários também pode ser utilizada em Series

In [54]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [55]:
print(data.index)
print(data.keys())

Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['a', 'b', 'c', 'd'], dtype='object')


In [56]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [57]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

###### Alterando elementos

* Alteração em valores de uma Série pode ser feita da mesma maneira que em um dicionário

In [58]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [59]:
data['e'] = 1.25

In [60]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### 2.1.2 Séries como vetores de uma dimensão

* Series possuem uma interface similar a de dicionários, providenciando seleção parecida com a de vetores
    * Torna possível aplicar slices e máscaras

In [61]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

* slicing por índice explicito

In [62]:
data['a': 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

* slicing implicitamente por inteiro

In [63]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [64]:
data[1: 4]

b    0.50
c    0.75
d    1.00
dtype: float64

* É possível aplicar máscaras da mesma maneira

In [65]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [66]:
mascara = (data > 0.5) & (data < 1.25)
mascara

a    False
b    False
c     True
d     True
e    False
dtype: bool

In [67]:
data[mascara]

c    0.75
d    1.00
dtype: float64

* É possível informar os índices exatos a serem selecionados

In [68]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [69]:
data[['a', 'c', 'e']]

a    0.25
c    0.75
e    1.25
dtype: float64

### 2.1.3 Indexação com `loc` e `iloc`

* Indexação em Series é realizada explicitamente e implicitamente
    * Isso torna indexação extremamente confusa quando estamos realizando slicing
* Tipo de Indexação
    * Uma indexação do tipo `data[1]` utiliza índices explícitos para recuperar o dado
    * Uma indexação do tipo `data[1:3]` utiliza índices implícitos para recuperar o dado
   

###### Exemplo

In [70]:
data = pd.Series(['a', 'b', 'c', 'd'], index=[1, 3, 5, 7])
data

1    a
3    b
5    c
7    d
dtype: object

In [71]:
# índice explicito ao indexar
data[1]

'a'

In [72]:
# índice implicito ao indexar
data[1:3]

3    b
5    c
dtype: object

#### Atributos Loc e Iloc

* Por causa desta possível confusão ao indexar, existem 2 atributos (não são funções) que expõe uma interface para realizar slicing dos dados
    * `loc`: este atributo permite fazer a indexação por meio de referência explicita ao índice
    * `iloc`: permite fazer a indexação por meio de referência implícita ao índice

###### Exemplo loc

In [73]:
data

1    a
3    b
5    c
7    d
dtype: object

In [74]:
data.loc[1]

'a'

In [75]:
data.loc[1:5]

1    a
3    b
5    c
dtype: object

###### Exemplo iloc

In [76]:
data

1    a
3    b
5    c
7    d
dtype: object

In [77]:
data.iloc[1]

'b'

In [78]:
data.iloc[1:3]

3    b
5    c
dtype: object

## 2.2 Seleção de Dados em DataFrames

* Relembre que DataFrames funcionam como um array de 2 dimensões, no qual cada coluna pode ser vista como uma série independente que compartilha o mesmo índice

### 2.2.1 DataFrames como um dicionário

* Cada série de que compõe um dataframe pode ser acessado de maneira análoga ao acessar um valor em um dicionário
* Vamos levar em consideração os dados de área e população de estados mostrado anteriormente

###### Exemplo

In [79]:
data = pd.DataFrame({'area': area, 'pop': population})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


#### Acesso as colunas

* O acesso as colunas do DataFrame podem ser feito de duas maneiras
    * Acesso direto, de maneira análoga ao acessar as chaves do dicionário
    * Acesso por meio de atributos, no qual cada coluna (quando string) se torna um atributo do objeto DataFrame

* Acesso no estilo dicionário

In [80]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Acesso por atributo

In [81]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

###### Informações sobre acesso por atributo

* Acesso por atributo é exatamente igual ao acesso direto no estilo dicionário

In [82]:
data.area is data['area']

True

 * Acesso por atributo não funciona para todos os casos, a coluna deve ser sempre uma `string`
 * Caso exista método com o mesmo nome da coluna
     * O que é feito é uma chamada ao método, e não a seleção da coluna de mesmo nome

In [83]:
data.pop is data['pop']

False

In [84]:
help(data.pop)

Help on method pop in module pandas.core.generic:

pop(item) method of pandas.core.frame.DataFrame instance
    Return item and drop from frame. Raise KeyError if not found.
    
    Parameters
    ----------
    item : str
        Label of column to be popped.
    
    Returns
    -------
    Series
    
    Examples
    --------
    >>> df = pd.DataFrame([('falcon', 'bird', 389.0),
    ...                    ('parrot', 'bird', 24.0),
    ...                    ('lion', 'mammal', 80.5),
    ...                    ('monkey','mammal', np.nan)],
    ...                   columns=('name', 'class', 'max_speed'))
    >>> df
         name   class  max_speed
    0  falcon    bird      389.0
    1  parrot    bird       24.0
    2    lion  mammal       80.5
    3  monkey  mammal        NaN
    
    >>> df.pop('class')
    0      bird
    1      bird
    2    mammal
    3    mammal
    Name: class, dtype: object
    
    >>> df
         name  max_speed
    0  falcon      389.0
    1  parrot     

* Por este motivo, é recomendável fazer atribuição utilizando somente a notação de dicionários e utilizar o modo de atributos apenas para selecionar colunas

#### Atribuicao em DataFrames
* Atribuição em dataframes é realizado da mesma maneira que em series

In [85]:
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [86]:
data['densidade'] = data['pop'] / data['area']

In [87]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 2.2.2 DataFrame como um vetor de duas dimensões

* Conforme mencionado, é possível interpretar um dataframe como uma matriz
    * é Possível visualizar a matriz utilizando o atributo `values`

In [88]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

###### Exemplo: Transposta da matriz

* Como um dataframe é basicamente uma matriz, podemos fazer várias operações matriciais em cima do dataframe. Como por exemplo, realizar a transposta da matriz, conforme mostrado abaixo.

In [89]:
data.transpose()

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
densidade,90.41393,38.01874,139.0767,114.8061,85.88376


In [90]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
densidade,90.41393,38.01874,139.0767,114.8061,85.88376


#### Indexação com `loc` e `iloc` em DataFrame

* Assim como series, é possível utilizar os atributos `loc` e `iloc` para indexação em um DataFrame
    * `loc`: indexação explícita utilizando os índices de colunas e linhas
    * `iloc`: indexação como se fosse um simples array python, indíces são implícitos

* Indexação com ILOC

In [91]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [92]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


* Indexação com LOC

In [93]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [94]:
data.loc['Texas': 'Florida', 'area': 'pop']

Unnamed: 0,area,pop
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860


#### Máscaras como indexação

* Podemos utilizar máscaras ao indexar valores em um DataFrame

In [95]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [96]:
densidade_valida = data.densidade > 100
densidade_valida 

California    False
Texas         False
New York       True
Florida        True
Illinois      False
Name: densidade, dtype: bool

In [97]:
data.loc[densidade_valida, ['pop', 'densidade']]

Unnamed: 0,pop,densidade
New York,19651127,139.076746
Florida,19552860,114.806121


#### Atribuição

* Atribuição em um dataframe pode ser feito utilizando qualquer tipo de indexação mostrado anteriormente

In [98]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [99]:
data.iloc[0, 2] = 300
data.loc['Texas', 'densidade'] = 350

In [100]:
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,300.0
Texas,695662,26448193,350.0
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


***
# 3. Operações em Pandas
***

* Foi mencionado na Última aula que laços de repetição em Python são extremamente lentos
    * A solução para otimizar as operações é utilizar UFuncs, ou operações utilizando vetorização
    
    
* Pandas herda o mesmo conjunto de operações para vetorização existente na biblioteca NumPy
    * Pode ser aplicado tanto em series quanto em dataframes

###### Exemplo:

* Vamos considerar a seguinte serie e dataframe

In [101]:
# rng = np.random.RandomState(42)
ser = pd.Series(np.random.randint(0, 10, 4))
ser

0    1
1    3
2    5
3    6
dtype: int32

In [102]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,5,5,8,6
1,2,0,1,4
2,7,1,0,2


## 3.1 Ufuncs: Preservação de índices

* Ao aplicarmos uma `ufunc` em qualquer dado, a preservação dos índices é matida

In [103]:
np.exp(ser)

0      2.718282
1     20.085537
2    148.413159
3    403.428793
dtype: float64

In [104]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-0.707107,-0.707107,-2.449294e-16,-1.0
1,1.0,0.0,0.7071068,1.224647e-16
2,-0.707107,0.707107,0.0,1.0


## 3.2 Ajuste de Índices

* Para operações binárias em duas Series ou DataFrame, pandas tenta ajustar os índices durante o processo da operação
    * Bastante útil em casos que existe dados faltantes

### 3.2.1 Ajuste de índices em Series

* Suponha que estejamos combinando duas fontes distintas de dados

In [105]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [106]:
area  # Área para o estado do Alaska, Texas e California

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

In [107]:
population  # População para o estado da California, Texas e New York

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

###### Ex. 1: Operação com valores faltantes

* Ao computando a densidade da população, pandas automaticamente ajusta os índices, preenchendo valores inexistentes com `NaN`
* O resultado final é uma nova Series contendo como índice a união de ambas as fontes de dados

In [108]:
density = population / area
density

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

* O índice é simplesmente a união entre as duas fontes de dados

In [109]:
print(density.index)
print(population.index | area.index)

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')
Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')


###### Ex. 2: Preenchendo valores faltantes

* Por padrão, Pandas assume `NaN` para valores faltantes
* É possível considerar um valor padrão ao aplicar Ufuncs
    * basta utilizar método da Ufunc explicitamente

In [110]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [111]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### 3.2.2 Ajuste de índices em DataFrames

* Um tipo similar ao ajuste de Series é realizado em um DataFrame quando é realizada alguma operação entre dados de fontes distintas

In [112]:
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,6,13
1,4,3


In [113]:
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,9,0,0
1,1,3,1
2,6,7,6


###### Ex. 1: Colunas e Linhas com índices distintos

* Conforme mostrado abaixo, valores faltantes são preenchidos com `NaN`

In [114]:
A + B

Unnamed: 0,A,B,C
0,6.0,22.0,
1,7.0,4.0,
2,,,


* Da mesma maneira que feito em series, pode-se determinar um valor padrão para valores faltantes

In [115]:
fill = A.mean().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,6.0,22.0,6.5
1,7.0,4.0,7.5
2,13.5,12.5,12.5


#### Operadores Python e método equivalente do Pandas


| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


## 3.3 Ufuncs: Operações entre DataFrames e Series


* É possível fazer operações entre um DataFrame e uma Serie Pandas
* É um processo similar ao realizado em um *array* de uma dimensão e um *array* multidimensional em NumPy
* É aplicado os mesmos conceitos de Broadcasting vistos na Última aula

In [116]:
A = np.random.randint(10, size=(3, 4))
A

array([[5, 5, 4, 2],
       [0, 2, 3, 9],
       [7, 7, 9, 9]])

In [117]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-5, -3, -1,  7],
       [ 2,  2,  5,  7]])

#### Broadcasting

* Broadcasting em um dataframe aplica operações por linhas
* Caso queira aplicar operações por colunas, deve-se especificar o eixo utilizando o método da operação

In [118]:
df = pd.DataFrame(A, columns=list('QRST'))

In [119]:
df

Unnamed: 0,Q,R,S,T
0,5,5,4,2
1,0,2,3,9
2,7,7,9,9


* Broadcasting sobre linhas

In [120]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-5,-3,-1,7
2,2,2,5,7


* Broadcasting sobre colunas

In [121]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,0,0,-1,-3
1,-2,0,1,7
2,0,0,2,2


***
# 4. Lidando com dados Faltantes
***

* Fontes distintas de dados podem indicar dados faltantes de diferentes formas
* Pandas possui várias formas e abordagens para tratar dados faltantes
    * *null*
    * *NaN*
    * *NA*
    * *NaT*
    * *None*

## 4.1 Como representar dados faltantes

* Duas abordagens bastante utilizadas para representar dados faltantes
    * sentinelas: utilize um valor para representar os dados faltantes
    * máscara: utiliza-se um vetor booleano indicando a existência ou ausência da informação
        * pode-se utilizar também 1 bit na representação dos dados indicando se o valor está presente ou não
        
        
* Pandas utiliza sentinelas para dados faltantes que são baseadas no próprio Python
    * NaN
    * None

## 4.2 `None`

* None é um objeto que só pode ser utilizado em NumPy/Pandas do tipo `object`.
    * Não é possível representar dados faltantes utilizando `None` para qualquer tipo de dados

In [122]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

* O tipo `dtype=object` impede que seja utilizado as operações vetoriais do NumPy
    * assume-se que todas as operações realizadas são em cima de objetos Python
    * As operações são muito mais lentas, pois não é possível aplicar vetorização diretamente

In [123]:
%timeit np.arange(1E6, dtype=np.object).sum()
%timeit np.arange(1E6, dtype=np.int).sum()

128 ms ± 9.89 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
3.41 ms ± 256 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


* Operações de agregação em vetores do tipo object não são possíveis

In [124]:
vals1

array([1, None, 3, 4], dtype=object)

In [125]:
# Não é possível soma de Séries com campos vazios
# vals1.sum()

## 4.3 `NaN`: Not a Number

* É um ponto flutuante especial padronizado pela [IEEE](https://standards.ieee.org/standard/754-2019.html)

In [126]:
vals2 = np.array([1, np.nan, 3, 4]) 
print(vals2)
print(vals2.dtype)

[ 1. nan  3.  4.]
float64


* Qualquer operação realizada com `NaN` resulta em outro `NaN`

In [127]:
print(1 + np.nan)
print(0 * np.nan)

nan
nan


* Ao utilizar valores faltantes com `NaN` é possível realizar operações vetorizadas

In [128]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

* Existem funções específicas que lidam com valores faltantes

In [129]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

## 4.4 `NaN` e `None` em Pandas

* NaN e None podem ser utilizados em conjunto tanto em Series quanto em DataFrames
    * Sempre que possível, pandas tenta fazer a conversão entre eles

In [130]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

* Sempre quem um NaN é inserido em uma Serie, o tipo da serie é convertida automaticamente

In [131]:
x = pd.Series(range(3), dtype=int)
print(x)

0    0
1    1
2    2
dtype: int32


In [132]:
x[1] = None
x

0    0.0
1    NaN
2    2.0
dtype: float64

* Além de converter o dado de inteiro para ponto flutuante, None é convertido automaticamente para NaN
* A tabela a seguir mostra todas as conversões possíveis


|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |


### 4.4.1 Operando com valores Null

* Existem vários métodos para detectar, remover e substituir valores faltantes em Pandas


* `isnull`: Gera uma máscara booleana indicando ausência ou presença de valores
* `notnull`: Oposto de `isnull`
* `dropna`: Retorna uma versão dos dados filtrados
* `fillna`: Retorna uma cópia dos dados com valores faltantes substituidos por outro valor

#### 4.4.1.1 Detectando valores faltantes

In [133]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [134]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

* Máscaras podem ser utilizadas para recuperar dados

In [135]:
data[data.notnull()]  # mesmo que data[~data.isnull()]

0        1
2    hello
dtype: object

#### 4.4.1.2 Deletando valores faltantes

* Existe uma breve diferença ao aplicar `dropna` em Series e em DataFrames
    * Series: basta executar o método
    * DataFrame: deve ser informado se deve deletar a coluna ou a linha, por padrão deleta-se a linha por completo

* Series

In [136]:
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [137]:
data.dropna()

0        1
2    hello
dtype: object

* DataFrame: Dropna deleta todas as linhas contendo NaN

In [138]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [139]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


* Pode explicitar se deve deletar linhas ou colunas

In [140]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [141]:
df.dropna(axis=0)

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [142]:
df.dropna(axis=1)

Unnamed: 0,2
0,2
1,5
2,6


* Embora possa ser especificado se deve ser deletado linhas ou colunas, pode ser que haja perca de informação
* Para contornar este problema, existem 2 parâmetros que podem ser utilizados para tunar como os dados devem ser deletados
    * thresh
    * how

###### Exemplo How

In [143]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [144]:
df.dropna(axis=1, how='any')

Unnamed: 0,2
0,2
1,5
2,6


In [145]:
df.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


###### Exemplo Tresh:


* Thresh: Parâmetro para filtrar dados que contenham pelo menos a quantidade informada de dados na linha ou coluna

In [146]:
df = pd.DataFrame({
    "name": ['Alfred', 'Batman', 'Catwoman'],
    "toy": [np.nan, 'Batmobile', 'Bullwhip'],
    "born": [pd.NaT, pd.Timestamp("1940-04-25"), pd.NaT]})

In [147]:
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [148]:
df.dropna(thresh=2)

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


#### 4.4.1.3 Preenchendo Valores Faltantes

* Pandas possui a interface `fillna` que retorna uma cópia dos dados com valores faltantes substituidos

###### Exemplo

In [149]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

* Pode-se preencher valores faltantes com um valor específico:

In [150]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

* Pode-se propagar o último valor presente para os valores faltantes

In [151]:
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [152]:
data.fillna(method='ffill')  # forward fill

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

* Pode-se propagar o próximo valor visto para valores faltantes

In [153]:
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [154]:
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

* Para dataframe, o processo é exatamente o mesmo, podendo informar se deve propagar valores por linha ou coluna

In [155]:
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [156]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,name,toy,born
0,Alfred,Alfred,Alfred
1,Batman,Batmobile,1940-04-25 00:00:00
2,Catwoman,Bullwhip,Bullwhip


In [157]:
df.fillna(method='bfill', axis=0)

Unnamed: 0,name,toy,born
0,Alfred,Batmobile,1940-04-25
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


***
# 5. Combinando Dados: `Concat` e `Append`
***

* Pandas possui várias abordagens para combinar dados de diferentes bases
    * Series e Pandas forma implementados com este objetivo, facilitar manueseio de dados


* Vamos usar esta função para criar dados

In [158]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


* Vamos utilizar a Classe display para exibir data frames lado a lado

In [159]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## 5.1 Concatenação de Dados com `pd.concat`

* É possível concatenar Series ou DataFrames para fazer a concatenação de 1 ou mais objetos Pandas

In [160]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [161]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
res = pd.concat([df1, df2])
display('df1', 'df2', 'res')

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


* É possível especificar o eixo em que a concatenação é realizada

In [162]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
res = pd.concat([df3, df4], axis=1)
display('df3', 'df4', "res")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,C,D
0,C0,D0
1,C1,D1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


### 5.1.1 Índices duplicados

* Concatenação em Pandas permite preservar os índices, mesmo caso índices sejam duplicados

In [163]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
res = pd.concat([x, y])
display('x', 'y', 'res')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


### 5.1.2 Verificando integridade

* Dependendo do tipo de dados, índices repetidos não devem ser levados em consideração
* É possível verificar a existência de índices repetidos com o parâmetro `verify_integrity`.

In [164]:
display("x", "y")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3


In [165]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


### 5.1.3 Ignorando o indice

* Algumas vezes, o índice em si não importa, o que importa mesmo são os valores dos dados, neste caso é possível ignorar os índices
* Basta utilizar o parâmetro `ignore_index`, e durante a concatenação um novo índice será criado

In [166]:
display('x', 'y')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3


In [167]:
res = pd.concat([x, y], ignore_index=True)
display('x', 'y', 'res')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


### 5.1.4 Concatenando com Joins

* É possível aplicar inner join ou outer join durante a concatenação
    * outer: é o procedimento padrão, mantêm todas as colunas e índices existentes em ambos os dados
    * inner: é uma operação de interseção, mantêm apenas as colunas e índices presentes em ambos os dados

In [168]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6')

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


* Outer Join

In [169]:
res = pd.concat([df5, df6], sort=True, join='outer')
display('df5', 'df6', 'res')

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


* Inner Join

In [170]:
res = pd.concat([df5, df6], sort=True, join='inner')
display('df5', 'df6', 'res')

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


## 5.2 Concatenando com dados com `Append`

* Concatenação de dados é uma tarefa tão comum em Pandas que existe um método para concatenar diretamente do próprio objeto
    * Append faz concatenações simples
* Deve-ser levado em consideração, que toda operação Append na verdade está fazendo uma cópia do DataFrame
* Append não é muito eficiente, se for necessário concatenar vários objetos, armazene em uma lista e depois use `pd.concat`

In [171]:
res = df1.append(df2)
display('df1', 'df2', 'res')

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


* Para concatenações mais sofisticadas, pode-se verificar a documenbtação do pandas de duas bibliotecas
    * [pd.concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)
    * [pd.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

***
# 6. Agregação e Agrupamento
***

* Sumarização é uma das partes mais importantes de análise de dados
* Permite entender o dado, e como ele é representado por meio de estatística

* Pandas possue várias funções para agregação e agrupamento de dados

Vamos utilizar o código abaixo para exibir dataframes

In [172]:
import numpy as np
import pandas as pd

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## 6.1 Dados do Planeta

* O [seaborn](https://seaborn.pydata.org/), possui vários dados internamente, um deles chama-se "planets"
* Pode-se utilizar o comando `sns.get_dataset_names()` para verificar as bases disponíveis pelo seaborn

In [173]:
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [174]:
planets.head(10)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
7,Radial Velocity,1,798.5,,21.41,1996
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


* Detalhes de mais de 1000 planetas descobertos até 2014

## 6.2 Agregação Simples no Pandas

* Já haviamos explorado anteriormente agregação com o NumPy
* As mesmas agregações podem ser feitas diretamente no Pandas com Series e DataFrames
    * sum
    * mean
    * min
    * max
    * ...

###### Exemplo em Series

* Em Series, o resultado de uma agregação é um único valor aplicado sobre toda a Serie.

In [175]:
# rng = np.random.RandomState(42)
ser = pd.Series(np.random.rand(int(1e6)))
ser[0:3]

0    0.816807
1    0.953600
2    0.265041
dtype: float64

In [176]:
%timeit np.sum(ser)
%timeit ser.sum()
%timeit sum(ser)

14 ms ± 1.47 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
12.3 ms ± 479 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
128 ms ± 5.51 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


###### Exemplo em DataFrame

* Operações de Agregação em DataFrame retornam um valor para cada coluna por padrão
    * é possível específicar o eixo em que a agregação deve ser realizada

In [177]:
df = pd.DataFrame({'A': np.random.rand(5),
                   'B': np.random.rand(5)})
df

Unnamed: 0,A,B
0,0.643557,0.72943
1,0.56823,0.118727
2,0.138516,0.62944
3,0.257462,0.21196
4,0.139272,0.640777


In [178]:
df.mean(axis=0)  # operação por coluna

A    0.349407
B    0.466067
dtype: float64

In [179]:
df.mean(axis=1)  # operação por linha

0    0.686494
1    0.343478
2    0.383978
3    0.234711
4    0.390024
dtype: float64

* Além das agregações existentes no NumPy, Pandas possui um outro métod chamado `describe`
* Este método aplica algumas agregações sobre os dados e retorna um dataframe com estas métricas

In [180]:
planets.head(3)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011


In [181]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


* Além de `describe`, pandas possui outros métodos de agregação:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

## 6.3 GroupBy: Split, Apply e Combine

* Algumas vezes, agregações sobre todo o conjunto de dados não é suficiente
* Pandas permite computar agregações por condições em algum rótulo ou índice
    * Esta operação é chamada `groupby`
* É mais comum pensar em uma operação de groupby em 3 etapas:
    * split: quebre o dado e agrupe o DataFrame de acordo com algum critério
    * apply: aplique alguma função sobre o grupo
    * Combine: Mergeie os resultados destas operações em um novo array

<div>
<img src="https://nbviewer.jupyter.org/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/03.08-split-apply-combine.png" width="900"/>
</div>

* O poder do `groupby` é que todos estes passos são abstraidos, possibilitando apenas pensar na agregação, sem se preocupar como isso de fato funciona internamente

In [182]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


* A operação de groupby retorna um objeto do tipo DataFrameGroupBy
* Este objeto é basicamente uma visão do DataFrame, nenhuma computação é de fato realizada até que a operação de agregação seja chamada

In [183]:
grupo = df.groupby('key')
print(grupo)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11952208>


* Qualquer agragação do Pandas, NumPy ou operação válida em um DataFrame pode ser aplicada em um grupo

In [184]:
grupo.sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


## 6.4 O Objeto GroupBy

* O Objeto groupby é simplesmente uma coleção de DataFrames que são abstrações dos dados originais

#### Indexação de Colunas

* É possível fazer indexação de colunas em um objeto GroupBy da mesma maneira que é feito em um objeto DataFrame

In [185]:
planets.head(3)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011


In [186]:
group_planets_method = planets.groupby('method')
print(group_planets_method)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12AF5100>


* É possível fazer seleção individual das colunas do grupo

In [187]:
group_planets_method['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x12AF5310>

* Conforme pode ser visto, computações só são realizadas quando a função de agregação é aplicada

In [188]:
group_planets_method['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

* Pandas permite aplicar qualquer método do em cada grupo do objeto GroupBy
* Por exemplo, pode-se chamar a função describe do Pandas nos Grupos formadoes pela coluna *method* para cada valor da coluna *year*

In [189]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


***
# 7. Série temporal
***

* Pandas possui um conjunto bastante extensivo de ferramentas para se trabalhar com datas, tempos e dados com índice temporal
    * Time Stamps: Um momento particular no tempo (ex. 7 de Setembro de 2019, às 21:00)
    * Time Intervals: Intervalos de tempo e períodos referenciam um comprimento de tempo entre um início e fim. Exemplo: O ano de 2015.
    * Time Deltas: normalmente um time delta repesenta um comprimento exato de tempo. Ex: duração de 22.56 segundos

## 7.1 Data e Tempo em Python

* Pandas possui ferramentas bastante úteis para se trabalhar com dados temporais.
* No entando é interessante ter conhecimento da biblioteca `datetime` e `dateutil` natives do python

* É possível criar datas manualmente com a função `datetime`

In [190]:
from datetime import datetime

datetime(year=2015, month=7, day=4)

datetime.datetime(2015, 7, 4, 0, 0)

* `dateutil` permite parsear os datas de um variedade de formatos em forma de string

In [191]:
from dateutil import parser
date = parser.parse("4th of July, 2015")
date

datetime.datetime(2015, 7, 4, 0, 0)

* Uma vez definido o objeto data, é possível acessar atributos específicos de cada objeto:

In [192]:
date.date()

datetime.date(2015, 7, 4)

In [193]:
date.day

4

In [194]:
date.year

2015

In [195]:
date.month

7

## 7.2 Data e Tempo em NumPy

* Numpy permite criar datas diretamente como strings utilizando o tipo `datetime64`
    * datas devem estar no formato especifico `Y-M-D hh:mm:ss`.
    * [Documentação](https://docs.scipy.org/doc/numpy/reference/arrays.datetime.html)

In [196]:
date = np.array('2015-07-04', dtype=np.datetime64)
date

array('2015-07-04', dtype='datetime64[D]')

* Uma vez que a data foi criada, é possível aplicar operações vetorizadas sobre o vetor

In [197]:
date + 10

numpy.datetime64('2015-07-14')

In [198]:
date + np.arange(30)

array(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
       '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
       '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15',
       '2015-07-16', '2015-07-17', '2015-07-18', '2015-07-19',
       '2015-07-20', '2015-07-21', '2015-07-22', '2015-07-23',
       '2015-07-24', '2015-07-25', '2015-07-26', '2015-07-27',
       '2015-07-28', '2015-07-29', '2015-07-30', '2015-07-31',
       '2015-08-01', '2015-08-02'], dtype='datetime64[D]')

## 7.3 Data com Pandas

* Pandas providência uma interface bastante intuitiva para trabalhar com Data
* Possui a mesma eficiência de armazenamento e funções de vetorização com NumPy
* Pandas torna possível utilizar Timestamp como índices de uma Serie ou DataFrame

In [199]:
date = date = pd.to_datetime("4th of July, 2015")
date

Timestamp('2015-07-04 00:00:00')

* É possível aplicar funções vetorizadas diretamente em um Timestamp

In [200]:
date + pd.to_timedelta(np.arange(12), 'D')

DatetimeIndex(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
               '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
               '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'],
              dtype='datetime64[ns]', freq=None)

### 7.3.1 Time Series como Índices

* É possível utilizar Timestamps como índices em Series e DataFrames

In [201]:
index = pd.DatetimeIndex(['2014-07-04', '2014-08-04',
                          '2015-07-04', '2015-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

2014-07-04    0
2014-08-04    1
2015-07-04    2
2015-08-04    3
dtype: int64

* É possível fazer busca pelos índices apenas passando dados que podem ser convertidos para Timestamps

In [202]:
data['2014-07-04':'2015-07-04']

2014-07-04    0
2014-08-04    1
2015-07-04    2
dtype: int64

In [203]:
data['2015']

2015-07-04    2
2015-08-04    3
dtype: int64

## 7.4 Trantando dados

* Como tratar os dados a seguir, com as seguintes regras.
    * Primeiro Nome em uma coluna e último nome em outra coluna
    * data de nascimento convertida para timestamp
    * Débito convertido para float

| Nome              | Data Nascimento | Débito      |
|-------------------|-----------------|-------------|
| Jose Maria        | 1997/06/23      | 1,945.42    |
| Maria Lucia       | 1983/03/09      | 950.33      |
| Francisco Augusto | 2010/04/03      | 46,323.19   |
| Mendes Lima       | 2008/07/16      | 3,894,345.89|


***
# 8. Alguns Recursos Extras
***

* [Documentação do Pandas](https://pandas.pydata.org/)
* [Python para Análise de Dados](http://shop.oreilly.com/product/0636920023784.do)
* [Stack Overflow](https://stackoverflow.com/questions/tagged/pandas)
* [Py Video](https://pyvideo.org/search?q=pandas)

Pandas é Lento?
https://pyvideo.org/pycolorado-2019/pandas-may-be-slow-but-pandas-doesnt-have-to-be.html