# Biblioteca Pandas

* ### Biblioteca open source, escrita sobre a NumPy, extremamente eficiente para limpeza e manipulação de grandes quantidades de dados. Trabalha os dados de forma muito semelhante ao MS Excel (linhas e colunas).

* ### Oferece estruturas e funções para facilitar a análise de dados em Python. Originalmente suas funções eram concentradas para análise de séries temporais, porém foi evoluindo e hoje possui suporte para diversos tipos de dados.

* ### Outra grande vantagem é que boa parte do código foi implementada em linguagem C para melhorar a performance. Assim como a biblioteca NumPy buscou-se a facilidade da linguagem Python com a performance similar à da linguagem C.

> ### http://pandas.pydata.org/

### Sua instalação é bastante simples, feita através do PIP ou Conda:

```javascript
pip install pandas      ou      conda install pandas
```

### Neste módulo serão abordados os principais objetos do Pandas:
* #### Series
* #### DataFrames
* #### Agrupamentos (GroupBy)
* #### Entrada e Saída de dados
* #### Índices Multiníveis
* #### Dados Faltantes
* #### Concatenação e mesclagem
---

In [None]:
import numpy as np
import pandas as pd

## Series

### Uma Series é como um array unidimensional, uma lista de valores que sempre tem um índice relacionado, que rotula cada elemento da lista formando uma estrutura semelhando a de um dicionário do Python.

In [None]:
lista = [10, 20, 30]
array = np.array([10, 20, 30])
dic = {'A':10, 'B':20, 'C':30}

In [None]:
my_list = pd.Series(lista)
my_list

In [None]:
coord = pd.Series(lista, ['X', 'Y', 'Z'])
coord

In [None]:
pd.Series(['X', 'Y', 'Z'], lista)

In [None]:
pd.Series(array)

In [None]:
s = pd.Series(dic)
s

In [None]:
type(s)

### Elementos podem ser acessados através de seu índice:

In [None]:
coord['Y']

In [None]:
my_list[0]

_**NOTE** que tanto índices quanto valores podem ser de qualquer tipo do Python ou de qualquer biblioteca referenciada_

### Fornece informações estatísticas básicas sobre a série (no caso de séries numéricas)

In [None]:
array = np.random.randint(1, 100, 10)
series = pd.Series(array)
series

In [None]:
series.mean()

In [None]:
series.std()

In [None]:
series.min()

In [None]:
series.max()

In [None]:
series.value_counts()

In [None]:
series.describe()

### Operações com escalares

In [None]:
pd.Series([10, 20, 30, 40, 50]) / 10

In [None]:
pd.Series([10, 20, 30, 40, 50]) * 10

### Operações baseadas em indices:

In [None]:
female_by_uf = pd.Series([1142487, 1185868, 248416, 5509991], ['AL', 'AM', 'AP', 'BA'])

In [None]:
male_by_uf = pd.Series([1004033, 1134335, 239029, 5053946], ['AL', 'AM', 'AP', 'BA'])

In [None]:
total_by_uf = female_by_uf + male_by_uf

In [None]:
total_by_uf

In [None]:
female_by_uf = pd.Series([71850, 1142487, 1185868, 248416, 5509991], ['AC', 'AL', 'AM', 'AP', 'BA'])

In [None]:
male_by_uf = pd.Series([1004033, 1134335, 239029, 5053946, 2991782, 1301956], ['AL', 'AM', 'AP', 'BA', 'CE', 'ES'])

In [None]:
total_by_uf = female_by_uf + male_by_uf

In [None]:
total_by_uf

## DataFrame

### DataFrame é o principal objeto da biblioteca Pandas. É composto basicamente por conjuntos de Series organizados de forma bidimensional e indexados.

### Pode ser criado de várias formas diferentes:

In [None]:
df = pd.DataFrame([[10, 20, 30], [40, 50 , 60], [70, 80, 90]])
df

In [None]:
np.random.seed(100)

In [None]:
df = pd.DataFrame(np.random.randn(5, 4))
df

In [None]:
df = pd.DataFrame(np.random.randn(5, 4), index=['A', 'B', 'C', 'D', 'E'])
df

In [None]:
df = pd.DataFrame(np.random.randn(5, 4), columns=['A', 'B', 'C', 'D'])
df

In [None]:
df = pd.DataFrame(np.random.randn(5, 4), 
                  index=['A', 'B', 'C', 'D', 'E'], 
                  columns=['W', 'X', 'Y', 'Z'])
df

### A indexação de um DataFrame é muito semelhante à de utilizadas em dicionários:
**As colunas de um DataFrame são Series**

In [None]:
df['W']

In [None]:
df[['W', 'Y']]

### É possível criar novas colunas apenas atribuindo uma Series a ela:

In [None]:
df['X_Y'] = df['X'] + df['Y']
df

In [None]:
df['Another'] = [23, 456, 89, -34, 66]
df

In [None]:
df['W']

In [None]:
df.drop('X_Y', axis=1)

In [None]:
df

### Porém esta operação não afeta diretamente o DataFrame, para que isso ocorra é necessário utilizar o parâmetro *inplace*

In [None]:
df.drop('X_Y', axis=1, inplace=True)
df

In [None]:
df = df.drop('Another', axis=1)
df

### Elementos podem ser localizados usando o método *loc* seguindo a notação de linha X coluna:

In [None]:
df

In [None]:
df.loc['A', 'W']

In [None]:
df.loc['C', 'Y']

### Quando a coluna é omitida, o retorno serão todos os elementos da linha selecionada em formato Series:

In [None]:
df.loc['A']

In [None]:
df.loc['C']

### A notação linha X coluna também pode ser utilizada:

In [None]:
df.loc[['A', 'C'], ['Y', 'Z']]

### É possivel localizar elementos através de índices numéricos assim como na NumPy através do método *iloc*:

In [None]:
df.iloc[1:4]

In [None]:
df.iloc[:2, 2:]

### De uma forma muito semelhante à seleção condicional do NumPy, com os Dataframes e Series do Pandas é possível localizar elementos baseado em condições além da localização por linhas, colunas ou índices:

In [None]:
df > 0

In [None]:
df[df > 0]

#### Note que os indices dos elementos que não obedecem ao critério estabelecido, retornam com NaN (Não disponível)

### A partir do DataFrame resultante, é possível fazer operações de *slicing*:

In [None]:
df[df['W'] > 0]

In [None]:
df[df['W'] > 0][['X', 'Y']]

In [None]:

df[df['W'] > 0][['X', 'Y']][1:]

### É possível combinar condições em uma seleção condicional utilizando os operadores & e |

In [None]:
mask1 = df['W'] > 0
df[mask1]

In [None]:
df[((df['X'] < 0) & (df['Y'] > 0) | (df['Z'] < 0))]

### É possível reiniciar as condições do índice de um DataFrame através do método *reset_index*:

In [None]:
df.reset_index()

### Ou substituir o índice por valores de uma coluna do DataFrame qualquer:

In [None]:
df

In [None]:
df['Estados'] = ['SP', 'RJ', 'MG', 'ES', 'SC']


In [None]:
df.set_index('Estados')
df

### Operações de agrupamento podem ser efetuadas através do método *groupby*:

In [None]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df

In [None]:
by_team = df.groupby(by='Team')
by_team

In [None]:
df.index

### Várias informações podem ser extraídas a partir de um *DataFrameGroupBy*

In [None]:
by_team.sum()

In [None]:
by_team.max()

In [None]:
by_team.min()

In [None]:
by_team.mean()

In [None]:
by_team.std()

### Algumas informações estatísticas podem ser obtidas através do método *describe*

In [None]:
by_seller = df.groupby(by='Seller')
by_seller

In [None]:
by_seller.describe()

### As operações de agrupamento, retornam DataFrames que podem ser fatiados:

In [None]:
s = by_seller.sum()
s

In [None]:
s.loc['Bob']

In [None]:
s[s['Sale'] > 200]

### Pandas fornece uma série de métodos para entrada e saída de dados. Basicamente em uma operação é possível ler um conjunto de dados de uma determinada fonte de forma que sejam já disponibilizadas em um DataFrame.

### Para isso é necessário conhecer o tipo e as características da fonte de dados, por exemplo, um arquivo CSV, seu separador e encoding. Os métodos *read_\** e *to_\** fornecem o suporte necessário para tal tarefa:

In [None]:
df = pd.read_csv('/tmp/heroes.csv')
df.head()

In [None]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df.to_csv('/tmp/sales.csv')
df.to_json('/tmp/sales.json')
df.to_clipboard()

## Índices Multiníveis

In [None]:
groups = [('Grupo 1', 'Sub_1'), 
          ('Grupo 1', 'Sub_2'), 
          ('Grupo 1', 'Sub_3'),
          ('Grupo 2', 'Sub_1'), 
          ('Grupo 2', 'Sub_2'), 
          ('Grupo 2', 'Sub_3')]
groups

In [None]:
i = pd.MultiIndex.from_tuples(groups)
i

In [None]:
df = pd.DataFrame(np.random.rand(6, 2), index=i, columns=['C1', 'C2'])
df

In [None]:
df.index.names = ['Grupo', 'SubGrupo']
df

In [None]:
g1 = df.loc['Grupo 1']
g1

In [None]:
g1['C1']

In [None]:
g1.loc['Sub_1']

In [None]:
df.xs(key='Sub_1', level=1)

In [None]:
df.xs(key='Grupo 1', level=0)

In [None]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df

In [None]:
df = df.groupby(by=['Team', 'Seller']).sum()
df

In [None]:
df.index

In [None]:
df.xs(key='Bob', level=1)

In [None]:
df.xs(key='Beta', level=0)

## Dados Faltantes

Eventualmente poderá ocorrer uma situação onde o conjunto de informações fornecido tenha alguns _gaps_, algumas informações que não foram forneceidas em meio a muitas outras fornecidas, e esses "buracos" podem atrapalhar a análise do _DataSet_ pois as operações estatísticas básicas acabam não funcionando de forma adequada.

O Pandas oferece algumas funcionalidades para contornar esses problemas e a utilização desses métodos irá depender do comportamento esperado do tratamento desses dados:

### Método: dropna()
Este método excluirá (_drop_), dependendo dos parâmetros de entrada, linhas ou colunas com dados faltantes.

In [None]:
df = pd.DataFrame({'A':[1, 2, 3], 'B':[np.nan, 4, 5], 'C':[np.nan, 7, np.nan]})
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(axis=1, thresh=2)

### Método: fillna()
O método _fillna()_ irá preencher os dados faltantes com critérios passados nos argumentos.

In [None]:
df.fillna(0)

In [None]:
df.fillna(df.mean())

In [None]:
df.fillna(df.min())

In [None]:
df.fillna(df.max())

In [None]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(value={'A': 0, 'B': 99, 'C': -1, 'D': 'A'})

In [None]:
df.fillna(value={'A': 0, 'B': 99, 'C': -1, 'D': 'A'}, limit=1)

### Método: replace()
O método replace substitui um valor por outro passados como argumentos, podendo aceitar escalares, cadeias de caracteres, listas e expressões regulares.

In [None]:
s = pd.Series([0, 1, 2, 3, 4])
s

In [None]:
s.replace(0, 5)

In [None]:
df = pd.DataFrame({'A': [0, 1, 2, 3, 4],
                   'B': [5, 6, 7, 8, 9],
                   'C': ['a', 'b', 'c', 'd', 'e']})
df

In [None]:
df.replace(0, 5)

In [None]:
df.replace([0, 1, 2, 3, 7], -1)

In [None]:
df.replace([0, 1, 2, 3], [4, 3, 2, 1])

In [None]:
x = df.replace([0, 1, 2, 3], np.nan)
x

In [None]:
x.replace(np.nan, -1)

In [None]:
df.replace([1, 2], method='bfill')

In [None]:
df.replace({0: 10, 1: 'A', 'c': 'Python'})

In [None]:
df.replace({'A': 0, 'B': 8}, 100)

## Concatenação, junção e mesclagem
Existem 3 formas diferentes de combinar DataFramas do Pandas: _Merging_, _Joining_ e _Concatenating_. Em todas elas o objetivo é o mesmo, trazer informações de DataFrames dispersos para um único DataFrame, com o objetivo de facilitar a análise dos dados.

https://pandas.pydata.org/pandas-docs/stable/merging.html

## Método: concat()


In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}) 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']})

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [None]:
pd.concat([df1, df2, df3])

In [None]:
pd.concat([df1, df2, df3], ignore_index=True)

In [None]:
pd.concat([df1, df2, df3], axis=1)

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11'], 
                        'F': ['F1', 'F2', 'F3', 'F4']})

In [None]:
df3

In [None]:
pd.concat([df1, df2, df3], sort=False)

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                     index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [None]:
pd.concat([df1, df2, df3], axis=1)

### Método: merge()

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'A': ['A0', 'A1', 'A2', 'A3'],
                       'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left, right, on='key')

In [None]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                         'C': ['C0', 'C1', 'C2', 'C3'],
                         'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left, right, on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='outer', on=['key1', 'key2'])

### Método: join()

In [None]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                     index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [None]:
left

In [None]:
right

In [None]:
left.join(right)

In [None]:
left.join(right, how='outer')

In [None]:
left.join(right, how='left')

In [None]:
left.join(right, how='right')