# Biblioteca Pandas (Créditos ao Professor Luciano Nunes)

* Biblioteca open source, escrita sobre a NumPy, extremamente eficiente para limpeza e manipulação de grandes quantidades de dados. Trabalha os dados de forma muito semelhante ao MS Excel (linhas e colunas).

* Oferece estruturas e funções para facilitar a análise de dados em Python. Originalmente suas funções eram concentradas para análise de séries temporais, porém foi evoluindo e hoje possui suporte para diversos tipos de dados.

* Outra grande vantagem é que boa parte do código foi implementada em linguagem C para melhorar a performance. Assim como a biblioteca NumPy buscou-se a facilidade da linguagem Python com a performance similar à da linguagem C.

>  http://pandas.pydata.org/

### Sua instalação é bastante simples, feita através do PIP ou Conda:

```bash
pip install pandas      ou      conda install pandas
```

### Neste módulo serão abordados os principais objetos do Pandas:
* Series
* DataFrames
* Agrupamentos (GroupBy)
* Entrada e Saída de dados
* Índices Multiníveis
* Dados Faltantes
* Concatenação e mesclagem


In [1]:
import numpy as np
import pandas as pd

## Series

### Uma Series é como um array unidimensional, uma lista de valores que sempre tem um índice relacionado, que rotula cada elemento da lista formando uma estrutura semelhando a de um dicionário do Python.

In [2]:
lista = [10, 20, 30]
array = np.array([10, 20, 30])
dic = {'A':10, 'B':20, 'C':30}

In [3]:
my_list = pd.Series(lista)
my_list

0    10
1    20
2    30
dtype: int64

In [4]:
coord = pd.Series(lista, ['X', 'Y', 'Z'])
coord

X    10
Y    20
Z    30
dtype: int64

In [5]:
pd.Series(['X', 'Y', 'Z'], lista)

10    X
20    Y
30    Z
dtype: object

In [6]:
pd.Series(array)

0    10
1    20
2    30
dtype: int64

In [7]:
s = pd.Series(dic)
s

A    10
B    20
C    30
dtype: int64

In [8]:
type(s)

pandas.core.series.Series

### Elementos podem ser acessados através de seu índice:

In [9]:
coord['Y']

20

In [10]:
my_list[0]

10

_**NOTE** que tanto índices quanto valores podem ser de qualquer tipo do Python ou de qualquer biblioteca referenciada_

### Fornece informações estatísticas básicas sobre a série (no caso de séries numéricas)

In [11]:
array = np.random.randint(1, 100, 10)
series = pd.Series(array)
series

0    58
1    83
2     5
3    22
4    26
5    81
6    64
7     1
8    17
9     9
dtype: int64

In [12]:
series.mean()

36.6

In [13]:
series.std()

31.746215872481912

In [14]:
series.min()

1

In [15]:
series.max()

83

In [16]:
series.value_counts()

26    1
1     1
58    1
9     1
17    1
22    1
5     1
83    1
81    1
64    1
dtype: int64

In [17]:
series.describe()

count    10.000000
mean     36.600000
std      31.746216
min       1.000000
25%      11.000000
50%      24.000000
75%      62.500000
max      83.000000
dtype: float64

### Operações com escalares

In [18]:
pd.Series([10, 20, 30, 40, 50]) / 10

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [19]:
pd.Series([10, 20, 30, 40, 50]) * 10

0    100
1    200
2    300
3    400
4    500
dtype: int64

### Operações baseadas em indices:

In [20]:
female_by_uf = pd.Series([1142487, 1185868, 248416, 5509991], ['AL', 'AM', 'AP', 'BA'])

In [21]:
male_by_uf = pd.Series([1004033, 1134335, 239029, 5053946], ['AL', 'AM', 'AP', 'BA'])

In [22]:
total_by_uf = female_by_uf + male_by_uf

In [23]:
total_by_uf

AL     2146520
AM     2320203
AP      487445
BA    10563937
dtype: int64

In [24]:
female_by_uf = pd.Series([71850,   1142487, 1185868, 248416,  5509991         ], ['AC', 'AL', 'AM', 'AP', 'BA'])

In [25]:
male_by_uf = pd.Series(  [1004033, 1134335, 239029,  5053946, 2991782, 1301956], ['AL', 'AM', 'AP', 'BA', 'CE', 'ES'])

In [26]:
total_by_uf = female_by_uf + male_by_uf

In [27]:
total_by_uf

AC           NaN
AL     2146520.0
AM     2320203.0
AP      487445.0
BA    10563937.0
CE           NaN
ES           NaN
dtype: float64

## DataFrame

### DataFrame é o principal objeto da biblioteca Pandas. É composto basicamente por conjuntos de Series organizados de forma bidimensional e indexados.

### Pode ser criado de várias formas diferentes:

In [28]:
df = pd.DataFrame([[10, 20, 30], [40, 50 , 60], [70, 80, 90]])
df

In [29]:
np.random.seed(100)

In [30]:
df = pd.DataFrame(np.random.randn(3, 4))
df

In [31]:
df = pd.DataFrame(np.random.randn(5, 4), index=['A', 'B', 'C', 'D', 'E'])
df

In [32]:
df = pd.DataFrame(np.random.randn(5, 4), columns=['A', 'B', 'C', 'D'])
df

In [33]:
df = pd.DataFrame(np.random.randn(5, 4), 
                  index=['A', 'B', 'C', 'D', 'E'], 
                  columns=['W', 'X', 'Y', 'Z'])
df

### A indexação de um DataFrame é muito semelhante à de utilizadas em dicionários:
**As colunas de um DataFrame são Series**

In [34]:
df['W']

A   -0.940046
B   -0.862227
C   -0.881798
D   -1.635529
E    1.026921
Name: W, dtype: float64

In [35]:
df[['W', 'Y']]

### É possível criar novas colunas apenas atribuindo uma Series a ela:

In [36]:
df['X_Y'] = df['X'] + df['Y']
df

In [37]:
df['Another'] = [23, 456, 89, -34, 66]
df

In [38]:
df['W']

A   -0.940046
B   -0.862227
C   -0.881798
D   -1.635529
E    1.026921
Name: W, dtype: float64

In [39]:
df.drop('X_Y', axis=1)

In [40]:
df

### Porém esta operação não afeta diretamente o DataFrame, para que isso ocorra é necessário utilizar o parâmetro *inplace*

In [41]:
df.drop('X_Y', axis=1, inplace=True)
df

In [42]:
df = df.drop('Another', axis=1)
df

### Elementos podem ser localizados usando o método *loc* seguindo a notação de linha X coluna:

In [43]:
df

In [44]:
df.loc['A', 'W']

-0.9400461615447682

In [45]:
df.loc['C', 'Y']

0.2378446219236218

### Quando a coluna é omitida, o retorno serão todos os elementos da linha selecionada em formato Series:

In [46]:
df.loc['A']

W   -0.940046
X   -0.827932
Y    0.108863
Z    0.507810
Name: A, dtype: float64

In [47]:
df.loc['C']

W   -0.881798
X    0.018639
Y    0.237845
Z    0.013549
Name: C, dtype: float64

### A notação linha X coluna também pode ser utilizada:

In [48]:
df.loc[['A', 'C'], ['Y', 'Z']]

### É possivel localizar elementos através de índices numéricos assim como na NumPy através do método *iloc*:

In [49]:
df.iloc[1:4]

In [50]:
df.iloc[:2, 2:]

### De uma forma muito semelhante à seleção condicional do NumPy, com os Dataframes e Series do Pandas é possível localizar elementos baseado em condições além da localização por linhas, colunas ou índices:

In [51]:
df > 0

In [52]:
df[df > 0]

#### Note que os indices dos elementos que não obedecem ao critério estabelecido, retornam com NaN (Não disponível)

### A partir do DataFrame resultante, é possível fazer operações de *slicing*:

In [53]:
df[df['W'] > 0]

In [54]:
df[df['W'] > 0][['X', 'Y']]

In [55]:

df[df['W'] > 0][['X', 'Y']][1:]

### É possível combinar condições em uma seleção condicional utilizando os operadores & e |

In [56]:
mask1 = df['W'] > 0
df[mask1]

In [57]:
df[((df['X'] < 0) & (df['Y'] > 0) | (df['Z'] < 0))]

### É possível reiniciar as condições do índice de um DataFrame através do método *reset_index*:

In [58]:
df.reset_index()

### Ou substituir o índice por valores de uma coluna do DataFrame qualquer:

In [59]:
df

In [60]:
df['Estados'] = ['SP', 'RJ', 'MG', 'ES', 'SC']


In [61]:
df.set_index('Estados')
df

### Operações de agrupamento podem ser efetuadas através do método *groupby*:

In [62]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df

In [63]:
by_team = df.groupby(by='Team')
by_team

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7fe83b860748>

In [64]:
df.index

RangeIndex(start=0, stop=6, step=1)

### Várias informações podem ser extraídas a partir de um *DataFrameGroupBy*

In [65]:
by_team.sum()

In [66]:
by_team.max()

In [67]:
by_team.min()

In [68]:
by_team.mean()

In [69]:
by_team.std()

### Algumas informações estatísticas podem ser obtidas através do método *describe*

In [70]:
by_seller = df.groupby(by='Seller')
by_seller

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7fe83b814a90>

In [71]:
by_seller.describe()

### As operações de agrupamento, retornam DataFrames que podem ser fatiados:

In [72]:
s = by_seller.sum()
s

In [73]:
s.loc['Bob']

Sale    398
Name: Bob, dtype: int64

In [74]:
s[s['Sale'] > 200]

### Pandas fornece uma série de métodos para entrada e saída de dados. Basicamente em uma operação é possível ler um conjunto de dados de uma determinada fonte de forma que sejam já disponibilizadas em um DataFrame.

### Para isso é necessário conhecer o tipo e as características da fonte de dados, por exemplo, um arquivo CSV, seu separador e encoding. Os métodos *read_\** e *to_\** fornecem o suporte necessário para tal tarefa:

In [75]:
df = pd.read_csv('../../resources/datasets/heroes.csv')
df.head()

In [76]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df.to_csv('../../resources/datasets/sales.csv')
df.to_json('../../resources/datasets/sales.json')


## Índices Multiníveis

In [77]:
groups = [('Grupo 1', 'Sub_1'), 
          ('Grupo 1', 'Sub_2'), 
          ('Grupo 1', 'Sub_3'),
          ('Grupo 2', 'Sub_1'), 
          ('Grupo 2', 'Sub_2'), 
          ('Grupo 2', 'Sub_3')]
groups

[('Grupo 1', 'Sub_1'),
 ('Grupo 1', 'Sub_2'),
 ('Grupo 1', 'Sub_3'),
 ('Grupo 2', 'Sub_1'),
 ('Grupo 2', 'Sub_2'),
 ('Grupo 2', 'Sub_3')]

In [78]:
i = pd.MultiIndex.from_tuples(groups)
i

MultiIndex(levels=[['Grupo 1', 'Grupo 2'], ['Sub_1', 'Sub_2', 'Sub_3']],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [79]:
import pandas as pd
import numpy as np

In [80]:
df = pd.DataFrame(np.random.rand(6, 2), index=i, columns=['C1', 'C2'])
df

TypeError: sequence item 0: expected str instance, NoneType found

Unnamed: 0,Unnamed: 1,C1,C2
Grupo 1,Sub_1,0.110788,0.31264
Grupo 1,Sub_2,0.456979,0.65894
Grupo 1,Sub_3,0.254258,0.641101
Grupo 2,Sub_1,0.200124,0.657625
Grupo 2,Sub_2,0.778289,0.779598
Grupo 2,Sub_3,0.610328,0.309


In [81]:
df.index.names = ['Grupo', 'SubGrupo']
df

In [82]:
g1 = df.loc['Grupo 1']
g1

In [83]:
g1['C1']

SubGrupo
Sub_1    0.110788
Sub_2    0.456979
Sub_3    0.254258
Name: C1, dtype: float64

In [84]:
g1.loc['Sub_1']

C1    0.110788
C2    0.312640
Name: Sub_1, dtype: float64

In [85]:
df.xs(key='Sub_1', level=1)

In [86]:
df.xs(key='Grupo 1', level=0)

In [87]:
data = {'Team' : ['Alfa', 'Beta', 'Alfa', 'Beta', 'Beta', 'Alfa'], 
        'Seller' : ['Bob', 'Sam', 'Charlie', 'Smith', 'Sam', 'Bob'],
        'Sale' : [120, 250, 180, 100, 95, 278]}

df = pd.DataFrame(data)
df

In [88]:
df = df.groupby(by=['Team', 'Seller']).sum()
df

In [89]:
df.index

MultiIndex(levels=[['Alfa', 'Beta'], ['Bob', 'Charlie', 'Sam', 'Smith']],
           labels=[[0, 0, 1, 1], [0, 1, 2, 3]],
           names=['Team', 'Seller'])

In [90]:
df.xs(key='Bob', level=1)

In [91]:
df.xs(key='Beta', level=0)

## Dados Faltantes

Eventualmente poderá ocorrer uma situação onde o conjunto de informações fornecido tenha alguns _gaps_, algumas informações que não foram forneceidas em meio a muitas outras fornecidas, e esses "buracos" podem atrapalhar a análise do _DataSet_ pois as operações estatísticas básicas acabam não funcionando de forma adequada.

O Pandas oferece algumas funcionalidades para contornar esses problemas e a utilização desses métodos irá depender do comportamento esperado do tratamento desses dados:

### Método: dropna()
Este método excluirá (_drop_), dependendo dos parâmetros de entrada, linhas ou colunas com dados faltantes.

In [92]:
df = pd.DataFrame({'A':[1, 2, 3], 'B':[np.nan, 4, 5], 'C':[np.nan, 7, np.nan]})
df

In [93]:
df.dropna()

In [94]:
df.dropna(axis=1)

In [95]:
df.dropna(axis=1, thresh=2)

### Método: fillna()
O método _fillna()_ irá preencher os dados faltantes com critérios passados nos argumentos.

In [96]:
df.fillna(0)

In [97]:
df.fillna(df.mean())

In [98]:
df.fillna(df.min())

In [99]:
df.fillna(df.max())

In [100]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

In [101]:
df.fillna(method='ffill')

In [102]:
df.fillna(value={'A': 0, 'B': 99, 'C': -1, 'D': 'A'})

In [103]:
df.fillna(value={'A': 0, 'B': 99, 'C': -1, 'D': 'A'}, limit=1)

### Método: replace()
O método replace substitui um valor por outro passados como argumentos, podendo aceitar escalares, cadeias de caracteres, listas e expressões regulares.

In [104]:
s = pd.Series([0, 1, 2, 3, 4])
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [105]:
s.replace(0, 5)

0    5
1    1
2    2
3    3
4    4
dtype: int64

In [106]:
df = pd.DataFrame({'A': [0, 1, 2, 3, 4],
                   'B': [5, 6, 7, 8, 9],
                   'C': ['a', 'b', 'c', 'd', 'e']})
df

In [107]:
df.replace(0, 5)

In [108]:
df.replace([0, 1, 2, 3, 7], -1)

In [109]:
df.replace([0, 1, 2, 3], [4, 3, 2, 1])

In [110]:
x = df.replace([0, 1, 2, 3], np.nan)
x

In [111]:
x.replace(np.nan, -1)

In [112]:
df.replace([1, 2], method='bfill')

In [113]:
df.replace({0: 10, 1: 'A', 'c': 'Python'})

In [114]:
df.replace({'A': 0, 'B': 8}, 100)

## Concatenação, junção e mesclagem
Existem 3 formas diferentes de combinar DataFramas do Pandas: _Merging_, _Joining_ e _Concatenating_. Em todas elas o objetivo é o mesmo, trazer informações de DataFrames dispersos para um único DataFrame, com o objetivo de facilitar a análise dos dados.

https://pandas.pydata.org/pandas-docs/stable/merging.html

## Método: concat()


In [115]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}) 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']})

In [116]:
df1

In [117]:
df2

In [118]:
df3

In [119]:
pd.concat([df1, df2, df3])

In [120]:
pd.concat([df1, df2, df3], ignore_index=True)

In [121]:
pd.concat([df1, df2, df3], axis=1)

In [122]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11'], 
                        'F': ['F1', 'F2', 'F3', 'D11']})

In [123]:
df3

In [124]:
pd.concat([df1, df2, df3], sort=False)

In [125]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                     index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])

In [126]:
df1

In [127]:
df2

In [128]:
df3

In [129]:
pd.concat([df1, df2, df3], axis=1)

### Método: merge()

In [130]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'A': ['A0', 'A1', 'A2', 'A3'],
                       'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

In [131]:
left

In [132]:
right

In [133]:
pd.merge(left, right, on='key')

In [134]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                         'C': ['C0', 'C1', 'C2', 'C3'],
                         'D': ['D0', 'D1', 'D2', 'D3']})

In [135]:
left

In [136]:
right

In [137]:
pd.merge(left, right, on=['key1', 'key2'])

In [138]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

In [139]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

In [140]:
pd.merge(left, right, how='outer', on=['key1', 'key2'])

### Método: join()

In [141]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                     index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [142]:
left

In [143]:
right

In [144]:
left.join(right)

In [145]:
left.join(right, how='outer')

In [146]:
left.join(right, how='left')

In [147]:
left.join(right, how='right')