<h1> Aprendendo a usar Pandas </h1>
    <p><blockquote> Com o crescimento da data science nos dias atuais uma ótima forma de tratar dados é com a biblioteca <code>Pandas</code> , criada sobre o <code>numpy</code></blockquote></p>

In [3]:
import numpy as np
import pandas as pd
pd.__version__

'0.25.1'

In [3]:
data = pd.Series([0.2, 43., 0.5, 7, 3]) # Criando um array unidimencional
data

0     0.2
1    43.0
2     0.5
3     7.0
4     3.0
dtype: float64

In [4]:
data.values # Selecionando os valores

array([ 0.2, 43. ,  0.5,  7. ,  3. ])

In [5]:
data.index # Observando o index

RangeIndex(start=0, stop=5, step=1)

# Slicing
<p><blockquote> Semelhante ao <code>numpy</code> o slicing no pandas pode ser feito da forma: <strong>exemplo[inicio:fim:passo]</strong><br> Observe: </blockquote></p>

In [7]:
data[0:3:2]

0    0.2
2    0.5
dtype: float64

# Index
<p><blockquote> Os indexes do pandas podem ser alterados por strings ou até mesmo outros números da na sua criação</blockquote> </p>

In [13]:
data = pd.Series([0.3, 0.5, 13, 2.3, 5], index=['arroz', 'batata', 'camarão', 'danone', 3])
data

arroz       0.3
batata      0.5
camarão    13.0
danone      2.3
3           5.0
dtype: float64

In [14]:
data['danone']

2.3

In [15]:
data[3]

5.0

# Uso de dicionarios python
<p><blockquote> Um dicionário da própria biblioteca do python pode ser adicionada diretamente às series do <code>pandas</code><br> Veja abaixo: </blockquote></p>

In [81]:
# Criação de um dicionário 
dic_comidas = { 'fruta': 'maçãs',
                'frituras': 'hamburgers',
                'sobremesas': 'açaí', 
                'bebida': 'café',
              }
comidas = pd.Series(dic_comidas)
comidas

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
dtype: object

In [82]:
# Note que o slicing pode ser feito da mesma forma que arrays do numpy
comidas['frituras':'bebida']

frituras      hamburgers
sobremesas          açaí
bebida              café
dtype: object

# Data frames
<blockquote> Podem ser unidos varias Series de dados num dataFrame, observe:

In [99]:
calorias = pd.Series({'fruta': 50, # obs: valores fictícios
                      'frituras': 5000,
                      'sobremesas': 500, 
                      'bebida': 20,
                    })

refeicao_completa = pd.DataFrame({'comidas': comidas, 'calorias': calorias})
refeicao_completa

Unnamed: 0,comidas,calorias
fruta,maçãs,50
frituras,hamburgers,5000
sobremesas,açaí,500
bebida,café,20


In [44]:
refeicao_completa.index # Visualização do index

Index(['fruta', 'frituras', 'sobremesas', 'bebida'], dtype='object')

In [45]:
refeicao_completa.values # Visualização dos valores

array([['maçãs', 50],
       ['hamburgers', 5000],
       ['açaí', 500],
       ['café', 20]], dtype=object)

In [47]:
refeicao_completa.columns # Visualização das colunas

Index(['comidas', 'calorias'], dtype='object')

In [49]:
# Os data frames podem acessar dados de uma coluna especifica
refeicao_completa['comidas']

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
Name: comidas, dtype: object

In [12]:
# Data frames podem ser construidos a partir de qualquer lista de dicionários python
exemplo = [{'a':i, 'b':i**2} for i in range(1, 4)]
pd.DataFrame(exemplo, index = ['uno', 'dos', 'tres'])

Unnamed: 0,a,b
uno,1,1
dos,2,4
tres,3,9


In [21]:
# Se faltarem informações o bloco é substituído por NaN (not a number)
ex2 = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}], index = ['prisão', 'macarrão'])
ex2

Unnamed: 0,a,b,c
prisão,1.0,2,
macarrão,,3,4.0


In [31]:
# Podem ser transformados em dataframes arrays bidimencionais
ex3 = pd.DataFrame(np.random.rand(3, 2), columns=['a', 'b'], index = ['3', '2', '1'])
ex3

Unnamed: 0,a,b
3,0.303772,0.828808
2,0.638722,0.658279
1,0.741699,0.336281


In [32]:
ex3['a']

3    0.303772
2    0.638722
1    0.741699
Name: a, dtype: float64

In [34]:
# Por arrays estruturados do numpy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [35]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# Aprofundando no objeto Index
<blockquote> Os indexes no <code>pandas</code> apresentam curiosidades que vão ser estudadas abaixo </blockquote>

In [36]:
ind = pd.Index([1, 3, 5, 6, 8])
ind

Int64Index([1, 3, 5, 6, 8], dtype='int64')

In [37]:
# Os indexes podem ser chamados por seus indexes (super metalinguístico)
ind[3]

6

In [39]:
# O slicing pode ser feito na mesma forma que um array comum
ind[::2] 

Int64Index([1, 5, 8], dtype='int64')

In [40]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [42]:
# Diferente dos arrays do numpy o index é imutável, observe o erro abaixo
ind[2] = 4

TypeError: Index does not support mutable operations

In [43]:
# Operações que podem ser feitas entre indexes
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 8])

In [44]:
# Interceção
indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [45]:
# União
indA | indB

Int64Index([1, 2, 3, 5, 7, 8, 9], dtype='int64')

In [48]:
# Diferença
indA ^ indB

Int64Index([1, 2, 8, 9], dtype='int64')

# Seleção e indexing de data

In [63]:
# Series como dicionários
data = pd.Series([0., 1., 1.5, 2, 3], index = ['a', 'b', 'c', 'd', 'e'])
data

a    0.0
b    1.0
c    1.5
d    2.0
e    3.0
dtype: float64

In [50]:
data['b']

1.0

In [52]:
'a' in data

True

In [55]:
2.0 in data.values

True

In [56]:
data.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [58]:
list(data.items())

[('a', 0.0), ('b', 1.0), ('c', 1.5), ('d', 2.0), ('e', 3.0)]

In [64]:
# Adicionando dados inexistentes
data['e'] = 4
data

a    0.0
b    1.0
c    1.5
d    2.0
e    4.0
dtype: float64

In [65]:
# Slicing pelo index alterado
data['a':'c']

a    0.0
b    1.0
c    1.5
dtype: float64

In [66]:
# Slicing pelo index padrão
data[0:3]

a    0.0
b    1.0
c    1.5
dtype: float64

In [69]:
# Aplicando uma máscara
data[(data > 0.9) & (data < 2)]

b    1.0
c    1.5
dtype: float64

In [76]:
# Utilizando o 'fancy index'
id = ['a', 'c']
data[id]

a    0.0
c    1.5
dtype: float64

In [77]:
# Para evitar conflitos com o index customizado e o padrão existe o loc e o iloc
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data.loc[1:3] # Slicing pelo customizado

1    a
3    b
dtype: object

In [79]:
data.iloc[1:3] # Slicing pelo padrão (de zero a -1)

3    b
5    c
dtype: object

# Seleção de dados DataFrame

In [124]:
refeicao_completa.calorias

fruta           50
frituras      5000
sobremesas     500
bebida          20
Name: calorias, dtype: int64

In [85]:
refeicao_completa.comidas

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
Name: comidas, dtype: object

In [105]:
refeicao_completa.calorias is refeicao_completa['calorias']

True

In [130]:
peso = pd.Series({'fruta':100, 'frituras':500, 'sobremesas':300, 'bebida':1})
refeicao_completa = pd.DataFrame({'peso': peso, 'comida': comidas, 'calorias': calorias})


ValueError: Unable to coerce to Series, length must be 3: given 1

In [128]:
refeicao_completa['divisa'] = refeicao_completa['calorias'] / refeicao_completa['peso']
refeicao_completa

Unnamed: 0,peso,comida,calorias,divisa
fruta,100,maçãs,50,0.5
frituras,500,hamburgers,5000,10.0
sobremesas,300,açaí,500,1.666667
bebida,1,café,20,20.0


In [129]:
refeicao_completa.values

array([[100, 'maçãs', 50, 0.5],
       [500, 'hamburgers', 5000, 10.0],
       [300, 'açaí', 500, 1.6666666666666667],
       [1, 'café', 20, 20.0]], dtype=object)

# Ufuncs
<blockquote> As Ufuncs do <code>numpy</code> vão servir para o <code>pandas</code> </blockquote>

In [133]:
rng = np.random.RandomState(42)

In [136]:
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [141]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,8,1,9,8
1,9,4,1,3
2,6,7,2,0


In [142]:
df['A']

0    8
1    9
2    6
Name: A, dtype: int32

In [150]:
A = pd.Series([2, 4, 5], index = [0, 1, 2])
B = pd.Series([1, 2, 4], index = [1, 2, 3])
A + B

0    NaN
1    5.0
2    7.0
3    NaN
dtype: float64

In [154]:
# Para corrigir os NaN pode se preencher a função, assim todas as lacunas são preenchidas:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    7.0
3    4.0
dtype: float64

In [160]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,11,7
1,10,18


In [163]:
B = pd.DataFrame(rng.randint(0, 20, (3, 3)), columns=list('BAI'))
B

Unnamed: 0,B,A,I
0,6,8,7
1,11,1,0
2,15,4,2


In [164]:
A + B

Unnamed: 0,A,B,I
0,19.0,13.0,
1,11.0,29.0,
2,,,


In [166]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,I
0,19.0,13.0,18.5
1,11.0,29.0,11.5
2,15.5,26.5,13.5
