<h1> Aprendendo a usar Pandas </h1>
    <p><blockquote> Com o crescimento da data science nos dias atuais uma ótima forma de tratar dados é com a biblioteca <code>Pandas</code> , criada sobre o <code>numpy</code></blockquote></p>

In [2]:
import numpy as np
import pandas as pd
pd.__version__

'0.25.1'

In [4]:
data = pd.Series([0.2, 43., 0.5, 7, 3]) # Criando um array unidimencional
data

0     0.2
1    43.0
2     0.5
3     7.0
4     3.0
dtype: float64

In [5]:
data.values # Selecionando os valores

array([ 0.2, 43. ,  0.5,  7. ,  3. ])

In [6]:
data.index # Observando o index

RangeIndex(start=0, stop=5, step=1)

# Slicing
<p><blockquote> Semelhante ao <code>numpy</code> o slicing no pandas pode ser feito da forma: <strong>exemplo[inicio:fim:passo]</strong><br> Observe: </blockquote></p>

In [7]:
data[0:3:2]

0    0.2
2    0.5
dtype: float64

# Index
<p><blockquote> Os indexes do pandas podem ser alterados por strings ou até mesmo outros números da na sua criação</blockquote> </p>

In [8]:
data = pd.Series([0.3, 0.5, 13, 2.3, 5], index=['arroz', 'batata', 'camarão', 'danone', 3])
data

arroz       0.3
batata      0.5
camarão    13.0
danone      2.3
3           5.0
dtype: float64

In [9]:
data['danone']

2.3

In [10]:
data[3]

5.0

# Uso de dicionarios python
<p><blockquote> Um dicionário da própria biblioteca do python pode ser adicionada diretamente às series do <code>pandas</code><br> Veja abaixo: </blockquote></p>

In [11]:
# Criação de um dicionário 
dic_comidas = { 'fruta': 'maçãs',
                'frituras': 'hamburgers',
                'sobremesas': 'açaí', 
                'bebida': 'café',
              }
comidas = pd.Series(dic_comidas)
comidas

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
dtype: object

In [12]:
# Note que o slicing pode ser feito da mesma forma que arrays do numpy
comidas['frituras':'bebida']

frituras      hamburgers
sobremesas          açaí
bebida              café
dtype: object

# Data frames
<blockquote> Podem ser unidos varias Series de dados num dataFrame, observe:

In [13]:
calorias = pd.Series({'fruta': 50, # obs: valores fictícios
                      'frituras': 5000,
                      'sobremesas': 500, 
                      'bebida': 20,
                    })

refeicao_completa = pd.DataFrame({'comidas': comidas, 'calorias': calorias})
refeicao_completa

Unnamed: 0,comidas,calorias
fruta,maçãs,50
frituras,hamburgers,5000
sobremesas,açaí,500
bebida,café,20


In [14]:
refeicao_completa.index # Visualização do index

Index(['fruta', 'frituras', 'sobremesas', 'bebida'], dtype='object')

In [15]:
refeicao_completa.values # Visualização dos valores

array([['maçãs', 50],
       ['hamburgers', 5000],
       ['açaí', 500],
       ['café', 20]], dtype=object)

In [16]:
refeicao_completa.columns # Visualização das colunas

Index(['comidas', 'calorias'], dtype='object')

In [17]:
# Os data frames podem acessar dados de uma coluna especifica
refeicao_completa['comidas']

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
Name: comidas, dtype: object

In [18]:
# Data frames podem ser construidos a partir de qualquer lista de dicionários python
exemplo = [{'a':i, 'b':i**2} for i in range(1, 4)]
pd.DataFrame(exemplo, index = ['uno', 'dos', 'tres'])

Unnamed: 0,a,b
uno,1,1
dos,2,4
tres,3,9


In [19]:
# Se faltarem informações o bloco é substituído por NaN (not a number)
ex2 = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}], index = ['prisão', 'macarrão'])
ex2

Unnamed: 0,a,b,c
prisão,1.0,2,
macarrão,,3,4.0


In [20]:
# Podem ser transformados em dataframes arrays bidimencionais
ex3 = pd.DataFrame(np.random.rand(3, 2), columns=['a', 'b'], index = ['3', '2', '1'])
ex3

Unnamed: 0,a,b
3,0.659492,0.119337
2,0.323143,0.62947
1,0.428134,0.378602


In [21]:
ex3['a']

3    0.659492
2    0.323143
1    0.428134
Name: a, dtype: float64

In [22]:
# Por arrays estruturados do numpy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [23]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# Aprofundando no objeto Index
<blockquote> Os indexes no <code>pandas</code> apresentam curiosidades que vão ser estudadas abaixo </blockquote>

In [24]:
ind = pd.Index([1, 3, 5, 6, 8])
ind

Int64Index([1, 3, 5, 6, 8], dtype='int64')

In [25]:
# Os indexes podem ser chamados por seus indexes (super metalinguístico)
ind[3]

6

In [26]:
# O slicing pode ser feito na mesma forma que um array comum
ind[::2] 

Int64Index([1, 5, 8], dtype='int64')

In [27]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [28]:
# Diferente dos arrays do numpy o index é imutável, observe o erro abaixo
ind[2] = 4

TypeError: Index does not support mutable operations

In [None]:
# Operações que podem ser feitas entre indexes
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 8])

In [None]:
# Interceção
indA & indB

In [None]:
# União
indA | indB

In [None]:
# Diferença
indA ^ indB

# Seleção e indexing de data

In [None]:
# Series como dicionários
data = pd.Series([0., 1., 1.5, 2, 3], index = ['a', 'b', 'c', 'd', 'e'])
data

In [None]:
data['b']

In [None]:
'a' in data

In [None]:
2.0 in data.values

In [None]:
data.keys()

In [None]:
list(data.items())

In [None]:
# Adicionando dados inexistentes
data['e'] = 4
data

In [None]:
# Slicing pelo index alterado
data['a':'c']

In [None]:
# Slicing pelo index padrão
data[0:3]

In [None]:
# Aplicando uma máscara
data[(data > 0.9) & (data < 2)]

In [None]:
# Utilizando o 'fancy index'
id = ['a', 'c']
data[id]

In [None]:
# Para evitar conflitos com o index customizado e o padrão existe o loc e o iloc
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data.loc[1:3] # Slicing pelo customizado

In [None]:
data.iloc[1:3] # Slicing pelo padrão (de zero a -1)

# Seleção de dados DataFrame

In [None]:
refeicao_completa.calorias

In [29]:
refeicao_completa.comidas

fruta              maçãs
frituras      hamburgers
sobremesas          açaí
bebida              café
Name: comidas, dtype: object

In [30]:
refeicao_completa.calorias is refeicao_completa['calorias']

True

In [31]:
peso = pd.Series({'fruta':100, 'frituras':500, 'sobremesas':300, 'bebida':1})
refeicao_completa = pd.DataFrame({'peso': peso, 'comida': comidas, 'calorias': calorias})


In [32]:
refeicao_completa['divisa'] = refeicao_completa['calorias'] / refeicao_completa['peso']
refeicao_completa

Unnamed: 0,peso,comida,calorias,divisa
fruta,100,maçãs,50,0.5
frituras,500,hamburgers,5000,10.0
sobremesas,300,açaí,500,1.666667
bebida,1,café,20,20.0


In [33]:
refeicao_completa.values

array([[100, 'maçãs', 50, 0.5],
       [500, 'hamburgers', 5000, 10.0],
       [300, 'açaí', 500, 1.6666666666666667],
       [1, 'café', 20, 20.0]], dtype=object)

# Ufuncs
<blockquote> As Ufuncs do <code>numpy</code> vão servir para o <code>pandas</code> </blockquote>

In [34]:
rng = np.random.RandomState(42)

In [35]:
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [36]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [37]:
df['A']

0    6
1    7
2    7
Name: A, dtype: int32

In [38]:
A = pd.Series([2, 4, 5], index = [0, 1, 2])
B = pd.Series([1, 2, 4], index = [1, 2, 3])
A + B

0    NaN
1    5.0
2    7.0
3    NaN
dtype: float64

In [39]:
# Para corrigir os NaN pode se preencher a função, assim todas as lacunas são preenchidas:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    7.0
3    4.0
dtype: float64

In [40]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [41]:
B = pd.DataFrame(rng.randint(0, 20, (3, 3)), columns=list('BAI'))
B

Unnamed: 0,B,A,I
0,0,11,11
1,16,9,15
2,14,14,18


In [42]:
A + B

Unnamed: 0,A,B,I
0,12.0,11.0,
1,14.0,17.0,
2,,,


In [43]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,I
0,12.0,11.0,15.5
1,14.0,17.0,19.5
2,18.5,18.5,22.5


In [46]:
A.T # Função que inverte o DataFrame (A letra T é de toggle, trocar)

Unnamed: 0,0,1
A,1,5
B,11,1


In [48]:
# Propriedades entre DataFrames
A = rng.randint(10, size=(3, 4))
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,8,1,9,8
1,9,4,1,3
2,6,7,2,0


In [50]:
metade = df.iloc[0, ::2] 
metade

Q    8
S    9
Name: 0, dtype: int32

In [51]:
# Ao subtrair o inteiro por uma fração percebe-se que o pandas preserva os outros dados, nesse caso as linhas 1 e 2
df - metade

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,1.0,,-8.0,
2,-2.0,,-7.0,


# Missing data
<blockquote> A biblioteca do <code>numpy</code> e <code>pandas</code> tem sua própria forma de tratar dados perdidos, sejam eles dos tipos:
<ul>
    <li>NaN <i>(not a number)</i></li>
    <li>none <i>(objeto da builtin do python)</i></li>
    <li>Na <i>(not avaliable)</i></li>
    </ul>
</blockquote>

# None

In [53]:
val1 = np.array([1, None, 2, 4]) # Peceba que o array é do tipo objeto e isso pode interferir no desempenho de atividades
val1

array([1, None, 2, 4], dtype=object)

In [54]:
for dtype in ['object', 'int']: # Desempenho da busca nos tipos
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
65.6 ms ± 3.67 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
2.18 ms ± 43.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



In [55]:
val1.sum() # Não são permitidas operações com esse tipo de dado

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

# nan

In [57]:
val2 = np.array([1, np.nan, 2, 4]) # O tipo do array ignora o tipo nan sendo o do resto dele
val2.dtype

dtype('float64')

In [58]:
val2.sum() # Porém as operações são inviabilizadas com ele

nan

In [59]:
val2.min()

nan

In [61]:
val2.max()

nan

In [64]:
# mas o numpy tem um tratamento especial para isso
np.nansum(val2)

7.0

In [65]:
np.nanmin(val2)

1.0

In [70]:
# No pandas ambos os valores são substituídos por NaN (valores nulos)
val3 = pd.Series([1, None, 3, np.nan])

In [71]:
# Para identificar quais valores são nulos existe a função
val3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [72]:
# Para selecionar os valores não nulos basta usar uma mascara
val3[val3.notnull()]

0    1.0
2    3.0
dtype: float64

In [75]:
# Para remover esses valores:
val3.dropna()

0    1.0
2    3.0
dtype: float64

In [76]:
# Num dataframe essa função remove toda a linha
df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5], [np.nan, 4, 6]])
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [77]:
# Caso deseje remover apenas as colunas basta:
df.dropna(axis=1) # ou axis = 'columns'

Unnamed: 0,2
0,2
1,5
2,6


In [80]:
# Para remover apenas as colunas com TODOS os dados do tipo Nan:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [81]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [84]:
# O parametro thresh deixa voçê especificar o numero minimo de notnull para a coluna(ou linha) ser mantida
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### Preenchimento de valores nulos

In [132]:
se = pd.Series([0, 1, np.nan, 2, None, 3])

In [133]:
se.fillna(0) # preenchendo com zeros

0    0.0
1    1.0
2    0.0
3    2.0
4    0.0
5    3.0
dtype: float64

In [134]:
se.fillna(method='ffill') # forward fill (contagem progressiva)

0    0.0
1    1.0
2    1.0
3    2.0
4    2.0
5    3.0
dtype: float64

In [135]:
se.fillna(method='ffill') # backward fill (contagem regressiva)

0    0.0
1    1.0
2    1.0
3    2.0
4    2.0
5    3.0
dtype: float64

# Utilização de multindex no pandas
<blockquote> Uma forma de organizar dados com mais de uma característica é usando o Multindex

In [6]:
import pandas as pd
import numpy as np

index = [('California', 2000), ('California', 2010),
 ('New York', 2000), ('New York', 2010),
 ('Texas', 2000), ('Texas', 2010)]

população = [33871648, 37253956,
            18976457, 19378102,
            20851820, 25145561]

index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [8]:
pop = pd.Series(população, index = index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [19]:
# Slicing
pop.loc['New York':, 2000]

New York  2000    18976457
Texas     2000    20851820
dtype: int64

In [20]:
# Trasnformando em novos frames
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [21]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [30]:
pop_df = pd.DataFrame({'total': pop, 'under18': [9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [31]:
pop_df['under18']

California  2000    9267089
            2010    9284094
New York    2000    4687374
            2010    4318033
Texas       2000    5906301
            2010    6879014
Name: under18, dtype: int64

In [34]:
# Criando uma porcentagem
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568
