<h3>Pandas</h3>

O Pandas é uma lib amplamente utilizada para análise de volumes de dados e, está intimamente ligada ao Numpy e Matplotlib.

No Pandas, temos alguns itens importantes:

- Series: similar a um Array do Numpy, mas com uma indexação que pode ser como a de um Dictionary

- DataFrames: tabela de dados (igual do R)

- Panel: não será abordado nesse curso, mas vale a pesquisa!

In [1]:
import pandas as pd
import numpy as np

In [2]:
str1 = "abcde"

lst = [i for i in str1]

In [3]:
series_simples = pd.Series(lst)

print(series_simples)

0    a
1    b
2    c
3    d
4    e
dtype: object


In [4]:
indices = ['id' + str(i) for i in range(len(lst))]

series_personalizada = pd.Series(lst, index = indices)

print(series_personalizada)

id0    a
id1    b
id2    c
id3    d
id4    e
dtype: object


Criando uma série a partir de um dicionário

- Keys serão os índices

- Values serão os dados propriamente ditos

In [5]:
chaves = lst
valores = [10,20,30,40,50]

meu_dict = {chaves[i]:valores[i] for i in range(len(chaves))}

series_dictionary = pd.Series(meu_dict)

print(series_dictionary)

a    10
b    20
c    30
d    40
e    50
dtype: int64


Acessando os valores das Series

- Através do índice

- Através do rótulo

- Através de uma lista

- Pode-se efetuar slicing

In [6]:
print("Acessando pelo rótulo ['a']",series_dictionary['a'])
print("Acessando pelo índice [0]",series_dictionary[0])

Acessando pelo rótulo ['a'] 10
Acessando pelo índice [0] 10


In [7]:
print("Acessando por uma lista ['a','b']\n",series_dictionary[['a','b']])

Acessando por uma lista ['a','b']
 a    10
b    20
dtype: int64


Como dito anteriormente, pode-se usar slicing também

No caso de acessar por slicing usando rótulos, ele funciona até o elemento do rótulo (se fosse o caso de um slicing normal, teria o problema de identificar o último elemento)

In [8]:
print("Acessando através de Slicing 0~3\n",series_dictionary[0:3])

Acessando através de Slicing 0~3
 a    10
b    20
c    30
dtype: int64


In [9]:
print("Acessando através de Slicind c~e\n",series_dictionary['c':'e'])

Acessando através de Slicind c~e
 c    30
d    40
e    50
dtype: int64


Criar máscaras booleanas em Series também é super simples e de modo idêntico ao Numpy

In [10]:
mask = (series_dictionary > 25)

print(mask)

a    False
b    False
c     True
d     True
e     True
dtype: bool


In [11]:
print(series_dictionary[mask])

c    30
d    40
e    50
dtype: int64


<h3>Reindexação</h3>

Pode-se reindexar uma Series, inclusive adicionando novos termos. O que ocorre é que, aos elementos adicionados à reindexação, serão adicionados os valores NaN, ou seja, a ausência de valores

*** Atenção, uma nova Series é gerada

In [12]:
# geramos nossa Series original

indices = [0, 1, 3]

valores = np.arange(3)

s = pd.Series(valores, index=indices)

print(s)

0    0
1    1
3    2
dtype: int32


In [13]:
s_nan = s.reindex(np.arange(5))

print(s_nan)

0    0.0
1    1.0
2    NaN
3    2.0
4    NaN
dtype: float64


Como verificado acima, percebe-se que os valores mudaram de *int* para *float*

Podemos lidar facilmente com os dados faltantes, principalmente com o auxílio de máscaras booleanas

- método *isna()*

In [14]:
s_mask_nan = pd.isna(s_nan)

print(s_mask_nan)

0    False
1    False
2     True
3    False
4     True
dtype: bool


In [15]:
s_nan[s_mask_nan] = -1

print(s_nan)

0    0.0
1    1.0
2   -1.0
3    2.0
4   -1.0
dtype: float64


Há também um parâmetro que preenche automaticamente os valores faltantes (NaN) com o valor desejado

- fill_value

- Nesse caso, o tipo da Series se mantém, pois não há inserção do NaN no conjunto

In [16]:
s_fill_value = s.reindex(np.arange(5), fill_value=-1)

print(s_fill_value)

0    0
1    1
2   -1
3    2
4   -1
dtype: int32


<h3>Operações Aritméticas com Series</h3>

- As operações são sempre feitas com os índices

- Caso não exista um índice comum nas duas Series, teremos um valor NaN no lugar

In [17]:
ind1 = ['id{}'.format(i) for i in range(11) if i%2==0]
ind2 = ['id{}'.format(i) for i in range(11)]

val1 = [10*i for i in range(11) if i%2==0]
val2 = [10*i for i in range(11)]

s1 = pd.Series(val1, index=ind1)
s2 = pd.Series(val2, index=ind2)

print(s1+s2)

id0       0.0
id1       NaN
id10    200.0
id2      40.0
id3       NaN
id4      80.0
id5       NaN
id6     120.0
id7       NaN
id8     160.0
id9       NaN
dtype: float64


Ordenando Series (ambos os métodos geram uma nova Series)

- sort_index: ordena os elementos da Series com base nos índices

- sort_values: ordena os elementos da Series com base nos valores

In [18]:
r = pd.Series(np.random.randint(0,10,4), index=['d','a','b','c'])

print(r)

d    4
a    4
b    3
c    3
dtype: int32


In [19]:
print(r.sort_index())

a    4
b    3
c    3
d    4
dtype: int32


In [20]:
print(r.sort_values())

b    3
c    3
d    4
a    4
dtype: int32


<h3>Rótulos Repetidos</h3>

No Pandas, podemos ter rótulos repetidos, o que facilita muito a análise dos dados, pois nos gera **subséries** de dados, agrupando os mesmos rótulos, mas não os operando diretamente

In [21]:
s = pd.Series(range(7), index=list('ababcda'))

print(s)

a    0
b    1
a    2
b    3
c    4
d    5
a    6
dtype: int64


In [22]:
print(s['a'])

a    0
a    2
a    6
dtype: int64


In [23]:
print(s['b'])

b    1
b    3
dtype: int64


Métodos extremamente úteis do Pandas (mas há muitos mais de onde esses saíram)

- unique: verifica os valores únicos dentro de uma série

- value_counts: conta quantas vezes um dado valor ocorre dentro da série

- isin: verifica onde os valore sindicados aparecem na série (em forma de máscara booleana)

In [24]:
s = pd.Series(['c','a','d','a','a','b','b','c','d','b'])

print('Valores únicos da série:\n\n',s.unique())

Valores únicos da série:

 ['c' 'a' 'd' 'b']


In [25]:
print('Quantas vezes cada valor apareceu na série:\n\n',s.value_counts())

Quantas vezes cada valor apareceu na série:

 a    3
b    3
d    2
c    2
dtype: int64


In [26]:
print("Onde o valor 'b' aparece na série:\n\n",s.isin(['b']))

Onde o valor 'b' aparece na série:

 0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
9     True
dtype: bool


<H3>Data Frames</H3>

São basicamente matrizes de dados bidimensionais (tabelas) e que possuem diversas propriedades de bancos de dados

- No uso de dicionários, teremos os cabeçalhos (header) dos dataframes iguais às chaves do dicionário e seus itens como os valores da tabela. Todos devem possuir os mesmos tamanhos

In [27]:
meu_dicionario = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA','FL','FL'],    
     'year' :  [2010, 2011, 2008, 2010, 2011, 2013, 2009],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8, 7.1, 8.3]}

dataf_dic = pd.DataFrame(meu_dicionario)

print(dataf_dic)

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
5    FL  2013   7.1
6    FL  2009   8.3


Dois métodos importantes são:

- head(n=5): mostra os 'n' primeiros itens do DF, onde o valor default é 5
    - Útil para verificar se o import de dados está adequado

- dtypes (na verdade é uma propriedade): mostra os tipos de dados presentes no DF

In [28]:
dataf_dic.head()

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [29]:
print(dataf_dic.dtypes)

state     object
year       int64
pop      float64
dtype: object


Podemos também declarar DFs usando dicionários de dicionários

- Aqui, não é necessário que os dados sejam inseridos de modo simétrico

In [30]:
dod =  {'FL': {2010:18.1, 2011:19.1}, 'GA': {2008: 9.7, 2010: 9.7, 2011:9.8}}

dataf_dict_dict = pd.DataFrame(dod)

dataf_dict_dict.head()

Unnamed: 0,FL,GA
2010,18.1,9.7
2011,19.1,9.8
2008,,9.7


<h3>Acessando as informações</h3>

Podem ser acessadas via:

- Endereço simples através do rótulo

- Rótulo como atributo (não recomendável, pois há restrições)

- Endereço de rótulos em lista

In [33]:
print('Coluna FL\n\n',dataf_dict_dict['FL'])

Coluna FL

 2010    18.1
2011    19.1
2008     NaN
Name: FL, dtype: float64


In [34]:
print(dataf_dict_dict.FL)

2010    18.1
2011    19.1
2008     NaN
Name: FL, dtype: float64


In [36]:
print(dataf_dict_dict[['FL','GA']])

        FL   GA
2010  18.1  9.7
2011  19.1  9.8
2008   NaN  9.7


Podemos acessar as informações sobre os rótulos de modo mais detalhado (incluindo o tipo de arquivos)

In [37]:
print(dataf_dict_dict.columns)

Index(['FL', 'GA'], dtype='object')


Podemos também acessar apenas os valores dos rótulos das colunas

In [38]:
print(dataf_dict_dict.columns.values)

['FL' 'GA']


<h3>Buscas com expressões booleanas</h3>

Tal qual vimos em Series e Arrays, podemos efetuar as buscas utilizando expressões booleanas (máscaras booleanas)

In [41]:
mask = (dataf_dict_dict > 10)

print(dataf_dict_dict[mask])

        FL  GA
2010  18.1 NaN
2011  19.1 NaN
2008   NaN NaN


Aqui também podemos criar uma busca usando um **query**, igual em bancos de dados

In [44]:
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA'],
     'year' :  [2010, 2011, 2008, 2010, 2011],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

dataf_d = pd.DataFrame(d)

print(dataf_d)

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8


In [46]:
print(dataf_d.query('pop > 10'))

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1


In [53]:
print(dataf_d.query("state == 'GA'"))

  state  year  pop
2    GA  2008  9.7
3    GA  2010  9.7
4    GA  2011  9.8


In [56]:
mask = dataf_d['state'] == 'GA'

print(dataf_d[mask])

  state  year  pop
2    GA  2008  9.7
3    GA  2010  9.7
4    GA  2011  9.8


No caso das queries usando operadores lógicos, devemos utilizar & (and) e | (or), ao invés dos operadores lógicos nativos do Python

In [60]:
print(dataf_d.query('pop > 8 & year == 2010'))

  state  year   pop
0    FL  2010  18.8
3    GA  2010   9.7


In [72]:
A = np.random.randint(0,30,35).reshape(5,7)

rotulo_linhas = ['id' + str(i) for i in range(A.shape[0])]
rotulo_colunas = ['co' + str(i) for i in range(A.shape[1])]

dataf_A = pd.DataFrame(A, index=rotulo_linhas, columns=rotulo_colunas)

dataf_A.head()

print((dataf_A['co0'] > 9) & (dataf_A['co4'] < 20))

id0     True
id1    False
id2     True
id3     True
id4     True
dtype: bool


<h3>Adicionando colunas</h3>

- Para adicionar uma coluna, basta declarar uma nova coluna com o índice a ser inserido e seus valores

In [73]:
print(dataf_A)

     co0  co1  co2  co3  co4  co5  co6
id0   27   14   13    7    5    5   28
id1    6    2   21   22    0    1    7
id2   17    4    1    8   18   12    9
id3   24   19    6    0   18   13    0
id4   15    5    2   28    0   20    9


In [75]:
dataf_A['co7'] = np.zeros(5)

print(dataf_A)

     co0  co1  co2  co3  co4  co5  co6  co7
id0   27   14   13    7    5    5   28  0.0
id1    6    2   21   22    0    1    7  0.0
id2   17    4    1    8   18   12    9  0.0
id3   24   19    6    0   18   13    0  0.0
id4   15    5    2   28    0   20    9  0.0


<h3>Removendo colunas e linhas</h3>

Há a necessidade de criar uma nova variável!

- Método drop(['coluna'], axis=1) // para colunas
- Método drop(['linha'], axis=0) // para linhas

*** Como pode-se observar, deve se passar uma lsita com as colunas ou linhas a serem removidos.

In [76]:
print(dataf_A)

     co0  co1  co2  co3  co4  co5  co6  co7
id0   27   14   13    7    5    5   28  0.0
id1    6    2   21   22    0    1    7  0.0
id2   17    4    1    8   18   12    9  0.0
id3   24   19    6    0   18   13    0  0.0
id4   15    5    2   28    0   20    9  0.0


In [80]:
dropped_column_dataf_A = dataf_A.drop(['co7'], axis=1)

print(dropped_column_dataf_A)

     co0  co1  co2  co3  co4  co5  co6
id0   27   14   13    7    5    5   28
id1    6    2   21   22    0    1    7
id2   17    4    1    8   18   12    9
id3   24   19    6    0   18   13    0
id4   15    5    2   28    0   20    9


In [83]:
dropped_row_dataf_A = dataf_A.drop(['id1','id3'], axis=0)

print(dropped_row_dataf_A)

     co0  co1  co2  co3  co4  co5  co6  co7
id0   27   14   13    7    5    5   28  0.0
id2   17    4    1    8   18   12    9  0.0
id4   15    5    2   28    0   20    9  0.0


Também pode-se remover uma coluna utilizando o comando del.

Nesse caso, ressalta-se que o DataFrame é **modificado**, sendo, assim, um método a ser evitado, pois pode danificar uma grande quantidade de dados

In [84]:
print('dataf_A original:\n\n',dataf_A)

del dataf_A['co7']

print('\n\ndataf_A modificado:\n\n',dataf_A)

dataf_A original:

      co0  co1  co2  co3  co4  co5  co6  co7
id0   27   14   13    7    5    5   28  0.0
id1    6    2   21   22    0    1    7  0.0
id2   17    4    1    8   18   12    9  0.0
id3   24   19    6    0   18   13    0  0.0
id4   15    5    2   28    0   20    9  0.0


dataf_A modificado:

      co0  co1  co2  co3  co4  co5  co6
id0   27   14   13    7    5    5   28
id1    6    2   21   22    0    1    7
id2   17    4    1    8   18   12    9
id3   24   19    6    0   18   13    0
id4   15    5    2   28    0   20    9


<h3>Acessando as linhas de um DataFrame</h3>

Utilizam-se os métodos:

- iloc: manipula o DataFrame como uma matriz de números inteiros, como se fosse um Array

- loc: seleciona linhas pelos rótulos, índices e por máscaras booleanas

In [93]:
rotulos_linhas = ['li' + str(i) for i in range(5)]
rotulos_colunas = ['co' + str(i) for i in range(7)]
valores = np.random.randint(0,30,35).reshape(5,7)

df_B = pd.DataFrame(valores, index=rotulos_linhas, columns=rotulos_colunas)

print('df_B:\n\n',df_B)
print('\n\ndf_B.iloc[2]\n\n',df_B.iloc[2])
print('\n\ndf_B.iloc[2,2:]\n\n',df_B.iloc[2:4,3:])

df_B:

      co0  co1  co2  co3  co4  co5  co6
li0    2   22    8   15   15    9    0
li1    6   19   28    9   19    2    6
li2   15   20   14    2    3   29   18
li3   16   28    6   18   29   26   23
li4    3   14   29    0    6    2   13


df_B.iloc[2]

 co0    15
co1    20
co2    14
co3     2
co4     3
co5    29
co6    18
Name: li2, dtype: int32


df_B.iloc[2,2:]

      co3  co4  co5  co6
li2    2    3   29   18
li3   18   29   26   23


Utilizando o método loc()

In [101]:
print('df_B\n\n',df_B)

print("\n\ndf_B.loc['li2']\n\n",df_B.loc['li2'])

print("\n\ndf_B.loc['li2':'li4']\n\n",df_B.loc['li2':'li4'])

print("\n\ndf_B.loc['li2':'li4','co2':'co3']\n\n",df_B.loc['li2':'li4','co2':'co3'])

df_B

      co0  co1  co2  co3  co4  co5  co6
li0    2   22    8   15   15    9    0
li1    6   19   28    9   19    2    6
li2   15   20   14    2    3   29   18
li3   16   28    6   18   29   26   23
li4    3   14   29    0    6    2   13


df_B.loc['li2']

 co0    15
co1    20
co2    14
co3     2
co4     3
co5    29
co6    18
Name: li2, dtype: int32


df_B.loc['li2':'li4']

      co0  co1  co2  co3  co4  co5  co6
li2   15   20   14    2    3   29   18
li3   16   28    6   18   29   26   23
li4    3   14   29    0    6    2   13


df_B.loc['li2':'li4','co2':'co3']

      co2  co3
li2   14    2
li3    6   18
li4   29    0


Também pode-se realizar operações com máscaras booleanas no método loc

- Irá retornar todas as linhas onde essa condição seja satisfeita, para todas as colunas

In [108]:
print('df_B\n\n',df_B)

print("\n\ndf_B.loc[df_B['co2'] > 10])\n\n",df_B.loc[df_B['co2'] > 10])

df_B

      co0  co1  co2  co3  co4  co5  co6
li0    2   22    8   15   15    9    0
li1    6   19   28    9   19    2    6
li2   15   20   14    2    3   29   18
li3   16   28    6   18   29   26   23
li4    3   14   29    0    6    2   13


df_B.loc[df_B['co2'] > 10])

      co0  co1  co2  co3  co4  co5  co6
li1    6   19   28    9   19    2    6
li2   15   20   14    2    3   29   18
li4    3   14   29    0    6    2   13


<h3>Ordenar os itens</h3>

- sort_values('coluna/linha')

    - No caso de selecionar uma linha, especificar o axis=1 (para simbolizar ao pandas que iremos       ordenar as colunas, com relação a uma dada linha)

    - O comando gera uma cópia do DataFrame, não alterando os dados internos

    - Para surtir efeito no próprio DataFrame, utilizar o parâmetro 'inplace'

In [113]:
print(df_B.sort_values('co5'))
print(df_B.sort_values('li2',axis=1))

     co0  co1  co2  co3  co4  co5  co6
li1    6   19   28    9   19    2    6
li4    3   14   29    0    6    2   13
li0    2   22    8   15   15    9    0
li3   16   28    6   18   29   26   23
li2   15   20   14    2    3   29   18
     co3  co4  co2  co0  co6  co1  co5
li0   15   15    8    2    0   22    9
li1    9   19   28    6    6   19    2
li2    2    3   14   15   18   20   29
li3   18   29    6   16   23   28   26
li4    0    6   29    3   13   14    2


In [114]:
df_B.sort_values('co5', inplace=True)

print(df_B)

     co0  co1  co2  co3  co4  co5  co6
li1    6   19   28    9   19    2    6
li4    3   14   29    0    6    2   13
li0    2   22    8   15   15    9    0
li3   16   28    6   18   29   26   23
li2   15   20   14    2    3   29   18


Recuperando apenas os valores do DataFrame

- propriedade values
    - Retorna um Array bidimensional do numpy

In [116]:
print(df_B.values)
print(type(df_B.values))

[[ 6 19 28  9 19  2  6]
 [ 3 14 29  0  6  2 13]
 [ 2 22  8 15 15  9  0]
 [16 28  6 18 29 26 23]
 [15 20 14  2  3 29 18]]
<class 'numpy.ndarray'>


<h3>I/O com Pandas</h3>

Vários métodos interessantes, principalmente para trabalhar com arquivos:

- XML
- CSV
- JSON
- HTML
- Excel (lib externa auxiliar)
- Arquivos de texto normal
- Entre outros

In [117]:
%%writefile simple.csv  
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

Writing simple.csv


In [123]:
meu_df = pd.read_csv('simple.csv')

# imprimir os rótulos das colunas
print(meu_df.columns.values)

# imprimir o DataFrame do arquivo lido
print('\n\n',meu_df.head())

['a' 'b' 'c' 'd' 'message']


    a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


Caso seja desejado, pode-se também utilizar a primeira linha como dados, basta especificar o parâmetro 'names' ao chamar o método

In [126]:
meu_df_2 = pd.read_csv('simple.csv', names=['c' + str(i) for i in range(5)])

meu_df_2.head()

Unnamed: 0,c0,c1,c2,c3,c4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


Pode-se também inserir os índices das linhas utilizando os valores de uma das colunas, utilizando o parâmetro 'index_col'

In [127]:
meu_df_2 = pd.read_csv('simple.csv', names=['c' + str(i) for i in range(5)], index_col='c4')

meu_df_2.head()

Unnamed: 0_level_0,c0,c1,c2,c3
c4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
message,a,b,c,d
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12
