### Introdução ao Pandas

Neste tutorial, iremos introduzir uma biblioteca muito útil para manipulação de conjunto de dados que se chama Pandas. O Pandas é uma biblioteca de código aberto que fornece estrutura de dados de alto desempenho e fácil de usar e ferramentas de análise de dados para a linguagem de programação Python.

Usaremos como fonte de dados o repositório da UCI. A UCI Machine Learning Repository é uma coleção de bancos de dados, teorias de domínio e geradores de dados que são utilizados pela comunidade de aprendizagem de máquina para a análise empírica de algoritmos de aprendizado de máquina. Tem sido amplamente utilizado por estudantes, educadores e pesquisadores de todo o mundo como fonte primária de conjuntos de dados de aprendizagem de máquina. Este projeto é em colaboração com a Rexa.info na Universidade de Massachusetts Amherst.
Disponível em: https://archive.ics.uci.edu/ml/about.html


O repositório da UCI está disponível em: https://archive.ics.uci.edu/ml/index.php

Sem mais delongas, começaremos a importar o pandas.

In [95]:
import pandas as pd

Antes de manipularmos o dataset Isis, introduziremos dois conceitos muito importantes do Pandas que é o de séries e dataframes.

#### Séries

É uma matriz rotulada unidimensional capaz de manter qualquer tipo de dados (inteiros, strings, números de ponto flutuante, objetos Python, etc.). Os rótulos dos eixos são designados coletivamente como o índice.

In [96]:
# Criação de um vetor
v = [1,2,3,4,7,8,9,10,11,12]

In [97]:
v

[1, 2, 3, 4, 7, 8, 9, 10, 11, 12]

In [98]:
# Conversão do vetor v para uma Série serie.

serie = pd.Series(v)

In [99]:
serie

0     1
1     2
2     3
3     4
4     7
5     8
6     9
7    10
8    11
9    12
dtype: int64

Note que após a conversão, o modo com que os dados são mostrados mudam tendo pra cada valor um índice associado. Isso acontece com o vetor v criado anteriormente mas de forma implicita. Este não é o único diferencial de séries, caso contrário não haveria sentido de usá-la. Este tipo de objeto possui uma gama de funções que facilitam a manipulação dos dados que veremos ao longo deste tutorial.

In [101]:
# Verifica se o conjunto de dados está vazio
serie.empty

False

In [102]:
# Mostra as dimensões do nosso conjundo de dados
serie.shape

(10,)

In [103]:
# Retorna seu tamanho
serie.size

10

In [104]:
serie.values

array([ 1,  2,  3,  4,  7,  8,  9, 10, 11, 12])

In [105]:
serie.head(3)

0    1
1    2
2    3
dtype: int64

In [106]:
serie.tail(3)

7    10
8    11
9    12
dtype: int64

In [107]:
dicionario = serie.to_dict()

In [108]:
dicionario

{0: 1, 1: 2, 2: 3, 3: 4, 4: 7, 5: 8, 6: 9, 7: 10, 8: 11, 9: 12}

In [110]:
rotulos = list('abcdefghij')

serie2 = pd.Series(v, rotulos)

serie2

a     1
b     2
c     3
d     4
e     7
f     8
g     9
h    10
i    11
j    12
dtype: int64

In [111]:
serie2['a']

1

#### DataFrames

DataFrame é uma estrutura de dados rotada bidimensional com colunas de tipos potencialmente diferentes. Você pode pensar nisso como uma planilha eletrônica ou tabela SQL, ou um ditador de objetos da série. É geralmente o objeto de pandas mais comumente usado. Como Series, o DataFrame aceita muitos tipos diferentes de entrada.

In [112]:
datas = pd.date_range('20180618',periods = 5)

In [113]:
datas

DatetimeIndex(['2018-06-18', '2018-06-19', '2018-06-20', '2018-06-21',
               '2018-06-22'],
              dtype='datetime64[ns]', freq='D')

In [115]:
colunas = ['a','b','c','d','e']

m = [[1 ,2 ,3   ,4  ,5 ],
     [2 ,3 ,43  ,45 ,1 ],
     [4 ,3 ,56  ,7  ,4 ],
     [8 ,6 ,4   ,32 ,2 ],
     [3 ,5 ,323 ,5  ,6]]
dataFrame = pd.DataFrame(m, index =datas , columns=colunas)

In [116]:
dataFrame

Unnamed: 0,a,b,c,d,e
2018-06-18,1,2,3,4,5
2018-06-19,2,3,43,45,1
2018-06-20,4,3,56,7,4
2018-06-21,8,6,4,32,2
2018-06-22,3,5,323,5,6


In [117]:
dataFrame['a']

2018-06-18    1
2018-06-19    2
2018-06-20    4
2018-06-21    8
2018-06-22    3
Freq: D, Name: a, dtype: int64

In [118]:
dataFrame['f'] = [1,2,3,4,5]
dataFrame

Unnamed: 0,a,b,c,d,e,f
2018-06-18,1,2,3,4,5,1
2018-06-19,2,3,43,45,1,2
2018-06-20,4,3,56,7,4,3
2018-06-21,8,6,4,32,2,4
2018-06-22,3,5,323,5,6,5


In [119]:
dataFrame.transpose()

Unnamed: 0,2018-06-18 00:00:00,2018-06-19 00:00:00,2018-06-20 00:00:00,2018-06-21 00:00:00,2018-06-22 00:00:00
a,1,2,4,8,3
b,2,3,3,6,5
c,3,43,56,4,323
d,4,45,7,32,5
e,5,1,4,2,6
f,1,2,3,4,5


In [94]:
dataFrame.dtypes

a    int64
b    int64
c    int64
d    int64
e    int64
f    int64
dtype: object

#### Usando o  dataset Isis

O dataset que usaremos está disponível em: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data. Este dataset possui informações sobre um tipo de flor iris, cujo tipo pode ser setosa, versicolor ou virginica de acordo com características de pétala e sépala. 

In [120]:
# Carregando o dataset
iris = pd.read_csv('iris.data')

O pandas consegue ler vários tipos de arquivos como excel, txt, html, json e no nosso caso lemos um arquivo txt separado por vírgulas (csv).

In [123]:
#Usamos o comando shape para verificar o número de linhas e colunas da nossa base de dados.
print(iris.shape)
print('Linhas: ',iris.shape[0])
print('Colunas: ',iris.shape[1])

(149, 5)
Linhas:  149
Colunas:  5


Temos os comandos head(n_primeiras_linhas) e tail(n_ultimas_linhas) que nos mostram respectivamente as primeiras linhas e as útimas do dataframe.


In [124]:
iris.head(5)

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


In [125]:
iris.tail(5)

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
144,6.7,3.0,5.2,2.3,Iris-virginica
145,6.3,2.5,5.0,1.9,Iris-virginica
146,6.5,3.0,5.2,2.0,Iris-virginica
147,6.2,3.4,5.4,2.3,Iris-virginica
148,5.9,3.0,5.1,1.8,Iris-virginica


Renomeado as colunas do nosso dataset

In [127]:
iris.columns = ['tamanho_sepala','largura_sepala', 'tamaho_petala','largura_petala','Especie']

In [129]:
iris

Unnamed: 0,tamanho_sepala,largura_sepala,tamaho_petala,largura_petala,Especie
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
5,4.6,3.4,1.4,0.3,Iris-setosa
6,5.0,3.4,1.5,0.2,Iris-setosa
7,4.4,2.9,1.4,0.2,Iris-setosa
8,4.9,3.1,1.5,0.1,Iris-setosa
9,5.4,3.7,1.5,0.2,Iris-setosa


In [133]:
iris.values

array([[4.9, 3.0, 1.4, 0.2, 'Iris-setosa'],
       [4.7, 3.2, 1.3, 0.2, 'Iris-setosa'],
       [4.6, 3.1, 1.5, 0.2, 'Iris-setosa'],
       [5.0, 3.6, 1.4, 0.2, 'Iris-setosa'],
       [5.4, 3.9, 1.7, 0.4, 'Iris-setosa'],
       [4.6, 3.4, 1.4, 0.3, 'Iris-setosa'],
       [5.0, 3.4, 1.5, 0.2, 'Iris-setosa'],
       [4.4, 2.9, 1.4, 0.2, 'Iris-setosa'],
       [4.9, 3.1, 1.5, 0.1, 'Iris-setosa'],
       [5.4, 3.7, 1.5, 0.2, 'Iris-setosa'],
       [4.8, 3.4, 1.6, 0.2, 'Iris-setosa'],
       [4.8, 3.0, 1.4, 0.1, 'Iris-setosa'],
       [4.3, 3.0, 1.1, 0.1, 'Iris-setosa'],
       [5.8, 4.0, 1.2, 0.2, 'Iris-setosa'],
       [5.7, 4.4, 1.5, 0.4, 'Iris-setosa'],
       [5.4, 3.9, 1.3, 0.4, 'Iris-setosa'],
       [5.1, 3.5, 1.4, 0.3, 'Iris-setosa'],
       [5.7, 3.8, 1.7, 0.3, 'Iris-setosa'],
       [5.1, 3.8, 1.5, 0.3, 'Iris-setosa'],
       [5.4, 3.4, 1.7, 0.2, 'Iris-setosa'],
       [5.1, 3.7, 1.5, 0.4, 'Iris-setosa'],
       [4.6, 3.6, 1.0, 0.2, 'Iris-setosa'],
       [5.1, 3.3, 1.7, 0.5, 'Iri

In [136]:
# Retorna o dataset transposto
iris.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,139,140,141,142,143,144,145,146,147,148
tamanho_sepala,4.9,4.7,4.6,5,5.4,4.6,5,4.4,4.9,5.4,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
largura_sepala,3,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,3.7,...,3.1,3.1,2.7,3.2,3.3,3,2.5,3,3.4,3
tamaho_petala,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5,5.2,5.4,5.1
largura_petala,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,0.2,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2,2.3,1.8
Especie,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,Iris-setosa,...,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica,Iris-virginica


In [144]:
# Ordenando o dataset
iris.sort_index(axis=1,ascending=False)

Unnamed: 0,tamanho_sepala,tamaho_petala,largura_sepala,largura_petala,Especie
0,4.9,1.4,3.0,0.2,Iris-setosa
1,4.7,1.3,3.2,0.2,Iris-setosa
2,4.6,1.5,3.1,0.2,Iris-setosa
3,5.0,1.4,3.6,0.2,Iris-setosa
4,5.4,1.7,3.9,0.4,Iris-setosa
5,4.6,1.4,3.4,0.3,Iris-setosa
6,5.0,1.5,3.4,0.2,Iris-setosa
7,4.4,1.4,2.9,0.2,Iris-setosa
8,4.9,1.5,3.1,0.1,Iris-setosa
9,5.4,1.5,3.7,0.2,Iris-setosa


In [146]:
iris.sort_values(by='tamanho_sepala')

Unnamed: 0,tamanho_sepala,largura_sepala,tamaho_petala,largura_petala,Especie
12,4.3,3.0,1.1,0.1,Iris-setosa
41,4.4,3.2,1.3,0.2,Iris-setosa
37,4.4,3.0,1.3,0.2,Iris-setosa
7,4.4,2.9,1.4,0.2,Iris-setosa
40,4.5,2.3,1.3,0.3,Iris-setosa
46,4.6,3.2,1.4,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
5,4.6,3.4,1.4,0.3,Iris-setosa
21,4.6,3.6,1.0,0.2,Iris-setosa
28,4.7,3.2,1.6,0.2,Iris-setosa


#### Obtendo campos

In [147]:
iris['tamanho_sepala']

0      4.9
1      4.7
2      4.6
3      5.0
4      5.4
5      4.6
6      5.0
7      4.4
8      4.9
9      5.4
10     4.8
11     4.8
12     4.3
13     5.8
14     5.7
15     5.4
16     5.1
17     5.7
18     5.1
19     5.4
20     5.1
21     4.6
22     5.1
23     4.8
24     5.0
25     5.0
26     5.2
27     5.2
28     4.7
29     4.8
      ... 
119    6.9
120    5.6
121    7.7
122    6.3
123    6.7
124    7.2
125    6.2
126    6.1
127    6.4
128    7.2
129    7.4
130    7.9
131    6.4
132    6.3
133    6.1
134    7.7
135    6.3
136    6.4
137    6.0
138    6.9
139    6.7
140    6.9
141    5.8
142    6.8
143    6.7
144    6.7
145    6.3
146    6.5
147    6.2
148    5.9
Name: tamanho_sepala, Length: 149, dtype: float64

In [148]:
iris[0:3]

Unnamed: 0,tamanho_sepala,largura_sepala,tamaho_petala,largura_petala,Especie
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa


In [150]:
# obter pela linha e não pela coluna
iris.loc[0]

tamanho_sepala            4.9
largura_sepala              3
tamaho_petala             1.4
largura_petala            0.2
Especie           Iris-setosa
Name: 0, dtype: object

In [152]:
iris.loc[:,['tamanho_sepala','largura_sepala']]

Unnamed: 0,tamanho_sepala,largura_sepala
0,4.9,3.0
1,4.7,3.2
2,4.6,3.1
3,5.0,3.6
4,5.4,3.9
5,4.6,3.4
6,5.0,3.4
7,4.4,2.9
8,4.9,3.1
9,5.4,3.7


In [153]:
# Obtendo pela posição
iris.iloc[3][3]

0.20000000000000001

In [155]:
iris.iloc[3:5, 0:2]

Unnamed: 0,tamanho_sepala,largura_sepala
3,5.0,3.6
4,5.4,3.9


### Operações

In [157]:
#Média
iris.mean()

tamanho_sepala    5.848322
largura_sepala    3.051007
tamaho_petala     3.774497
largura_petala    1.205369
dtype: float64

In [158]:
iris.mean(1)


0      2.375
1      2.350
2      2.350
3      2.550
4      2.850
5      2.425
6      2.525
7      2.225
8      2.400
9      2.700
10     2.500
11     2.325
12     2.125
13     2.800
14     3.000
15     2.750
16     2.575
17     2.875
18     2.675
19     2.675
20     2.675
21     2.350
22     2.650
23     2.575
24     2.450
25     2.600
26     2.600
27     2.550
28     2.425
29     2.425
       ...  
119    4.525
120    3.825
121    4.800
122    3.925
123    4.450
124    4.550
125    3.900
126    3.950
127    4.225
128    4.400
129    4.550
130    5.025
131    4.250
132    3.925
133    3.925
134    4.775
135    4.425
136    4.200
137    3.900
138    4.375
139    4.450
140    4.350
141    3.875
142    4.550
143    4.550
144    4.300
145    3.925
146    4.175
147    4.325
148    3.950
Length: 149, dtype: float64