# Pandas

Pacote destinado a tratamento de dados em matrizes. 

Este pacote já está incluso no Anaconda Python.

In [132]:
import pandas

In [133]:
#Verificação da versão importada
pandas.__version__

'1.5.0'

## Séries

Séries são como colunas de uma tabela, são arrays unidimensionais.

In [134]:
Lista = [1,2,3,4,5,6,7,8,9]

Série1 = pandas.Series(Lista)

print(Série1)
print(type(Série1))

# O índice para cada valor é criado automaticamente.

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64
<class 'pandas.core.series.Series'>


In [135]:
# Outras informações sobre as séries

print(Série1.values)

print(Série1.index)

[1 2 3 4 5 6 7 8 9]
RangeIndex(start=0, stop=9, step=1)


In [136]:
# Criando uma série e definindo o índice

Lista = [1,2,3,4,5,6,7,8,9]
Índices = ['a','b','c','d','e','f','g','h','i']

Série2 = pandas.Series(Lista, index = Índices)

print(Série2)
print(type(Série2))

print(Série2.index)

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64
<class 'pandas.core.series.Series'>
Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'], dtype='object')


In [137]:
# Criação de série a partir de um dicionário

Dicionário = {'a':1,'b':2,'c':3,'d':4,'e':5,'f':6,'g':7,'h':8,'i':9}

Série3 = pandas.Series(Dicionário)


print(Série3)
print(type(Série3))

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64
<class 'pandas.core.series.Series'>


In [138]:
# Para um mesmo índice, um mesmo valor

Outro_Índice = ['a','a','a','a','a','a','a','a','a','a']

Série4 = pandas.Series(Dicionário, index = Outro_Índice)


print(Série4,'\n')

# Mudar o dicionário não muda a série. Eles estão desvinculados

Dicionário['a'] = 2

print(Série4,'\n')

# Para novos índices, não há valor

Outro_Índice = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n']

Série4 = pandas.Series(Dicionário, index = Outro_Índice)


print(Série4,'\n')

a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
dtype: int64 

a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
a    1
dtype: int64 

a    2.0
b    2.0
c    3.0
d    4.0
e    5.0
f    6.0
g    7.0
h    8.0
i    9.0
j    NaN
k    NaN
l    NaN
m    NaN
n    NaN
dtype: float64 



In [139]:
# Slicing

Série2[Série2>3]

d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64

In [140]:
# Valor de certo índice

Série2['d']

4

In [141]:
# resposta booleana para verificação de continência

print('d' in Série2)

print('d' in Série2.index)

print(3 in Série2)

print(3 in Série2.values)

True
True
False
True


In [142]:
# Verificação de valores nulos

print(pandas.isnull(Série4),'\n')

print(Série4.isnull())

a    False
b    False
c    False
d    False
e    False
f    False
g    False
h    False
i    False
j     True
k     True
l     True
m     True
n     True
dtype: bool 

a    False
b    False
c    False
d    False
e    False
f    False
g    False
h    False
i    False
j     True
k     True
l     True
m     True
n     True
dtype: bool


In [143]:
# Verificação de valores não-nulos

print(pandas.notnull(Série4),'\n')

print(Série4.notnull())

a     True
b     True
c     True
d     True
e     True
f     True
g     True
h     True
i     True
j    False
k    False
l    False
m    False
n    False
dtype: bool 

a     True
b     True
c     True
d     True
e     True
f     True
g     True
h     True
i     True
j    False
k    False
l    False
m    False
n    False
dtype: bool


In [144]:
# Verificação condicional

print(Série4 > 5)

a    False
b    False
c    False
d    False
e    False
f     True
g     True
h     True
i     True
j    False
k    False
l    False
m    False
n    False
dtype: bool


In [145]:
# Soma/concatenação entre séries

print(Série3 + Série4)

a     3.0
b     4.0
c     6.0
d     8.0
e    10.0
f    12.0
g    14.0
h    16.0
i    18.0
j     NaN
k     NaN
l     NaN
m     NaN
n     NaN
dtype: float64


In [146]:
# Valores NaN permanecem dessa forma depois de passar por uma operação matemática.

print(Série1 + Série3)

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
6   NaN
7   NaN
8   NaN
a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
f   NaN
g   NaN
h   NaN
i   NaN
dtype: float64


In [147]:
# Determinando a característica "nome".

Série4.name = 'Exemplo' # nome do objeto

Série4.index.name = 'Letra' # Nome do índice

print(Série4)

Letra
a    2.0
b    2.0
c    3.0
d    4.0
e    5.0
f    6.0
g    7.0
h    8.0
i    9.0
j    NaN
k    NaN
l    NaN
m    NaN
n    NaN
Name: Exemplo, dtype: float64


## Dataframe

São como tabelas

In [148]:
# Dataframes podem ser criados a partir de dicionários compostos de um nome da coluna como chave e uma lista de informações como valor.

Dados = {
    'Estado':[
        'Acre',
        'Alagoas',
        'Amapá',
        'Amazonas',
        'Bahia',
        'Ceará',
        'Distrito Federal',
        'Espírito Santo',
        'Goiás',
        'Maranhão',
        'Mato Grosso',
        'Mato Grosso do Sul',
        'Minas Gerais',
        'Pará',
        'Paraíba',
        'Paraná',
        'Pernambuco',
        'Piauí',
        'Rio de Janeiro',
        'Rio Grande do Norte',
        'Rio Grande do Sul',
        'Rondônia','Roraima',
        'Santa Catarina',
        'São Paulo',
        'Sergipe',
        'Tocantins'],
    'População':[
        906876,
        3365351,
        877613,
        4269995,
        14985284,
        9240580,
        3094325,
        4108508,
        7206589,
        7153262,
        3567234,
        2839188,
        21411923,
        8777124,
        4059905,
        11597484,
        9674793,
        3289290,
        17463349,
        3560903,
        11466630,
        1815278,
        652713,
        7338473,
        46649132,
        2338474,
        1607363],
    'PIB':[
        15630,
        58964,
        17497,
        108181,
        293241,
        163575,
        273614,
        137346,
        208672,
        97340,
        142122,
        106943,
        651873,
        466377,
        67986,
        178377,
        197853,
        52781,
        779928,
        71337,
        482464,
        47091,
        14292,
        323264,
        44689,
        2348338,
        39356]}

In [149]:
Tabela1 = pandas.DataFrame(Dados)

In [150]:
Tabela1

Unnamed: 0,Estado,População,PIB
0,Acre,906876,15630
1,Alagoas,3365351,58964
2,Amapá,877613,17497
3,Amazonas,4269995,108181
4,Bahia,14985284,293241
5,Ceará,9240580,163575
6,Distrito Federal,3094325,273614
7,Espírito Santo,4108508,137346
8,Goiás,7206589,208672
9,Maranhão,7153262,97340


In [151]:
type(Tabela1)

pandas.core.frame.DataFrame

In [152]:
# Outra forma de criar um dataframe é informando listas aninhadas, onde cada lista é um registro (não uma coluna)

Dados = [
    [
        'Acre',
        'Alagoas',
        'Amapá',
        'Amazonas',
        'Bahia',
        'Ceará',
        'Distrito Federal',
        'Espírito Santo',
        'Goiás',
        'Maranhão',
        'Mato Grosso',
        'Mato Grosso do Sul',
        'Minas Gerais',
        'Pará',
        'Paraíba',
        'Paraná',
        'Pernambuco',
        'Piauí',
        'Rio de Janeiro',
        'Rio Grande do Norte',
        'Rio Grande do Sul',
        'Rondônia','Roraima',
        'Santa Catarina',
        'São Paulo',
        'Sergipe',
        'Tocantins'],
    [
        906876,
        3365351,
        877613,
        4269995,
        14985284,
        9240580,
        3094325,
        4108508,
        7206589,
        7153262,
        3567234,
        2839188,
        21411923,
        8777124,
        4059905,
        11597484,
        9674793,
        3289290,
        17463349,
        3560903,
        11466630,
        1815278,
        652713,
        7338473,
        46649132,
        2338474,
        1607363],
    [
        15630,
        58964,
        17497,
        108181,
        293241,
        163575,
        273614,
        137346,
        208672,
        97340,
        142122,
        106943,
        651873,
        466377,
        67986,
        178377,
        197853,
        52781,
        779928,
        71337,
        482464,
        47091,
        14292,
        323264,
        44689,
        2348338,
        39356]]


In [153]:
# Dataframe a partir de registros, ao invés de colunas
# O índice sempre pode ser definido
# Se for informado títulos de colunas além do número de informações para cada registro, a coluna será criada com valores NaN.

Dados = [
    ['Acre',906876,15630],
	['Alagoas',3365351,58964],
	['Amapá',877613,17497],
	['Amazonas',4269995,108181],
	['Bahia',14985284,293241],
	['Ceará',9240580,163575],
	['Distrito Federal',3094325,273614],
	['Espírito Santo',4108508,137346],
	['Goiás',7206589,208672],
	['Maranhão',7153262,97340],
	['Mato Grosso',3567234,142122],
	['Mato Grosso do Sul',2839188,106943],
	['Minas Gerais',21411923,651873],
	['Pará',8777124,466377],
	['Paraíba',4059905,67986],
	['Paraná',11597484,178377],
	['Pernambuco',9674793,197853],
	['Piauí',3289290,52781],
	['Rio de Janeiro',17463349,779928],
	['Rio Grande do Norte',3560903,71337],
	['Rio Grande do Sul',11466630,482464],
	['Rondônia',1815278,47091],
	['Roraima',652713,14292],
	['Santa Catarina',7338473,323264],
	['São Paulo',46649132,44689],
	['Sergipe',2338474,2348338],
	['Tocantins',1607363,39356]]

Tabela2 = pandas.DataFrame(Dados, columns = ['Estado','População','PIB'])
print(Tabela2)

                 Estado  População      PIB
0                  Acre     906876    15630
1               Alagoas    3365351    58964
2                 Amapá     877613    17497
3              Amazonas    4269995   108181
4                 Bahia   14985284   293241
5                 Ceará    9240580   163575
6      Distrito Federal    3094325   273614
7        Espírito Santo    4108508   137346
8                 Goiás    7206589   208672
9              Maranhão    7153262    97340
10          Mato Grosso    3567234   142122
11   Mato Grosso do Sul    2839188   106943
12         Minas Gerais   21411923   651873
13                 Pará    8777124   466377
14              Paraíba    4059905    67986
15               Paraná   11597484   178377
16           Pernambuco    9674793   197853
17                Piauí    3289290    52781
18       Rio de Janeiro   17463349   779928
19  Rio Grande do Norte    3560903    71337
20    Rio Grande do Sul   11466630   482464
21             Rondônia    18152

In [171]:
# Fatiamento
# Aceita apenas um valor como índice; para informar mais de um, usar uma lista de índices

print(Tabela1['Estado'],'\n')

print(Tabela1[['Estado','PIB']])

0                    Acre
1                 Alagoas
2                   Amapá
3                Amazonas
4                   Bahia
5                   Ceará
6        Distrito Federal
7          Espírito Santo
8                   Goiás
9                Maranhão
10            Mato Grosso
11     Mato Grosso do Sul
12           Minas Gerais
13                   Pará
14                Paraíba
15                 Paraná
16             Pernambuco
17                  Piauí
18         Rio de Janeiro
19    Rio Grande do Norte
20      Rio Grande do Sul
21               Rondônia
22                Roraima
23         Santa Catarina
24              São Paulo
25                Sergipe
26              Tocantins
Name: Estado, dtype: object 

                 Estado      PIB
0                  Acre    15630
1               Alagoas    58964
2                 Amapá    17497
3              Amazonas   108181
4                 Bahia   293241
5                 Ceará   163575
6      Distrito Federal   273614
7   

In [155]:
# Os índices também são atributos dos objetos

Tabela1.Estado

0                    Acre
1                 Alagoas
2                   Amapá
3                Amazonas
4                   Bahia
5                   Ceará
6        Distrito Federal
7          Espírito Santo
8                   Goiás
9                Maranhão
10            Mato Grosso
11     Mato Grosso do Sul
12           Minas Gerais
13                   Pará
14                Paraíba
15                 Paraná
16             Pernambuco
17                  Piauí
18         Rio de Janeiro
19    Rio Grande do Norte
20      Rio Grande do Sul
21               Rondônia
22                Roraima
23         Santa Catarina
24              São Paulo
25                Sergipe
26              Tocantins
Name: Estado, dtype: object

In [156]:
# Fatiamento por range

Tabela1[:10] # Os 10 primeiros itens, de 0 a 9

Unnamed: 0,Estado,População,PIB
0,Acre,906876,15630
1,Alagoas,3365351,58964
2,Amapá,877613,17497
3,Amazonas,4269995,108181
4,Bahia,14985284,293241
5,Ceará,9240580,163575
6,Distrito Federal,3094325,273614
7,Espírito Santo,4108508,137346
8,Goiás,7206589,208672
9,Maranhão,7153262,97340


In [157]:
# Tabela sobre um único registro

print(Tabela1[24:25])

print('\n')

print(Tabela1.loc[24])

print('\n')

print(Tabela2.iloc[24]) # Se a tabela tem índices diferentes do comum para o python, iloc encontra pela "posição" do índice, o que seria o índice original

       Estado  População    PIB
24  São Paulo   46649132  44689


Estado       São Paulo
População     46649132
PIB              44689
Name: 24, dtype: object


Estado       São Paulo
População     46649132
PIB              44689
Name: 24, dtype: object


In [158]:
# Índices das colunas (bases)
print(Tabela1.columns)
print(type(Tabela1.columns))

print()

# Índices dos registros (range)
print(Tabela1.index)
print(type(Tabela1.index))

Index(['Estado', 'População', 'PIB'], dtype='object')
<class 'pandas.core.indexes.base.Index'>

RangeIndex(start=0, stop=27, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [159]:
# Apenas os valores

print(Tabela2.values)
print(type(Tabela2.values))

# Os valores são um array 2D do Numpy.

[['Acre' 906876 15630]
 ['Alagoas' 3365351 58964]
 ['Amapá' 877613 17497]
 ['Amazonas' 4269995 108181]
 ['Bahia' 14985284 293241]
 ['Ceará' 9240580 163575]
 ['Distrito Federal' 3094325 273614]
 ['Espírito Santo' 4108508 137346]
 ['Goiás' 7206589 208672]
 ['Maranhão' 7153262 97340]
 ['Mato Grosso' 3567234 142122]
 ['Mato Grosso do Sul' 2839188 106943]
 ['Minas Gerais' 21411923 651873]
 ['Pará' 8777124 466377]
 ['Paraíba' 4059905 67986]
 ['Paraná' 11597484 178377]
 ['Pernambuco' 9674793 197853]
 ['Piauí' 3289290 52781]
 ['Rio de Janeiro' 17463349 779928]
 ['Rio Grande do Norte' 3560903 71337]
 ['Rio Grande do Sul' 11466630 482464]
 ['Rondônia' 1815278 47091]
 ['Roraima' 652713 14292]
 ['Santa Catarina' 7338473 323264]
 ['São Paulo' 46649132 44689]
 ['Sergipe' 2338474 2348338]
 ['Tocantins' 1607363 39356]]
<class 'numpy.ndarray'>


In [160]:
# Os tipos dos dados por coluna

Tabela1.dtypes

Estado       object
População     int64
PIB           int64
dtype: object

In [161]:
# Informações estatísticas sobre o dataframe

Tabela1.describe()

Unnamed: 0,População,PIB
count,27.0,27.0
mean,7900653.0,273671.5
std,9380644.0,458961.7
min,652713.0,14292.0
25%,2966756.0,55872.5
50%,4108508.0,137346.0
75%,9457686.0,283427.5
max,46649130.0,2348338.0


### Alterando Dataframes  

In [162]:
# Criando nova coluna com uma lista por valores

Tabela2['Lista'] = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27]

Tabela2

Unnamed: 0,Estado,População,PIB,Lista
0,Acre,906876,15630,1
1,Alagoas,3365351,58964,2
2,Amapá,877613,17497,3
3,Amazonas,4269995,108181,4
4,Bahia,14985284,293241,5
5,Ceará,9240580,163575,6
6,Distrito Federal,3094325,273614,7
7,Espírito Santo,4108508,137346,8
8,Goiás,7206589,208672,9
9,Maranhão,7153262,97340,10


In [163]:
# Usando array de Numpy

import numpy as np

Tabela2.Lista = np.arange(27)

Tabela2

Unnamed: 0,Estado,População,PIB,Lista
0,Acre,906876,15630,0
1,Alagoas,3365351,58964,1
2,Amapá,877613,17497,2
3,Amazonas,4269995,108181,3
4,Bahia,14985284,293241,4
5,Ceará,9240580,163575,5
6,Distrito Federal,3094325,273614,6
7,Espírito Santo,4108508,137346,7
8,Goiás,7206589,208672,8
9,Maranhão,7153262,97340,9


In [164]:
# Transformando os valores numéricos em booleanos

Tabela2['PIB'] > 50000

0     False
1      True
2     False
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21    False
22    False
23     True
24    False
25     True
26    False
Name: PIB, dtype: bool

In [165]:
Tabela1.loc[0]

Estado         Acre
População    906876
PIB           15630
Name: 0, dtype: object

In [166]:
# Alterando todo o índice

Tabela2.set_index('Estado') # Não altera a tabela, sendo apenas um retorno

print(Tabela2)
print()

print(Tabela2.set_index('Estado'))
print()

Tabela3 = Tabela2.set_index('Estado') # Assim se altera a tabela
print(Tabela3)

                 Estado  População      PIB  Lista
0                  Acre     906876    15630      0
1               Alagoas    3365351    58964      1
2                 Amapá     877613    17497      2
3              Amazonas    4269995   108181      3
4                 Bahia   14985284   293241      4
5                 Ceará    9240580   163575      5
6      Distrito Federal    3094325   273614      6
7        Espírito Santo    4108508   137346      7
8                 Goiás    7206589   208672      8
9              Maranhão    7153262    97340      9
10          Mato Grosso    3567234   142122     10
11   Mato Grosso do Sul    2839188   106943     11
12         Minas Gerais   21411923   651873     12
13                 Pará    8777124   466377     13
14              Paraíba    4059905    67986     14
15               Paraná   11597484   178377     15
16           Pernambuco    9674793   197853     16
17                Piauí    3289290    52781     17
18       Rio de Janeiro   17463

## Arquivos

In [178]:
#Entregando um arquivo csv a uma variável:
Tabela_Isis = pandas.read_csv('..\ArquivosParalelos\IrisForTest.csv')

# É possível definir o separador, como string, caso não seja vírgula
Tabela_Isis = pandas.read_csv('..\ArquivosParalelos\IrisForTest.csv', sep = ',')

In [181]:

Tabela_Isis = pandas.read_table('..\ArquivosParalelos\IrisForTest.csv')
Tabela_Isis.head(9)
print()

Tabela_Isis = pandas.read_table('..\ArquivosParalelos\IrisForTest.csv',sep = ',')




In [182]:
#O começo da tabela:
Tabela_Isis.head(9)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa


In [183]:
# Alterando os nomes das colunas

from pyparsing import ParseFailAction


Tabela_Isis2 = pandas.read_table('..\ArquivosParalelos\IrisForTest.csv', names = ['comprimento da sépala','largura da sépala','comprimento da pétala','largura da pétala','espécie'],sep = ',')

# A primeira linha era cabeçalho, então é alocada como linha
Tabela_Isis2.head(10)

Unnamed: 0,comprimento da sépala,largura da sépala,comprimento da pétala,largura da pétala,espécie
0,sepal_length,sepal_width,petal_length,petal_width,species
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa
7,4.6,3.4,1.4,0.3,setosa
8,5,3.4,1.5,0.2,setosa
9,4.4,2.9,1.4,0.2,setosa


In [None]:
# Convertendo um dataframe em csv

Tabela1.to_csv('..\ArquivosParalelos\PIB Per Capita')