# Biblioteca Pandas

Este tutorial é sobre a utilização da biblioteca Pandas, uma biblioteca Python,  para manipulação e análise de dados. Oferece estruturas de dadso e operações para manipular tabelas numéricas e séries temporais.

O nome Pandas é derivado da palavra Panel Data (painel de dados), um termo econométrico para conjuntos de dados que incluem observações ao longo do tempo.

Esta biblioteca fornece três estruturas de dados:
1. Series, um vetor de dados do mesmo tipo (uma dimensão)
2. DataFrame, que contem um conjunto de Series, que podem ser de diferentes tipos (possui duas dimensões). Uma DataFrame pode ser vista como uma tabela de dados da base de dados ou uma folha de Excel.
3. Panel, que contém um conjunto de DataFrame (possui três dimensões)


## Serie

A criação de uma Serie é feita utilizando o seguinte método construtor: pandas.Series( data, index, dtype, copy), que possui os seguintes argumentos:
1. data, que pode vir de diferentes fontes, como ndarray, list ou constantes.
2. index, o inddice tem de ser composto por valores únicos. Se não for indicado nada são utilizados valores de 0,...,n (np.arrange(n))
3. dtype, tipo de dados
4. copy, copia as fontes de dados

De seguida apresentam-se alguns exemplos de criação e manipulação de Series

In [9]:
#Criacao de Series
#Criacao de uma serie a partir de um array numpy
import numpy as np
import pandas as pd
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print('Serie 1:')
print(s)
#Criacao de uma serie a partir de um array numpy, passando-lhe os indices
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
print('Serie 2:')
print(s)
#Criacao de uma serie a partir de um dicionario
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
print('Serie 3:')
print(s)

Serie 1:
0    a
1    b
2    c
3    d
dtype: object
Serie 2:
100    a
101    b
102    c
103    d
dtype: object
Serie 3:
a    0.0
b    1.0
c    2.0
dtype: float64


## DataFrame

A criação de um DataFrame é feita utilizando o seguinte método construtor: pandas.DataFrame( data, index, columns, dtype, copy), que possui os seguintes argumentos:

1. data, são os dados que se passam ao DataFrame e podem ser ndarray, series, map, lists, dict, constantes e outro DataFrame.
2. index, são os rótulos das linhas, se não se passar nada gera inteiros de 0 a n (np.arrange(n))
3. columns, são os rótulos das colunas
4. dtype, o tipo de dados de cada coluna
5. copy, indica a cópia dos dados por de entrada

De seguida apresentam-se alguns exemplos de criação e manipulação de DataFrames


In [16]:
#Criacao de DataFrames
import pandas as pd
#Exemplo 1 - a partir de uma lista de valores
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print('DataFrame 1:')
print(df)
#Exemplo 2
data = [['Andre',9],['Matilde',11],['Goncalo',12]]
df = pd.DataFrame(data,columns=['Nome','Idade'],dtype=float)
print('DataFrame 2:')
print(df)
#Exemplo 3 - a partir de um dicionario
data = {'Nome':['Andre', 'Matilde'],'Idade':[9,10]}
df = pd.DataFrame(data)
print('DataFrame 3:')
print(df)
#Exemplo 4 -  a paritr de uma lista de dicionarios - contem um missing value marcado como NaN
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print('DataFrame 4:')
print(df)
#Exemplo 5 - o exemplo de cima, mas dando títulos às linhas
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['linha1', 'linha2'])
print('DataFrame 4:')
print(df)

DataFrame 1:
   0
0  1
1  2
2  3
3  4
4  5
DataFrame 2:
      Nome  Idade
0    Andre    9.0
1  Matilde   11.0
2  Goncalo   12.0
DataFrame 3:
   Idade     Nome
0      9    Andre
1     10  Matilde
DataFrame 4:
   a   b     c
0  1   2   NaN
1  5  10  20.0
DataFrame 4:
        a   b     c
linha1  1   2   NaN
linha2  5  10  20.0


### Operações sobre DataFrames: 
1. Manipular colunas (mostrar, adicionar, apagar)
2. Manipular linhas (mostrar, adicionar, apagar)

In [22]:
#mostrar so uma coluna
import pandas as pd
print('Manipular colunas: ')
data = {'col1' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'col2' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(data)
print (df ['col1'])

#adicionar uma coluna
data = {'col1' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'col2' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = (pd.DataFrame(data))
# Adding a new column to an existing DataFrame object with column label by passing new series
print ("Adicionar uma nova coluna do tipo Serie:")
df['col3']=pd.Series([10,20,30],index=['a','b','c'])
print (df)
print ("Adicioanar uma nova coluna com base em colunas existentes na DataFrame:")
df['col4']=df['col1']+df['col3']
print (df)

#Apgar uma coluna
d = {'col1' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'col2' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'col3' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("DataFrame original:")
print (df)

# using del function
print ("Apagar a primeira coluna:")
del df['col1']
print (df)

# using pop function
print ("Apagar a segunda coluna com pop:")
df.pop('col2')
print (df)

Manipular colunas: 
a    1.0
b    2.0
c    3.0
d    NaN
Name: col1, dtype: float64
Adicionar uma nova coluna do tipo Serie:
   col1  col2  col3
a   1.0     1  10.0
b   2.0     2  20.0
c   3.0     3  30.0
d   NaN     4   NaN
Adicioanar uma nova coluna com base em colunas existentes na DataFrame:
   col1  col2  col3  col4
a   1.0     1  10.0  11.0
b   2.0     2  20.0  22.0
c   3.0     3  30.0  33.0
d   NaN     4   NaN   NaN
DataFrame original:
   col1  col2  col3
a   1.0     1  10.0
b   2.0     2  20.0
c   3.0     3  30.0
d   NaN     4   NaN
Apagar a primeira coluna:
   col2  col3
a     1  10.0
b     2  20.0
c     3  30.0
d     4   NaN
Apagar a segunda coluna com pop:
   col3
a  10.0
b  20.0
c  30.0
d   NaN


In [27]:
#Aceder a uma linha
import pandas as pd
data = {'linha1' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'linha2' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
print('DataFrame df:')
print (df)

df = pd.DataFrame(data)
print('Retirar os valores da linha com indice 2 (terceira linha):')
print (df.iloc[2])

#Mostrar varias linhas 
print('Mostrar as linhas com os indices 2 e 3:')
print (df[2:4])

#Adicionar linhas
df1 = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df1 = df1.append(df2)
print('Adicionar as linhas de df2 a df1:')
print (df)

#Apagar linhas
print('Apagar linha com a etiqueta 0')
df1 = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df1 = df1.append(df2)
print (df1)
df1 = df1.drop(0) #Apaga as linhas com a etiqueta 0
print (df1)


DataFrame df:
   linha1  linha2
a     1.0       1
b     2.0       2
c     3.0       3
d     NaN       4
Retirar os valores da linha com indice 2 (terceira linha):
linha1    3.0
linha2    3.0
Name: c, dtype: float64
Mostrar as linhas com os indices 2 e 3:
   linha1  linha2
c     3.0       3
d     NaN       4
Adicionar as linhas de df2 a df1:
   linha1  linha2
a     1.0       1
b     2.0       2
c     3.0       3
d     NaN       4
Apagar linha com o indice 0
   a  b
0  1  2
1  3  4
0  5  6
1  7  8
   a  b
1  3  4
1  7  8


## Panel

A criação de um Panel é feita utilizando o seguinte método construtor: pandas.Panel(data, items, major_axis, minor_axis, dtype, copy), que possui os seguintes argumentos:

1. data, são os dados que se passam ao DataFrame e podem ser ndarray, series, map, lists, dict, constantes e outro DataFrame.
2. items, corresponde aos elementos do Panel que são compostos por DataFrame (axis = 0).
3. major_axis, é o indice das linhas de cada DataFrame (axis = 1) 
4. minor_axis, é o indice das colunas de cada DataFram (axis = 2)
5. dtype, o tipo de dados de cada coluna
6. copy, indica a cópia dos dados por de entrada

De seguida apresentam-se alguns exemplos de criação e manipulação de DataFrames

In [28]:
#Criacao de um painel vazio a partir 
import pandas as pd
import numpy as np

data = np.random.rand(2,4,5)
p = pd.Panel(data)
print(p)

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4


In [30]:
#Criacao de um painel a partir de dois DataFrames e selecao do primeiro DataFrame
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print(p['Item1'])

# creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p.major_xs(1)

# creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p.minor_xs(1)

          0         1         2
0 -0.463225  2.616680  0.412108
1  0.097327  0.048357  0.465134
2 -0.224537  0.068305 -0.220902
3 -0.962832  0.706825  0.611760
