# Introdução ao Pandas
O Pandas é um package python desenvolvido sobre o package NumPy.
As suas principais caracteristiscas/funcionalidades são as seguintes:
* Facilidade de lidar com dados em falta (missing data), representados como NaN;
* Permite adicionar/remover colunas em objectos de grandes dimensões;
* Permite o agrupamento dos dados para agregação ou transformação;
* Facilidade em converter dados em estruturas NumPy ou Python (e.g. listas) em DataFrames;
* Atribuição de nomes aos eixos;
* Seleção de dados por nomes de eixos ou indexação;
* Funções que facilitam a leitura/escrita de dados em formatos: CSV, Excel e HDF5;
* Funções especificas para séries temporais.


## Importação do package pandas 
Para ser mais simples a designação do package na chamada de funções, iremos importá-lo atribuindo-lhe a designação pd.

In [None]:
import numpy as np
import pandas as pd

## Estruturas de dados

### Series
Array de uma dimensão que pode guardar dados de qualquer tipo. O conjunto de labels (designação de cada um dos elementos do array) é designado por *index*.
Objetos deste tipo podem ser iniciados a partir de um dicionário, onde as chaves serão usadas como labels.

In [None]:
s1 = pd.Series(np.arange(5))
print(s1)
print("------")
s1.index = ['a','b','c','d','e']
s1

In [None]:
s2 = pd.Series(np.arange(1,3,0.2), index = range(10,20), name="serie_obj")
print(s2)

#### Seleção de valores
Os elementos do objeto Series podem ser acedidos através:
* do uso de [ ] juntamente com o nome das labels   
* atributo *iloc* - com base em índices (0 até tamanho objeto -1)
* atributo *loc* - com base nas labels

Considerando a série anterior, são apresentadas de seguida as 3 formas de selecionar o terceiro elemento da série (valor 2).

In [None]:
print(s1['c'])   # o tipo de dados das labels são int
print(s1.iloc[2])
print(s1.loc['c'])

In [None]:
print(s2[12])   # o tipo de dados das labels são int
print(s2.iloc[2])
print(s2.loc[12])

#Nota:  s2[2] não funciona, pois não há nenhuma label com o identificador 2 

Para selecionar intervalos de valores:

In [None]:
print(s2.loc[11:15])   # seleciona as valores em que as labels estão entre 11 e 15
print("------")
print(s2.iloc[:6:2])   #seleciona até ao índice 6 com saltos de 2
print("------")
print(s2.iloc[-1])     #devolve último elemento da série
print("------")
print(s2.iloc[:-1])     #remove último elemento da série
print("------")
print(s2)

Para verificar se determinado elemento ou lista de elementos estão no objeto do tipo Series, pode-se usar a função *isin*.

In [None]:
print(s1.loc['a':'d'])
print("------")
print(s1.iloc[3:])

In [None]:
s1.isin([2,3])

### DataFrame
Um **DataFrame** é uma estrutura de dados com duas dimensões, onde as colunas podem conter diferentes tipos de dados. Estes objetos permitem a definição de labels para as linhas e colunas, tornando-se desta forma a interpretação dos dados mais simples.
São similares às folhas de cálculo do Excel.

Para uma melhor compreensão da estrutura de um DataFrame, vamos criar dois objectos do tipo Series e posteriormente contruir um DataFrame com base nessa informação.

In [None]:
avg_ocean_depth = pd.Series({
                    'Arctic': 1205,
                    'Atlantic': 3646,
                    'Indian': 3741,
                    'Pacific': 4080,
                    'Southern': 3270
})

max_ocean_depth = pd.Series({
                    'Arctic': 5567,
                    'Atlantic': 8486,
                    'Indian': 7906,
                    'Pacific': 10803,
                    'Southern': 7075
})
ocean_depths = pd.DataFrame({
                    'Avg. Depth (m)': avg_ocean_depth,
                    'Max. Depth (m)': max_ocean_depth
}, dtype = float)

ocean_depths



In [None]:
## outra forma de criar o mesmo 
ocean_depths2 = pd.DataFrame([[1205,5567],[3646,8486],[3741,7906],[4080,10803],[3270,7075]], 
     index=['Arctic','Atlantic','Indian','Pacific','Southern'],
     columns=['Avg. Depth (m)','Max. Depth (m)'], dtype = float)

ocean_depths2


In [None]:
## ainda outra ... se nao especificarmos o tipo ficam valores inteiros ...
avg_ocean_depth = [1205,3646,3741,4080,3270]
max_ocean_depth = [5567,8486,7906,10803,7075]

ocean_depths3 = pd.DataFrame({
                    'Avg. Depth (m)': avg_ocean_depth,
                    'Max. Depth (m)': max_ocean_depth
},  index=['Arctic','Atlantic','Indian','Pacific','Southern'])

ocean_depths3

Para imprimir os principais atributos do objeto.

In [None]:
ocean_depths.index

In [None]:
ocean_depths.columns

In [None]:
ocean_depths.dtypes

In [None]:
ocean_depths3.dtypes

In [None]:
type(ocean_depths.values)

#### Funções 
Nesta secção, serão usadas algumas funções que podem ser aplicadas sobre objetos DataFrame,, como por exemplo:
* head
* tail
* sort_values, sort_index 
* groupby
* isnull
* iterrows


In [None]:
ocean_depths.head(2)

In [None]:
ocean_depths.tail(2)

In [None]:
ocean_depths.sort_values('Avg. Depth (m)', ascending=False)

In [None]:
ocean_depths.sort_index(ascending = False)

In [None]:
ocean_depths['Frozen'] = [True, False, False, False, True]
ocean_depths.groupby("Frozen").size()

In [None]:
ocean_depths

In [None]:
ocean_depths.iloc[0,1]=np.nan  ## vamos assumir que nao sabemos este valor
ocean_depths.isnull()

A função *describe* é usada para que se tenha uma análise genérica sobre os dados constantes no objeto DataFrame. Esta função retorna a informação seguinte para cada coluna:
* **count**: frequencia
* **mean**:  média
* **std**: desvio padrão
* **min**: valor mínimo
* **25%**: percentil 25
* **50%**: percentil 50 (mediana)
* **75%**: percentil 75
* **max**: valor maximo

In [None]:
ocean_depths.describe() # NOTA: o elemento Nan é ignorado nas estatisticas

In [None]:
for a,b in ocean_depths.iterrows():
    print(a) 
    print(b)
    print("-------")


### Seleção de dados
Semelhante ao apresentado anteriormente para objetos do tipo Series. Exemplos de como selecionar dados de um DataFrame.

In [None]:
ocean_depths.Frozen

In [None]:
ocean_depths.loc['Atlantic':'Pacific',:]


In [None]:
ocean_depths.loc[:,['Frozen']] # para que a continue a ser um DataFrame, Frozen tem de estar dentro de uma lista, se não passa a ser Series


In [None]:
x = ocean_depths.loc[:,'Frozen']
print(x)
print(type(x))

In [None]:
ocean_depths.iloc[:2,:-1]

In [None]:
ocean_depths.iloc[::2,:]

In [None]:
ocean_depths[ocean_depths.Frozen == True]
ocean_depths.Frozen == True

In [None]:
ocean_depths[ocean_depths.iloc[:,1]>7500]

### Manipulação de DataFrame
o Pandas disponibiliza funções que nos permite fazer alterações ao objeto como por exemplo: 
* insert, drop - adicionar e  remover dados;
* append, combine, join, merge - permite juntar dois objetos DataFrame (ver detalhe das funções);
* stack, unstack - alteração da estrutura que permite a hierarquização das labels

In [None]:
ocean_inf = ocean_depths.copy()
ocean_inf.insert(loc = 2, column="Visited",value = [True,False,True,False,True])
ocean_inf

In [None]:
ocean_inf.drop(['Arctic'])


In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'), index=['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'), index=['a','b'])
print(df)
print("--------")
print(df2)

In [None]:
df3 = (df.append(df2))
df3

In [None]:
df.join(df2, lsuffix='_df', rsuffix='_df2')

In [1]:
df3.loc[["a"],:]

NameError: name 'df3' is not defined

In [None]:
ocean_inf.stack()

In [None]:
pd.pivot_table(ocean_inf, values='Max. Depth (m)', index=['Visited'], 
               columns=['Frozen'])  

Nota: O valor de Max Depth quando os atributos Frozen e Visited são False, é a média dos valores do dataframe original.

In [None]:
#repor o df inicial
ocean_depths.iloc[0,1] = 5567
ocean_depths = ocean_depths.drop(labels=['Frozen'],axis=1)
ocean_depths

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.figure();
ocean_depths.boxplot()