# PANDAS - UMA BREVE INTRODUÇÃO

Este é um breve tutorial de Pandas, dentro do contexto do Grupo de Estudos em programação científica com Python, SciPy SP.

**Autor**: Patricia Novais

Dezembro de 2016

**---------------------------------------------------------------------**


A primeira coisa a fazer é importar os pacotes necessários:


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Precisamos dizer ao Jupyter que os plots serão renderizados aqui:

In [3]:
%matplotlib inline

## Abrindo os arquivos de dados

O pandas possui várias opções de leitura de arquivo, que você pode conferir no link http://pandas.pydata.org/pandas-docs/stable/io.html

Aqui, iremos utilizar apenas os comandos *read_table* e *read_csv* dependendo da extenção do nosso arquivo (Se .txt ou .csv)

In [4]:
df = pd.read_csv('scipy_example_pnovais.csv')

## Visão geral dos dados

Agora que o arquivo foi lido, podemos ter um *overview* dos dados, utilizando os comandos head(), tail() e describe()

In [None]:
df.head() # exibe as primeiras 5 linhas do dataframe

In [None]:
df.tail() # exibe as últimas 5 linhas do dataframe

In [None]:
df.describe() #faz uma breve descrição dos dados, através de média, min, max, desvio padrão...

## Criando condições, fatiando, unindo...


Todos os comandos acima podem ser executados dado uma certa condição:

In [None]:
df[df.u > 22].head() # imprime as 5 primeiras linhas dos dados cujo valor de *u* seja maior do que 22

In [None]:
df[df.u > 22].describe() # descrição dos dados cujo valor de *u* seja maior do que 22

Algo muito útil é poder fatiar seus dados, separar apenas aquilo que interessa. Existem alguns modos de fatiar os dados (do inglês, **slice**), mas usaremos basicamente o comando .ix(). Para estudar os demais, consulte http://pandas.pydata.org/pandas-docs/stable/indexing.html

In [None]:
df1 = df.ix[:,1:] #selecionando todas as colunas a partir da coluna 1 (lembrando que a indexação do Python começa em 0)
df1.head()

In [None]:
df2 = df.ix[:,(1,3,5)] #selecionando apenas as colunas 1, 3 e 5
df2.head()

In [None]:
df3 = df.ix[:,('u','r','z')] #selecionando apenas as colunas 1, 3 e 5, mas utilizando o nome das colunas
df3.head()

In [None]:
df4 = df.ix[:,(0,2)]
df4.head()

Ainda, podemos fazer o contrário, juntar dados num mesmo dataframe. Para ter toda a documentação de concatenação, fusão e junção de dados, consulte http://pandas.pydata.org/pandas-docs/stable/merging.html

Se os dados não possuem nenhuma coluna em comum, podemos utilizar o comando **join()**

In [None]:
df5 = df4.join(df3)
df5.head()

Outra opção é utilizar o **concat()**

In [None]:
df6 = pd.concat([df4,df3],axis=1) #axis=1 diz q a concatenação vai acontecer entre as colunas e não entre as linhas
df6.head()

Quando os dataframes possuem ao menos uma coluna em comum, é possível utilizar o comando **merge()**

In [None]:
df7 = pd.merge(df1,df4) #perceba que a ordem altera o resultado
df7.head()

In [None]:
df8 = pd.merge(df4,df1) #perceba que a ordem altera o resultado
df8.head()

Podemos criar novas colunas a partir da manipulação de outras colunas

In [None]:
df['gr'] = df.g - df.r
df['ri'] = df.r - df.i
df['ur'] = df.u - df.r

## Estatísticas básicas


O pandas permite ainda algumas estatísticas básicas bastante úteis, como **média**, **desvio padrão**, **soma**, **valor máximo**. Um rápida referência pode ser encontrada em http://pandas.pydata.org/pandas-docs/stable/basics.html#descriptive-statistics

In [None]:
df.mean()

df.median()

In [None]:
df.max()

In [None]:
df.gr.max()

In [None]:
df.gr.min()

In [None]:
df.gr.var()

## Primeiros gráficos

Apesar de existir outros pacotes do python que fazem bem a tarefa de visualização de dados, o ***pandas*** pode ser bastante útil para fazer algumas análises rápidas.
Podemos plotar as correlações entre os parâmetros, criar histrogramas, boxplots, diagramas de pizza...

In [None]:
df = df.ix[:,1:] #tirando a primeira coluna, que não tem informação útil
pd.scatter_matrix(df) #fazendo os diagramas de dispersão de todos os parâmetros+histograma

O comando **scatter_matrix()** não produz gráficos muito elegrantes, principalmente se seu dataframe possuir muitas colunas, mas traz um noção geral dos dados.

Caso queira saber quais foram exatamente as correlações entre os parâmetros, pode-se usar o comando **corr()**

In [None]:
df.corr(method='spearman') #method : {‘pearson’, ‘kendall’, ‘spearman’}

Para fazer os scatter_plot's individuais, podemos usar a função **plot()**, onde o parâmetro *kind* dirá o tipo de plot que queremos. Mais informações podem ser encontradas em http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.DataFrame.plot.html#pandas.DataFrame.plot

In [None]:
df.plot(kind='scatter', x='i', y='ri')

In [None]:
df.plot(kind='scatter', x='u', y='ur')

Para fazer os histogramas, podemos fazê-los todos numa mesma janela com o **df.plot(kind='hist')** ou em janela distintas com o **df.hist()**

In [None]:
df.plot(kind='hist')

In [None]:
df.hist()

Para fazer o histograma de alguma coluna específica, podemos usar os mesmos comandos acima, mas especificando qual coluna usar

In [None]:
df.gr.hist()

In [None]:
df.gr.plot(kind='hist')

In [None]:
df.gr.plot(kind='box')

In [None]:
df.gr.plot(kind='kde')

O **pandas** é um pacote muito poderoso, o que vimos aqui é só a *ponta do iceberg*, tem muito o que ser explorado. Entretanto, espero que essa breve introdução tenha servido para mostrar que esse pacote é muito *friendly* e bacana de trabalhar. Em uma pesquisa rápida no Google é possível encontrar materiais bem avançandos sobre ele.