# PANDAS - UMA BREVE INTRODUÇÃO

Este é um breve tutorial de Pandas, dentro do contexto do Grupo de Estudos em programação científica com Python, SciPy SP.

**Autor**: Patricia Novais

Dezembro de 2016

**---------------------------------------------------------------------**


A primeira coisa a fazer é importar os pacotes necessários:


In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Precisamos dizer ao Jupyter que os plots serão renderizados aqui:

In [4]:
%matplotlib inline

## Abrindo os arquivos de dados

O pandas possui várias opções de leitura de arquivo, que você pode conferir no link http://pandas.pydata.org/pandas-docs/stable/io.html

Aqui, iremos utilizar apenas os comandos *read_table* e *read_csv* dependendo da extenção do nosso arquivo (Se .txt ou .csv)

In [7]:
df = pd.read_csv('scipy_example_pnovais.csv')

Agora que o arquivo foi lido, podemos ter um *overview* dos dados, utilizando os comandos head(), tail() e describe()

In [8]:
df.head() # exibe as primeiras 5 linhas do dataframe

Unnamed: 0,objID,u,g,r,i,z
0,588848900971299281,22.55218,21.08744,20.28041,20.04251,19.37127
1,588848900971299282,22.67882,24.14491,21.37153,20.88683,21.16393
2,588848900971299284,21.53908,22.09095,20.81463,19.83287,22.76383
3,588848900971299285,22.57927,22.40949,21.69262,20.85991,19.54916
4,588848900971299286,22.34326,22.47549,21.70187,21.27564,24.48958


In [9]:
df.tail() # exibe as últimas 5 linhas do dataframe

Unnamed: 0,objID,u,g,r,i,z
995,588848900971561128,21.7736,20.50731,20.99524,18.81902,20.07818
996,588848900971561131,24.20203,22.59931,21.91894,23.26985,22.23001
997,588848900971561133,27.88187,24.20264,22.15804,21.01927,22.81669
998,588848900971561134,26.54534,22.41273,21.62476,21.25577,21.04195
999,588848900971561142,24.82389,19.18991,18.09366,17.92763,17.69641


In [11]:
df.describe() #faz uma breve descrição dos dados, através de média, min, max, desvio padrão...

Unnamed: 0,objID,u,g,r,i,z
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,5.888489e+17,23.494416,22.421346,21.162885,21.070447,20.603184
std,71979.84,1.871991,1.4559,1.09675,1.821276,1.745293
min,5.888489e+17,17.64883,15.36442,14.37849,13.89232,13.58226
25%,5.888489e+17,22.186037,21.777965,20.711615,20.21771,19.676517
50%,5.888489e+17,23.057755,22.41013,21.373365,20.93962,20.32802
75%,5.888489e+17,24.627623,23.00425,21.793685,21.518805,21.240655
max,5.888489e+17,30.90253,31.01342,30.59296,31.47766,29.16645


Todos os comandos acima podem ser executados dado uma certa condição:

In [17]:
df[df.u > 22].head() # imprime as 5 primeiras linhas dos dados cujo valor de *u* seja maior do que 22

Unnamed: 0,objID,u,g,r,i,z
0,588848900971299281,22.55218,21.08744,20.28041,20.04251,19.37127
1,588848900971299282,22.67882,24.14491,21.37153,20.88683,21.16393
3,588848900971299285,22.57927,22.40949,21.69262,20.85991,19.54916
4,588848900971299286,22.34326,22.47549,21.70187,21.27564,24.48958
5,588848900971299290,24.12965,23.06622,21.2762,20.61665,20.08728


In [18]:
df[df.u > 22].describe() # descrição dos dados cujo valor de *u* seja maior do que 22

Unnamed: 0,objID,u,g,r,i,z
count,806.0,806.0,806.0,806.0,806.0,806.0
mean,5.888489e+17,24.03162,22.657744,21.374749,21.235349,20.789042
std,73105.73,1.644967,1.148938,0.792336,1.53844,1.555778
min,5.888489e+17,22.00339,18.72559,18.09366,17.55525,17.02449
25%,5.888489e+17,22.677747,22.047535,20.947987,20.42639,19.840058
50%,5.888489e+17,23.589945,22.510105,21.50266,21.03839,20.41524
75%,5.888489e+17,24.811015,23.06525,21.854852,21.565875,21.309522
max,5.888489e+17,30.90253,31.01342,28.24494,30.19682,29.16645


Algo muito útil é poder fatiar seus dados, separar apenas aquilo que interessa. Existem alguns modos de fatiar os dados (do inglês, **slice**), mas usaremos basicamente o comando .ix(). Para estudar os demais, consulte http://pandas.pydata.org/pandas-docs/stable/indexing.html

In [24]:
df1 = df.ix[:,1:] #selecionando todas as colunas a partir da coluna 1 (lembrando que a indexação do Python começa em 0)
df1.head()

Unnamed: 0,u,g,r,i,z
0,22.55218,21.08744,20.28041,20.04251,19.37127
1,22.67882,24.14491,21.37153,20.88683,21.16393
2,21.53908,22.09095,20.81463,19.83287,22.76383
3,22.57927,22.40949,21.69262,20.85991,19.54916
4,22.34326,22.47549,21.70187,21.27564,24.48958


In [27]:
df2 = df.ix[:,(1,3,5)] #selecionando apenas as colunas 1, 3 e 5
df2.head()

Unnamed: 0,u,r,z
0,22.55218,20.28041,19.37127
1,22.67882,21.37153,21.16393
2,21.53908,20.81463,22.76383
3,22.57927,21.69262,19.54916
4,22.34326,21.70187,24.48958


In [28]:
df3 = df.ix[:,('u','r','z')] #selecionando apenas as colunas 1, 3 e 5, mas utilizando o nome das colunas
df3.head()

Unnamed: 0,u,r,z
0,22.55218,20.28041,19.37127
1,22.67882,21.37153,21.16393
2,21.53908,20.81463,22.76383
3,22.57927,21.69262,19.54916
4,22.34326,21.70187,24.48958


In [34]:
df4 = df.ix[:,(0,2)]
df4.head()

Unnamed: 0,objID,g
0,588848900971299281,21.08744
1,588848900971299282,24.14491
2,588848900971299284,22.09095
3,588848900971299285,22.40949
4,588848900971299286,22.47549


Ainda, podemos fazer o contrário, juntar dados num mesmo dataframe. Para ter toda a documentação de concatenação, fusão e junção de dados, consulte http://pandas.pydata.org/pandas-docs/stable/merging.html

Se os dados não possuem nenhuma coluna em comum, podemos utilizar o comando **join()**

In [36]:
df5 = df4.join(df3)
df5.head()

Unnamed: 0,objID,g,u,r,z
0,588848900971299281,21.08744,22.55218,20.28041,19.37127
1,588848900971299282,24.14491,22.67882,21.37153,21.16393
2,588848900971299284,22.09095,21.53908,20.81463,22.76383
3,588848900971299285,22.40949,22.57927,21.69262,19.54916
4,588848900971299286,22.47549,22.34326,21.70187,24.48958


Outra opção é utilizar o **concat()**

In [42]:
df6 = pd.concat([df4,df3],axis=1) #axis=1 diz q a concatenação vai acontecer entre as colunas e não entre as linhas
df6.head()

Unnamed: 0,objID,g,u,r,z
0,588848900971299281,21.08744,22.55218,20.28041,19.37127
1,588848900971299282,24.14491,22.67882,21.37153,21.16393
2,588848900971299284,22.09095,21.53908,20.81463,22.76383
3,588848900971299285,22.40949,22.57927,21.69262,19.54916
4,588848900971299286,22.47549,22.34326,21.70187,24.48958


Quando os dataframes possuem ao menos uma coluna em comum, é possível utilizar o comando **merge()**

In [48]:
df7 = pd.merge(df1,df4) #perceba que a ordem altera o resultado
df7.head()

Unnamed: 0,u,g,r,i,z,objID
0,22.55218,21.08744,20.28041,20.04251,19.37127,588848900971299281
1,22.67882,24.14491,21.37153,20.88683,21.16393,588848900971299282
2,21.53908,22.09095,20.81463,19.83287,22.76383,588848900971299284
3,22.57927,22.40949,21.69262,20.85991,19.54916,588848900971299285
4,22.34326,22.47549,21.70187,21.27564,24.48958,588848900971299286


In [47]:
df8 = pd.merge(df4,df1) #perceba que a ordem altera o resultado
df8.head()

Unnamed: 0,objID,g,u,r,i,z
0,588848900971299281,21.08744,22.55218,20.28041,20.04251,19.37127
1,588848900971299282,24.14491,22.67882,21.37153,20.88683,21.16393
2,588848900971299284,22.09095,21.53908,20.81463,19.83287,22.76383
3,588848900971299285,22.40949,22.57927,21.69262,20.85991,19.54916
4,588848900971299286,22.47549,22.34326,21.70187,21.27564,24.48958


O pacote ***pandas*** é muito útil também para fazer algumas análises.
Podemos calcular as correlações entre os parâmetros, criar histrogramas, boxplots, diagramas de pizza...

In [None]:
pd.scatter_matrix(df)

In [39]:
df['gr'] = df.g - df.r
df['ri'] = df.r - df.i
df['ur'] = df.u - df.r

In [None]:
df.head()

In [None]:
df.plot(kind='scatter', x='r', y='gr')

In [45]:
df_e = df.ix[df.ur > 2.22]
df_s = df.ix[df.ur < 2.22]

In [None]:
df_e.head()

In [47]:
len(df_e)

467

In [None]:
df_s.head()

In [49]:
len(df_s)

533

In [None]:
df_e.plot(kind='scatter', x='r', y='gr')

In [None]:
df_s.plot(kind='scatter', x='r', y='gr')

In [None]:
plt.ylabel('g-r')
plt.plot(df_e.r, df_e.gr, 'r.', df_s.r, df_s.gr, 'b.')

In [None]:
plt.scatter(df.r, df.gr)