## Pandas fornece ferramentas de análise de dados e estruturas de dados de alta performance

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

In [0]:
notas = pd.Series([1,2,3,4,5,6,7,8,9,10])
#Cria uma serie unidimensional

In [64]:
notas.describe()
#Descreve meu conjunto de dados com informações estatisticas

count    10.00000
mean      5.50000
std       3.02765
min       1.00000
25%       3.25000
50%       5.50000
75%       7.75000
max      10.00000
dtype: float64

In [65]:
notas2 = pd.Series([2,10,5,10,6], index=["Wilfred", "Abbie", "Harry", "Julia", "Carrie"])
notas2
#Atribui a cada elemento dessa minha serie um indetificador 

Wilfred     2
Abbie      10
Harry       5
Julia      10
Carrie      6
dtype: int64

In [66]:
notas2.duplicated()
#Indica quais dos index da serie

Wilfred    False
Abbie      False
Harry      False
Julia       True
Carrie     False
dtype: bool

In [67]:
notas = notas.append(notas2)
notas
#Concatena series mantendo seus identificadores

0           1
1           2
2           3
3           4
4           5
5           6
6           7
7           8
8           9
9          10
Wilfred     2
Abbie      10
Harry       5
Julia      10
Carrie      6
dtype: int64

##DataFrame
Um DataFrame é uma estrutura bidimensional de dados, como uma planilha. Abaixo criaremos um DataFrame que possui valores de diferentes tipos, usando um dicionário como entrada dos dados:

In [68]:
df = pd.DataFrame({'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
df
#Criando um dataframe. É semelhante ao dicionario de python. Lista de listas com indexs alteraveis. 

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
1,Abbie,4,7,7.5
2,Harry,2,5,9.0
3,Julia,1,10,7.5
4,Carrie,4,6,8.0


In [69]:
df.dtypes
#Retorna o tipo de cada intem associado ao index

Aluno         object
Faltas         int64
Prova          int64
Seminário    float64
dtype: object

In [70]:
df.columns
#Exibe quais são as coluna existentes no dataframe 

Index(['Aluno', 'Faltas', 'Prova', 'Seminário'], dtype='object')

In [71]:
df.iloc[1]
#Acessando os dados da primeira linha

Aluno        Abbie
Faltas           4
Prova            7
Seminário      7.5
Name: 1, dtype: object

In [72]:
df['Aluno']
#Exibe os dados da coluna indicada

0    Wilfred
1      Abbie
2      Harry
3      Julia
4     Carrie
Name: Aluno, dtype: object

In [73]:
df.shape
#Informa as dimensões do dataframe (linha por coluna)

(5, 4)

In [74]:
df.describe()
#Tira algumas estatisticas do dataframe

Unnamed: 0,Faltas,Prova,Seminário
count,5.0,5.0,5.0
mean,2.8,6.0,8.1
std,1.30384,2.915476,0.65192
min,1.0,2.0,7.5
25%,2.0,5.0,7.5
50%,3.0,6.0,8.0
75%,4.0,7.0,8.5
max,4.0,10.0,9.0


In [75]:
df.sort_values(by="Prova", ascending=False)
#Função para ordenar a tabela pela coluna indicada no by, e de maneira decrescente em ascending=false

Unnamed: 0,Aluno,Faltas,Prova,Seminário
3,Julia,1,10,7.5
1,Abbie,4,7,7.5
4,Carrie,4,6,8.0
2,Harry,2,5,9.0
0,Wilfred,3,2,8.5


In [76]:
df.iloc[2]["Prova"]
#Acessa o valor indicado (linha por coluna)

5

In [77]:
df.ix[:2]
#Semelhante ao iloc(faz referencia pela posição), mas nesse caso ele inclui o ulitmo elemento

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
1,Abbie,4,7,7.5
2,Harry,2,5,9.0


In [78]:
df.index = df['Aluno']
df
#Esse comando substitui os valores numericos padrões dos indexs por palavras, que no caso são os proprios alunos

Unnamed: 0_level_0,Aluno,Faltas,Prova,Seminário
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Wilfred,Wilfred,3,2,8.5
Abbie,Abbie,4,7,7.5
Harry,Harry,2,5,9.0
Julia,Julia,1,10,7.5
Carrie,Carrie,4,6,8.0


In [79]:
df.ix['Abbie']
#Agora podemos encontrar os elementos referente ao aluno pelo proprio nome do aluno  

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Aluno        Abbie
Faltas           4
Prova            7
Seminário      7.5
Name: Abbie, dtype: object

In [80]:
del df['Aluno']
#Deleta a coluna aluno pois os elementos alunos agora estão fixado pelo index
df

Unnamed: 0_level_0,Faltas,Prova,Seminário
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Wilfred,3,2,8.5
Abbie,4,7,7.5
Harry,2,5,9.0
Julia,1,10,7.5
Carrie,4,6,8.0


In [81]:
df[df['Seminário'] > 8.0]
#Mostra os elementos com base na condição
#Aqui se usam operadores bitwise, ou seja, &, |, ~ ao invés de and, or, not,

Unnamed: 0_level_0,Faltas,Prova,Seminário
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Wilfred,3,2,8.5
Harry,2,5,9.0


In [82]:
df[(df['Seminário'] > 8.0) & (df['Prova'] > 3)]
#Como executar multiplas condições dentro do dataframe

Unnamed: 0_level_0,Faltas,Prova,Seminário
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Harry,2,5,9.0
