## Data Frame

Enquanto uma série é um objeto unidimensional (vetor), o DataFrame é um objeto bidimensional (matriz). O DataFrame pode ter uma ou mais colunas contendo dados de diferentes tipos.

In [1]:
# Importando o Pandas
import pandas as pd

**Criando um DataFrame**

In [2]:
# Criando um dicionário
# Usamos a tabela de pontuação final do Campenoato Brasileiro de 2004
data = {'Times': ['Santos', 'Atletico Paranaense', 'Sao Paulo', 'Palmeiras', 'Corinthians', 'Goias', 'Juventude'],
        'Pts': [89, 86, 82, 79, 74, 72, 70],
        'V': [27, 25, 24, 22, 20, 21, 20],
        'E': [8, 11, 10, 13, 14, 9, 10],
        'D': [11, 10, 12, 11, 12, 16, 16]}

frame = pd.DataFrame(data) # Atribuindo à um DataFrame do Pandas
frame

Unnamed: 0,Times,Pts,V,E,D
0,Santos,89,27,8,11
1,Atletico Paranaense,86,25,11,10
2,Sao Paulo,82,24,10,12
3,Palmeiras,79,22,13,11
4,Corinthians,74,20,14,12
5,Goias,72,21,9,16
6,Juventude,70,20,10,16


In [3]:
# Podemos ter uma ideia do DataFrame olhando os dados iniciais através do comando head
frame.head(3)

Unnamed: 0,Times,Pts,V,E,D
0,Santos,89,27,8,11
1,Atletico Paranaense,86,25,11,10
2,Sao Paulo,82,24,10,12


In [4]:
# Podemos verificar o tipo de dados de cada coluna
frame.dtypes

Times    object
Pts       int64
V         int64
E         int64
D         int64
dtype: object

In [5]:
# Ao criarmos um DataFrame, podemos escolher quais colunas e em que ordem:
pd.DataFrame(data, columns=['Pts', 'Times'])

Unnamed: 0,Pts,Times
0,89,Santos
1,86,Atletico Paranaense
2,82,Sao Paulo
3,79,Palmeiras
4,74,Corinthians
5,72,Goias
6,70,Juventude


In [6]:
# Caso uma coluna não possua dados, o Pandas completará com valores perdidos (NaN)
frame2 = pd.DataFrame(data, columns=['Times', 'Pts', 'V', 'E', 'D', 'SG'],
                      index=[1, 2, 3, 4, 5, 6, 7])

frame2

Unnamed: 0,Times,Pts,V,E,D,SG
1,Santos,89,27,8,11,
2,Atletico Paranaense,86,25,11,10,
3,Sao Paulo,82,24,10,12,
4,Palmeiras,79,22,13,11,
5,Corinthians,74,20,14,12,
6,Goias,72,21,9,16,
7,Juventude,70,20,10,16,


In [7]:
# Podemos mostrar uma coluna através de seu nome
frame2['Times']

1                 Santos
2    Atletico Paranaense
3              Sao Paulo
4              Palmeiras
5            Corinthians
6                  Goias
7              Juventude
Name: Times, dtype: object

In [8]:
# Colunas podem ser modificadas por atribuição.
frame2['SG'] = '-'
frame2

Unnamed: 0,Times,Pts,V,E,D,SG
1,Santos,89,27,8,11,-
2,Atletico Paranaense,86,25,11,10,-
3,Sao Paulo,82,24,10,12,-
4,Palmeiras,79,22,13,11,-
5,Corinthians,74,20,14,12,-
6,Goias,72,21,9,16,-
7,Juventude,70,20,10,16,-


**loc e iloc**  
Podemos selecionar um conjunto de elementos através de sus índice utilizando as funções ``.loc()`` e ``.iloc()``. Com a função ``.loc()`` nos referenciamos índices nomeados, enquanto que a ``iloc()`` referenciamos ao valor integral dos índices.

In [9]:
frame3 = pd.DataFrame(data, columns=['Times', 'Pts', 'V', 'E'], index=['a', 'b', 'c', 'd', 'e', 'f', 'g'])
frame3

Unnamed: 0,Times,Pts,V,E
a,Santos,89,27,8
b,Atletico Paranaense,86,25,11
c,Sao Paulo,82,24,10
d,Palmeiras,79,22,13
e,Corinthians,74,20,14
f,Goias,72,21,9
g,Juventude,70,20,10


In [10]:
# Utilizando Loc
frame3.loc['c']

Times    Sao Paulo
Pts             82
V               24
E               10
Name: c, dtype: object

In [11]:
# Utilizando o iloc
frame3.iloc[4]

Times    Corinthians
Pts               74
V                 20
E                 14
Name: e, dtype: object

In [12]:
# Trazendo linhas e colunas
frame3.loc['c':'e', ['Pts','V']]

Unnamed: 0,Pts,V
c,82,24
d,79,22
e,74,20


**Drop**  
Podemos retirar do DataFrame algum valor não desejado utilizando o comando ``drop()``

In [13]:
# Retirando uma linha
frame2.drop([5])

Unnamed: 0,Times,Pts,V,E,D,SG
1,Santos,89,27,8,11,-
2,Atletico Paranaense,86,25,11,10,-
3,Sao Paulo,82,24,10,12,-
4,Palmeiras,79,22,13,11,-
6,Goias,72,21,9,16,-
7,Juventude,70,20,10,16,-


In [14]:
# Retirando uma coluna
frame2.drop(['SG'], axis='columns') # Para indicar a coluna podemos utilizar axis='columns' ou axis=1

Unnamed: 0,Times,Pts,V,E,D
1,Santos,89,27,8,11
2,Atletico Paranaense,86,25,11,10
3,Sao Paulo,82,24,10,12
4,Palmeiras,79,22,13,11
5,Corinthians,74,20,14,12
6,Goias,72,21,9,16
7,Juventude,70,20,10,16


**Slicing**

Sintaxe:

    frame[indice_ini:indice_final step]

In [15]:
# Podemos utilizar o slicing, da mesma forma que utilizamos para as Series do Pandas
frame[:: 2] # Pulando de 2 em 2

Unnamed: 0,Times,Pts,V,E,D
0,Santos,89,27,8,11
2,Sao Paulo,82,24,10,12
4,Corinthians,74,20,14,12
6,Juventude,70,20,10,16


In [16]:
# Fazendo slicing de linhas e colunas
frame.loc[0:3, 'Times']

0                 Santos
1    Atletico Paranaense
2              Sao Paulo
3              Palmeiras
Name: Times, dtype: object

**Sort**  
Podemos colocar os dados em ordem crescente ou descrescente utilizando o comando ``sort()``.

In [17]:
frame.sort_values(by=['D', 'V'], ascending=False)

Unnamed: 0,Times,Pts,V,E,D
5,Goias,72,21,9,16
6,Juventude,70,20,10,16
2,Sao Paulo,82,24,10,12
4,Corinthians,74,20,14,12
0,Santos,89,27,8,11
3,Palmeiras,79,22,13,11
1,Atletico Paranaense,86,25,11,10


**Outras Operações**

In [18]:
# Verificando um conteúdo de uma coluna
frame['V'] > 20 # Verificando se o time obteve mais de 20 vitórias

0     True
1     True
2     True
3     True
4    False
5     True
6    False
Name: V, dtype: bool

In [19]:
# Descrevendo as algumas estatísticas dos dados
frame.describe()

Unnamed: 0,Pts,V,E,D
count,7.0,7.0,7.0,7.0
mean,78.857143,22.714286,10.714286,12.571429
std,7.221001,2.690371,2.13809,2.43975
min,70.0,20.0,8.0,10.0
25%,73.0,20.5,9.5,11.0
50%,79.0,22.0,10.0,12.0
75%,84.0,24.5,12.0,14.0
max,89.0,27.0,14.0,16.0
