In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import warnings
warnings.filterwarnings('ignore')

## Início -

O pacote Pandas do python lida (majoritariamente) com uma classe chamada DataFrame. Esse DataFrame pode ser entendido como um dicionário que tem funções a mais.

Para iniciarmos o processo, é melhor entender como é a criação de um DataFrame.

Vamos utilizar a tabela abaixo como exemplo:

| Time | Vitórias | Derrotas | Empates |
| ---- | -------- | -------- | ------- |
| Real Gui Nasm | 0 | 2 | 1 |
| Orfali's Old Boys | 3 | 0 | 0 |
| Inter de Miranda | 2 | 1 | 0 |
| Clube de Regatas do Tiagão | 3 | 0 | 0 |
| Esporte Clube William Vaz | 1 | 2 | 0 |

Ela representa um campeonato fictício, com nomes de times em uma coluna, número de vitórias em outra, e assim por diante. É importante perceber que não há pontuação calculada ainda, iremos fazer isso mais para frente.

Se eu pedisse para algum aluno que acabou de aprender python representar isso em código, a implementação seria algo parecido com o que é visto na célula abaixo.

In [2]:
tabela = list()

real_gui_nasm = {'Time':'Real Gui Nasm','Vitórias':0,'Derrotas':2, 'Empates':1}
orfalis_old_boys = {'Time':"Orfalis Old Boys",'Vitórias':3,'Derrotas':0, 'Empates':0}
inter_de_miranda = {'Time':'Inter de Miranda','Vitórias':2,'Derrotas':1, 'Empates':0}
cr_tiagao = {'Time':'Clube de Regatas do Tiagão','Vitórias':3,'Derrotas':0, 'Empates':0}
ec_william_vaz = {'Time':'Esporte Clube William Vaz','Vitórias':1,'Derrotas':2, 'Empates':0}

tabela.append(real_gui_nasm)
tabela.append(orfalis_old_boys)
tabela.append(inter_de_miranda)
tabela.append(cr_tiagao)
tabela.append(ec_william_vaz)

tabela

[{'Time': 'Real Gui Nasm', 'Vitórias': 0, 'Derrotas': 2, 'Empates': 1},
 {'Time': 'Orfalis Old Boys', 'Vitórias': 3, 'Derrotas': 0, 'Empates': 0},
 {'Time': 'Inter de Miranda', 'Vitórias': 2, 'Derrotas': 1, 'Empates': 0},
 {'Time': 'Clube de Regatas do Tiagão',
  'Vitórias': 3,
  'Derrotas': 0,
  'Empates': 0},
 {'Time': 'Esporte Clube William Vaz',
  'Vitórias': 1,
  'Derrotas': 2,
  'Empates': 0}]

Outra possibilidade é guardar os resultados em listas dentro de um dicionário, com posições nas listas correspondentes. Um exemplo disso está abaixo.

In [3]:
tabela2 = {
    'Time':['Real Gui Nasm', 'Orfalis Old Boys', 'Inter de Miranda', 'Clube de Regatas do Tiagão', 'Esporte Clube William Vaz'],
    'Vitórias':[0,3,2,3,1],
    'Derrotas':[2,0,1,0,2],
    'Empates':[1,0,0,0,0]
}

tabela2

{'Time': ['Real Gui Nasm',
  'Orfalis Old Boys',
  'Inter de Miranda',
  'Clube de Regatas do Tiagão',
  'Esporte Clube William Vaz'],
 'Vitórias': [0, 3, 2, 3, 1],
 'Derrotas': [2, 0, 1, 0, 2],
 'Empates': [1, 0, 0, 0, 0]}

## Inicializando Um DataFrame

        Para continuar nessa primeira etapa, as células acima precisam estar rodadas.

É muito simples inicializar um data frame (quando já se tem os dados organizados). Veja a célula abaixo com cautela, e revise caso necessário.

In [4]:
import pandas as pd

# Inicialização do DataFrame. Por convenção, utilizamos o nome de variável 'df' (de 'Data' 'Frame') quando realizamos operações com pandas, mas o nome não é importante.
df = pd.DataFrame(tabela)

# função que mostra as primeiras 5 linhas do DataFrame. No nosso caso, por ser um DataFrame pequeno, ele mostra todos os nossos dados.
df.head()

Unnamed: 0,Time,Vitórias,Derrotas,Empates
0,Real Gui Nasm,0,2,1
1,Orfalis Old Boys,3,0,0
2,Inter de Miranda,2,1,0
3,Clube de Regatas do Tiagão,3,0,0
4,Esporte Clube William Vaz,1,2,0


O resultado de rodar a célula acima é um objeto do Pandas chamado DataFrame, que permite a manipulação e utilização de dados de maneira mais simples, rápida e eficaz. Nele, temos 4 colunas (`Time`, `Vitórias`, `Derrotas`, `Empates`) e 5 linhas (uma para cada time representado). Os número mais a esquerda da tabela são os índices, o número referente a linha daquela tabela. 

Utilizamos os dados já organizados naquela primeira representação da tabela para inicializar e criar um DataFrame. Mas, aquela organização não é a única possível. Um outro exemplo é a variável ´tabela2´, que também consegue ser transformada em um DataFrame de maneira simples.

In [5]:
import pandas as pd

# Inicialização do DataFrame. Por convenção, utilizamos o nome de variável 'df2' (de segundo 'Data' 'Frame') quando realizamos operações com pandas, mas o nome não é importante.
df2 = pd.DataFrame(tabela2)

# função que mostra as primeiras linhas do DataFrame. No nosso caso, por ser um DataFrame pequeno, ele mostra todos os nossos dados.
df2.head()

Unnamed: 0,Time,Vitórias,Derrotas,Empates
0,Real Gui Nasm,0,2,1
1,Orfalis Old Boys,3,0,0
2,Inter de Miranda,2,1,0
3,Clube de Regatas do Tiagão,3,0,0
4,Esporte Clube William Vaz,1,2,0


``Mas, e se eu não tiver dados ainda? Posso criar um DataFrame sem nada?``

Claro que sim. Você consegue criar um DataFrame vazio, e ir populando ele com o tempo.

In [6]:
df_vazio = pd.DataFrame()

df_vazio.head()

Seu DataFrame sem nada agora existe, mas, como fazer para colocar valores nele?

Vamos supor que você queira colocar uma coluna que tem valores de 0 a 4. O nome da coluna será $Números$ e os valores serão $[0,1,2,3,4]$. Apenas siga essas instruções:
- Declare uma variável com os valores que você queria colocar. Por serem vários, crie uma lista em Python que vá de 0 até 4 em números inteiros.
- Escolha um nome para sua nova coluna. No exemplo está $Números$, então esse será adotado.
- Associe a lista a coluna utilizando uma sintaxe parecida com um dicionário em Python. Escreva `<nome_do_DataFrame>[<nome_da_coluna>] = <valores>`, substituindo os campos vagos pelas suas variáveis.

Segue o exemplo em código.

In [7]:
# Declarando um novo DataFrame
df = pd.DataFrame()

# declarando a lista de valores de 0 a 4
valores = [0,1,2,3,4]

# realizando a associação, colocando os valores no DataFrame
df['Números'] = valores

# realizando o print do DataFrame, para melhor visualizar o feito.
df.head()

Unnamed: 0,Números
0,0
1,1
2,2
3,3
4,4


Agora, sabemos como criar um DataFrame do zero e instanciar uma nova coluna nele.

## Trabalhando com um DataFrame

Vamos voltar ao exemplo dos times.

| Time | Vitórias | Derrotas | Empates |
| ---- | -------- | -------- | ------- |
| Real Gui Nasm | 0 | 2 | 1 |
| Orfali's Old Boys | 3 | 0 | 0 |
| Inter de Miranda | 2 | 1 | 0 |
| Clube de Regatas do Tiagão | 3 | 0 | 0 |
| Esporte Clube William Vaz | 1 | 2 | 0 |

A tabela está sem uma informação muito importante: a pontuação de cada equipe.

Vamos supor que cada vitória vale 3 pontos, cada empate vale 1 ponto e as derrotas são nulas.

Para fazermos os cálculos teríamos que, por clube, realizar o seguinte cálculo:

$$
P = 3V + E
$$

Mas, como acessar as vitórias de um time específico? Como acessar seus empates? Como fazer essa conta de maneira direta?

Vamos quebrar esse raciocínio em partes:

    1 - Acessar colunas específicas do DataFrame.

    2 - Realizar operações entre colunas.

    3 - Criar uma nova coluna com o resultado das contas.


Montando o DataFrame das partidas.

In [8]:
import pandas as pd

tabela_exemplo = {
    'Time':['Real Gui Nasm', 'Orfalis Old Boys', 'Inter de Miranda', 'Clube de Regatas do Tiagão', 'Esporte Clube William Vaz'],
    'Vitórias':[0,3,2,3,1],
    'Derrotas':[2,0,1,0,2],
    'Empates':[1,0,0,0,0]
}

df = pd.DataFrame(tabela_exemplo)

### 1 - Acessando uma Coluna Específica

Se eu fosse querer apenas os empates, pensando no dicionário inicial (`tabela_exemplo`), como que eu conseguiria essas informações?

É simples, acessando a lista associada a chave `Empates` do dicionário.

In [9]:
tabela_exemplo['Empates']

[1, 0, 0, 0, 0]

Para a de `Vitórias`, o processo é o mesmo.

In [10]:
tabela_exemplo['Vitórias']

[0, 3, 2, 3, 1]

Em um DataFrame, o processo é idêntico. A única diferença é que o objeto retornado não é uma lista, e sim um objeto `pandas.Series`.

In [11]:
vict_list = tabela_exemplo['Vitórias']

vict_coluna = df['Vitórias']

print(f'O objeto vict_list é do tipo: {type(vict_list)} |\nGuarda a Seguinte informação: {vict_list} \n')
print(f'O objeto vict_coluna é do seguinte tipo: {type(vict_coluna)} |\nGuarda e Seguinte informação:\n{vict_coluna}')

O objeto vict_list é do tipo: <class 'list'> |
Guarda a Seguinte informação: [0, 3, 2, 3, 1] 

O objeto vict_coluna é do seguinte tipo: <class 'pandas.core.series.Series'> |
Guarda e Seguinte informação:
0    0
1    3
2    2
3    3
4    1
Name: Vitórias, dtype: int64


Veja que o `vict_colunas` possui duas colunas. A da esquerda é referente ao índice, e a da direita é o valor associado aquele índice. Isso se assemelha muito a uma lista em python. Inclusive, conseguimos percorrer uma objeto ``Series`` como uma lista utilizando o comando `.loc` ao final.

In [12]:
elemento_1_lista = vict_list[0]

print(f'O primeiro elemento da lista é {elemento_1_lista}')

elemento_1_serie = vict_coluna.loc[0]

print(f'O primeiro elemento da Serie é {elemento_1_serie}')

O primeiro elemento da lista é 0
O primeiro elemento da Serie é 0


Veja como ambos dão o mesmo resultado.

Esse processo de escolher uma coluna e depois escolher um valor específico funciona para qualquer DataFrame do Pandas.

### 2 - Realizar Operações Entre Colunas

Agora que conseguimos acessar uma coluna específica do DataFrame, podemos partir para as operações. 

A operação que queremos realizar para cada time é:

$$
P = 3V + E
$$

Onde $P$ é a pontuação do time, $V$ é o número de vitórias e $E$ o de empates.

Podemos realizar isso de duas maneiras principais: 

 1 - Tratando a coluna como uma lista

 2 - Tirando vantagem da classe `pandas.core.series.Series`

Vamos começar pelo mais básico. Vamos inicializar uma lista que será nossa pontuação e outras duas variáveis, uma para a coluna de vitórias e outra para a de empates.

In [13]:
# declaração da lista de pontuações, começa vazia
pontuacao = []

# declaração da variável da coluna de vitórias
vitorias = df['Vitórias']

# declaração da variável da coluna de empates
empates = df['Empates']

# o range(5) faz o 'i' ir de 0 a 4, percorrendo todas as linhas do nosso DataFrame em cada uma das colunas correspondentes 
for i in range(5):
    # variável para guardar a pontuação do time atual
    p = vitorias.loc[i]*3 + empates.loc[i]
    # colocando o valor de p na lista de pontuação
    pontuacao.append(p)


print(f'A lista de pontuações é: {pontuacao}')

A lista de pontuações é: [1, 9, 6, 9, 3]


Agora, vamos inicializar uma bova coluna do DataFrame, com o nome de `Pontuação-1` para guardar esse primeiro exemplo de como se calcula a pontuação.

In [14]:
df['Pontuação-1'] = pontuacao

df.head()

Unnamed: 0,Time,Vitórias,Derrotas,Empates,Pontuação-1
0,Real Gui Nasm,0,2,1,1
1,Orfalis Old Boys,3,0,0,9
2,Inter de Miranda,2,1,0,6
3,Clube de Regatas do Tiagão,3,0,0,9
4,Esporte Clube William Vaz,1,2,0,3


A outra maneira é mais simples em termos de código. Vamos fazer uma conta direta nas colunas e atribuir o resultado diretamente a uma nova coluna chamada `Pontuação-2`.

In [15]:
# Estou selecionando as colunas e já operando diretamente com o objeto de Serie do Pandas. Além disso, já faço a alocação para a coluna diretamente.
df['Pontuação-2'] = df['Vitórias']*3 + df['Empates']

df.head()

Unnamed: 0,Time,Vitórias,Derrotas,Empates,Pontuação-1,Pontuação-2
0,Real Gui Nasm,0,2,1,1,1
1,Orfalis Old Boys,3,0,0,9,9
2,Inter de Miranda,2,1,0,6,6
3,Clube de Regatas do Tiagão,3,0,0,9,9
4,Esporte Clube William Vaz,1,2,0,3,3


Isso é apenas possível pois, com o objeto `Series` do pandas, essas operações matemáticas acontecem entre valores que possuem o mesmo índice. Em outras palavras, somar duas colunas soma os valores das duas colunas linha a linha, e o resultado é outro objeto `Series` com os resultados dessa soma linha a linha.

Repository under MIT License. Copyright &copy; 2023 João Alfredo Cardoso Lamy