# Manipulação de Dados com Pandas: Guia Prático

### Importação da Biblioteca Pandas e Leitura de Arquivo Excel





A biblioteca pandas é essencial para manipulação de dados. Para usá-la, basta importá-la no início do código.

    import pandas as pd

Essa linha importa o pandas e o atribui à variável pd, facilitando o uso das funções da biblioteca.
Leitura de Arquivo Excel

Com o pandas importado, podemos ler um arquivo Excel com a função read_excel.

    jogos_df = pd.read_excel("Tabela de Jogos.xlsx")

Esse código lê o arquivo "Tabela de Jogos.xlsx" e armazena os dados na variável jogos_df. O arquivo deve estar no mesmo diretório do script.
Visualização do DataFrame

Para visualizar o conteúdo, usamos a função display.

    display(jogos_df)

Essa linha exibe os dados do arquivo Excel em uma tabela, facilitando a análise visual.

In [9]:
# Importação da Biblioteca Pandas.
import pandas as pd # Importando a biblioteca pandas e atribuindo a variável pd a sua "chamada".

# Leitura/Visualização do Arquivo Excel.
jogos_df = pd.read_excel("Tabela de Jogos.xlsx") # Variável que indica o caminho do arquivo para leitura.
display(jogos_df) # Visualizar o DataFrame.

Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
0,20 Minutes Till Dawn,Roguelike,Pendente,flanne,8
1,Alan Wake,Thriller,Pendente,Remedy Entertainment,-
2,Among Us,Deduction,Pendente,Innersloth,-
3,Batman: Arkham Asylum,Adventure,Pendente,Rocksteady,-
4,Batman: Arkham City,Adventure,Pendente,Rocksteady,-
...,...,...,...,...,...
93,Rainbow Six Siege,Tactical,Pendente,Ubisoft,-
94,Tools Up,Coop,Pendente,The Knights of Unity,-
95,Tyranny,RPG,Pendente,Obsidian Entertainment,-
96,The Witcher 3: Wild Hunt,RPG,Pendente,CD Projekt Red,-


### Visualização de Dados

    display(jogos_df.head(10)) - Exibe as 10 primeiras linhas do DataFrame.
    print(jogos_df.shape) - Exibe o tamanho da tabela (linhas X colunas).
    display(jogos_df.describe()) - Exibe um resumo estatístico da tabela.

### Importação da Biblioteca Pandas e Leitura de Arquivo Excel

A biblioteca pandas é essencial para manipulação de dados. Para usá-la, basta importá-la no início do código.

    import pandas as pd

Essa linha importa o pandas e o atribui à variável pd, facilitando o uso das funções da biblioteca.
Leitura de Arquivo Excel

Com o pandas importado, podemos ler um arquivo Excel com a função read_excel.

    jogos_df = pd.read_excel("Tabela de Jogos.xlsx")

Esse código lê o arquivo "Tabela de Jogos.xlsx" e armazena os dados na variável jogos_df. O arquivo deve estar no mesmo diretório do script.
Visualização do DataFrame

Para visualizar o conteúdo, usamos a função display.

    display(jogos_df)

Essa linha exibe os dados do arquivo Excel em uma tabela, facilitando a análise visual.

### Diferença entre Display e Print

display: Exibe a informação de forma estilizada, ideal para uma visualização mais clara.

print: Exibe a informação de maneira simples, sem formatação avançada.

In [10]:
# Visualização de Dados.
display(jogos_df.head(10)) # Visualizar apenas as 10 primeiras linhas do DataFrame.
print(jogos_df.shape) # Visualizar o tamanho da tabela (linhas X colunas).
display(jogos_df.describe()) # Visualizar um pequeno resumo da tabela.

# Diferença entre Display e Print
# display - Exibe uma informação estilizada na tela (mais recomendado para melhor visualização).
# print - Exibe uma informação não tão estilizada na tela.

Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
0,20 Minutes Till Dawn,Roguelike,Pendente,flanne,8
1,Alan Wake,Thriller,Pendente,Remedy Entertainment,-
2,Among Us,Deduction,Pendente,Innersloth,-
3,Batman: Arkham Asylum,Adventure,Pendente,Rocksteady,-
4,Batman: Arkham City,Adventure,Pendente,Rocksteady,-
5,Batman: Arkham Knight,Adventure,Jogando,Rocksteady,-
6,Batman: Arkham Origins,Adventure,Pendente,WB Games Montréal,-
7,Bioshock,FPS,Pendente,Irrational Games,-
8,Bioshock 2,FPS,Pendente,2K Marin,-
9,Bioshock Infinity,FPS,Pendente,Irrational Games,-


(98, 5)


Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
count,98,98,98,98,98
unique,98,31,4,66,5
top,20 Minutes Till Dawn,Sci-Fi,Pendente,Valve,-
freq,1,12,66,11,80


### Visualização de Colunas Específicas
A visualização de colunas específicas é útil quando se deseja analisar apenas uma parte dos dados. Existem duas formas de fazer isso:

    jogos = jogos_df["Jogos"] - Exibe somente a coluna "Jogos" (retorna uma pandas.Series).
    jogos__df = jogos_df[["Jogos", "Status"]] - Exibe somente as colunas "Jogos" e "Status" (retorna um DataFrame).

### Visualização de Linhas Específicas

A visualização de linhas específicas é útil quando se deseja analisar apenas uma parte dos dados. Existem duas formas de fazer isso:

    display(jogos_df.loc[0]) - Exibe apenas uma linha (índice 0).
    display(jogos_df.loc[0:5]) - Exibe da linha 0 até a linha 5.

### Filtragem e Exibição de Dados

A filtragem de dados é útil quando se deseja analisar apenas uma parte dos dados que atendem a uma condição específica. Existem duas formas de fazer isso:

    jogos_concluidos_df = display(jogos_df.loc[jogos_df["Status"] == "Concluído"]) - Armazena jogos que correspondem a uma condição (Concluído).
    jogos_pendentes_df = display(jogos_df.loc[jogos_df["Status"] == "Pendente"]) - Armazena jogos que correspondem a uma condição (Pendente).
    Para exibir os dados filtrados, basta usar a função print:
    print (jogos_pendentes_df) - Exibe jogos na tela.

In [11]:
# Visualização de Colunas Específicas.
jogos = jogos_df["Jogos"] # Visualizar somente a coluna Jogos (Isso não é um DataFrame, é uma pandas.Series).
jogos__df = jogos_df[["Jogos", "Status"]] # Visualizar somente as colunas Jogos e Status (Isso sim é um DataFrame).

# Visualização de Linhas Específicas.
display(jogos_df.loc[0]) # Pegando apenas uma linha.
display(jogos_df.loc[0:5]) # Pegando da linha 0 até a linha 5.

# Filtragem e Exibição de Dados.
jogos_concluidos_df = display(jogos_df.loc[jogos_df["Status"] == "Concluído"]) # Armazenar jogos que correspondem a uma condição >> (Concluído) << .
jogos_pendentes_df = display(jogos_df.loc[jogos_df["Status"] == "Pendente"]) # Armazenar jogos que correspondem a uma condição >> (Pendente) << .
print (jogos_pendentes_df) # Exibir jogos na tela.

Jogos             20 Minutes Till Dawn
Gênero                       Roguelike
Status                        Pendente
Desenvolvedora                  flanne
Nota                                 8
Name: 0, dtype: object

Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
0,20 Minutes Till Dawn,Roguelike,Pendente,flanne,8
1,Alan Wake,Thriller,Pendente,Remedy Entertainment,-
2,Among Us,Deduction,Pendente,Innersloth,-
3,Batman: Arkham Asylum,Adventure,Pendente,Rocksteady,-
4,Batman: Arkham City,Adventure,Pendente,Rocksteady,-
5,Batman: Arkham Knight,Adventure,Jogando,Rocksteady,-


Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
10,Black Mesa,Sci-Fi,Concluído,Crowbar Collective,9
17,Cube Space: Collection,Platformer,Concluído,Rusty Lake,8
20,Days Gone,Survival,Concluído,Bend Studio,9
34,God of War,Adventure,Concluído,Santa Monica Studio,10
35,Resident Evil 4,Action,Concluído,Capcom,9.5
38,Grand Theft Auto: V,Adventure,Concluído,Rockstar,9.5
39,Half-Life,Sci-Fi,Concluído,Valve,9
40,Half-Life: Blue Shift,Sci-Fi,Concluído,Valve,8
41,Half-Life: Opposing Force,Sci-Fi,Concluído,Valve,8
42,Half-Life: 2,Sci-Fi,Concluído,Valve,10


Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
0,20 Minutes Till Dawn,Roguelike,Pendente,flanne,8
1,Alan Wake,Thriller,Pendente,Remedy Entertainment,-
2,Among Us,Deduction,Pendente,Innersloth,-
3,Batman: Arkham Asylum,Adventure,Pendente,Rocksteady,-
4,Batman: Arkham City,Adventure,Pendente,Rocksteady,-
...,...,...,...,...,...
93,Rainbow Six Siege,Tactical,Pendente,Ubisoft,-
94,Tools Up,Coop,Pendente,The Knights of Unity,-
95,Tyranny,RPG,Pendente,Obsidian Entertainment,-
96,The Witcher 3: Wild Hunt,RPG,Pendente,CD Projekt Red,-


None


### Visualização de Condições Específicas
A visualização de condições específicas é útil quando se deseja analisar apenas uma parte dos dados que atendem a uma condição específica. Existem duas formas de fazer isso:

    jogos_visualizar_especificos = display(jogos_df.loc[jogos_df["Status"] == "Concluído", ["Jogos", "Gênero", "Nota"]]) - Armazena jogos que correspondem a uma condição (Concluído) e colunas específicas (Jogos, Gênero, Nota).

Para exibir os dados filtrados, basta usar a função display:

    display(jogos_visualizar_especificos) - Exibe jogos na tela.

    pratica = display(jogos_df.loc[jogos_df["Desenvolvedora"] == "Rocksteady"]) - Armazena jogos que correspondem a uma condição (Rocksteady).

Para exibir os dados filtrados, basta usar a função display:

    display(pratica) - Exibe jogos na tela.


In [12]:
# Visualização de Condições Específicas.
jogos_visualizar_especificos = display(jogos_df.loc[jogos_df["Status"] == "Concluído", ["Jogos", "Gênero", "Nota"]]) # Visualizar condições específicas >> (Concluído) << e colunas específicas >> (Jogos, Gênero, Nota) <<.
display(jogos_visualizar_especificos) # Exibir jogos na tela.
pratica = display(jogos_df.loc[jogos_df["Desenvolvedora"] == "Rocksteady"]) # Exibir apenas a Desenvolvedora Rocksteady.
display(pratica)

Unnamed: 0,Jogos,Gênero,Nota
10,Black Mesa,Sci-Fi,9
17,Cube Space: Collection,Platformer,8
20,Days Gone,Survival,9
34,God of War,Adventure,10
35,Resident Evil 4,Action,9.5
38,Grand Theft Auto: V,Adventure,9.5
39,Half-Life,Sci-Fi,9
40,Half-Life: Blue Shift,Sci-Fi,8
41,Half-Life: Opposing Force,Sci-Fi,8
42,Half-Life: 2,Sci-Fi,10


None

Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota
3,Batman: Arkham Asylum,Adventure,Pendente,Rocksteady,-
4,Batman: Arkham City,Adventure,Pendente,Rocksteady,-
5,Batman: Arkham Knight,Adventure,Jogando,Rocksteady,-


None

### Acesso a Linha e Coluna Específica
Acesso a linha e coluna específica é útil quando se deseja analisar apenas uma parte dos dados. Existem duas formas de fazer isso:

    print(jogos_df.loc[1, "Jogos"]) - Localiza uma linha e uma coluna específica.

Além disso, é possível alterar o valor de uma célula específica:

    jogos_df.loc[jogos_df["Tempo de Jogo "] == "-", "Tempo de Jogo "] = "" - Localiza uma condição (Nota = S.N) e altera para (-).

Para exibir os dados alterados, basta usar a função display:

    display(jogos_df) - Exibe jogos na tela.

### Adição / Remoção de Colunas de um DataFrame

A adição e remoção de colunas de um DataFrame é útil quando se deseja alterar a estrutura dos dados. Existem duas formas de fazer isso:

    outros_jogos_df = pd.read_excel("Outros Jogos.xlsx") - Lê um arquivo Excel e armazena em uma variável.
    jogos_df = jogos_df.append(outros_jogos_df) - Adiciona dados de outra tabela ao meu Data Frame.
    jogos_df = jogos_df.drop("Notas", axis=1) - Remove uma coluna (Notas) do Data Frame. O parâmetro axis=1 indica que se trata de uma coluna, caso contrário, o pandas removeria uma linha.

### Observações

- É importante notar que a variável outros_jogos_df é apenas para fins de estudo e anotações, e não é uma tabela real.
- O parâmetro axis=1 é importante para remover uma coluna, caso contrário, o pandas removeria uma linha.

In [13]:
# Acesso a Linha e Coluna específica.
print(jogos_df.loc[1, "Jogos"]) # Localizar uma linha e uma coluna específica.
jogos_df.loc[jogos_df["Tempo de Jogo "] == "-", "Tempo de Jogo "] = "" # Localizando uma condição >> (Nota = S.N) << e alterando para >> (-) <<.
display(jogos_df)

# Adição / Remoção de Colunas de um DataFrame
outros_jogos_df = pd.read_excel("Outros Jogos.xlsx") # Variável que indica o caminho do arquivo para leitura (Tabela inexistente, apenas para fins de estudo/anotações).
jogos_df = jogos_df.append(outros_jogos_df) # Variável que adiciona dados de outra tabela ao meu Data Frame (Tabela inexistente, apenas para fins de estudo/anotações).
jogos_df = jogos_df.drop("Notas", axis=1) # (axis=1 remove uma COLUNA, axis=0 remove uma LINHA), e caso a informação axis não esteja presente, o pandas sempre irá excluir uma linha!

Alan Wake


KeyError: 'Tempo de Jogo '

### Remoção de Linhas e Colunas Vazias
A remoção de linhas e colunas vazias é útil quando se deseja eliminar dados desnecessários. Existem três formas de fazer isso:

    jogos_df = jogos_df.dropna(how="all", axis=1) - Deleta LINHAS completamente vazias.
    jogos_df = jogos_df.dropna(how="all", axis=0) - Deleta COLUNAS completamente vazias.
    jogos_df = jogos_df.dropna(axis=1) - Deleta LINHAS que possuem PELO MENOS 1 valor vazio.

### Preenchimento de Valores Faltantes
O preenchimento de valores faltantes é útil quando se deseja substituir dados ausentes por valores significativos. Existem três formas de fazer isso:

    jogos_df["Nota"] = jogos_df["Nota"].fillna(1) - Preenche todas as linhas vazias por 1.
    jogos_df["Nota"] = jogos_df["Nota"].fillna([jogos_df["Nota"].mean()]) - Preenche todos os valores vazios com a média da coluna (não se aplica ao caso da nota de um jogo, mas se aplicaria a casos de comissão, por exemplo).
    jogos_df = jogos_df.ffill() - É um método que preenche os valores faltantes em uma tabela com o valor anterior.

### Observações

- O método fillna é útil para preencher valores faltantes com um valor específico.
- O método ffill é útil para preencher valores faltantes com o valor anterior.
- É importante notar que o método fillna com a média da coluna não se aplica ao caso da nota de um jogo, pois a coluna contém strings "-" e não é possível calcular a média com valores do tipo string.

In [7]:
# Remoção de Linhas e Colunas Vazias.
jogos_df = jogos_df.dropna(how="all", axis=1) # Deletar LINHAS completamente vazias.
jogos_df = jogos_df.dropna(how="all", axis=0) # Deletar COLUNAS completamente vazias.
jogos_df = jogos_df.dropna(axis=1) # Deletar LINHAS que possuem PELO MENOS 1 valor vazio.

# Preenchimento de Valores Faltantes.
jogos_df["Nota"] = jogos_df["Nota"].fillna(1) # Preencher todas as linhas vazias por 1.

# Preenchimento com Média da Coluna (Não aplicável).
jogos_df["Nota"] = jogos_df["Nota"].fillna([jogos_df["Nota"].mean()]) # Preencher todos os valores vazios com a média da coluna >> (Não se aplica ao caso da nota de um jogo, mas se aplicaria a casos de comissão, por exemplo) <<, e esse código daria erro, já que, na coluna nota, temos strings "-", portanto, não pode-se fazer a média com valores do tipo string.

# Preenchimento com Valor Anterior.
jogos_df = jogos_df.ffill() # É um método que preenche os valores faltantes em uma tabela com o valor anterior. Em outras palavras, se houver uma célula vazia em uma coluna, o método irá preencher essa célula com o valor da célula anterior na mesma coluna.

TypeError: unsupported operand type(s) for +: 'int' and 'str'

### Contagem de Linhas
A contagem de linhas é útil quando se deseja saber quantas vezes cada desenvolvedora aparece na tabela. Existem duas formas de fazer isso:

    desenvolvedoras = jogos_df["Desenvolvedora"].value_counts() - Conta quantas vezes cada desenvolvedora aparece na tabela.
    display(desenvolvedoras) - Exibe o resultado na tela.

### Substituição de Valores Vazios
A substituição de valores vazios é útil quando se deseja substituir dados ausentes por valores significativos. Existem duas formas de fazer isso:

    jogos_df.loc[jogos_df["Tempo de Jogo "] == "", "Tempo de Jogo "] = "0" - Substitui valores vazios em "Tempo de Jogo" por "0".
    jogos_df.loc[jogos_df["Nota"] == "", "Nota"] = "0" - Substitui valores vazios em "Nota" por "0".

### Soma de Valores
A soma de valores é útil quando se deseja calcular a soma de determinados valores. No entanto, essa operação não funcionou com nossa tabela devido à falta de uma coluna comum.

    soma_tempo_de_jogo = jogos_df.groupby("Jogos").sum() - Tentativa de somar valores de jogo, mas não funcionou devido à falta de uma coluna comum.
    display(soma_tempo_de_jogo) - Exibe o resultado (que não é o esperado).

### Observações

- O método value_counts é útil para contar quantas vezes cada desenvolvedora aparece na tabela.
- O método loc é útil para substituir valores vazios por valores significativos.
- É importante notar que a soma de valores de jogo não funcionou devido à falta de uma coluna comum.







In [33]:
# Contagem de Desenvolvedoras.
desenvolvedoras = jogos_df["Desenvolvedora"].value_counts() # Conta quantas vezes cada desenvolvedora aparece na tabela.
display(desenvolvedoras) # Exibe o resultado na tela

# Substituição de Valores Vazios.
jogos_df.loc[jogos_df["Tempo de Jogo "] == "", "Tempo de Jogo "] = "0" # Substitui valores vazios em "Tempo de Jogo" por "0".
jogos_df.loc[jogos_df["Nota"] == "", "Nota"] = "0" # Substitui valores vazios em "Nota" por "0".

# Soma de Valores de Jogo (Não aplicável).
soma_tempo_de_jogo = jogos_df.groupby("Jogos").sum() # Tentativa de somar valores de jogo, mas não funcionou devido à falta de uma coluna comum.
display(soma_tempo_de_jogo) # Exibe o resultado (que não é o esperado).

Series([], Name: count, dtype: int64)

Unnamed: 0_level_0,Gênero,Status,Desenvolvedora,Nota,Tempo de Jogo
Jogos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


### Mesclando Dados de Diferentes Tabelas
A mescla de dados de diferentes tabelas é útil quando se deseja combinar informações de diferentes fontes. Existem três formas de fazer isso:

    soma = pd.read_excel("Tabela de Jogos v2.xlsx") - Lê uma tabela de Excel chamada "Tabela de Jogos v2.xlsx" e armazena-a em uma variável chamada soma.
    jogos_df = jogos_df.merge(soma) - Mescla a tabela de jogos original com a tabela lida anteriormente e armazena o resultado na variável jogos_df.
    display(jogos_df) - Exibe a tabela resultante da mescla no console ou em uma janela de visualização.

### Observações
- O método read_excel é útil para ler uma tabela de Excel e armazená-la em uma variável.
- O método merge é útil para mesclar duas tabelas e combinar suas informações.
- É importante notar que a mescla de tabelas pode ser feita de diferentes maneiras, dependendo da estrutura das tabelas e da informação que se deseja combinar.

### Tipos de Mescla
- Inner Join: Mescla as tabelas com base em uma coluna comum, excluindo as linhas que não têm correspondência.
- Left Join: Mescla as tabelas com base em uma coluna comum, incluindo todas as linhas da tabela esquerda e as linhas correspondentes da tabela direita.
- Right Join: Mescla as tabelas com base em uma coluna comum, incluindo todas as linhas da tabela direita e as linhas correspondentes da tabela esquerda.
- Full Outer Join: Mescla as tabelas com base em uma coluna comum, incluindo todas as linhas de ambas as tabelas.

In [None]:
# Mesclando Dados de Diferentes Tabelas.
soma = pd.read_excel("Tabela de Jogos v2.xlsx") # Lê uma tabela de Excel chamada "Tabela de Jogos v2.xlsx" e armazena-a em uma variável chamada soma.
jogos_df = jogos_df.merge(soma) # Mescla a tabela de jogos original com a tabela lida anteriormente e armazena o resultado na variável jogos_df.
display(jogos_df) # Exibe a tabela resultante da mescla no console ou em uma janela de visualização.

Unnamed: 0,Jogos,Gênero,Status,Desenvolvedora,Nota,Tempo de Jogo
0,20 Minutes Till Dawn,Roguelike,Pendente,flanne,8,22.0
1,Black Mesa,Sci-Fi,Concluído,Crowbar Collective,9,25.0
2,Cube Space: Collection,Platformer,Concluído,Rusty Lake,8,22.0
3,Days Gone,Survival,Concluído,Bend Studio,9,25.0
4,God of War,Adventure,Concluído,Santa Monica Studio,10,28.0
5,Half-Life,Sci-Fi,Concluído,Valve,9,25.0
6,Half-Life: Blue Shift,Sci-Fi,Concluído,Valve,8,22.0
7,Half-Life: Opposing Force,Sci-Fi,Concluído,Valve,8,22.0
8,Half-Life: 2,Sci-Fi,Concluído,Valve,10,28.0
9,Half-Life: 2 Episódio 1,Sci-Fi,Concluído,Valve,10,28.0
