## Pandas 2
Nesta Aula:
- Como acessar nossas bases de dados utilizando os métodos Loc e iLoc;
- Aprender sobre funções agregadas e suas funcionalidades;
- Aprender métodos úteis como groupby e pivot_table;
- Explorar alguns outros métodos como merge, diff, pct_change e shift

### Importando as bibliotecas

In [None]:
import pandas as pd

In [None]:
# Leitura do dataset
maiores_empresas = pd.read_csv('maiores-companhias.csv')

# Exibindo as primeiras linhas do dataset
maiores_empresas.head()

In [None]:
# Verificar o tamanho dos dados (linhas e colunas)
maiores_empresas.shape

In [None]:
# Verificar tipos de colunas e quantidade de entradas
maiores_empresas.info()

In [None]:
# Converter 'Revenue growth' para string e remover símbolos de porcentagem
maiores_empresas['Revenue growth'] = maiores_empresas['Revenue growth'].astype(str).str.rstrip('%').astype('float64')

# Remover vírgulas e converter 'Revenue (USD millions)'
maiores_empresas['Revenue (USD millions)'] = maiores_empresas['Revenue (USD millions)'].replace({',': ''}, regex=True).astype('float64')

# Mostrar as primeiras linhas do DataFrame após as conversões
maiores_empresas.head()

In [None]:
maiores_empresas.info()

## Loc e iLoc
### .loc[row_label, column_label]
A função .loc será utilizada para localizar e acessar dados em seu dataframe a partir do nome de uma linha e/ou coluna e retornará os valores correspondentes às linhas e colunas nomeadas.

Ex.: df.loc['Nome da Linha', 'Nome da Coluna']

### Selecionando apenas linhas com .loc

In [None]:
display(maiores_empresas)

In [None]:
# Selecionando apenas linhas

# Podemos chamar uma linha pelo seu índice

maiores_empresas.loc[0]

In [None]:
# Podemos chamar um array de índices

maiores_empresas.loc[[0, 1, 2, 4]]

In [None]:
# Podemos chamar um intervalo de índices

maiores_empresas.loc[0:4]

### .set_index

Utilizando set_index para definir um índice a partir de uma coluna

In [None]:
# Podemos achar a linha por seu valor contido

# Primeiro devemos definir uma coluna como index por meio do .set_index

maiores_empresas_index = maiores_empresas.set_index('Name')
maiores_empresas_index.head()

In [None]:
# A partir disso, podemos buscar um valor contido dentro desta coluna

maiores_empresas_index.loc['Amazon']

### Selecionando apenas colunas com .loc

In [None]:
maiores_empresas.head()

In [None]:
# Selecionando apenas colunas por nomes
# Usando a base de dados sem 'Name' com index
maiores_empresas.loc[:, ['Rank', 'Name', 'Revenue (USD millions)']]

### Se eu tivesse usado o Dataframe que foi aplicado o .set_index?
Não conseguiri usar, já que o 'Name' está definido como index, logo, ele não pode ser chamado como uma coluna na função .loc

In [None]:
# KeyErro: "['Name'] not in index"
maiores_empresas_index.loc[:, ['Rank', 'Name', 'Revenue (USD millions)']]

In [None]:
# Não precisa chamar 'Name', porque ele já está definido como index pelo Python
maiores_empresas_index.loc[:, ['Rank', 'Revenue (USD millions)']]

In [None]:
# Selecionando um conjunto de linhas e colunas
maiores_empresas_index.loc[['Walmart', 'Amazon', 'Apple'], ['Rank', 'Industry', 'Revenue (USD millions)']]

### Também podemos criar algumas condições a partir de .loc

In [None]:
# Como selecionar algumas colunas do dataframe a partir de algumas condições?

# Maiores empresas da 'Industry' sendo 'Retail'
maiores_empresas.loc[(maiores_empresas['Industry']) == 'Retail']

In [None]:
maiores_empresas.info

In [None]:
maiores_empresas.head()

In [None]:
# Maiores empresas em que o 'Revenue growth' é maior que 50%
maiores_empresas.loc[(maiores_empresas['Revenue growth']) >= 50]

In [None]:
# Ou ainda, podemos modificar uma série de colunas

maiores_empresas.loc[[65, 71], 'Revenue growth'] = 15
maiores_empresas.loc[[65, 71]]

## Loc e iLoc
### .iloc[row_position, column_position]
Da mesma forma que a função loc a função iloc será utilizada para localizar e acessar dados em seu dataframe. Porém, iloc utilizar os índices numéricos ao invés dos nomes das linhas e colunas.

Ex.: df.iloc['Número da Linha', 'Número da Coluna']

In [None]:
# Selecionando apenas a primeira linha

maiores_empresas.iloc[0]

In [None]:
# Selecionando apenas a primeira coluna

maiores_empresas.iloc[0, 1]

In [None]:
# Selecionando algumas linhas e colunas

maiores_empresas.iloc[[0, 1, 2, 3], [0, 1, 2, 3]]

In [None]:
# Limitado, não é possível chamar pelos nomes, mesmo que o index seja definido como 'Name'

maiores_empresas_index.iloc['Amazon']

# Cannot index by location index with a non-integer key

In [None]:
# Em .iloc não é possível selecionar um intervalo, para isso, precisamos utilizar range(n)

maiores_empresas.iloc[[0:2], [0:4]]

In [None]:
# Selecionando algumas linhas e colunas

maiores_empresas.iloc[range(2), range(4)]

### Ao adicionar .name ao seu final de uma função iloc é possível obter o nome de uma linha ou coluna a partir de seu índice