---
# PANDAS

In [None]:
import pandas as pd # primeiro instale o pandas: pip install pandas

In [None]:
# recursos do pandas
print(len(dir(pd)))

In [None]:
# Recursos do pandas
print(dir(pd))

In [None]:
lista_json = [{"nome": "igor", "idade": 28, "cidade": "sao paulo"},
              {"nome": "joao", "idade": 30, "cidade": "rio de janeiro"},
              {"nome": "maria", "idade": 25, "cidade": "minas gerais"},
              {"nome": "jose", "idade": 27, "cidade": "sao paulo"}]

In [None]:
# Pandas Dataframe são o tipo de dado mais utilizado em ciência de dados (dados tabulares)
# note que as linhas tem nomes (index) e as colunas também tem nomes

df = pd.DataFrame(lista_json, index=['a', 'b', 'c', 'd'])
df

In [None]:
dados = [[1, 2, 3], 
         [4, 5, 6], 
         [7, 8, 9]]

In [None]:
df__dados = pd.DataFrame(dados, columns=["coluna a", "coluna b", "coluna c"])
df__dados

In [None]:
dados = {"coluna a": [1, 4, 7],
         "coluna b": [2, 5, 8],
         "coluna c": [3, 6, 9]}

In [None]:
df_dados = pd.DataFrame(dados)
df_dados

---
# Pandas filtering (iloc and loc)

In [None]:
df[[True, False, True, False]]        # filtragem simples (manual)

In [None]:
df["nome"]      # retorna a coluna 'nome' da tabela (padas.dataframe). O tipo de uma coluna é chamado de pandas.series

In [None]:
df["idade"]     # retorna a coluna 'idade' da tabela (padas.dataframe). O tipo de uma coluna é chamado de pandas.series

In [None]:
df[["nome", "idade"]]       # retorna um pandas.dataframe com as colunas 'nome' e 'idade'

In [None]:
df.loc["a"]     # retorna a linha 'a' (usando o nome da linha) da tabela (pandas.series)

In [None]:
df.iloc[0]    # retorna a linha 'a' (usando o indice da linha) da tabela (pandas.series)

In [None]:
df.iloc[:3]     # mesma sintaxe de slicing (fatiamento) das listas/arrays etc.

In [None]:
df.loc[:, "idade"] < 30
# df[df["idade"] < 30]        # filtrando com condições (retorna um pandas.dataframe)

In [None]:
(df["idade"] < 30)

In [None]:
(df["cidade"] == "sao paulo")

In [None]:
# bitwie and
(df["idade"] < 30) & (df["cidade"] == "sao paulo")

In [None]:
# bitwise or
(df["idade"] < 30) | (df["cidade"] == "sao paulo")

In [None]:
df.loc[(df["idade"] < 30) & (df["cidade"] == "sao paulo"), "nome"]    # filtrando com múltiplas condições (retorna um pandas.dataframe)

In [None]:
# & - bitwise and (and bit a bit)
# | - bitwise or  (or bit a bit)
# >> - right shift
# << - left shift

print(30 & 20)     # 11110 & 10100 = 10100 = 20

print(30 | 20)     # 11110 | 10100 = 11110 = 30

print(30 << 2)     # 11110 << 2 = 1111000

print (30 >> 2)    # 11110 >> 2 = 00111

---
# Número de métodos/propriedades de dataframes pandas

In [None]:
# Métodos/Propriedades Pandas DataFrame 
print(dir(df))

In [None]:
# Main properties of a Pandas DataFrame?
# 1: df.columns
# 2: df.index
# 3: df.shape
# 4: df.size
# 5: df.dtypes
# 6: df.values

---
# Pandas properties

In [None]:
df.shape        # retorna uma tupla com o número de linhas e colunas do dataframe

In [None]:
df.columns      # retorna um objeto Index (parece uma lista) com os nomes das colunas

In [None]:
df.index        # retorna um objeto Index (parece uma lista) com os nomes das linhas

In [None]:
df.values   # transforma os valores de um dataframe (valores entre as linhas e colunas) em um array numpy

In [None]:
df.size      # número de elementos do dataframe (número de linhas * número de colunas)

In [None]:
# retorna um pandas.series com o tipo de cada coluna
df.dtypes   # para o pacote pandas, 'object' é uma string

---
# Baixando dados da web

In [None]:
# download iris dataset from pandas
df_iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
df_iris

---
# Usando alguns métodos de dataframes pandas

In [None]:
# principais métodos de um pandas.dataframe
# 1: df.head
# 2: df.tail
# 3: df.info
# 4: df.describe
# 5: df.sample
# 6: df.nunique
# 7: df.value_counts
# 8: df.isna
# 9: df.dropna
# 10: df.fillna
# 11: df.groupby
# 12: df.sort_values
# 13: df.sort_index
# 14: df.apply
# 15: df.merge
# 16: df.pivot_table

---
# 1. Pandas head

In [None]:
# 1. df.head -> retorna as primeiras n linhas do dataframe (padrão é 5)
df_iris.head(3)      # padrão é 5

---
# 2. Pandas tail

In [None]:
# 2. df.tail -> retorna as últimas n linhas do dataframe (padrão é 5)
df_iris.tail(3)      # padrão é 5

---
# 3. Pandas info

In [None]:
# 3. df.info -> mostra o número de valores não nulos de cada coluna e o tipo de cada coluna
df_iris.info()

---
# 4. Pandas describe

In [None]:
# 4. df.describe -> mostra as principais estatísticas do dataframe (apenas para colunas numéricas)
df_iris.describe()

---
# 5. Pandas sample

In [None]:
# 5. df.sample -> retorna uma amostra aleatória do dataframe
df_iris.sample(5, replace=False, random_state=42)

In [None]:
# 1: n                  -> número de amostras (padrão é 1)
# 2: replace            -> se True, a mesma linha pode ser amostrada mais de uma vez (padrão é False)
# 3: random_state       -> semente para o gerador de números aleatórios (padrão é None)
# 4: axis               -> eixo para amostrar (0 para linhas e 1 para colunas) (padrão é 0)

df_iris.sample(n=3, replace=False, random_state=42, axis=0)

---
# 6. Pandas nunique

In [None]:
# 6. df.nunique -> retorna o número de valores únicos de cada coluna
# principais parâmetros de df.nunique
# 1: axis               -> eixo para amostrar (0 para linhas e 1 para colunas) (padrão é 0)
# 2: dropna             -> se True, não conta os valores NaN (padrão é True)

df_iris.nunique(axis=0, dropna=False)

---
# 7. Pandas value_counts

In [None]:
# 7. df.value_counts -> retorna o número de ocorrências de cada valor de uma coluna
# principais parâmetros de df.value_counts
# 1: subset             -> coluna para contar as ocorrências
# 2: normalize          -> se verdadeiro, retorna a porcentagem de ocorrências de cada valor
# 3: ascending          -> se True, retorna os valores em ordem crescente (padrão é False)

df_iris.value_counts(subset=['species'], normalize=True, ascending=False)

---
# 8. Pandas isna

In [None]:
# 8. df.isna -> retorna um dataframe booleano com True para valores NaN (not a number) e False para valores não NaN (not a number)
# df.isna não tem parâmetros. NaN é um objeto existente no pacote numpy, e por consequencia, no pandas

df_iris.isna()

---
# 9. Pandas dropna

In [None]:
df_teste = pd.DataFrame([[None, None, None, None, None], 
                         [None, 1, 2, 3, "Versicolor"]], 
                         columns=df_iris.columns)
df_teste

In [None]:
df_iris = pd.concat([df_iris, df_teste], axis=0).reset_index(drop=True)
df_iris

In [None]:
df_iris.tail()

In [None]:
# 9. df.dropna -> remove as linhas ou colunas com valores NaN
# principais parâmetros de df.dropna
# 1: axis               -> eixo para amostrar (0 para linhas e 1 para colunas) (padrão é 0)
# 2: how                -> se 'any' (padrão), remove as linhas/colunas com pelo menos um NaN. Se 'all', remove as linhas/colunas com todos os valores NaN
# 3: subset             -> colunas para considerar na remoção de linhas/colunas com NaN (padrão é None, considera todas as colunas)
# 4: inplace            -> se True, modifica o dataframe original (padrão é False)

df_iris.dropna(axis=0, how='all', subset=None, inplace=False)

---
# 10. Pandas fillna

In [None]:
# 10. df.fillna -> preenche os valores NaN com um valor específico
# principais parametros de df.fillna
# 1: value              -> valor para preencher os NaN
# 2: axis               -> eixo para amostrar (0 para linhas e 1 para colunas) (padrão é 0)
# 3: inplace            -> se True, modifica o dataframe original (padrão é False)

df_iris.fillna(value=0, axis=0, inplace=False)

In [None]:
df_iris.dropna(axis=0, how='any', subset=None, inplace=True)

In [None]:
df_iris

---
# 11. Pandas groupby

In [None]:
# 11. df.groupby -> agrupa o dataframe por uma coluna específica
# 1: by                 -> coluna(s) para agrupar

grouped = df_iris.groupby(by='species')

In [None]:
type(grouped)

In [None]:
print(*dir(grouped)[102:])

In [None]:
# fique atento que a propriedade groups é um dicionário
grouped.groups

In [None]:
grouped.groups.keys()

In [None]:
# o método get_group retorna um dataframe com as linhas do grupo especificado
grouped.get_group('setosa').head()

In [None]:
# retorna a primeira linha de cada grupo
grouped.first()

In [None]:
# retorna a última linha de cada grupo
grouped.last()

In [None]:
# retorna o n-ésimo + 1 elemento de cada grupo
grouped.nth(5)

In [None]:
# retorna a média de cada coluna para cada grupo
grouped.mean()

In [None]:
# retorna a soma ACUMULADA de cada coluna para cada grupo
grouped.cumsum()

In [None]:
# configura a quantidade máxima de linhas a serem exibidas no notebook
pd.set_option('display.max_rows', 150)

In [None]:
grouped.cumsum()

In [None]:
# retorna a quantidade máxima de linhas a serem exibidas no notebook para o padrão
pd.reset_option('display.max_rows')

In [None]:
# retorna a variação percentual de cada coluna para cada grupo
grouped.pct_change()

---
# 12. Pandas sort_values

In [None]:
# 12. df.sort_index -> classifica o DataFrame pelo índice
# principais parâmetros de df.sort_values
# 1: by                 -> coluna para ordenar
# 2: ascending          -> se True, ordena em ordem crescente (padrão é True)
# 3: inplace            -> se True, modifica o dataframe original (padrão é False)

df_iris.sort_values(by=['sepal_length', 'sepal_width'], ascending=True, inplace=False)

---
# 13. Pandas sort_index

In [None]:
# 13. df.sort_index -> classifica o DataFrame pelo índice
# principais parâmetros de df.sort_index
# 1: axis               -> eixo para classificar (0 para linhas e 1 para colunas) (padrão é 0)
# 2: ascending          -> se True, ordena em ordem crescente (padrão é True)
# 3: inplace            -> se True, modifica o dataframe original (padrão é False)

df_iris.sort_index(axis=0, ascending=False, inplace=False)

---
# 14. Pandas apply

In [None]:
# 14. df.apply -> aplica uma função a cada linha/coluna do DataFrame
# principais parâmetros de df.apply
# 1: func               -> função a ser aplicada em cada elemento
# 2: axis               -> eixo para aplicar a função (0 para linhas e 1 para colunas) (padrão é 0)

# species é uma coluna categórica, logo não podemos aplicar a função sum

colunas_filtrar = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
df_iris_filtrado = df_iris[colunas_filtrar]
df_iris_filtrado.apply(sum, axis=0)

In [None]:
# podemos usar o método .apply em dataframes e series
df_iris["species"].apply(func=lambda especie: especie.upper()) # Não possui o parametro axis pois é uma series

---
# 15. Pandas merge

In [None]:
# 15. df.merge -> junta 2 DataFrames
# principais parâmetros de df.merge
# 1: right              -> DataFrame to merge DataFrame à direita para mesclar (merge)
# 2: how                -> tipo de mesclagem (inner, outer, left, right (padrão é 'interno')
# 3: on                 -> coluna para mesclar (merge) (padrão é None)
# 4: left_on            -> nome da coluna padrao para mesclagem na tabela da esquerda (padrão é None)
# 5: right_on           -> nome da coluna padrao para mesclagem na tabela da direita (padrão é None)
# 6: left_index         -> se True, mescla pela index da tabela da esquerda (padrão é False)
# 7: right_index        -> se True, mescla pela index da tabela da direita (padrão é False)


df1 = pd.DataFrame(
    {
        "id_acao": [0, 1, 2, 3],
        "ticker": ["PETR4", "VALE3", "ITUB4", "BBDC4"]
    }
)


df2 = pd.DataFrame(
    {
        "id_acao": [2, 3, 0, 1],
        "nome": ["Itau", "Bradesco", "Petrobras", "Vale"],
    }
)

In [None]:
df1

In [None]:
df2

In [None]:
# inner join
pd.merge(left=df1, right=df2, on='id_acao')

---
# 16. Pandas pivot_table

In [None]:
df = pd.DataFrame({"produto": ["calca", "calca", "calca", "calca", "calca", "camisa", "camisa", "camisa", "camisa"],
                   "cor": ["preto", "preto", "preto", "azul", "azul", "preto", "preto", "azul", "azul"],
                   "marca": ["levis", "lacoste", "lacoste", "levis", "levis", "lacoste", "levis", "levis", "lacoste"],
                   "tamanho": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                   "preco": [2, 4, 5, 5, 6, 6, 8, 9, 9]})
df.sort_values(by=['produto', 'cor', 'marca', 'tamanho'])

In [None]:
# é o mesmo que tabela dinamicas do excel
pd.pivot_table(df, 
               values=['tamanho', 'preco'], 
               index=['produto', 'cor'], 
               columns=['marca'], 
               aggfunc={"tamanho": 'mean', "preco": ['min', 'max']}, fill_value=0)