# <font color='blue'>Python Fundamentos - Pandas</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Pandas

Para poder trabalhar com Pandas, você deve conhecer bem estas duas estruturas: Series e DataFrame.

## Series

Series é um array unidimensional que contém um array de dados e um array de labels, chamado índice.


In [None]:
from pandas import Series

In [None]:
import pandas as pd
pd.__version__

In [None]:
# Atualizar a versão instalada do Pandas
!pip install pandas -U

In [None]:
# Criando uma série sem especificar os índices
Obj = Series([67, 78, -56, 13])

In [None]:
Obj

In [None]:
type(Obj)

In [None]:
Obj.values

In [None]:
Obj.index

In [None]:
# Criando uma série e especificando os índices
Obj2 = Series([67, 78, -56, 13], index = ['a', 'b', 'c', 'd'])

In [None]:
Obj2

In [None]:
Obj2.values

In [None]:
Obj2.index

In [None]:
Obj2[Obj2 > 3]

In [None]:
Obj2['b']

In [None]:
'd' in Obj2

In [None]:
# Criando uma série de dados passando um dicionário como parâmetro
dict = {'Futebol':5200, 'Tenis': 120, 'Natação':698, 'Volleyball':1550}

In [None]:
# Criando uma série a partir de um dicionário
Obj3 = Series(dict)

In [None]:
Obj3

In [None]:
type(Obj3)

In [None]:
# Criando uma lista
esportes = ['Futebol', 'Tenis', 'Natação', 'Basktetball']

In [None]:
# Criando uma serie e usando uma lista como índice
Obj4 = Series(dict, index=esportes)

In [None]:
Obj4

In [None]:
pd.isnull(Obj4)

In [None]:
pd.notnull(Obj4)

In [None]:
Obj4.isnull()

In [None]:
# Concatenando Series
Obj3 + Obj4

In [None]:
Obj4.name = 'população'

In [None]:
Obj4.index.name = 'esporte'

In [None]:
Obj4

## Dataframes

Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados e um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

In [None]:
from pandas import DataFrame

In [None]:
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'], 
        'Ano': [2002, 2003, 2004, 2005, 2006], 
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [None]:
frame = pd.DataFrame(data)

In [None]:
frame

In [None]:
type(frame)

In [None]:
DataFrame(data, columns = ['Ano', 'Estado', 'População'])

In [None]:
# Criando outro dataframe com os mesmo dados anteriores mas adicionando uma coluna
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Débito'], 
                   index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [None]:
# Imprimindo o Dataframe
frame2

In [None]:
# Imprimindo apenas uma coluna do Dataframe
frame2['Estado']

In [None]:
type(frame2)

In [None]:
frame2.index

In [None]:
frame2.columns

In [None]:
frame2.values

In [None]:
frame2.dtypes

In [None]:
frame2['Ano']

In [None]:
frame2.Ano

In [None]:
frame2[:2]

In [None]:
# Indexar o dataframe. Fazemos o reset no índice e gravamos o resultado em outro dataframe
df_item_pedidos_idx = df_item_pedidos.reset_index()

In [None]:
# Criar uma tabela pivot com id_transacao, nome_item e quantidade_item
df_pivot = df_food_delivery.pivot_table(index = ['id_transacao'], columns = ['nome_item'], values = 'quantidade_item')

# Substituir possíveis valores NA gerados no pivot, por 0 e transformamos o índice em coluna
df_pivot = df_pivot.fillna(0).reset_index()

In [None]:
# Verifica o total de valores únicos por coluna
df.nunique()

In [None]:
# retorna uma lista com os valores únicos de uma coluna
anos = df["coluna"].unique()

In [None]:
# Retorna os valores únicos de uma determinada coluna
df["NomeDaColuna"].unique()

In [None]:
# Copiar um dataframe
df2 = df.copy()

In [None]:
# Contando o número de linhas
count_rows = df.shape[0]

In [None]:
# Contando o número de colunas
count_columns = df.shape[1]

In [None]:
# Contando frequência de uma variável
dados["class"].value_counts()

In [None]:
# Renomeando as colunas
dados.columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

In [None]:
# Renomeando apenas uma coluna. "inplace = True" salva a alteração diretamente
df.rename(columns = {0:"cluster"}, inplace = True)

In [None]:
# Renomeando os índices
dados.index = ["Planejado", "Total Gasto", "% Gasto"]

In [None]:
# Soma as colunas do DataFrame e adiciona uma linha com o total.
# Ficar atento ao intervalo de linhas e colunas especificado no método iloc.
df2.loc['Total'] = df2.iloc[0:4,:].sum(numeric_only=True, axis=0)
df2

In [None]:
# Soma as LINHAS do DataFrame e adiciona uma COLUNA com o total.
# Ficar atento ao intervalo de linhas e colunas especificado no método iloc.
df2["Somatório"] = df2.iloc[:,0:3].sum(numeric_only=True, axis=1)
df2

In [None]:
# Adicionando nova linha ao Dataframe
nova_linha = {"situacao": "Total Gasto", "seguranca": df_2020["seguranca"].sum()}
df_planSeguranca2020 = df_planSeguranca2020.append(nova_linha, ignore_index=True)

In [None]:
# Excluir coluna pelo índice
df2 = df2.drop(df2.columns[0], axis=1)

In [None]:
# Excluir colunas pelo nome
df = df.drop(['A', 'B'], axis=1)

In [None]:
# Excluir linhas
df = df.drop(['A', 'B'], axis=0)

In [None]:
# Uppercase de uma coluna. Coloca todas as letras em maiúsculo
dados['Nome'] = dados['Nome'].str.upper()

In [None]:
# Converte a coluna de data que está no tipo string para o tipo data
dados.DataVenda = pd.to_datetime(dados.DataVenda)

In [None]:
# Usamos a função pct_change() para calcular a variação percentual mensal. Calcula o percentual de mudança de uma linha para outra.
df_faturamento['CrescimentoMensal'] = df_faturamento['Faturamento'].pct_change()

In [None]:
# converter coluna "a" to int64 dtype and "b" to float64 type
dados = dados.astype({"a": int, "b": float})

In [None]:
# Frequência relativa
df2 = pd.value_counts(df["situacao"]) / len(df["situacao"])*100

In [None]:
# Frequência absoluta
df2 = pd.value_counts(df["situacao"]).to_frame(name='fi').rename_axis("Situação").sort_index()
df2

In [None]:
# Formata o dataframe - Padrão CSS
df.style.set_properties(**{'background-color': 'green', 
                                        'color': 'white', 
                                        'border-color': 'white'})

In [None]:
# Verificando se temos valores duplicados.
# Deixar somente uma linha para valores duplicados (repetidos)
sum(df_netflix.duplicated(['movie', 'user', 'rating']))

## Usando NumPy e Pandas

In [None]:
# Importando o NumPy
import numpy as np

In [None]:
# Transformação de log nas variáveis contínuas
# Ajuda a visualizar melhor variáveis com valores muito baixos
df[continuous] = np.log1p(1 + df[continuous])

In [None]:
# Usando o NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [None]:
frame2

In [None]:
frame2.values

In [None]:
#Criando uma coluna com valores NaN
fram22["NovaColuna"] = np.nan

In [None]:
# Resumo do Dataframe
frame2.describe()

In [None]:
frame2['dois':'quatro']

## Coletando amostras de um dataset

In [None]:
# Selecionar aleatoriamente apenas uma linha 
df = dados.sample()

In [None]:
# Selecione aleatoriamente um número especificado de linhas. Por exemplo, para selecionar 3 linhas aleatórias, defina n = 3
df = dados.sample(n=3)

In [None]:
# Permitir uma seleção aleatória da mesma linha mais de uma vez (by setting replace=True)
df = dados.sample(n=3,replace=True)

In [None]:
# Selecione aleatoriamente uma fração especificada do número total de linhas. Por exemplo, se você tiver 8 linhas e definir frac = 0,50, 
# obterá uma seleção aleatória de 50% do total de linhas, o que significa que 4 linhas serão selecionadas.
df = dados.sample(frac=0.50)

## Localizando Registros Dentro do Dataframe

In [None]:
frame2.loc['quatro']

In [None]:
frame2.iloc[2]

In [None]:
# Retornando somente as linhas com valores NA
dados[dados.isnull().any(axis=1)]

In [None]:
# frame2 < 5
frame = frame2[frame2['População'] < 5]

In [None]:
# retornando linas com duas condições
seguranca = seguranca[(seguranca.mes>3) & (seguranca.mes<8)]

In [None]:
frame.query("Ano > 2004" and "População == 2.4")

In [None]:
frame.query("Estado == 'Bahia'")

## Invertendo as Colunas e Índices

In [None]:
# Criando um dicionário
web_stats = {'Dias':[1, 2, 3, 4, 5, 6, 7], 
             'Visitantes':[45, 23, 67, 78, 23, 12, 14], 
             'Taxas':[11, 22, 33, 44, 55, 66, 77]}

In [None]:
web_stats

In [None]:
import pandas as pd
df = pd.DataFrame(web_stats)

In [None]:
print(df)

In [None]:
# Visualizando uma coluna  index
print(df.set_index('Dias'))

In [None]:
print(df.head())

In [None]:
print(df['Visitantes'])

In [None]:
print(df[['Visitantes', 'Taxas']])

In [None]:
# Converter linha em coluna: 
df.T

## Dataframes e Arquivos csv

In [None]:
# Usando o método read_csv
df = pd.read_csv('salarios.csv')

In [None]:
df

In [None]:
# Usando o método read_table
df = pd.read_table('salarios.csv', sep = ',')

In [None]:
df

In [None]:
# No Windows use !type. No Mac ou Linux use !head
!head salarios.csv
# !type salarios.csv

In [None]:
# Alterando o título das colunas
df = pd.read_csv('salarios.csv', names = ['a', 'b', 'c', 'd'])

In [None]:
df

In [None]:
import sys

In [None]:
data = pd.read_csv('salarios.csv')

In [None]:
data.to_csv("previstos.csv", sep = '|')

In [None]:
# Criando um Dataframe
dates = pd.date_range('20180101', periods = 10)
df = pd.DataFrame(np.random.randn(10,4), index = dates, columns = list('ABCD'))

In [None]:
df

In [None]:
df.head()

In [None]:
# quick data summary
df.describe()

In [None]:
# Calculando a média
df.mean()

In [None]:
# Pivot e cálculo da média
df.mean(1)

In [None]:
# Usando métodos
df.apply(np.cumsum)

In [None]:
# Concatenando os data frames
all_data = pd.concat((df.loc[:,:], 
                      frame.loc[:,:]))
all_data.head(10)

In [None]:
# Merge de Dataframes
left = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna1': [1, 2]})
right = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna2': [4, 5]})
pd.merge(left, right, on='chave')

In [None]:
# Adicionando um elemento ao Dataframe
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])

In [None]:
df

In [None]:
s = df.iloc[3]

In [None]:
# Adicionando um elemento ao Dataframe
df.append(s, ignore_index=True)

## Time Series

In [None]:
# Criando um range de datas com frequência de segundos
rng = pd.date_range('1/1/2020', periods = 50, freq = 'S')

In [None]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index = rng)

In [None]:
ts

In [None]:
# Criando um range de datas com frequência de meses
rng = pd.date_range('1/1/2020', periods = 5, freq = 'M')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

## Plotting

In [None]:
import matplotlib.pyplot as plt
from matplotlib import style
%matplotlib inline

In [None]:
import matplotlib as mat
mat.__version__

In [None]:
# Time Series Plot
ts = pd.Series(np.random.randn(500), index=pd.date_range('1/1/2020', periods = 500))
ts = ts.cumsum()
ts.plot()

In [None]:
# DataFrame Plot
df = pd.DataFrame(np.random.randn(500, 4), index = ts.index, columns = ['A', 'B', 'C', 'D'])
df = df.cumsum()
plt.figure(); df.plot(); plt.legend(loc = 'best')

## Output

In [None]:
# Import
import os

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx

In [None]:
# Gerando um arquivo excel a partir de um Dataframe
df.to_excel('teste-df-output.xlsx', sheet_name='Sheet1')

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx

In [None]:
# Lendo o arquivo excel para um Dataframe
newDf2 = pd.read_excel('teste-df-output.xlsx', 'Sheet1', index_col = None, na_values = ['NA'])

In [None]:
newDf2.head()

In [None]:
os.remove('teste-df-output.xlsx')

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx