# **CURSO PANDAS**

In [1]:
# Importar o pandas
import pandas as pd

In [2]:
# Import o arquivo onde se tem os dados para criar o dataframe
df = pd.read_csv('GasPricesinBrazil_2004-2019.csv', sep=';')

In [None]:
# Mostrar infos do datframe
df.dtypes # Mostra o tipo de dados de cada coluna
df.info() # Mostra infos do arquivo e formato dele
df.head() # Mostra a quantidade de linha desejada, por padrão vem 5
df.describe()

**Series**

In [None]:
# Series pode ser uma COLUNA ou LINHA do dataframe

df['DATA FINAL'] # ou df.ANO so funciona se a coluna nao tiver espaço ou acentos, retorna todos os dados da coluna

In [None]:
pd.Series([5,6,9]) # Cria um dataframe a partir de uma lista de valores, para criar uma serie!

**Atribuir Valor**

In [None]:
# Criar uma cópia igual do dataframe, para uso de teste e verificações antes de usar no df original
df_copy = df.copy() # Criar uma cópia do dataframe
df_copy # Chamando a cópia

In [None]:
# Atribuir um valor DEFAULT/PADRÃO a uma coluna
df_copy['PRODUTO'] = 'Combustível' # Atribui valor a toda coluna PRODUTO em cada linha
df_copy['PRODUTO']

In [None]:
# Renomear colunas
nova_copy_colunas = df_copy.rename(columns={
    'ANO': 'AGE'
})
nova_copy_colunas
# para mudar na mesma variável/dataframe, onde no caso vc coloca inplace=true para mudar naquela dataframe, sem crair uma cópia

In [None]:
# Passar uma lista de valores para uma coluna, o numero de items na lista deve ser o mesmo numero de items na coluna
nrows, ncols = df_copy.shape # Linhas e colunas
novos_produtos = [f"Produto {i} "for i in range(nrows)]
df_copy['PRODUTO'] = novos_produtos

In [None]:
# Criar colunas
# Criando uma coluna com um valor fixo/constante, onde todas as linhas teram o mesmo valor
df_copy['coluna sem noção'] = 'DEFAULT'

# Criar coluna a partir de lista
df_copy['coluna nova'] = [i for i in range(df_copy.shape[0])]
df_copy

In [None]:
# Criar uma coluna a partir de uma já existente
df_copy['Preço Médio Revenda em Dolar '] = df_copy['PREÇO MÁXIMO REVENDA'] * 5.1
df_copy

**Índices**

In [None]:
# Indices
df_copy = df

# Acessar Index
df_copy.index

# Mostrando linhas específicas baseadas no index q ela está alocada com o .iloc
# Método iloc, vai pegar o valor pela indice da coluna e linha, iloc[linha, coluna]
df_copy.iloc[3] # Retorna a linha completa onde o index é 3

# Selecionar mais linhas, ex: 0 a 5
df_copy.iloc[0:6]

# Aqui pega a linha do indice 1 e a coluna 4
df_copy.iloc[1, 4]

In [None]:
# Metodo LOC
# Ele pega, mas só com indeces textuais, onde se passa a linha e coluna loc[linha, coluna]
# O pandas reconhece o index padrão como textual, então pode ser usado tbm, mas n recomendado
df_copy.loc[0, 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']


**Remover Colunas**

In [None]:
# Remover uma coluna
df_copy.head()

del df_copy['coluna sem noção']
del df_copy['coluna nova']

**Salvar um DataFrame**

In [None]:
# Criar um Dataframe e salvar em um arquivo xlsx, csv e etc...
dfinho = pd.DataFrame({
    'Nome': [1,2,3],
    'Idade': [23, 213, 1]
})

dfinho.to_excel('aula.xlsx')

**Seleção Condicional**

In [None]:
# Selecionar valores com condições
df_copy['ESTADO'].unique() # retorna os valores da coluna, mas sem as repetições
df_copy

In [None]:
a = df_copy['ESTADO'] == 'SAO PAULO' # passa uma lista de valores booleanos q são usados para filtras posteriormente
df_copy[a]

In [None]:
# Metodo query
# filtra linhas baseado numa pergunta feita ao dataframe
# o metodo query, nao é possível quando colunas ou valores de comparação tiver espaço e caracter especial

valores_ano_estado = df_copy.query('ANO > 2009 and ESTADO == "DISTRITO FEDERAL"')
valores_ano_estado.reset_index(drop=True) # Caso o filtro precisa de index dele e não o do próprio dataframe use o reset index

In [None]:
selecao = (df_copy['PREÇO MÉDIO REVENDA'] > 2 ) & (df_copy['ESTADO'] == 'SAO PAULO')
# AND : &
# OR : |
# NOT : -

# Sintaxe da filtragem - (df[coluna] == '') & (df[coluna] == '')
# Sintaxe base para filtro, isso pode ser colocado dentro de uma variavle ou ja fazer direto no dataframe - df_copy(variavel_com_filtro) ou df_copy[filtragem aqui dentro ja]

valor_estado = df_copy['ESTADO'] == 'SAO PAULO'
valor_estado = df_copy[valor_estado]
valor_estado

**Ao fazer uma comparação em uma linha, é mais lenta, pois o dataframe é percorrido várias vezes, e depois eles juntam com os resultados finais, o corretoseria dividir em mais partes para que não seja necessário ter q percorrer o dataframe novamente**

In [None]:
# SELEÇÕES ONDE SE RETORNE A VERIFICAÇÃO DAS COMPARAÇÕES
selecao1 = (df_copy['ESTADO'] == 'SAO PAULO') | (df_copy['ESTADO'] == 'RIO DE JANEIRO')
selecao2 = (df['PRODUTO'] == 'GASOLINA COMUM')
selecao3 = (df['PREÇO MÉDIO REVENDA'] > 2)

selecao_final = selecao1 & selecao2 & selecao3

In [None]:
# Seleção com o método loc
df_copy.loc[df_copy['ANO'] > 2000, 'ANO'] # Aqui a primeira comparação seria a linha, onde ele verifica os anos onde ANO é maior q 2000, no caso linha a linha e  depois pega a coluna ANO e mostra/filtra

In [None]:
# Seleções onde eu faço mini dataframes do grande e vou adicionando pouco a pouco mais filtros
postos_sp_rj = df_copy.loc[(df_copy['ESTADO'] == 'SAO PAULO') | (df_copy['ESTADO'] == 'RIO DE JANEIRO')]

produto = postos_sp_rj.loc[postos_sp_rj['PRODUTO'] == 'GASOLINA COMUM']

dindon = produto.loc[produto['PREÇO MÉDIO REVENDA'] > 2]

dindon['ESTADO'].unique().tolist()

In [None]:
# # Verificar se os valores de uma lista estão dentro do dataframe, pode retornar uma lista de booleanos com True e False ou já é filtrado direto no dataframe
valores_booleanos = df_copy['ESTADO'].isin(['SAO PAULO', 'RIO DE JANEIRO']) # Retorna uma lista de booleanos aqui

df_copy.loc[df_copy['ESTADO'].isin(['SAO PAULO','naruto','sasuke'])] # ou passar uma lista ja pronta ['valor','valor']


**Iterar com DataFrames com FOR**

In [None]:
# Ele é lento e recomendado so usar em pequenos dataframes
# Faz um for dentro do dataframe retornando a linha inteira e o seu index!
# É possível acessar as colunas como numa series normal usando row(var do for q quiser)[coluna] row[estado]
# Não é possível usar ISIN dentro dentro, pois ele nao retorna a coluna inteira do dataframe e sim so o texto dali, então usar o in

for index, row in df_copy.head(3).iterrows():
    selecao = (row['ESTADO'] in ['SAO PAULO', 'RIO DE JANEIRO', 'DISTRITO FEDERAL'])
    if selecao == False:
        print(f'Não é SP e nem RJ a linha de index {index}')
    else:
        print(f'Esse aqui sim é {index}')

**Limpeza de Dados**

In [None]:
# Procurar valores vazios

data_pre = df.copy()
data_pre

In [None]:
# Conversão de dados para DATAS
# Se os dados das data já estão formatadas nesse formatar de boa, sem precisar mudar nada YYYY-MM-DD
data_pre['DATA FINAL'] = pd.to_datetime(data_pre['DATA FINAL']) 
data_pre['DATA INICIAL'] = pd.to_datetime(data_pre['DATA INICIAL'])

data_pre.info()

In [None]:
# Conversão de dados para NÚMERICOS
for atributo in ['MARGEM MÉDIA REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO', 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
    data_pre[atributo] = pd.to_numeric(data_pre[atributo], errors='coerce')

# Assim você tem a conversão, mas caso de algum erro e n de para converter ele pode retorna alguns tipos de erro
# raise - Vem por padrão e mostra e da erro na tela
# coerce - Retorna NaN para cada conversão que não conseguiu

data_pre.info()

In [None]:
# Tratar os Dados nulos
mask = data_pre['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull() # ISNULL retorna uma serie ou filtra os dados nulos/NaN

# # Preencher os valores NaN com um valor padrão
data_pre_fill = data_pre.fillna(0) # Ele retorna uma cópia do dataframe, com os valores NaN igual a zero, para mudar no mesmo dataframe, inplace=True

# # Aqui você passa quais coluna, e qual o valor padrão caso tenha, um NaN ai subistitui por esse valor

data_pre_fill = data_pre.fillna(value={
    'DESVIO PADRÃO DISTRIBUIÇÃO': 10,
    'PREÇO MÉDIO DISTRIBUIÇÃO': 90
})



