In [None]:
print('Hello World!')

# pode digitar o comentário aqui
# linha
# linha

## Bem vindos ao nosso curso

Importando bibliotecas maravilhosas:

*   Pandas - Biblioteca INCRÍVEL que irá facilitar sua manipulação de dados.

*   Numpy - Biblioteca para operações matemáticas

In [None]:
import pandas as pd
import numpy as np

Lendo o nosso arquivo

In [None]:
df = pd.read_excel('../data/dataset-vendas.xlsx')

In [None]:
df

**Como ele é?**

Aqui é super importante inspecionarmos o nosso dataframe (ou tabela), com informações relevantes relacionadas ao seu formato e também a composição de dados que temos dele.


Vamos olhar as primeiras 5 linhas do nosso dataframe

In [None]:
df.head()

Vamos olhar as últimas 5 linhas do nosso dataframe

In [None]:
df.tail()

E se eu quiser olhar as primeiras (ou últimas) 20 linhas?

In [None]:
df.head(20)

Vamos olhar como o nosso dataframe está em relação aos seus tipos de variáveis

In [None]:
df.info()

Também temos como saber se há valores faltantes em nosso dataframe

In [None]:
df.isna().any()

Uma forma interessante de olhar o nosso dataframe é sempre saber qual o seu formato, quantas linhas e colunas essa "tabela" possui

In [None]:
df.shape

### Ponto de Parada - Tuplas

Você notou que ao chamar esse atributo - .shape, o código retornou um valor dentro de dois parênteses?

Essa estrutura, dentro de parênteses, é chamada de Tupla!

***Tuplas em Python***

Em Python, uma tupla é um tipo de dados que é semelhante a uma lista. No entanto, ao contrário das listas, as tuplas são imutáveis, o que significa que, uma vez definidas, não podem ser modificadas ou alteradas. Você pode pensar nas tuplas como sendo "listas de leitura apenas".

As tuplas são frequentemente usadas para armazenar grupos de dados relacionados. Por exemplo, uma tupla pode armazenar informações sobre uma pessoa, como nome, idade e profissão.

Criar uma tupla é tão simples quanto colocar diferentes valores separados por vírgulas. Em Python, as tuplas são definidas colocando os elementos entre parênteses ().

In [None]:
informacoes_pessoas = ("Joao", 30, "Engenheiro")

In [None]:
# Criando uma tupla
informacoes_pessoa = ("João", 30, "Engenheiro")
print(informacoes_pessoa)


Quando executado, o código acima exibirá a seguinte saída: ("João", 30, "Engenheiro")

***Acessando elementos de uma tupla***

Assim como as listas, você pode acessar os elementos de uma tupla referenciando o índice dos elementos. Os índices em Python começam em 0 para o primeiro elemento.

In [None]:
# Acessando elementos de uma tupla
nome = informacoes_pessoa[0]
idade = informacoes_pessoa[1]
profissao = informacoes_pessoa[2]

print("Nome: ", nome)
print("Idade: ", idade)
print("Profissão: ", profissao)



Note que, se tentarmos modificar um valor em uma tupla, obteremos um erro, pois as tuplas são imutáveis:

In [None]:
# Tentando modificar um valor de uma tupla
#informacoes_pessoa[1] = 31


Essa é uma característica essencial das tuplas - elas são projetadas para armazenar dados que não devem ser modificados.

***Por que usar tuplas?***

Você pode estar se perguntando: por que usaríamos tuplas se elas são semelhantes às listas, mas não podem ser modificadas? Uma das principais razões é a eficiência: como as tuplas são imutáveis, elas podem ser mais eficientes em termos de memória e desempenho do que as listas quando usadas para dados que não precisam ser alterados. Além disso, o fato de serem imutáveis as torna adequadas para garantir que certos dados permaneçam constantes ao longo da execução de um programa.

In [None]:
df.shape[0]

In [None]:
df.shape[1]

### Continuando com nossa Exploração

Podemos também acessar de forma rápida, quais são todas as colunas que o nosso dataframe possui

In [None]:
df.columns

Podemos acessar uma coluna individualmente do nosso dataframe, para isso, usamos a seguinte forma:

dataframe['nome_da_coluna']

Atente para que o nome da coluna esteja entre aspas simples ou aspas duplas

In [None]:
df['order_id']

In [None]:
df['review_comment_message', 'order_id']

Podemos acessar mais de uma coluna também. Seguimos a mesma forma, exceto que colocamos dois colchetes:

dataframe[['coluna_1', 'coluna_2']]

In [None]:
df[['review_comment_message', 'order_id']]

In [None]:
df[['customer_unique_id','customer_zip_code_prefix', 'customer_city']]

In [None]:
dados_clientes = df[['customer_unique_id','customer_zip_code_prefix', 'customer_city']]

In [None]:
dados_clientes

In [None]:
dados_clientes.to_excel('../data/tratado/dados_clientes.xlsx')

#### Dica Master Blaster Top de Todas

Você sabia que pode criar diretamente uma pasta em qualquer lugar do seu computador, usando código?

Se liga na dica ;)

Para criar uma pasta diretamente no Jupyter Notebook, você pode utilizar a biblioteca os do Python.

Aqui está um exemplo de como criar uma pasta usando o Jupyter Notebook:

In [None]:
import os

nome_pasta = "../data/arquivos"

if not os.path.exists(nome_pasta):
    os.makedirs(nome_pasta)
    print("Pasta criada com sucesso!")
else:
    print("A pasta já existe!")

Ao executar esse código, uma nova pasta chamada "nova_pasta" será criada no mesmo diretório em que o notebook está localizado. Se a pasta já existir, uma mensagem será exibida informando que a pasta já existe.

E para criar em outro diretório?

É simples, adicine o caminho diretamente na variável 'nova_pasta'

Vimos usando a função info() que temos alguns dados que estão em um formato diferente do que deveriam

In [None]:
df.info()

Vemos aqui que a coluna ***order_purchase_timestamp*** está com o tipo Object - ou seja, ela é um tipo de texto, quando deveria ser do tipo datetime, ou seja, uma variável que indica uma data.

Como podemos alterar isso?

In [None]:
df_aula = df.copy() #Estou criando uma cópia do dataframe apenas para fins acadêmicos tá 

In [None]:
df['order_purchase_timestamp']

In [None]:
#Precisamos mudar essa coluna para timestamp - um tipo de formato de datas que nos dará mais flexibilidade para nossas análises

df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])

In [None]:
# Reconferindo

df.info()

Mas são várias colunas não é? Como podemos fazer?

Precisamos alterar os tipos dessas colunas: 

* 'order_approved_at', 
* 'order_delivered_carrier_date',
* 'order_delivered_customer_date',
* 'order_estimated_delivery_date', 
* 'shipping_limit_date', 
* 'review_creation_date', 
* 'review_answer_timestamp'

In [None]:
#Maneira 1: Copiando e colando!

df['order_approved_at'] = pd.to_datetime(df['order_approved_at'])
df['order_delivered_carrier_date'] = pd.to_datetime(df['order_delivered_carrier_date'])
df['order_delivered_customer_date'] = pd.to_datetime(df['order_delivered_customer_date'])
df['order_estimated_delivery_date'] = pd.to_datetime(df['order_estimated_delivery_date'])
df['shipping_limit_date'] = pd.to_datetime(df['shipping_limit_date'])
df['review_creation_date'] = pd.to_datetime(df['review_creation_date'])
df['review_answer_timestamp'] = pd.to_datetime(df['review_answer_timestamp'])

In [None]:
df.info()

In [None]:
df.columns

In [None]:
cols_to_datetime = ['order_purchase_timestamp',
       'order_approved_at', 'order_delivered_carrier_date',
       'order_delivered_customer_date', 'order_estimated_delivery_date', 'shipping_limit_date', 'review_creation_date', 'review_answer_timestamp']

In [None]:
cols_to_datetime

In [None]:
for col in cols_to_datetime:
    df[col] = pd.to_datetime(df[col])

In [None]:
#Maneira 2: Usando o for para criar loops

cols_to_datetime = ['order_purchase_timestamp','order_approved_at', 'order_delivered_carrier_date','order_delivered_customer_date',
                    'order_estimated_delivery_date', 'shipping_limit_date', 'review_creation_date', 'review_answer_timestamp']

for col in cols_to_datetime:
    df_aula[col] = pd.to_datetime(df_aula[col])

In [None]:
df_aula.info()

Outras funções para você conhecer:

* Converter para número: https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html

### E os dados ausentes?

In [None]:
df.isna().any()

Mas quantos eles são?

In [None]:
df.isna().sum()

Mas muito mais importante do que saber quantos são, é também entendermos o quanto que esses dados faltantes representam no total da nossa base de dados:

In [None]:
df.shape[0]

In [None]:
(df.isna().sum() / df.shape[0]) * 100

In [None]:
df.isna().sum()/df.shape[0] * 100

Quando trabalhamos com grandes conjuntos de dados, é comum encontrar valores ausentes. Esses são espaços vazios ou dados que não foram coletados durante o processo de coleta de dados.

Em Python, utilizamos a biblioteca pandas para lidar com dados ausentes de maneira eficaz. O pandas representa os dados ausentes como NaN (Not a Number) e fornece funções para detectar, remover e substituir esses valores.

***Tratando dados ausentes***

Excluindo dados ausentes

Um dos métodos mais simples para tratar dados ausentes é excluí-los usando o método dropna().

In [None]:
df.dropna()

(VALOR_ONTEM - VALOR_HOJE)/VALOR_ONTEM

In [None]:
((df.shape[0] - df.dropna().shape[0]) / df.shape[0]) *100

In [None]:
# Nesse caso, estamos retirando todos os valores vazios sem nenhum critério, quanto perderíamos da nossa base?

((df.shape[0] - df.dropna().shape[0]) / df.shape[0] ) *100

***Preenchendo dados ausentes***

Em alguns casos, em vez de excluir dados ausentes, pode ser melhor preenchê-los com algum valor. Isso pode ser feito usando o método fillna()

In [None]:
df.fillna(value='PREENCHIDO')


No exemplo acima, todos os valores ausentes são preenchidos com a string 'PREENCHIDO'.

É também comum preencher com a média dos valores da coluna:

In [None]:
df['review_score']

In [None]:
df.fillna(value=df['review_score'].mean())

No exemplo acima, os valores ausentes na coluna 'A' são preenchidos com a média dos valores existentes na mesma coluna.

In [None]:
# Como perderemos apenas 5% da base se removermos todos os valores vazios, é o método que vamos seguir. Mas não se apeguem a ele, cada caso é um caso ;)

df_clean = df.dropna()

In [None]:
df_clean.shape

Acesse aqui para saber mais sobre modos de fazer a limpeza do seus dados usando Python Pandas e outros recursos:

https://realpython.com/python-data-cleaning-numpy-pandas/

# Análises Exploratórias Básicas do Nosso Dataframe

Vamos começar agora a olhar diretamente para quais informações nosso dataframe possui.

Uma função importante que podemos usar é contar quantos valores temos de cada informação em uma coluna.

Para isso existe a função: value_counts() - contar valores

In [None]:
df_clean.columns

In [None]:
df_clean['product_category_name'].value_counts()

In [None]:
df_clean['product_category_name'].value_counts(normalize=True) * 100

In [None]:
df_clean['customer_id'].value_counts(normalize = True)

**Medidas Estatísticas Importantes**

In [None]:
df_clean['price'].describe()

In [None]:
df_clean[['price', 'freight_value']].describe()

In [None]:
df_clean['price'].sum()

In [None]:
df_clean['price'].median()

In [None]:
df_clean['price'].mode()[0]

In [None]:
df_clean['price'].std()

In [None]:
desvio_padrao_sales = df_clean['price'].std()

In [None]:
desvio_padrao_sales

In [None]:
df_clean.apply({
    'price': 'mean',
    'freight_value': 'max'
})

In [None]:
df_clean.apply({'price': 'mean', 'freight_value': 'min'})

In [None]:
df_clean.apply({
    'price': ['mean', 'std'],
    'freight_value': 'max'
})

In [None]:
df_clean.apply({'price': 'mean', 'freight_value': ['min', 'max']})

In [None]:
df_clean[['price', 'freight_value']].apply(['min', 'max', 'mean', 'median', 'std']).to_excel('../data/arquivos/resumo.xlsx')

In [None]:
df_clean[['price', 'freight_value']].apply(['min', 'max', 'mean', 'median', 'std'])

### Filtrando nosso Dataframe

O filtro de dados é um passo crucial na análise de dados. Ele permite que você se concentre em partes específicas do seu conjunto de dados e extraia apenas as informações que sejam importantes e necessárias.

In [None]:
a = 3

In [None]:
b = 4

In [None]:
a

In [None]:
b >= a

In [None]:
c = 3

In [None]:
a != c

In [None]:
a = not True

In [None]:
a

Vamos começar a aplicar no nosso dataframe

In [None]:
df_clean.columns

In [None]:
df_clean['product_category_name'].unique()

In [None]:
len(df_clean['product_category_name'].unique())

In [None]:
df_clean[df_clean['product_category_name'] == 'la_cuisine']

In [None]:
df_lacuisine = df_clean[df_clean['product_category_name'] == 'la_cuisine']

In [None]:
df_lacuisine

In [None]:
#Para facilitar a nossa aula, vamos renomear o df_clean apenas para df - não façam isso em casa \o/

df = df_clean.copy()

In [None]:
df['customer_city'].unique()

In [None]:
df[df['customer_city'] == 'sao paulo']['customer_city'].unique()

In [None]:
df[df['customer_city'] == 'sao paulo']

In [None]:
df[(df['customer_city'] == 'sao paulo') & (df['product_category_name'] == 'la_cuisine')]

In [None]:
saopaulo_lacuisine = df[(df['customer_city'] == 'sao paulo') & (df['product_category_name'] == 'la_cuisine')]

In [None]:
saopaulo_lacuisine

In [None]:
df[df['price'] >=100]

In [None]:
df['customer_state'].unique()

In [None]:
df[(df['customer_state'] == 'SP') & (df['product_category_name'] == 'fashion_roupa_masculina') & (df.price >= 100)]

In [None]:
df[(df['customer_state'] == 'SP') | (df['customer_state'] == 'RJ')]

In [None]:
df[df['customer_state'] != 'RS']

Quando precisamos fazer muitos filtros, podemos declará-los anterioremente

In [None]:
filt1 = df['customer_state'] == 'SP'

In [None]:
filt2 = df['product_category_name'] == 'fashion_roupa_masculina'

In [None]:
filt3 = df.price > 100

In [None]:
filt3

In [None]:
df[filt1 & filt2 & filt3]

In [None]:
filtro_multiplo = df[filt1 & filt2 & filt3]

In [None]:
filtro_multiplo

In [None]:
df['price'].describe()

In [None]:
df[df['price'].between(74, 6000)]

In [None]:
df[df['price'].between(74,6000)]

In [None]:
df_vendas = df[df['price'].between(74,6000)]

In [None]:
df_vendas

In [None]:
df_vendas.sort_values(by='price', ascending = False).head()

In [None]:
df[(df['customer_state'] == 'SP') & (df['product_category_name'] == 'fashion_roupa_masculina')]['freight_value'].sum()

In [None]:
df['price'].mean()

In [None]:
df_vendas['price'].mean()

### Modificando nosso Dataframe e criando novas variáveis

A engenharia de características (feature engineering), ou a criação de novas variáveis, é um dos aspectos mais importantes e poderosos de qualquer processo de análise de dados. Embora os dados brutos possam conter uma grande quantidade de informações, nem sempre eles estão na forma mais útil de ser usada, ou até mesmo mais prática. Ao criar novas variáveis, podemos extrair informações adicionais dos dados, revelar padrões ocultos, melhorar a precisão dos modelos e muito mais.

**Criando colunas novas**

Para criar colunas, usamos a seguinte forma:

df['coluna_nova'] = REGRA_DA_NOVA_COLUNA

In [None]:
df['total_order_value'] = df['price'] + df['freight_value']

df['total_order_value']

In [None]:
df

In [None]:
# Criando a variável 'total_order_value' que é a soma do preço do produto e o valor do frete
df['total_order_value'] = df['price'] + df['freight_value']

df['total_order_value']

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df['order_purchase_year'] = df['order_purchase_timestamp'].dt.year

In [None]:
df.head()

In [None]:
# Criando a variável 'order_purchase_year' que é o ano em que o pedido foi feito
df['order_purchase_year'] = df['order_purchase_timestamp'].dt.year
# Criando a variável 'order_purchase_month' que é o mês em que o pedido foi feito
df['order_purchase_month'] = df['order_purchase_timestamp'].dt.month
# Criando a variável 'order_purchase_day' que é o dia em que o pedido foi feito
df['order_purchase_day'] = df['order_purchase_timestamp'].dt.day
# Criando a variável 'order_purchase_hour' que é a hora em que o pedido foi feito
df['order_purchase_hour'] = df['order_purchase_timestamp'].dt.hour
# Criando a variável 'order_purchase_dayofweek' que é o dia da semana em que o pedido foi feito
df['order_purchase_dayofweek'] = df['order_purchase_timestamp'].dt.dayofweek

In [None]:
df.head()

In [None]:
df['tempo_para_envio'] = df['order_delivered_customer_date'] - df['order_purchase_timestamp']

In [None]:
df.head(3)

In [None]:
df['tempo_para_envio'].describe()

In [None]:
df['order_purchase_month'].astype(str) + '-' + df['order_purchase_year'].astype(str)

In [None]:
df['CHAVE-MES-ANO'] = df['order_purchase_month'].astype(str) + '-' + df['order_purchase_year'].astype(str)

In [None]:
df.head()

### Ponto de Parada - Funções

**Funções em Python**

Uma função é um bloco de código reutilizável que executa uma tarefa específica. Funções são fundamentais para a programação em Python e muitas outras linguagens de programação, pois permitem modularizar e organizar o código de maneira eficaz.

Em Python, usamos a palavra-chave def para definir uma função. Aqui está um exemplo de como definir uma função que adiciona dois números:



```
def NOME( PARÂMETROS ):

    COMANDOS
```

Exemplo:



```
def adicionar_dois_numeros(num1, num2):

    return num1 + num2
```

Neste exemplo, adicionar_dois_numeros é o nome da função e num1 e num2 são os parâmetros da função. A palavra-chave return é usada para especificar o resultado que a função deve retornar.


Você pode inventar qualquer nome para as funções que você cria, exceto que você não pode usar um nome que é uma palavra reservada em Python, e que os nomes devem seguir a regra de identificadores permitidos. Os parâmetros especificam qual informação, se alguma, você deve providenciar para que a função possa ser usada. Outra forma de dizer isto é que os parâmetros especificam o que a função necessita para executar a sua tarefa.

Vamos ver mais usos de funções mais para frente

In [None]:
def adicionar_dois_numeros(num1, num2):
    return num1 + num2

In [None]:
adicionar_dois_numeros(1000, 548)

In [None]:
df.columns

In [None]:
media_valor_total = df['total_order_value'].mean()

In [None]:
media_valor_total

In [None]:
def acima_ou_abaixo(x):

    media_valor_total = df['total_order_value'].mean()

    if x >= media_valor_total:
        return 'ACIMA'
    else:
        return 'ABAIXO'

In [None]:
def acima_ou_abaixo(x):
    
    """
    Essa função retorna "acima" para valores acima da média de vendas, e abaixo, para valores abaixo
    """
    
    media_valor_total = df['total_order_value'].mean()
    
    if x >= media_valor_total:
        return 'ACIMA'
    else:
        return 'ABAIXO'
    
    

In [None]:
df['COMPARATIVO_VALOR'] = df['total_order_value'].apply(acima_ou_abaixo)

In [None]:
df.head()

In [None]:
df['COMPARATIVO_VALOR'].value_counts(normalize=True)

In [None]:
df['order_purchase_hour'].unique()

In [None]:
def categorizar_compra(hora):

    if 0 <= hora < 6:
        return 'Madrugada'
    elif 6 <= hora < 12:
        return 'Manhã'
    elif 12 <= hora < 18:
        return 'Tarde'
    else:
        return 'Noite'
    
df['order_purchase_timeofday'] = df['order_purchase_hour'].apply(categorizar_compra)

In [None]:
df.head()

In [None]:
df['order_purchase_timeofday'].value_counts(normalize=True)

In [None]:
# Função para categorizar o horário do pedido
def categorize_hour(hour):
    if 0 <= hour < 6:
        return 'Early Morning'
    elif 6 <= hour < 12:
        return 'Morning'
    elif 12 <= hour < 18:
        return 'Afternoon'
    else:
        return 'Evening'
    
# Criando a variável 'order_purchase_timeofday' que é a categoria de horário do pedido
df['order_purchase_timeofday'] = df['order_purchase_hour'].apply(categorize_hour)

df.head(3)

In [None]:
def categorize_total_order_value(value):

    if value < 50:
        return 'Baixo'
    elif 50 <= value < 200:
        return 'Medio'
    else:
        return 'Alto'
    
df['total_order_value_category'] = df['total_order_value'].apply(categorize_total_order_value)

df.total_order_value_category.value_counts()

In [None]:
# Função para categorizar o valor total do pedido
def categorize_total_order_value(value):
    if value < 50:
        return 'Low'
    elif 50 <= value < 200:
        return 'Medium'
    else:
        return 'High'
    
# Criando a variável 'total_order_value_category' que é a categoria do valor total do pedido
df['total_order_value_category'] = df['total_order_value'].apply(categorize_total_order_value)

df.total_order_value_category.value_counts()

In [None]:
df[['total_order_value_category', 'order_purchase_timeofday']].value_counts()

In [None]:
def categorize_order(periodo, categoria):

    if periodo == 'Manhã' and categoria == 'Alto':
        return 'High Value Morning Order'
    elif periodo == 'Tarde' and categoria == 'Alto':
        return 'High Value Afternoon Order'
    elif periodo in ['Noite', 'Madrugada'] and categoria == 'Alto':
        return 'High Value Off-Peak Order'
    elif categoria == 'Medio':
        return 'Medium Value Order'
    else:
        return 'Low Value Order'
    
df['categoria_da_ordem'] = df.apply(lambda x: categorize_order(x['order_purchase_timeofday'], x['total_order_value_category']), axis = 1)

In [None]:
def categorize_order(periodo, categoria):

    if periodo == 'Manhã' and categoria == 'Alto':
        return 'High Value Morning Order'
    elif periodo == 'Tarde' and categoria == 'Alto':
        return 'High Value Afternoon Order'
    elif periodo ==  'Noite' and categoria == 'Alto':
        return 'High Value Off-Peak Order'
    elif periodo ==  'Madrugada' and categoria == 'Alto':
        return 'High Value Off-Peak Order'
    elif categoria == 'Medio':
        return 'Medium Value Order'
    else:
        return 'Low Value Order'

In [None]:
df['categoria_da_ordem'] = df.apply(lambda x: categorize_order(x['order_purchase_timeofday'], x['total_order_value_category']), axis = 1)

In [None]:
df['categoria_da_ordem']

In [None]:
# Função para categorizar o pedido com base no horário e no valor total
def categorize_order(timeofday, value_category):
    if timeofday == 'Morning' and value_category == 'High':
        return 'High Value Morning Order'
    elif timeofday == 'Afternoon' and value_category == 'High':
        return 'High Value Afternoon Order'
    elif timeofday in ['Early Morning', 'Evening'] and value_category == 'High':
        return 'High Value Off-Peak Order'
    elif value_category == 'Medium':
        return 'Medium Value Order'
    else:
        return 'Low Value Order'
    
# Criando a variável 'order_category' que é a categoria do pedido com base no horário e no valor total
df['order_category'] = df.apply(lambda x: categorize_order(x['order_purchase_timeofday'], x['total_order_value_category']), axis=1)

In [None]:
df.order_category.value_counts(normalize=True)

***Ponto de Parada***

Dicionários

Em Python, um dicionário é uma estrutura de dados que armazena pares de valores-chave. Cada valor é associado a uma chave única, que pode ser usada para acessar o valor posteriormente. Diferente das listas e tuplas, que são indexadas por um intervalo de números, os dicionários são indexados por chaves, que podem ser de qualquer tipo imutável.

Aqui está um exemplo de como definir um dicionário:



```
{
  'chave1': 'valor1',
  'chave2': 'valor2',
  ....
}
```




In [None]:
meu_dicionario = {
    'nome': 'Joao',
    'idade': 30,
    'cidade': 'São Paulo'
}

In [None]:
meu_dicionario

Neste exemplo, nome, idade e cidade são as chaves, e 'João', 30 e 'São Paulo' são os respectivos valores.

Podemos acessar um valor em um dicionário referindo-se à sua chave:

In [None]:
meu_dicionario.values()

In [None]:
meu_dicionario.keys()

In [None]:
meu_dicionario['nome']

In [None]:
nome = meu_dicionario['nome']
print(nome)  # Saída: João


Como usamos dicionários para criar uma nova coluna no nosso dataframe?

In [None]:
df['order_status'].unique()

In [None]:
# Criando um dicionário para mapear as categorias de 'order_status' para um valor numérico
order_status_mapping = {
    'delivered': 0,
    'shipped': 1,
    'canceled': 2,
    'unavailable': 3,
    'invoiced': 4,
    'processing': 5,
    'created': 6,
    'approved': 7
}

In [None]:
order_status_mapping

In [None]:
df['order_status_code'] = df['order_status'].map(order_status_mapping)

In [None]:
df['order_status_code'].value_counts()

**Excluindo Colunas**

In [None]:
# Criando uma coluna provisória

df['NATHAN'] = 'Nathan'

In [None]:
df.head()

In [None]:
df = df.drop('NATHAN', axis = 1)

In [None]:
df.shape

### Removendo valores duplicados

In [None]:
df.info()

In [None]:
df.nunique()

In [None]:
df.order_id.value_counts()

Olha sóooo, temos ordens duplicadas no nosso dataframe! Porque será?

In [None]:
df[df.order_id == '895ab968e7bb0d5659d16cd74cd1650c'][['product_id', 'order_item_id', 'seller_id', 'shipping_limit_date',
       'price', 'freight_value', 'payment_sequential', 'payment_type',
       'payment_installments', 'payment_value']]

In [None]:
df[df.order_id == '895ab968e7bb0d5659d16cd74cd1650c'][['product_id', 'seller_id', 'shipping_limit_date',
       'price', 'freight_value', 'payment_sequential', 'payment_type',
       'payment_installments', 'payment_value']]['payment_sequential'].max()

In [None]:
df[df.product_id == 'ebf9bc6cd600eadd681384e3116fda85'][['order_id','seller_id', 'price', 'freight_value', 'payment_sequential', 'payment_type',
       'payment_installments', 'payment_value']]

O que fazemos com essa informação? Tarefa de casa

**OS SES do Excel**

MEDIASE, SOMASE...

In [None]:
soma_pagamentos_SP = df[(df['customer_state'] == 'SP')]['payment_value'].sum()

In [None]:
media_pagamentos_SP = df[(df['customer_state'] == 'SP')]['payment_value'].mean()

In [None]:
dicionario_SP = {
    'Soma de pagamentos SP': soma_pagamentos_SP,
    'Médias Pagamentos SP': media_pagamentos_SP,
}

In [None]:
pd.DataFrame(dicionario_SP.items()).to_excel('../data/tratado/teste.xlsx')

**Quartil**

In [None]:
df['price'].quantile(0.01)

# **Agrupamentos**

Agrupamentos são artifícios muito importantes na Análise de Dados, que nos permite sumarizar dados de maneira rápida e intuitiva.

Para uma boa análise de dados é importante que você separe algum tempo para se perguntar:



*   O que quero descobrir?
*   Qual o nível de informação que preciso obter

Agora vamos criar alguns agrupamentos e continuar mostrando algumas funções importantes para vocês.



In [None]:
df.columns

In [None]:
df.groupby('customer_state')['payment_value'].sum().reset_index()

In [None]:
df.groupby(['customer_state', 'payment_type'])['payment_value'].sum().reset_index()

In [None]:
nova_tabela = df.groupby(['customer_state', 'payment_type'])['payment_value'].sum().reset_index()

In [None]:
nova_tabela

In [None]:
tabela_estado_pagamento_categoria = df.groupby(['customer_state', 'payment_type','product_category_name'])['payment_value'].sum().reset_index()

tabela_estado_pagamento_categoria.to_excel('../data/arquivos/tabela_estado_pagamento_categoria.xlsx')

In [None]:
df.groupby(['customer_state', 'payment_type']).agg({
    'payment_value': ['sum', 'min', 'mean']
}).reset_index()

In [None]:
vendas_mean_sum_min = df.groupby(['customer_state', 'product_category_name']).agg({
    'payment_value' : ['sum', 'min', 'mean']
}).reset_index()

In [None]:
vendas_mean_sum_min

E se quisermos agrupar por alguma referência de tempo?

In [None]:
df.groupby(pd.Grouper(key = 'order_purchase_timestamp', freq='3M'))['payment_value'].sum().reset_index()

In [None]:
df.groupby(pd.Grouper(key = 'order_purchase_timestamp', freq='Y'))['payment_value'].sum().reset_index()

In [None]:
df.groupby(['customer_state' , pd.Grouper(key = 'order_purchase_timestamp', freq='3M')])['payment_value'].sum().reset_index()

In [None]:
df.groupby(['customer_state',pd.Grouper(key = 'order_purchase_timestamp', freq='3M'), 'product_category_name'])['payment_value'].sum().reset_index()

In [None]:
df.groupby([pd.Grouper(key = 'order_purchase_timestamp', freq='M'),'product_category_name'])['payment_value'].sum().reset_index()

In [None]:
#Podemos calcular a soma também somente pelo tempo, sem colocar outro índice

soma_vendas_mes = df.groupby(pd.Grouper(key = 'order_purchase_timestamp', freq = 'M'))['payment_value'].sum().reset_index()

In [None]:
soma_vendas_mes.head()

In [None]:
soma_vendas_mes['AUMENTO_VENDAS'] = soma_vendas_mes['payment_value'].diff()

In [None]:
soma_vendas_mes

In [None]:
soma_vendas_mes['AUMENTO_VENDAS_PCT'] = soma_vendas_mes['payment_value'].pct_change() * 100

In [None]:
soma_vendas_mes

#### Ponto de Parada - Loops

Um loop for é usado para iterar sobre uma sequência (que é uma lista, uma tupla, um dicionário, um conjunto ou uma string).

Com o loop for, podemos executar um conjunto de instruções, uma vez para cada item em uma lista, tupla, conjunto etc.

In [None]:
frutas = ['maça', 'banana', 'morango']

for fruta in frutas:
    print(fruta)
    print('----')

In [None]:
fruits = ['maça', 'banana', 'morango']

for x in fruits:
    print(x)

In [None]:
for letra in 'banana':
    print(letra)

In [None]:
for x in 'banana':
    print(x)

In [None]:
fruits = ["maça", "banana", "morango"]


for fruta in fruits:
    print(fruta)
    if fruta == 'banana':
        break

In [None]:
fruits = ["maça", "banana", "morango"]


for fruta in fruits:
    
    if fruta == 'banana':
        print(fruta)
        break

In [None]:
fruits = ["maça", "banana", "morango"]

for fruta in fruits:
    
    if fruta == 'banana':
        print(fruta)
        break

In [None]:
fruits = ["maça", "banana", "morango"]

for fruta in fruits:
    
    if fruta == 'banana':
        break
        
    print(fruta)

In [None]:
fruits = ["maça", "banana", "morango"]
for x in fruits:
    if x == "banana":
        continue
    print(x)

In [None]:
range(6)

In [None]:
for numero in range(6):
    print(numero)

In [None]:
range(2, 6)

In [None]:
for x in range(2, 6):
    print(x)

In [None]:
for x in range(2, 30, 3):
    print(x)

In [None]:
adj = ["vermelho", "amarelo", "azul"]
fruits = ["maça", "banana", "morango"]

In [None]:
for ajetivo in adj:
    for fruta in fruits:
        print(ajetivo, fruta)

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.groupby(pd.Grouper(key = 'order_purchase_timestamp', freq='M')).agg({
    'payment_value' : ['min', 'sum', 'mean'],
    'freight_value': ['sum', 'max'],
    'payment_sequential' : ['mean', 'max'],
    'customer_id': 'nunique'
}).reset_index()

In [None]:
agrupamento = df.groupby(pd.Grouper(key = 'order_purchase_timestamp', freq='M')).agg({
    'payment_value' : ['min', 'sum', 'mean'],
    'freight_value': ['sum', 'max'],
    'payment_sequential' : ['mean', 'max'],
    'customer_id': 'nunique'
}).reset_index()

In [None]:
agrupamento

In [None]:
agrupamento.columns

In [None]:
for coluna in agrupamento.columns:
    print(coluna)

In [None]:
for coluna in agrupamento.columns:
    print('_'.join(coluna))
    #print('---')

In [None]:
[print('_'.join(coluna)) for coluna in agrupamento.columns]

In [None]:
['_'.join(coluna) for coluna in agrupamento.columns]

In [None]:
agrupamento.columns = ['_'.join(col) for col in agrupamento.columns]

In [None]:
agrupamento

In [None]:
def agrupar_valores(data, chave, frequencia):

    data[chave] = pd.to_datetime(data[chave])

    agrupamento = data.groupby(pd.Grouper(key = chave, freq=frequencia)).agg({
    'payment_value' : ['min', 'sum', 'mean'],
    'freight_value': ['sum', 'max'],
    'payment_sequential' : ['mean', 'max'],
    'customer_id': 'nunique'
    })
    
    agrupamento.columns = ['_'.join(col) for col in agrupamento.columns]

    return agrupamento.reset_index()

    

In [None]:
agrupar_valores(df, 'order_purchase_timestamp', 'M')

In [None]:
vendas_dia = agrupar_valores(df, 'order_purchase_timestamp', 'D')

In [None]:
vendas_dia

In [None]:
vendas_mes = agrupar_valores(df, 'order_purchase_timestamp', 'M')

In [None]:
vendas_mes


In [None]:
vendas_bim = agrupar_valores(df, 'order_purchase_timestamp', '2M')

In [None]:
vendas_bim

# **Visualização de Dados com o Seaborn**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

Vamos usar aqui os nossos dataframes que construímos durante o curso e algumas outras análises também!

In [None]:
vendas_dia.head()

In [None]:
sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_dia)

Ficou meio pequeno né?

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_dia);

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
fig = sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_dia);

Vamos fazer agora com o Mensal

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
fig = sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_mes);

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
fig = sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_mes, color = '#0fd43d')
media_mes = vendas_mes['payment_value_sum'].mean()
ax.axhline(media_mes, color = '#c229ae')
plt.title('Vendas Mensais');
plt.savefig('../figuras/grafico.png')

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
fig = sns.lineplot(x = 'order_purchase_timestamp', y = 'payment_value_sum', data = vendas_mes, color = '#29c256')
media_mes = vendas_mes['payment_value_sum'].mean()
ax.axhline(media_mes, color = '#c229ae')
plt.title('Vendas Mensais');
plt.savefig('VendasMensais.png')

**Exercício**

Criar uma função que crie um gráfico com variação do título.

**Visualização Estatatísticas**

Uma das melhores coisas a se fazer no Python, são visualização estatísticas, no Excel costuma ser bem complicado de operacionalizar. 

Aqui fazemos em poucas linhas de código.

Histograma

In [None]:
df.head()

In [None]:
# Criando um novo dataframe para as nossas visualizações

df.drop_duplicates(
    subset = ['order_id', 'product_id'],
    keep = 'first'
)

In [None]:
df2 = df.drop_duplicates(
    subset = ['order_id', 'product_id'],
    keep = 'first'
)

In [None]:
df2

In [None]:
sns.histplot(data = df2, x = 'price')

Boxplot

In [None]:
sns.boxplot(data = df2, y = 'price')

In [None]:
df2['price_log'] = np.log(df2['price'])

In [None]:
sns.histplot(data = df2, x = 'price_log', kde=True)

In [None]:
sns.histplot(data = df2, x = 'price_log', hue='payment_type')

In [None]:
df2[df2['payment_type'] == 'voucher']['price_log'].min()

In [None]:
g = sns.histplot(data = df2[df2['payment_type'] == 'voucher'], x = 'price_log', kde=True)
g.axvline(df2[df2['payment_type'] == 'voucher']['price_log'].min(), color = '#c229ae')
g.axvline(3, color = '#c229ae')

In [None]:
sns.boxplot(data = df2, x='payment_type', y='price_log')

In [None]:
total = len(df2)

plt.figure(figsize=(14,6))

plt.suptitle('Distribuição por tipo de Pagamento', fontsize = 22)

plt.subplot(121)
g = sns.countplot(x = 'payment_type', data = df2[df2['payment_type'] != 'not_defined'])
g.set_title("Contagem de Tipo de Pagamento", fontsize=20)
g.set_xlabel("Tipo de Pagamento", fontsize=17)
g.set_ylabel("Contagem", fontsize=17)


plt.subplot(122)
g = sns.boxplot(x='payment_type', y='price_log', data=df2[df2['payment_type'] != 'not_defined'])
g.set_title("Payment Type by Price Distributions", fontsize=20)
g.set_xlabel("Payment Type Name", fontsize=17)
g.set_ylabel("Price(Log)", fontsize=17)

plt.subplots_adjust(hspace = 0.5, top = 0.8)

plt.show()

In [None]:
total = len(df2)

plt.figure(figsize=(14,6))

plt.suptitle('Payment Type Distributions', fontsize=22)

plt.subplot(121)
g = sns.countplot(x='payment_type', data=df2[df2['payment_type'] != 'not_defined'])
g.set_title("Payment Type Count Distribution", fontsize=20)
g.set_xlabel("Payment Type Name", fontsize=17)
g.set_ylabel("Count", fontsize=17)


plt.subplot(122)
g = sns.boxplot(x='payment_type', y='price_log', data=df2[df2['payment_type'] != 'not_defined'])
g.set_title("Payment Type by Price Distributions", fontsize=20)
g.set_xlabel("Payment Type Name", fontsize=17)
g.set_ylabel("Price(Log)", fontsize=17)

plt.subplots_adjust(hspace = 0.5, top = 0.8)

plt.show()


In [None]:
plt.figure(figsize=(16,12))

plt.suptitle('Distribuição dos Clientes por Estado', fontsize=22)

plt.subplot(212)
g = sns.countplot(x='customer_state', data=df2, orient='h')
g.set_title("Distribuição dos Clientes por Estado", fontsize=20)
g.set_xlabel("Estado", fontsize=17)
g.set_ylabel("Count", fontsize=17)
g.set_xticklabels(g.get_xticklabels(),rotation=45)


plt.subplot(221)
g2 = sns.boxplot(x='customer_state', y='price_log', 
                 data=df2[df2['price'] != -1])
g2.set_title("Estado do Cliente por Preço", fontsize=20)
g2.set_xlabel("Estado", fontsize=17)
g2.set_ylabel("Price(Log)", fontsize=17)
g2.set_xticklabels(g2.get_xticklabels(),rotation=45)

plt.subplot(222)
g3 = sns.boxplot(x='customer_state', y='freight_value', 
                 data=df2[df2['price'] != -1])
g3.set_title("Estado do Cliente por Valor do Frete", fontsize=20)
g3.set_xlabel("Estado", fontsize=17)
g3.set_ylabel("Frete", fontsize=17)
g3.set_xticklabels(g3.get_xticklabels(),rotation=45)

plt.subplots_adjust(hspace = 0.5, top = 0.9)

plt.show()

In [None]:
g3 = sns.boxplot(x='customer_state', y='freight_value', 
                 data=df2[df2['price'] != -1])
g3.set_title("Estado do Cliente por Valor do Frete", fontsize=20)
g3.set_xlabel("Estado", fontsize=17)
g3.set_ylabel("Frete", fontsize=17)
g3.set_xticklabels(g3.get_xticklabels(),rotation=45)

Algumas coisinhas mais complexas

In [None]:
df2.head(3)

In [None]:
def novos_clientes_por_mes(data):


    data['periodo_mensal_da_ordem_de_compra'] = data['order_purchase_timestamp'].dt.to_period('M')

    primeira_compra = data.groupby('customer_unique_id')['periodo_mensal_da_ordem_de_compra'].first()

    novos_clientes = primeira_compra.value_counts()

    return novos_clientes.sort_values().reset_index()

In [None]:
novos_clientes_por_mes(df2)

In [None]:
def new_customer_per_month(data):

    data['order_purchase_month_year'] = data['order_purchase_timestamp'].dt.to_period('M')

    first_purchase = data.groupby('customer_unique_id')['order_purchase_month_year'].first()

    new_customer = first_purchase.value_counts()

    return new_customer.sort_index().reset_index()

new_customers = new_customer_per_month(df2)

new_customers.columns = ['Month', 'New Customers']


In [None]:
new_customers

In [None]:
# Função para calcular a quantidade de novos clientes por mês
def new_customers_per_month(data):
    # Criando uma nova coluna 'order_purchase_month_year' que é o mês e o ano em que o pedido foi feito
    data['order_purchase_month_year'] = data['order_purchase_timestamp'].dt.to_period('M')

    # Agrupando por 'customer_unique_id' e 'order_purchase_month_year' e pegando a primeira ocorrência de cada grupo
    first_purchase = data.groupby('customer_unique_id')['order_purchase_month_year'].first()

    # Contando a quantidade de novos clientes por mês
    new_customers = first_purchase.value_counts().sort_index()

    return new_customers


new_customers = new_customers_per_month(df2)

new_customers_df = new_customers.reset_index()
new_customers_df.columns = ['Month', 'New Customers']

new_customers_df

In [None]:
sns.lineplot(data = new_customers, x = 'Month', y = 'New Customers')

In [None]:
new_customers.info()

In [None]:
new_customers['Month'] = pd.to_datetime(new_customers['Month'].astype(str))

In [None]:
new_customers.info()

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(data = new_customers, x = 'Month', y = 'New Customers')
plt.title('Novos Clientes por Mês');

In [None]:
def new_product_per_month(data):

    data['order_purchase_month_year'] = data['order_purchase_timestamp'].dt.to_period('M')

    apareceu_primeiravez = data.groupby('product_id')['order_purchase_month_year'].first()

    new_product = apareceu_primeiravez.value_counts().sort_index().reset_index()

    new_product.columns = ['Month', 'New Product']
    
    new_product['Month'] = pd.to_datetime(new_product['Month'].astype(str))

    return new_product

new_products = new_product_per_month(df2)



In [None]:
def gerar_grafico_de_linha(dados, eixoX, eixoY, titulo ):

    plt.figure(figsize=(12, 6))
    sns.lineplot(data = dados, x = eixoX, y = eixoY)
    plt.title(titulo);

In [None]:
gerar_grafico_de_linha(new_products, 'Month', 'New Product', 'Novos Produtos por Mês' )

In [None]:
new_products

In [None]:
# Função para calcular a quantidade de novos produtos por mês
def new_products_per_month(df):
    
    df['order_purchase_month_year'] = df['order_purchase_timestamp'].dt.to_period('M')
    # Agrupando por 'product_id' e 'order_purchase_month_year' e pegando a primeira ocorrência de cada grupo
    first_appearance = df.groupby('product_id')['order_purchase_month_year'].first()

    # Contando a quantidade de novos produtos por mês
    new_products = first_appearance.value_counts().sort_index()

    return new_products

# Chamando a função e armazenando o resultado na variável 'new_products'
new_products = new_products_per_month(df)
# Convertendo a série 'new_products' para um dataframe
new_products_df = new_products.reset_index()
new_products_df.columns = ['Month', 'New Products']



In [None]:
# Convertendo a coluna 'Month' para datetime
new_products_df['Month'] = pd.to_datetime(new_products_df['Month'].astype(str))

# Criando o gráfico
plt.figure(figsize=(12, 6))
sns.lineplot(data=new_products_df, x='Month', y='New Products')
plt.title('New Products per Month')
plt.show()

In [None]:
new_products_df

# **I/O**

In [None]:
vendas_dia

In [None]:
vendas_dia.to_excel('nova_pasta/Vendas_dia.xlsx')

In [None]:
vendas_dia.to_csv('nova_pasta/.csv', sep = ';', decimal = ',')

In [None]:
!pip install xlsxwriter

In [None]:
import xlsxwriter
from datetime import datetime

In [None]:
dia = datetime.today().strftime('%Y-%m-%d')

In [None]:
dia

In [None]:
vendas_mes.head()

In [None]:
def cria_arquivos_excel(arquivo1, nome_aba_1, arquivo2, nome_aba_2):

    dia = datetime.today().strftime('%Y-%m-%d')

    nome_arquivo = '../data/compilado/excelCompilado-' + str(dia) + '.xlsx'

    writer = pd.ExcelWriter(nome_arquivo, engine = 'xlsxwriter')

    arquivo1.to_excel(writer, sheet_name = nome_aba_1)
    arquivo2.to_excel(writer, sheet_name = nome_aba_2)

    writer.close()


In [None]:
cria_arquivos_excel(vendas_dia, 'vendas_dia', vendas_mes, 'vendas_mes')

In [None]:
def create_xlsx(vendas_dia, vendas_mes):
    
    dia = datetime.today().strftime('%Y-%m-%d')
     
    nome_arquivo ='nova_pasta/compilado-' + str(dia) + '.xlsx'
    
    writer = pd.ExcelWriter(nome_arquivo, engine = 'xlsxwriter')
    
    vendas_dia.to_excel(writer, sheet_name = 'vendas_dia')
    vendas_mes.to_excel(writer, sheet_name = 'vendas_mes')
    
    writer.close()
    

In [None]:
create_xlsx(vendas_dia, vendas_mes)

Gráficos interativos com o plotly

In [None]:
import plotly.express as px 

In [None]:
vendas_mes.columns

In [None]:
sns.lineplot(data = new_customers, x = 'Month', y = 'New Customers')

In [None]:
fig = px.line(data_frame= new_customers, x = 'Month', y = 'New Customers')
fig.show()
fig.write_html('../figuras/grafico_novos_clientes.html')

In [None]:
fig = px.histogram(vendas_dia, x='Sales_mean', color_discrete_sequence=['green']) 
  
# showing the plot
fig.show()
fig.write_html("file.html")

In [None]:
fig = px.box(vendas_dia, y="Sales_mean") 
  
# showing the plot
fig.show()

In [None]:
sns.histplot(data = df2, x = 'price_log', hue='payment_type')

In [None]:
def plot_histogram(df, x_column, hue_column, output_file, title):
    """
    Cria um histograma usando Plotly e salva o gráfico em um arquivo HTML.

    :param df: DataFrame contendo os dados
    :param x_column: Nome da coluna a ser usada para o eixo X
    :param hue_column: Nome da coluna a ser usada para colorir as barras
    :param output_file: Nome do arquivo HTML para salvar o gráfico
    """

    # Cria o gráfico
    fig = px.histogram(df, x=x_column, color=hue_column)

     # Adiciona título ao gráfico
    fig.update_layout(
        title={
            'text': title,
            'x': 0,  # Posição x do título (0 é esquerda, 1 é direita)
            'xanchor': 'left'  # Alinha o texto à esquerda
        }
    )

    fig.show()
    
    # Salva o gráfico em um arquivo HTML
    fig.write_html(output_file)

In [None]:
plot_histogram(df2, 'price_log', 'payment_type', '../figuras/histogram.html', 'Meu Histograma')

In [None]:
df2.columns

In [None]:
df2[['order_id',  'customer_unique_id', 'order_purchase_timestamp', 'product_id', 'price', 'freight_value', 'customer_state', 'product_category_name']].to_excel('../data/arquivoreduzido.xlsx')