In [None]:
#!pip install pyodbc
#!pip install pandas


In [None]:
import pandas as pd
import pyodbc


### <span style="color: #008000;">Aqui estão algumas das principais operações que você pode fazer com o biblioteca Pandas no Python:</span>

### <span style="color: #008000;">Criação de um DataFrame: você pode criar um DataFrame a partir de vários formatos de dados, como um dicionário, uma lista de listas, um arquivo CSV, entre outros.</span>

In [None]:



# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [32, 45, 29, 40],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Exibindo o DataFrame
print(df)


### <span style="color: #008000;">Leitura e escrita de dados: você pode ler e escrever dados em vários formatos, como CSV, Excel, JSON, entre outros.</span>

In [None]:

# Lendo um arquivo CSV
df = pd.read_csv(r'datasets\TABELA_VENDAS.csv')

df

In [None]:
# Escrevendo o DataFrame em um arquivo CSV
df.to_csv(r'datasets\TABELA_VENDAS_salva.csv', index=False)


### <span style="color: #008000;">Seleção de dados: você pode selecionar dados a partir de um DataFrame usando índices, rótulos de colunas e condições booleanas.</span>

In [9]:



# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [32, 45, 29, 40],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Exibindo a primeira linha do DataFrame
print(df.head(1))

# Selecionando uma coluna específica
print(df['Nome'])

# Selecionando múltiplas colunas
print(df[['Nome', 'Idade']])

# Selecionando linhas com base em uma condição booleana
print(df[df['Idade'] > 35])


   Nome  Idade     Cidade
0  João     32  São Paulo
0     João
1    Maria
2    Pedro
3      Ana
Name: Nome, dtype: object
    Nome  Idade
0   João     32
1  Maria     45
2  Pedro     29
3    Ana     40
    Nome  Idade          Cidade
1  Maria     45  Rio de Janeiro
3    Ana     40        Brasília


### <span style="color: #008000;">Agrupamento de dados: você pode agrupar dados em um DataFrame com base em uma ou mais colunas.</span>

In [10]:


# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana', 'João', 'Maria', 'Pedro'],
    'Idade': [32, 45, 29, 40, 36, 43, 27],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Agrupando dados com base na coluna "Cidade"
grouped = df.groupby(by='Cidade')

# Aplicando uma função de agregação ao grupo
result = grouped.agg({'Idade': 'mean'})

# Exibindo o resultado
print(result)



                Idade
Cidade               
Belo Horizonte   28.0
Brasília         40.0
Rio de Janeiro   44.0
São Paulo        34.0


### <span style="color: #008000;">Análise estatística: você pode calcular estatísticas básicas como média, mediana, desvio padrão, entre outras.</span>

In [11]:
# Criar um DataFrame de exemplo
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, 5],
    'coluna_2': [2, 3, 4, 5, 6]
})

# Calcular a média de cada coluna
media_coluna_1 = df['coluna_1'].mean()
media_coluna_2 = df['coluna_2'].mean()

print("Média da coluna 1:", media_coluna_1)
print("Média da coluna 2:", media_coluna_2)

# Calcular a mediana de cada coluna
mediana_coluna_1 = df['coluna_1'].median()
mediana_coluna_2 = df['coluna_2'].median()

print("Mediana da coluna 1:", mediana_coluna_1)
print("Mediana da coluna 2:", mediana_coluna_2)

# Calcular o desvio padrão de cada coluna
desvio_padrao_coluna_1 = df['coluna_1'].std()
desvio_padrao_coluna_2 = df['coluna_2'].std()

print("Desvio padrão da coluna 1:", desvio_padrao_coluna_1)
print("Desvio padrão da coluna 2:", desvio_padrao_coluna_2)


Média da coluna 1: 3.0
Média da coluna 2: 4.0
Mediana da coluna 1: 3.0
Mediana da coluna 2: 4.0
Desvio padrão da coluna 1: 1.5811388300841898
Desvio padrão da coluna 2: 1.5811388300841898


### <span style="color: #008000;">Limpeza de dados: você pode limpar dados removendo valores ausentes, duplicados ou valores inconsistentes.</span>

In [12]:
# Criar um DataFrame de exemplo com valores ausentes, duplicados e inconsistentes
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, float('nan'), 6, 7, float('nan'), float('nan')],
    'coluna_2': [2, 3, 3, 5, 6, 6, 6, 7, 8]
})

# Remover valores ausentes (NaN)
df = df.dropna()

# Remover duplicados
df = df.drop_duplicates()

# Remover valores inconsistentes (por exemplo, valores fora de um intervalo específico)
df = df[df['coluna_1'] > 2]

print(df)



   coluna_1  coluna_2
2       3.0         3
3       4.0         5
5       6.0         6
6       7.0         6


### <span style="color: #008000;">Transformação de dados: você pode aplicar funções aos dados de um DataFrame para transformá-los de uma forma específica.</span>

In [13]:
# Criar um DataFrame de exemplo
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, 5],
    'coluna_2': [2, 3, 4, 5, 6]
})

# Aplicar uma função a cada elemento de uma coluna
df['coluna_1_transformada'] = df['coluna_1'].apply(lambda x: x**2)

# Aplicar uma função a cada linha do DataFrame
df['coluna_3'] = df.apply(lambda x: x['coluna_1'] + x['coluna_2'], axis=1)

print(df)


   coluna_1  coluna_2  coluna_1_transformada  coluna_3
0         1         2                      1         3
1         2         3                      4         5
2         3         4                      9         7
3         4         5                     16         9
4         5         6                     25        11


### <span style="color: #008000;">Junção de dados: você pode juntar dois ou mais DataFrames usando diferentes tipos de junção, como interna, externa, sobrecarga, etc.</span>

In [14]:


# Criar dois DataFrames de exemplo
df1 = pd.DataFrame({
    'coluna_1': [1, 2, 3],
    'coluna_2': [2, 3, 4]
})

df2 = pd.DataFrame({
    'coluna_1': [4, 5, 6],
    'coluna_3': [7, 8, 9]
})

# Realizar uma junção interna (apenas linhas comuns entre os dois DataFrames)
df_inner = pd.merge(df1, df2, on='coluna_1', how='inner')

# Realizar uma junção externa (todas as linhas de ambos os DataFrames)
df_outer = pd.merge(df1, df2, on='coluna_1', how='outer')

print("Junção Interna:")
print(df_inner)
print("\nJunção Externa:")
print(df_outer)


Junção Interna:
Empty DataFrame
Columns: [coluna_1, coluna_2, coluna_3]
Index: []

Junção Externa:
   coluna_1  coluna_2  coluna_3
0         1       2.0       NaN
1         2       3.0       NaN
2         3       4.0       NaN
3         4       NaN       7.0
4         5       NaN       8.0
5         6       NaN       9.0


## Criar um modelo de Vendas utilizando Pandas

In [17]:

# Lê o arquivo .csv
df_original = pd.read_csv('datasets\TABELA_VENDAS.csv')

# Exibir o DataFrame resultante
df_original.head(2)

Unnamed: 0,Categoria,SubCategoria,Modelo,Cor,Tamanho,Preço Custo Unit,Data Pedido,Pais,Estado,UF,Cidade,Região,Pedidos Qtd,Total Venda,ID_VENDA
0,Bicicletas,Bicicletas de montanha,Mountain-100,Prata,48,191215,01/07/2017,Brasil,Paraíba,PB,Passagem,Nordeste,2,679998,1
1,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,62,217129,01/07/2017,Brasil,Minas Gerais,MG,Córrego Fundo,Sudeste,1,357827,2


In [23]:
df_original_Categoria = df_original.drop_duplicates(subset="Categoria")

# criar o novo dataframe com ID auto-incrementável
df_d_categoria = pd.DataFrame(columns=["sk_Categoria", "NOME_CATEGORIA"])
for index, row in df_original_Categoria.iterrows():
    
    df_insert = pd.DataFrame({
        "sk_Categoria": df_d_categoria.index.max() + 1 if len(df_d_categoria) > 0 else 0,
        "NOME_CATEGORIA": row["Categoria"]
    }, index=[0])
    
    df_d_categoria = pd.concat([df_d_categoria, df_insert], ignore_index=True) 

# exibir o novo dataframe
df_d_categoria.head(5)


Unnamed: 0,sk_Categoria,NOME_CATEGORIA
0,0,Bicicletas
1,1,Acessórios
2,2,Roupas
3,3,Componentes


In [26]:
df_original_temp = df_original[["Cidade"]].drop_duplicates(subset="Cidade")

# criar o novo dataframe com ID auto-incrementável
df_d_cidade = pd.DataFrame(columns=["id_Cidade", "NOME_CIDADE"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "id_Cidade": [current_id],
        "NOME_CIDADE": [row["Cidade"]]
    })
    df_d_cidade = pd.concat([df_d_cidade, temp_df], ignore_index=True)
    current_id += 1


# exibir o novo dataframe
df_d_cidade.head(5)

Unnamed: 0,id_Cidade,NOME_CIDADE
0,1,Passagem
1,2,Córrego Fundo
2,3,Quebrangulo
3,4,Varjota
4,5,Jucurutu


In [27]:
df_original_temp = df_original[["Cor"]].drop_duplicates(subset="Cor")
# criar o novo dataframe com ID auto-incrementável
df_d_cores = pd.DataFrame(columns=["sk_Cor", "NomeCor"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Cor": [current_id],
        "NomeCor": [row["Cor"]]
    })
    df_d_cores = pd.concat([df_d_cores, temp_df], ignore_index=True)
    current_id += 1


# exibir o novo dataframe
print(df_d_cores)

  sk_Cor      NomeCor
0      1        Prata
1      2     Vermelho
2      3        Preto
3      4      Amarela
4      5          NaN
5      6         Azul
6      7       Branca
7      8        Multi
8      9  Prata/Preto


In [29]:
df_original_temp = df_original[["Modelo"]].drop_duplicates(subset="Modelo")

# criar o novo dataframe com ID auto-incrementável
df_d_modelo = pd.DataFrame(columns=["sk_Modelo", "Modelo"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Modelo": [current_id],
        "Modelo": [row["Modelo"]]
    })
    df_d_modelo = pd.concat([df_d_modelo, temp_df], ignore_index=True)
    current_id += 1


# exibir o novo dataframe
df_d_modelo.head(5)



Unnamed: 0,sk_Modelo,Modelo
0,1,Mountain-100
1,2,Road-150
2,3,Road-650
3,4,Mountain-200
4,5,Road-250


In [30]:
df_original_temp = df_original[["Pais"]].drop_duplicates(subset="Pais")

# criar o novo dataframe com ID auto-incrementável
df_d_pais = pd.DataFrame(columns=["sk_Pais", "Pais"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Pais": [current_id],
        "Pais": [row["Pais"]]
    })
    df_d_pais = pd.concat([df_d_pais, temp_df], ignore_index=True)
    current_id += 1

# exibir o novo dataframe
df_d_pais.head(5)

Unnamed: 0,sk_Pais,Pais
0,1,Brasil


In [31]:
df_original_temp = df_original[["Região"]].drop_duplicates(subset="Região")

# criar o novo dataframe com ID auto-incrementável
df_d_regiao = pd.DataFrame(columns=["sk_Regiao", "Regiao"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Regiao": [current_id],
        "Regiao": [row["Região"]]
    })
    df_d_regiao = pd.concat([df_d_regiao, temp_df], ignore_index=True)
    current_id += 1

# exibir o novo dataframe
print(df_d_regiao)

  sk_Regiao        Regiao
0         1      Nordeste
1         2       Sudeste
2         3         Norte
3         4  Centro-Oeste
4         5           Sul


In [33]:
df_original_temp = df_original[["SubCategoria"]].drop_duplicates(subset="SubCategoria")

# criar o novo dataframe com ID auto-incrementável
df_d_subcategoria = pd.DataFrame(columns=["sk_SubCategoria", "SubCategoria"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_SubCategoria": [current_id],
        "SubCategoria": [row["SubCategoria"]]
    })
    df_d_subcategoria = pd.concat([df_d_subcategoria, temp_df], ignore_index=True)
    current_id += 1

# exibir o novo dataframe
df_d_subcategoria.head(5)


Unnamed: 0,sk_SubCategoria,SubCategoria
0,1,Bicicletas de montanha
1,2,Bicicletas de estrada
2,3,Bicicletários
3,4,Garrafas e Gaiolas
4,5,Pneus e Tubos


In [34]:
df_original_temp = df_original[["Tamanho"]].drop_duplicates(subset="Tamanho")

# criar o novo dataframe com ID auto-incrementável
df_d_tamanho = pd.DataFrame(columns=["sk_Medida", "Medida"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Medida": [current_id],
        "Medida": [row["Tamanho"]]
    })
    df_d_tamanho = pd.concat([df_d_tamanho, temp_df], ignore_index=True)
    current_id += 1

# exibir o novo dataframe
df_d_tamanho.head(5)


Unnamed: 0,sk_Medida,Medida
0,1,48
1,2,62
2,3,52
3,4,38
4,5,56


In [35]:
df_original_temp = df_original[["UF"]].drop_duplicates(subset="UF")

# criar o novo dataframe com ID auto-incrementável
df_d_uf = pd.DataFrame(columns=["sk_UF", "NomeUF"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_UF": [current_id],
        "NomeUF": [row["UF"]]
    })
    df_d_uf = pd.concat([df_d_uf, temp_df], ignore_index=True)
    current_id += 1

# exibir o novo dataframe
df_d_uf.head(5)


Unnamed: 0,sk_UF,NomeUF
0,1,PB
1,2,MG
2,3,AL
3,4,CE
4,5,RN


In [36]:
df_original

Unnamed: 0,Categoria,SubCategoria,Modelo,Cor,Tamanho,Preço Custo Unit,Data Pedido,Pais,Estado,UF,Cidade,Região,Pedidos Qtd,Total Venda,ID_VENDA
0,Bicicletas,Bicicletas de montanha,Mountain-100,Prata,48,191215,01/07/2017,Brasil,Paraíba,PB,Passagem,Nordeste,2,679998,1
1,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,62,217129,01/07/2017,Brasil,Minas Gerais,MG,Córrego Fundo,Sudeste,1,357827,2
2,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,52,217129,01/07/2017,Brasil,Alagoas,AL,Quebrangulo,Nordeste,2,715654,3
3,Bicicletas,Bicicletas de montanha,Mountain-100,Preto,38,189809,01/07/2017,Brasil,Ceará,CE,Varjota,Nordeste,1,337499,4
4,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,48,217129,01/08/2017,Brasil,Rio Grande do Norte,RN,Jucurutu,Nordeste,1,357827,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11979,Roupas,Camisolas,Long-Sleeve Logo Jersey,Multi,Extra Grande,3849,01/07/2020,Brasil,Maranhão,MA,Matinha,Nordeste,1,4999,11980
11980,Roupas,Camisolas,Short-Sleeve Classic Jersey,Amarela,Grande,4157,01/07/2020,Brasil,Pará,PA,Augusto Corrêa,Norte,1,5399,11981
11981,Roupas,Camisolas,Short-Sleeve Classic Jersey,Amarela,Extra Grande,4157,01/07/2020,Brasil,Mato Grosso do Sul,MS,Deodápolis,Centro-Oeste,1,5399,11982
11982,Roupas,Calção,Women's Mountain Shorts,Preto,Médio,2618,01/07/2020,Brasil,Mato Grosso,MT,Carlinda,Centro-Oeste,1,6999,11983


In [43]:
# Junção dos data frames

result = df_original

result = result.merge(df_d_categoria, left_on='Categoria', right_on='NOME_CATEGORIA', how='left')
result = result.merge(df_d_subcategoria, left_on='SubCategoria', right_on='SubCategoria', how='left')
result = result.merge(df_d_modelo, left_on='Modelo', right_on='Modelo', how='left')
result = result.merge(df_d_cores, left_on='Cor', right_on='NomeCor', how='left')
result = result.merge(df_d_tamanho, left_on='Tamanho', right_on='Medida', how='left')
result = result.merge(df_d_pais, left_on='Pais', right_on='Pais', how='left')
result = result.merge(df_d_uf, left_on='UF', right_on='NomeUF', how='left')
result = result.merge(df_d_cidade, left_on='Cidade', right_on='NOME_CIDADE', how='left')
result = result.merge(df_d_regiao, left_on='Região', right_on='Regiao', how='left')

# Substituição de valores nulos
result['sk_Cor'] = result['sk_Cor'].fillna(999)
result['sk_Medida'] = result['sk_Medida'].fillna(999)
result['sk_Pais'] = result['sk_Pais'].fillna(999)
df_fato_venda = result[["sk_Categoria" ,"sk_SubCategoria" , "sk_Modelo" ,"sk_Cor" ,"sk_Medida", "sk_Pais" , "sk_UF" ,"id_Cidade", "sk_Regiao" , "Data Pedido" ,"Preço Custo Unit" , "Pedidos Qtd" , "Total Venda" , "ID_VENDA"]]

df_fato_venda.head(5)


  


Unnamed: 0,sk_Categoria,sk_SubCategoria,sk_Modelo,sk_Cor,sk_Medida,sk_Pais,sk_UF,id_Cidade,sk_Regiao,Data Pedido,Preço Custo Unit,Pedidos Qtd,Total Venda,ID_VENDA
0,0,1,1,1,1,1,1,1,1,01/07/2017,191215,2,679998,1
1,0,2,2,2,2,1,2,2,2,01/07/2017,217129,1,357827,2
2,0,2,2,2,3,1,3,3,1,01/07/2017,217129,2,715654,3
3,0,1,1,3,4,1,4,4,1,01/07/2017,189809,1,337499,4
4,0,2,2,2,1,1,5,5,1,01/08/2017,217129,1,357827,5


In [41]:
df_fato_venda.to_csv(R'datasets\vendas_modelo\fato_vendas.csv', index=False)
df_d_categoria.to_csv(R'datasets\vendas_modelo\d_categoria.csv', index=False)
df_d_subcategoria.to_csv(R'datasets\vendas_modelo\d_subcategoria.csv', index=False)
df_d_modelo.to_csv(R'datasets\vendas_modelo\d_modelo.csv', index=False)
df_d_cores.to_csv(R'datasets\vendas_modelo\d_cores.csv', index=False)
df_d_tamanho.to_csv(R'datasets\vendas_modelo\d_tamanho.csv', index=False)
df_d_pais.to_csv(R'datasets\vendas_modelo\d_pais.csv', index=False)
df_d_uf.to_csv(R'datasets\vendas_modelo\d_uf.csv', index=False)
df_d_cidade.to_csv(R'datasets\vendas_modelo\d_cidade.csv', index=False)
df_d_regiao.to_csv(R'datasets\vendas_modelo\d_regiao.csv', index=False)


### Salvando o Modelo no Azure Data Lake

In [None]:
!pip install azure-storage-blob
from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

In [None]:
df_fato_venda

In [None]:
# Conectar ao Azure Storage Account
connection_string = "BlobEndpoint=https://adlstrndwe.blob.core.windows.net/;QueueEndpoint=https://adlstrndwe.queue.core.windows.net/;FileEndpoint=https://adlstrndwe.file.core.windows.net/;TableEndpoint=https://adlstrndwe.table.core.windows.net/;SharedAccessSignature=sv=2021-06-08&ss=bfqt&srt=sco&sp=rwdlacupyx&se=2023-03-10T20:07:58Z&st=2023-02-09T12:07:58Z&spr=https&sig=LiAj7Zbczlsj3ZzEme5cSVAKWW3d1GQn5xyijMIoZhc%3D"
container_name = "dwe"
blob_name = R"Local\fato_vendas.csv"
blob_destino = R"Bronze\modelo_vendas\fato_vendas\fato_vendas.csv"

blob_service_client = BlobServiceClient.from_connection_string(connection_string)
container_client = blob_service_client.get_container_client(container_name)
blob_client = container_client.get_blob_client(blob_destino)


# Enviar o arquivo CSV para o Azure Storage Account
with open(blob_name, "rb") as data:
    blob_client.upload_blob(data)

# Excluir o arquivo local
#import os
#os.remove(blob_name)


### Lendo do SQL Server e gravando em um Data Frame