In [None]:
!pip install pyodbc
!pip install pandas


In [None]:
import pandas as pd
import pyodbc


### <span style="color: #008000;">Aqui estão algumas das principais operações que você pode fazer com o biblioteca Pandas no Python:</span>

### <span style="color: #008000;">Criação de um DataFrame: você pode criar um DataFrame a partir de vários formatos de dados, como um dicionário, uma lista de listas, um arquivo CSV, entre outros.</span>

In [None]:



# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [32, 45, 29, 40],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Exibindo o DataFrame
print(df)


### <span style="color: #008000;">Leitura e escrita de dados: você pode ler e escrever dados em vários formatos, como CSV, Excel, JSON, entre outros.</span>

In [None]:

# Lendo um arquivo CSV
df = pd.read_csv(r'<LOCAL>\TABELA_VENDAS.csv')

# Exibindo o DataFrame
print(df)

# Escrevendo o DataFrame em um arquivo CSV
df.to_csv(r'<LOCAL>\TABELA_VENDAS22.csv', index=False)



### <span style="color: #008000;">Seleção de dados: você pode selecionar dados a partir de um DataFrame usando índices, rótulos de colunas e condições booleanas.</span>

In [None]:



# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [32, 45, 29, 40],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Exibindo a primeira linha do DataFrame
print(df.head(1))

# Selecionando uma coluna específica
print(df['Nome'])

# Selecionando múltiplas colunas
print(df[['Nome', 'Idade']])

# Selecionando linhas com base em uma condição booleana
print(df[df['Idade'] > 35])


### <span style="color: #008000;">Agrupamento de dados: você pode agrupar dados em um DataFrame com base em uma ou mais colunas.</span>

In [None]:


# Criando um dicionário de dados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana', 'João', 'Maria', 'Pedro'],
    'Idade': [32, 45, 29, 40, 36, 43, 27],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Brasília', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

# Criando um DataFrame a partir do dicionário
df = pd.DataFrame(dados)

# Agrupando dados com base na coluna "Cidade"
grouped = df.groupby(by='Cidade')

# Aplicando uma função de agregação ao grupo
result = grouped.agg({'Idade': 'mean'})

# Exibindo o resultado
print(result)



### <span style="color: #008000;">Análise estatística: você pode calcular estatísticas básicas como média, mediana, desvio padrão, entre outras.</span>

In [None]:
# Criar um DataFrame de exemplo
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, 5],
    'coluna_2': [2, 3, 4, 5, 6]
})

# Calcular a média de cada coluna
media_coluna_1 = df['coluna_1'].mean()
media_coluna_2 = df['coluna_2'].mean()

print("Média da coluna 1:", media_coluna_1)
print("Média da coluna 2:", media_coluna_2)

# Calcular a mediana de cada coluna
mediana_coluna_1 = df['coluna_1'].median()
mediana_coluna_2 = df['coluna_2'].median()

print("Mediana da coluna 1:", mediana_coluna_1)
print("Mediana da coluna 2:", mediana_coluna_2)

# Calcular o desvio padrão de cada coluna
desvio_padrao_coluna_1 = df['coluna_1'].std()
desvio_padrao_coluna_2 = df['coluna_2'].std()

print("Desvio padrão da coluna 1:", desvio_padrao_coluna_1)
print("Desvio padrão da coluna 2:", desvio_padrao_coluna_2)


### <span style="color: #008000;">Limpeza de dados: você pode limpar dados removendo valores ausentes, duplicados ou valores inconsistentes.</span>

In [None]:
# Criar um DataFrame de exemplo com valores ausentes, duplicados e inconsistentes
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, float('nan'), 6, 7, float('nan'), float('nan')],
    'coluna_2': [2, 3, 3, 5, 6, 6, 6, 7, 8]
})

# Remover valores ausentes (NaN)
df = df.dropna()

# Remover duplicados
df = df.drop_duplicates()

# Remover valores inconsistentes (por exemplo, valores fora de um intervalo específico)
df = df[df['coluna_1'] > 2]

print(df)



### <span style="color: #008000;">Transformação de dados: você pode aplicar funções aos dados de um DataFrame para transformá-los de uma forma específica.</span>

In [None]:
# Criar um DataFrame de exemplo
df = pd.DataFrame({
    'coluna_1': [1, 2, 3, 4, 5],
    'coluna_2': [2, 3, 4, 5, 6]
})

# Aplicar uma função a cada elemento de uma coluna
df['coluna_1_transformada'] = df['coluna_1'].apply(lambda x: x**2)

# Aplicar uma função a cada linha do DataFrame
df['coluna_3'] = df.apply(lambda x: x['coluna_1'] + x['coluna_2'], axis=1)

print(df)


### <span style="color: #008000;">Junção de dados: você pode juntar dois ou mais DataFrames usando diferentes tipos de junção, como interna, externa, sobrecarga, etc.</span>

In [None]:


# Criar dois DataFrames de exemplo
df1 = pd.DataFrame({
    'coluna_1': [1, 2, 3],
    'coluna_2': [2, 3, 4]
})

df2 = pd.DataFrame({
    'coluna_1': [4, 5, 6],
    'coluna_3': [7, 8, 9]
})

# Realizar uma junção interna (apenas linhas comuns entre os dois DataFrames)
df_inner = pd.merge(df1, df2, on='coluna_1', how='inner')

# Realizar uma junção externa (todas as linhas de ambos os DataFrames)
df_outer = pd.merge(df1, df2, on='coluna_1', how='outer')

print("Junção Interna:")
print(df_inner)
print("\nJunção Externa:")
print(df_outer)


## Criar um modelo de Vendas utilizando Pandas

In [None]:

# Lê o arquivo .csv
df_original = pd.read_csv('<LOCAL>\TABELA_VENDAS.csv')

# Exibir o DataFrame resultante
print(df_original)

In [None]:

# Lê o arquivo .csv
df_original = pd.read_csv(r'<LOCAL>\TABELA_VENDAS.csv', encoding="utf-8",sep=";")

# Exibir o DataFrame resultante
print(df_original.head(2))

In [None]:
df_original_Categoria = df_original.drop_duplicates(subset="Categoria")

# criar o novo dataframe com ID auto-incrementável
df_d_categoria = pd.DataFrame(columns=["sk_Categoria", "NOME_CATEGORIA"])
for index, row in df_original_Categoria.iterrows():
     df_d_categoria = df_d_categoria.append({
        "sk_Categoria": df_d_categoria.index.max() + 1 if len(df_d_categoria) > 0 else 0,
        "NOME_CATEGORIA": row["Categoria"]
    }, ignore_index=True) 

# exibir o novo dataframe
print(df_d_categoria)


In [None]:
df_original_temp = df_original[["Cidade"]].drop_duplicates(subset="Cidade")

# criar o novo dataframe com ID auto-incrementável
df_d_cidade = pd.DataFrame(columns=["id_Cidade", "NOME_CIDADE"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "id_Cidade": [current_id],
        "NOME_CIDADE": [row["Cidade"]]
    })
    df_d_cidade = pd.concat([df_d_cidade, temp_df])
    current_id += 1


# exibir o novo dataframe
print(df_d_cidade)

In [None]:
df_original_temp = df_original[["Cor"]].drop_duplicates(subset="Cor")
# criar o novo dataframe com ID auto-incrementável
df_d_cores = pd.DataFrame(columns=["sk_Cor", "NomeCor"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Cor": [current_id],
        "NomeCor": [row["Cor"]]
    })
    df_d_cores = pd.concat([df_d_cores, temp_df])
    current_id += 1


# exibir o novo dataframe
print(df_d_cores)

In [None]:
df_original_temp = df_original[["Modelo"]].drop_duplicates(subset="Modelo")

# criar o novo dataframe com ID auto-incrementável
df_d_modelo = pd.DataFrame(columns=["sk_Modelo", "Modelo"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Modelo": [current_id],
        "Modelo": [row["Modelo"]]
    })
    df_d_modelo = pd.concat([df_d_modelo, temp_df])
    current_id += 1


# exibir o novo dataframe
print(df_d_modelo)



In [None]:
df_original_temp = df_original[["Pais"]].drop_duplicates(subset="Pais")

# criar o novo dataframe com ID auto-incrementável
df_d_pais = pd.DataFrame(columns=["sk_Pais", "Pais"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Pais": [current_id],
        "Pais": [row["Pais"]]
    })
    df_d_pais = pd.concat([df_d_pais, temp_df])
    current_id += 1

# exibir o novo dataframe
print(df_d_pais)

In [None]:
df_original_temp = df_original[["Região"]].drop_duplicates(subset="Região")

# criar o novo dataframe com ID auto-incrementável
df_d_regiao = pd.DataFrame(columns=["sk_Regiao", "Regiao"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Regiao": [current_id],
        "Regiao": [row["Região"]]
    })
    df_d_regiao = pd.concat([df_d_regiao, temp_df])
    current_id += 1

# exibir o novo dataframe
print(df_d_regiao)

In [None]:
df_original_temp = df_original[["SubCategoria"]].drop_duplicates(subset="SubCategoria")

# criar o novo dataframe com ID auto-incrementável
df_d_subcategoria = pd.DataFrame(columns=["sk_SubCategoria", "SubCategoria"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_SubCategoria": [current_id],
        "SubCategoria": [row["SubCategoria"]]
    })
    df_d_subcategoria = pd.concat([df_d_subcategoria, temp_df])
    current_id += 1

# exibir o novo dataframe
print(df_d_subcategoria)


In [None]:
df_original_temp = df_original[["Tamanho"]].drop_duplicates(subset="Tamanho")

# criar o novo dataframe com ID auto-incrementável
df_d_tamanho = pd.DataFrame(columns=["sk_Medida", "Medida"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_Medida": [current_id],
        "Medida": [row["Tamanho"]]
    })
    df_d_tamanho = pd.concat([df_d_tamanho, temp_df])
    current_id += 1

# exibir o novo dataframe
print(df_d_tamanho)


In [None]:
df_original_temp = df_original[["UF"]].drop_duplicates(subset="UF")

# criar o novo dataframe com ID auto-incrementável
df_d_uf = pd.DataFrame(columns=["sk_UF", "NomeUF"])
current_id = 1
for index, row in df_original_temp.iterrows():
    temp_df = pd.DataFrame({
        "sk_UF": [current_id],
        "NomeUF": [row["UF"]]
    })
    df_d_uf = pd.concat([df_d_uf, temp_df])
    current_id += 1

# exibir o novo dataframe
print(df_d_uf)


In [None]:
df_original

In [None]:
# Junção dos data frames
result = df_original.merge(df_d_categoria, left_on='Categoria', right_on='NOME_CATEGORIA', how='left')
result = result.merge(df_d_subcategoria, left_on='SubCategoria', right_on='SubCategoria', how='left')
result = result.merge(df_d_modelo, left_on='Modelo', right_on='Modelo', how='left')
result = result.merge(df_d_cores, left_on='Cor', right_on='NomeCor', how='left')
result = result.merge(df_d_tamanho, left_on='Tamanho', right_on='Medida', how='left')
result = result.merge(df_d_pais, left_on='Pais', right_on='Pais', how='left')
result = result.merge(df_d_uf, left_on='UF', right_on='NomeUF', how='left')
result = result.merge(df_d_cidade, left_on='Cidade', right_on='NOME_CIDADE', how='left')
result = result.merge(df_d_regiao, left_on='Região', right_on='Regiao', how='left')

# Substituição de valores nulos
result['sk_Cor'] = result['sk_Cor'].fillna(999)
result['sk_Medida'] = result['sk_Medida'].fillna(999)
result['sk_Pais'] = result['sk_Pais'].fillna(999)
result.head()
df_fato_venda = result[["sk_Categoria" ,"sk_SubCategoria" , "sk_Modelo" ,"sk_Cor" ,"sk_Medida", "sk_Pais" , "sk_UF" ,"id_Cidade", "sk_Regiao" , "Data Pedido" ,"Preço Custo Unit" , "Pedidos Qtd" , "Total Venda" , "ID_VENDA"]]

df_fato_venda


  


In [None]:
df_fato_venda.to_csv(R'<LOCAL>\fato_vendas.csv', index=False)
df_d_categoria.to_csv(R'<LOCAL>\d_categoria.csv', index=False)
df_d_subcategoria.to_csv(R'<LOCAL>\d_subcategoria.csv', index=False)
df_d_modelo.to_csv(R'<LOCAL>\d_modelo.csv', index=False)
df_d_cores.to_csv(R'<LOCAL>\d_cores.csv', index=False)
df_d_tamanho.to_csv(R'<LOCAL>\d_tamanho.csv', index=False)
df_d_pais.to_csv(R'<LOCAL>\d_pais.csv', index=False)
df_d_uf.to_csv(R'<LOCAL>\d_uf.csv', index=False)
df_d_cidade.to_csv(R'<LOCAL>\d_cidade.csv', index=False)
df_d_regiao.to_csv(R'<LOCAL>\d_regiao.csv', index=False)


### Salvando o Modelo no Azure Data Lake

In [None]:
!pip install azure-storage-blob
from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

In [None]:
df_fato_venda

In [None]:
# Conectar ao Azure Storage Account
connection_string = "BlobEndpoint=https://adlstrndwe.blob.core.windows.net/;QueueEndpoint=https://adlstrndwe.queue.core.windows.net/;FileEndpoint=https://adlstrndwe.file.core.windows.net/;TableEndpoint=https://adlstrndwe.table.core.windows.net/;SharedAccessSignature=sv=2021-06-08&ss=bfqt&srt=sco&sp=rwdlacupyx&se=2023-03-10T20:07:58Z&st=2023-02-09T12:07:58Z&spr=https&sig=LiAj7Zbczlsj3ZzEme5cSVAKWW3d1GQn5xyijMIoZhc%3D"
container_name = "dwe"
blob_name = R"Local\fato_vendas.csv"
blob_destino = R"Bronze\modelo_vendas\fato_vendas\fato_vendas.csv"

blob_service_client = BlobServiceClient.from_connection_string(connection_string)
container_client = blob_service_client.get_container_client(container_name)
blob_client = container_client.get_blob_client(blob_destino)


# Enviar o arquivo CSV para o Azure Storage Account
with open(blob_name, "rb") as data:
    blob_client.upload_blob(data)

# Excluir o arquivo local
#import os
#os.remove(blob_name)


### Lendo do SQL Server e gravando em um Data Frame