# Case de Engenharia de Dados

A EloGroup foi contratada para auxiliar a empresa Cabeções S.A a fazer um estudo de mercado para aprofundar o entendimento da atuação de algumas empresas no mundo. O desafio, utilizando os dados disponíveis, é entender as medições de gás, qual fabricante e qual segmento das empresas mais consomem, ajudando os gestores a responder questões estratégicas como: 

- Quais fabricantes tiveram maior leitura no período 01/09/2020 a 30/12/2020? 

- Qual medidor de gás teve maior consumo no ano de 2020? 

- Qual segmento de mercado teve a menor leitura em 2020? 

- Quantidade de medições que não tiveram leitura realizada.  

***Instalação das bibliotecas usadas no projeto:***

In [None]:
!pip install pandas
!pip install psycopg2
!pip install SQLAlchemy

***Importação das bibliotecas***

In [None]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

***Leitura das tabelas.***

In [None]:
# Armazenar os caminhos dos arquivos XLSX em variáveis
medidor = '#'
segmento_mercado = '#'
leitura = '#'

# Ler os arquivos XLSX em um DataFrame
df_medidor = pd.read_excel(medidor)
df_segmento_mercado = pd.read_excel(segmento_mercado)
df_leitura = pd.read_excel(leitura)

In [None]:
display(df_segmento_mercado)

***Conexão com o Banco de Dados***

In [None]:
# Configurar a conexão com o banco de dados PostgreSQL
conexao = psycopg2.connect(
    host='#',
    port='#',
    dbname='#',
    user='#',
    password='#'
)

***Criação das tabelas***

In [None]:
# Criar a tabela no banco de dados
tabela_segmento = 'dim_segmento_mercado'
tabela_medidor = 'dim_medidor'
tabela_leitura = 'ft_leitura'

comando_create_table1 = """
CREATE TABLE IF NOT EXISTS {tabela} (
    SK_SEGMENTO_MERCADO bigint PRIMARY KEY NOT NULL,
    CD_SEGMENTO_MERCADO varchar(50)  NOT NULL,
    DS_SEGMENTO_MERCADO varchar(256) NOT NULL
);
""".format(tabela=tabela_segmento)

cursor = conexao.cursor()
cursor.execute(comando_create_table1)
conexao.commit()

comando_create_table2 = """
CREATE TABLE IF NOT EXISTS {tabela}(
    SK_MEDIDOR bigint PRIMARY KEY NOT NULL,
    CD_MEDIDOR varchar(18)  NOT NULL,
    DS_FABRICANTE varchar(30),
    DS_MEDIDOR varchar(255),
    NR_SERIE_MEDIDOR varchar(18)
); 
""".format(tabela=tabela_medidor)

cursor.execute(comando_create_table2)
conexao.commit()

comando_create_table3 = """
CREATE TABLE IF NOT EXISTS {tabela}(
    CD_DOCUMENTO_LEITURA varchar (20) PRIMARY KEY NOT NULL,
    SK_SEGMENTO_MERCADO bigint NOT NULL,
    SK_INSTALACAO bigint NOT NULL,
    SK_MEDIDOR bigint NOT NULL,
    SK_MOTIVO_LEITURA bigint NOT NULL,
    SK_NOTA_LEITURISTA bigint,
    SK_STATUS_LEITURA varchar(1) NOT NULL,
	CD_MEDIDOR varchar(20),
    CD_MOTIVO_LEITURA varchar(2),
    CD_ADICIONADO_POR varchar(12),
    CD_MODIFICADO_POR varchar(12), 
	CD_STATUS_LEITURA varchar(1),
    CD_REGISTRADOR varchar(3) NOT NULL,
    VL_LEITURA_ATUAL decimal(38,18),
    VL_LEITURA_ANTERIOR decimal(38,18),
    VL_LEITURA_PERIODO_ANTERIOR decimal(38,18),
    QT_CONTADOR smallint,
    DT_LEITURA date,
    DT_LEITURA_PREVISTA date,
    DT_MODIFICACAO date 
    
); 
""".format(tabela=tabela_leitura)

cursor.execute(comando_create_table3)
conexao.commit()


***Transformação dos Dados***

- Foi necessário alterar os tipos de alguns dados presentes nas tabelas.

In [None]:
# Converter a coluna cd_segmento_mercado para strings
df_segmento_mercado['CD_SEGMENTO_MERCADO'] = df_segmento_mercado['CD_SEGMENTO_MERCADO'].astype(str)

# Conveter as colunas de dim_medidor em strings
df_medidor['CD_MEDIDOR'] = df_medidor['CD_MEDIDOR'].astype(str)
df_medidor['NR_SERIE_MEDIDOR'] = df_medidor['NR_SERIE_MEDIDOR'].astype(str)
df_medidor['CD_LOCAL_INSTALACAO'] = df_medidor['CD_LOCAL_INSTALACAO'].astype(str)
df_medidor['DS_FABRICANTE'] = df_medidor['DS_FABRICANTE'].astype(str)
df_medidor['DS_MEDIDOR'] = df_medidor['DS_MEDIDOR'].astype(str)

# Converter as colunas de ft_leitura em strings
df_leitura['CD_DOCUMENTO_LEITURA'] = df_leitura['CD_DOCUMENTO_LEITURA'].astype(str)
df_leitura['CD_MEDIDOR'] = df_leitura['CD_MEDIDOR'].astype(str) 
df_leitura['CD_MOTIVO_LEITURA'] = df_leitura['CD_MOTIVO_LEITURA'].astype(str)
df_leitura['CD_STATUS_LEITURA'] = df_leitura['CD_STATUS_LEITURA'].astype(str)


# Tratar valores vazios (NaN) nas colunas do DataFrame df_leitura
df_leitura = df_leitura.replace("NULL", None) 

#Transformando a coluna no tipo float..
df_leitura['VL_LEITURA_ANTERIOR'] = df_leitura['VL_LEITURA_ANTERIOR'].astype(float)

In [None]:
# Aplicar divisão por 10^18 em todos os valores da coluna vl_leitura_atual
df_leitura['VL_LEITURA_ATUAL'] = df_leitura['VL_LEITURA_ATUAL'].div(10 ** 18)

In [None]:
# Aplicar divisão por 10^18 em todos os valores da coluna vl_leitura_anterior
df_leitura['VL_LEITURA_ANTERIOR'] = df_leitura['VL_LEITURA_ANTERIOR'].div(10 ** 18)

In [None]:
# Tratar valores vazios (NaN) nas colunas do DataFrame df_medidor
df_medidor = df_medidor.replace("nan", None)

***Criação da engine***

In [None]:
engine = create_engine('postgresql+psycopg2://user:password@host:port/dbname')
df_segmento_mercado.to_sql(tabela_segmento, engine, if_exists='replace', index=False)
df_medidor.to_sql(tabela_medidor, engine, if_exists='replace', index=False)
df_leitura.to_sql(tabela_leitura, engine, if_exists='replace', index=False)

***Encerrando conexão com o banco de dados***


In [None]:
# Fechar a conexão com o banco de dados
conexao.close()