In [107]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [108]:
import pandas as pd
import unicodedata
import numpy as np

## Extração dos dados

In [127]:


#Criando um dicionário com todos os caminhos dos arquivos. Isso vai ser bom porque utilizarei as chaves para criar uma coluna de "Ano"
arquivos = {
    '2022': 'data/156_2022.csv',#utilizamos a base de 2022 pois a de 2023 estava dando erro na hora de juntar as tabelas, todas as colunas estavam ficando juntas em apenas umna
    '2024': 'data/156_2024.csv',
    '2025': 'data/156_2025.csv'
}

lista_dataframes = [] #Para armazenar todos os dataframes

for ano, arquivo in arquivos.items():
    try:
        if ano == '2022':
            df = pd.read_csv(arquivo,sep=';',encoding='utf-8') # O arquivo do ano de 2022 esta em "UTF-8" se se usassemos "latin1" os caracteres "Ç" "~" iriam ficar errados
        else:
            df = pd.read_csv(arquivo,sep=';',encoding='latin1')
        
        df['_id'] = range(1, len(df) + 1) #Criação do campo id pois os arquivos csv vieram sem

        cols = ['_id'] + [c for c in df.columns if c != '_id']
        df = df[cols]
        
        df['ano_origem'] = ano #criando uma nova coluna para salvar o ano dos chamados

        lista_dataframes.append(df)
    except Exception as e:
        print(f"Erro ao ler os dados do ano {ano}: {e}")


df = pd.concat(lista_dataframes, ignore_index=True)


## Transformação dos Dados


In [128]:
#Verificando o resultado final e as informações sobre os tipos de dados
display(df.head(5))
display(df.info())

Unnamed: 0,_id,GRUPOSERVICO_CODIGO,GRUPOSERVICO_DESCRICAO,SERVICO_CODIGO,SERVICO_DESCRICAO,LOGRADOURO,NUMERO,BAIRRO,RPA,DATA_DEMANDA,SITUACAO,DATA_ULT_SITUACAO,latitude,longitude,ano_origem
0,1,10,DENUNCIAS,700,DENUNCIA ARBOVIROSE ...,10t prazeres,,AREIAS,5,2022-06-20,PREPARAÇÃO,2022-09-22,-8.0981629,-34.9249594,2022
1,2,7,ARBORIZAÇÃO,16,VISTORIA DE ARVORES ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-07-27,ATENDIDA,2022-09-08,-8.0028869,-34.9274109,2022
2,3,7,ARBORIZAÇÃO,16,VISTORIA DE ARVORES ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-10-16,PREPARAÇÃO,2022-10-17,-8.0028869,-34.9274109,2022
3,4,12,ESCADARIA,57,RECUP. DE ESCADARIA ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-02-16,CADASTRADA,2022-02-16,-8.0028869,-34.9274109,2022
4,5,12,ESCADARIA,57,RECUP. DE ESCADARIA ...,1sb do sargento,,NOVA DESCOBERTA,3,2022-06-02,CADASTRADA,2022-06-02,,,2022


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 291681 entries, 0 to 291680
Data columns (total 15 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   _id                     291681 non-null  int64 
 1   GRUPOSERVICO_CODIGO     291681 non-null  int64 
 2   GRUPOSERVICO_DESCRICAO  291681 non-null  object
 3   SERVICO_CODIGO          291681 non-null  int64 
 4   SERVICO_DESCRICAO       291681 non-null  object
 5   LOGRADOURO              291681 non-null  object
 6   NUMERO                  291681 non-null  object
 7   BAIRRO                  291681 non-null  object
 8   RPA                     291681 non-null  int64 
 9   DATA_DEMANDA            291681 non-null  object
 10  SITUACAO                291681 non-null  object
 11  DATA_ULT_SITUACAO       291681 non-null  object
 12  latitude                140737 non-null  object
 13  longitude               140737 non-null  object
 14  ano_origem              291681 non-n

None

### Padronizando a Escritas das Tabelas

- Em algumas tabelas alguns nomes apresentavam acentos e 'ç' ja em outras não por isso optamos por alterar a tabela de 2022 que continha esses caracteres e substituilos.
- Algumas colunas vieram preenchidas com letras minuscula

In [129]:
colunas_de_texto = df.select_dtypes(include=['object']).columns
for col in colunas_de_texto:
    df[col] = df[col].apply(
        lambda x: unicodedata.normalize('NFKD', str(x)).encode('ascii', 'ignore').decode('utf-8').strip() 
        if pd.notna(x) else x)
    df[col] = df[col].str.upper()
df.columns = df.columns.str.lower()
    

In [130]:
#Verificando o resultado final e as informações sobre os tipos de dados
display(df.head(5))
display(df.info())

Unnamed: 0,_id,gruposervico_codigo,gruposervico_descricao,servico_codigo,servico_descricao,logradouro,numero,bairro,rpa,data_demanda,situacao,data_ult_situacao,latitude,longitude,ano_origem
0,1,10,DENUNCIAS,700,DENUNCIA ARBOVIROSE,10T PRAZERES,,AREIAS,5,2022-06-20,PREPARACAO,2022-09-22,-8.0981629,-34.9249594,2022
1,2,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-07-27,ATENDIDA,2022-09-08,-8.0028869,-34.9274109,2022
2,3,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-10-16,PREPARACAO,2022-10-17,-8.0028869,-34.9274109,2022
3,4,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-02-16,CADASTRADA,2022-02-16,-8.0028869,-34.9274109,2022
4,5,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB DO SARGENTO,,NOVA DESCOBERTA,3,2022-06-02,CADASTRADA,2022-06-02,,,2022


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 291681 entries, 0 to 291680
Data columns (total 15 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   _id                     291681 non-null  int64 
 1   gruposervico_codigo     291681 non-null  int64 
 2   gruposervico_descricao  291681 non-null  object
 3   servico_codigo          291681 non-null  int64 
 4   servico_descricao       291681 non-null  object
 5   logradouro              291681 non-null  object
 6   numero                  291681 non-null  object
 7   bairro                  291681 non-null  object
 8   rpa                     291681 non-null  int64 
 9   data_demanda            291681 non-null  object
 10  situacao                291681 non-null  object
 11  data_ult_situacao       291681 non-null  object
 12  latitude                140737 non-null  object
 13  longitude               140737 non-null  object
 14  ano_origem              291681 non-n

None

### Verificando valores únicos nas colunas

In [131]:
df.nunique(dropna=False)

_id                       108082
gruposervico_codigo           33
gruposervico_descricao        26
servico_codigo               176
servico_descricao            129
logradouro                 11209
numero                      8789
bairro                        99
rpa                            6
data_demanda                3469
situacao                       7
data_ult_situacao           1007
latitude                   68175
longitude                  64337
ano_origem                     3
dtype: int64

### Verificando a quantidade de Valores vazios por coluna

In [132]:
# Contando strings vazias nas colunas object
string_vazia_count = (df.select_dtypes(include=['object']) == '').sum()
print("Contagem de Strings Vazias por Coluna (''):")
print(string_vazia_count)

Contagem de Strings Vazias por Coluna (''):
gruposervico_descricao        0
servico_descricao             0
logradouro                    0
numero                    11197
bairro                        0
data_demanda                  0
situacao                      0
data_ult_situacao             0
latitude                  19863
longitude                 19863
ano_origem                    0
dtype: int64


- Número: 11.197 valores ausentes. Isso é comum em dados de logradouros, onde nem todos os chamados possuem um número específico de porta.
- Latitude e Longitude contem a mesma quantidade de linhas vazias indicando que são chamados onde a localização geográfica não está disponível para registro.

#### Verificando os valores presentes na coluna "NUMERO"

In [133]:
print("Top 10 valores mais frequentes na coluna 'NUMERO':")
print(df['numero'].value_counts().head(10))

Top 10 valores mais frequentes na coluna 'NUMERO':
numero
SN     41037
00     27733
S/N    27666
       11197
0       4178
625     2597
000     1659
100     1301
23      1176
10      1117
Name: count, dtype: int64


#### Alterando os valores vazios de "numero", "latitute" e "longitude".

**Na coluna "NUMERO":** 
- valores como '0', '00', ... passamos para '0'.
- valores como '' e 'SN' transformamos em 'S/N'

**Na coluna "LATITUDE" e "LOGITUDE":**
- valores '' foram transformados em 'INDETERMINADO'
  

In [134]:
padronizacao_numero = {
    '': 'S/N',
    'SN': 'S/N',

    '0000': '0',
    '000':'0',
    '00': '0',
    '0':'0'
}
df['numero'] = df['numero'].replace(padronizacao_numero)


df['latitude'] = df['latitude'].replace('', 'INDETERMINADO')
df['longitude'] = df['longitude'].replace('', 'INDETERMINADO')

print("Valores únicos e contagem após preenchimento:")
print("\nNUMERO (Top 5):")
print(df['numero'].value_counts().head())

print("\nlatitude (Top 5):")
print(df['latitude'].value_counts().head())

print("\nlongitude (Top 5):")
print(df['longitude'].value_counts().head())

Valores únicos e contagem após preenchimento:

NUMERO (Top 5):
numero
S/N    79900
0      33895
625     2597
100     1301
23      1176
Name: count, dtype: int64

latitude (Top 5):
latitude
INDETERMINADO    19863
-8.0652743         260
-8.0531498         220
-8.0498212         208
-8.0279902         192
Name: count, dtype: int64

longitude (Top 5):
longitude
INDETERMINADO    19863
-34.8969194        260
-34.9459467        221
-34.8739471        208
-34.9029646        192
Name: count, dtype: int64


#### Criação da coluna "RESOLVIDO"

In [135]:
#Listando as possiveis situações 
print(df['situacao'].unique())

['PREPARACAO' 'ATENDIDA' 'CADASTRADA' 'PENDENTE' 'EXECUCAO' 'FISCALIZACAO'
 'PENDENCIA']


In [136]:
#Criando a coluna 'RESOLVIDO' e adicionando o boleano true se a 'SITUACAO' for atendida
df['resolvido'] = df['situacao'] == 'ATENDIDA'

In [137]:
print("Demonstração das colunas 'SITUACAO' e 'Resolvido':")
print(df[['situacao', 'resolvido']].head(10))

Demonstração das colunas 'SITUACAO' e 'Resolvido':
     situacao  resolvido
0  PREPARACAO      False
1    ATENDIDA       True
2  PREPARACAO      False
3  CADASTRADA      False
4  CADASTRADA      False
5  CADASTRADA      False
6  CADASTRADA      False
7  CADASTRADA      False
8    ATENDIDA       True
9  CADASTRADA      False


#### Criação da coluna "TEMPO_CONCLUSAO"

In [138]:
# 1. Convertendo as colunas de texto para formato de data
df['data_demanda'] = pd.to_datetime(df['data_demanda'], errors='coerce')
df['data_ult_situacao'] = pd.to_datetime(df['data_ult_situacao'], errors='coerce')


dias = (df['data_ult_situacao'] - df['data_demanda']).dt.days


df['tempo_conclusao'] = np.where(
    df['resolvido'] == True, 
    dias, 
    'EM ANDAMENTO'
)

In [139]:
# Visualizando o resultado
display(df.head(5))

Unnamed: 0,_id,gruposervico_codigo,gruposervico_descricao,servico_codigo,servico_descricao,logradouro,numero,bairro,rpa,data_demanda,situacao,data_ult_situacao,latitude,longitude,ano_origem,resolvido,tempo_conclusao
0,1,10,DENUNCIAS,700,DENUNCIA ARBOVIROSE,10T PRAZERES,S/N,AREIAS,5,2022-06-20,PREPARACAO,2022-09-22,-8.0981629,-34.9249594,2022,False,EM ANDAMENTO
1,2,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,S/N,NOVA DESCOBERTA,3,2022-07-27,ATENDIDA,2022-09-08,-8.0028869,-34.9274109,2022,True,43
2,3,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,S/N,NOVA DESCOBERTA,3,2022-10-16,PREPARACAO,2022-10-17,-8.0028869,-34.9274109,2022,False,EM ANDAMENTO
3,4,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB CORREGO DO LEONCIO,S/N,NOVA DESCOBERTA,3,2022-02-16,CADASTRADA,2022-02-16,-8.0028869,-34.9274109,2022,False,EM ANDAMENTO
4,5,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB DO SARGENTO,S/N,NOVA DESCOBERTA,3,2022-06-02,CADASTRADA,2022-06-02,INDETERMINADO,INDETERMINADO,2022,False,EM ANDAMENTO


### Criando as dimensões

- Dimensão serviço (gruposervico_codigo, gruposervico_descricao, servico_codigo, servico_descricao)
- Dimensão localização (logradouro, numero, bairro, rpa, latitude, longitude)
- Dimensão situacao (situacao)
- Dimensão data (dia, mes, ano, trimestre)

In [140]:
#1. Dimensão Serviço

colunas_servico = ['gruposervico_codigo', 'gruposervico_descricao', 'servico_codigo', 'servico_descricao']

dim_servico = df[colunas_servico].drop_duplicates().reset_index(drop=True)
dim_servico = dim_servico.reset_index().rename(columns={'index': 'id_servico_sk'})

print(f"Dimensão Serviço: {len(dim_servico)} tipos de serviços únicos")


# 2. Dimensão Localização 

colunas_localizacao = ['logradouro', 'numero', 'bairro', 'rpa', 'latitude', 'longitude']

dim_localizacao = df[colunas_localizacao].drop_duplicates().reset_index(drop=True)
dim_localizacao = dim_localizacao.reset_index().rename(columns={'index': 'id_localizacao_sk'})

print(f"Dimensão Localização: {len(dim_localizacao)} locais únicos")



# 3. Dimensão Situação
colunas_situacao = ['situacao']

dim_situacao = df[colunas_situacao].drop_duplicates().reset_index(drop=True)
dim_situacao = dim_situacao.reset_index().rename(columns={'index': 'id_situacao_sk'})

print(f"Dimensão Situação: {len(dim_situacao)} status possíveis")



# 4. Dimensão Tempo (data_demanda e data_ult_situacao)


datas_demanda = df['data_demanda']
datas_situacao = df['data_ult_situacao']
todas_datas = pd.concat([datas_demanda, datas_situacao]).dropna().unique()

# Criando DataFrame com datas únicas
dim_tempo = pd.DataFrame(todas_datas, columns=['data_referencia']).sort_values('data_referencia').reset_index(drop=True)

# Enriquecendo a dimensão tempo
dim_tempo['dia'] = dim_tempo['data_referencia'].dt.day
dim_tempo['mes'] = dim_tempo['data_referencia'].dt.month
dim_tempo['ano'] = dim_tempo['data_referencia'].dt.year
dim_tempo['trimestre'] = dim_tempo['data_referencia'].dt.quarter

try:
    dim_tempo['dia_semana'] = dim_tempo['data_referencia'].dt.day_name(locale='pt_BR.utf8')
except:
    dim_tempo['dia_semana'] = dim_tempo['data_referencia'].dt.day_name()

# Criando a SK de tempo
dim_tempo = dim_tempo.reset_index().rename(columns={'index': 'id_tempo_sk'})

print(f"Dimensão Tempo criada: {len(dim_tempo)} dias registrados (abrangendo demandas e atualizações).")



Dimensão Serviço: 206 tipos de serviços únicos
Dimensão Localização: 149735 locais únicos
Dimensão Situação: 7 status possíveis
Dimensão Tempo criada: 3469 dias registrados (abrangendo demandas e atualizações).


In [141]:
# Montando tabela fato

fato = df.copy()

fato = fato.merge(dim_servico, on=colunas_servico, how='left')
fato = fato.merge(dim_localizacao, on=colunas_localizacao, how='left')
fato = fato.merge(dim_situacao, on=colunas_situacao, how='left')

tempo_demanda = dim_tempo[['data_referencia', 'id_tempo_sk']].rename(columns={
    'data_referencia': 'join_data_demanda',
    'id_tempo_sk': 'id_tempo_demanda_sk'
})
fato = fato.merge(tempo_demanda, left_on='data_demanda', right_on='join_data_demanda', how='left')

tempo_situacao = dim_tempo[['data_referencia', 'id_tempo_sk']].rename(columns={
    'data_referencia': 'join_data_situacao',
    'id_tempo_sk': 'id_tempo_ult_situacao_sk'
})
fato = fato.merge(tempo_situacao, left_on='data_ult_situacao', right_on='join_data_situacao', how='left')

# 0 ->; false 1 -> true
fato['resolvido'] = (fato['situacao'] == 'ATENDIDA').astype(int)

colunas_finais_fato = [
    'id_servico_sk',            
    'id_localizacao_sk',        
    'id_situacao_sk',           
    'id_tempo_demanda_sk',      
    'id_tempo_ult_situacao_sk', 
    '_id',                      
    'ano_origem',               
    'resolvido',                
    'tempo_conclusao'           
]

fato_chamados = fato[colunas_finais_fato].copy()

In [142]:
display(fato_chamados.head())

Unnamed: 0,id_servico_sk,id_localizacao_sk,id_situacao_sk,id_tempo_demanda_sk,id_tempo_ult_situacao_sk,_id,ano_origem,resolvido,tempo_conclusao
0,0,0,0,2318,2412,1,2022,0,EM ANDAMENTO
1,1,1,1,2355,2398,2,2022,1,43
2,1,1,0,2436,2437,3,2022,0,EM ANDAMENTO
3,2,1,2,2194,2194,4,2022,0,EM ANDAMENTO
4,2,2,2,2300,2300,5,2022,0,EM ANDAMENTO


### LOAD

In [143]:

#Instalando as dependências necessárias
!pip install sqlalchemy
!pip install psycopg2-binary
from sqlalchemy import create_engine




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [144]:
# configurando bd
usuario_db = 'seu_usuario'       
senha_db = '254535'          
host_db = 'localhost'            
porta_db = '5432'                
nome_banco_db = 'elt_BD'

# String de Conexão (limpa, sem parâmetros de encoding na URL)
DATABASE_URL = f'postgresql://{usuario_db}:{senha_db}@{host_db}:{porta_db}/{nome_banco_db}'

print(f"Tentando conectar em: {host_db}:{porta_db}/{nome_banco_db}...")

try:
    
    print("Conexão bem-sucedida! Iniciando a carga do Esquema Estrela...")
    
    # 2. Carga das Dimensões
    print("Carregando Dimensão Serviço...")
    dim_servico.to_sql('dim_servico', con=engine, if_exists='replace', index=False)
    
    print("Carregando Dimensão Localização...")
    dim_localidade_nome_tabela = 'dim_localizacao'
    dim_localizacao.to_sql(dim_localidade_nome_tabela, con=engine, if_exists='replace', index=False)
    
    print("Carregando Dimensão Situação...")
    dim_situacao.to_sql('dim_situacao', con=engine, if_exists='replace', index=False)
    
    print("Carregando Dimensão Tempo (Calendário)...")
    dim_tempo.to_sql('dim_tempo', con=engine, if_exists='replace', index=False)

    # 3. Carga da Tabela Fato
    print("Carregando Tabela Fato Chamados...")
    fato_chamados.to_sql('fato_chamados', con=engine, if_exists='replace', index=False, chunksize=10000)

    print("\n CARGA CONCLUÍDA! O Data Warehouse foi atualizado com sucesso.")

except Exception as e:
    print(f"\n ERRO CRÍTICO NA CARGA DO BANCO!")
    print(f"Detalhe do erro: {e}")

Tentando conectar em: localhost:5432/elt_BD...
Conexão bem-sucedida! Iniciando a carga do Esquema Estrela...
Carregando Dimensão Serviço...

 ERRO CRÍTICO NA CARGA DO BANCO!
Detalhe do erro: 'utf-8' codec can't decode byte 0xe7 in position 78: invalid continuation byte
