In [22]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [23]:
import pandas as pd
import unicodedata

## Extração dos dados

In [47]:


#Criando um dicionário com todos os caminhos dos arquivos. Isso vai ser bom porque utilizarei as chaves para criar uma coluna de "Ano"
arquivos = {
    '2022': 'data/156_2022.csv', #utilizamos a base de 2022 pois a de 2023 estava dando erro na hora de juntar as tabelas, todas as colunas estavam ficando juntas em apenas umna
}

lista_dataframes = [] #Para armazenar todos os dataframes

for ano, arquivo in arquivos.items():
    try:
        if ano == '2022':
            df = pd.read_csv(arquivo,sep=';',encoding='utf-8') # O arquivo do ano de 2022 esta em "UTF-8" se se usassemos "latin1" os caracteres "Ç" "~" iriam ficar errados
        else:
            df = pd.read_csv(arquivo,sep=';',encoding='latin1')
        
        df['_id'] = range(1, len(df) + 1) #Criação do campo id pois os arquivos csv vieram sem

        cols = ['_id'] + [c for c in df.columns if c != '_id']
        df = df[cols]
        
        df['ano_origem'] = ano #criando uma nova coluna para salvar o ano dos chamados

        lista_dataframes.append(df)
    except Exception as e:
        print(f"Erro ao ler os dados do ano {ano}: {e}")


df = pd.concat(lista_dataframes, ignore_index=True)


## Transformação dos Dados


In [48]:
#Verificando o resultado final e as informações sobre os tipos de dados
display(df.head(5))
display(df.info())

Unnamed: 0,_id,GRUPOSERVICO_CODIGO,GRUPOSERVICO_DESCRICAO,SERVICO_CODIGO,SERVICO_DESCRICAO,LOGRADOURO,NUMERO,BAIRRO,RPA,DATA_DEMANDA,SITUACAO,DATA_ULT_SITUACAO,latitude,longitude,ano_origem
0,1,10,DENUNCIAS,700,DENUNCIA ARBOVIROSE ...,10t prazeres,,AREIAS,5,2022-06-20,PREPARAÇÃO,2022-09-22,-8.0981629,-34.9249594,2022
1,2,7,ARBORIZAÇÃO,16,VISTORIA DE ARVORES ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-07-27,ATENDIDA,2022-09-08,-8.0028869,-34.9274109,2022
2,3,7,ARBORIZAÇÃO,16,VISTORIA DE ARVORES ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-10-16,PREPARAÇÃO,2022-10-17,-8.0028869,-34.9274109,2022
3,4,12,ESCADARIA,57,RECUP. DE ESCADARIA ...,1sb corrego do leoncio,,NOVA DESCOBERTA,3,2022-02-16,CADASTRADA,2022-02-16,-8.0028869,-34.9274109,2022
4,5,12,ESCADARIA,57,RECUP. DE ESCADARIA ...,1sb do sargento,,NOVA DESCOBERTA,3,2022-06-02,CADASTRADA,2022-06-02,,,2022


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96633 entries, 0 to 96632
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   _id                     96633 non-null  int64 
 1   GRUPOSERVICO_CODIGO     96633 non-null  int64 
 2   GRUPOSERVICO_DESCRICAO  96633 non-null  object
 3   SERVICO_CODIGO          96633 non-null  int64 
 4   SERVICO_DESCRICAO       96633 non-null  object
 5   LOGRADOURO              96633 non-null  object
 6   NUMERO                  96633 non-null  object
 7   BAIRRO                  96633 non-null  object
 8   RPA                     96633 non-null  int64 
 9   DATA_DEMANDA            96633 non-null  object
 10  SITUACAO                96633 non-null  object
 11  DATA_ULT_SITUACAO       96633 non-null  object
 12  latitude                96633 non-null  object
 13  longitude               96633 non-null  object
 14  ano_origem              96633 non-null  object
dtypes:

None

### Padronizando a Escritas das Tabelas

- Em algumas tabelas alguns nomes apresentavam acentos e 'ç' ja em outras não por isso optamos por alterar a tabela de 2022 que continha esses caracteres e substituilos.

In [49]:
colunas_de_texto = df.select_dtypes(include=['object']).columns
for col in colunas_de_texto:
    df[col] = df[col].apply(
        lambda x: unicodedata.normalize('NFKD', str(x)).encode('ascii', 'ignore').decode('utf-8').strip() 
        if pd.notna(x) else x)
    df[col] = df[col].str.upper()
    

In [50]:
#Verificando o resultado final e as informações sobre os tipos de dados
display(df.head(5))
display(df.info())

Unnamed: 0,_id,GRUPOSERVICO_CODIGO,GRUPOSERVICO_DESCRICAO,SERVICO_CODIGO,SERVICO_DESCRICAO,LOGRADOURO,NUMERO,BAIRRO,RPA,DATA_DEMANDA,SITUACAO,DATA_ULT_SITUACAO,latitude,longitude,ano_origem
0,1,10,DENUNCIAS,700,DENUNCIA ARBOVIROSE,10T PRAZERES,,AREIAS,5,2022-06-20,PREPARACAO,2022-09-22,-8.0981629,-34.9249594,2022
1,2,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-07-27,ATENDIDA,2022-09-08,-8.0028869,-34.9274109,2022
2,3,7,ARBORIZACAO,16,VISTORIA DE ARVORES,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-10-16,PREPARACAO,2022-10-17,-8.0028869,-34.9274109,2022
3,4,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB CORREGO DO LEONCIO,,NOVA DESCOBERTA,3,2022-02-16,CADASTRADA,2022-02-16,-8.0028869,-34.9274109,2022
4,5,12,ESCADARIA,57,RECUP. DE ESCADARIA,1SB DO SARGENTO,,NOVA DESCOBERTA,3,2022-06-02,CADASTRADA,2022-06-02,,,2022


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96633 entries, 0 to 96632
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   _id                     96633 non-null  int64 
 1   GRUPOSERVICO_CODIGO     96633 non-null  int64 
 2   GRUPOSERVICO_DESCRICAO  96633 non-null  object
 3   SERVICO_CODIGO          96633 non-null  int64 
 4   SERVICO_DESCRICAO       96633 non-null  object
 5   LOGRADOURO              96633 non-null  object
 6   NUMERO                  96633 non-null  object
 7   BAIRRO                  96633 non-null  object
 8   RPA                     96633 non-null  int64 
 9   DATA_DEMANDA            96633 non-null  object
 10  SITUACAO                96633 non-null  object
 11  DATA_ULT_SITUACAO       96633 non-null  object
 12  latitude                96633 non-null  object
 13  longitude               96633 non-null  object
 14  ano_origem              96633 non-null  object
dtypes:

None

### Verificando valores únicos nas colunas

In [51]:
df.nunique(dropna=False)

_id                       96633
GRUPOSERVICO_CODIGO          26
GRUPOSERVICO_DESCRICAO       26
SERVICO_CODIGO              100
SERVICO_DESCRICAO           100
LOGRADOURO                 7449
NUMERO                     4200
BAIRRO                       94
RPA                           6
DATA_DEMANDA                365
SITUACAO                      6
DATA_ULT_SITUACAO           388
latitude                  33259
longitude                 29953
ano_origem                    1
dtype: int64

### Verificando a quantidade de Valores vazios por coluna

In [52]:
# Contando strings vazias nas colunas object
string_vazia_count = (df.select_dtypes(include=['object']) == '').sum()
print("Contagem de Strings Vazias por Coluna (''):")
print(string_vazia_count)

Contagem de Strings Vazias por Coluna (''):
GRUPOSERVICO_DESCRICAO        0
SERVICO_DESCRICAO             0
LOGRADOURO                    0
NUMERO                    11192
BAIRRO                        0
DATA_DEMANDA                  0
SITUACAO                      0
DATA_ULT_SITUACAO             0
latitude                  19863
longitude                 19863
ano_origem                    0
dtype: int64


- Número: 1.192 valores ausentes. Isso é comum em dados de logradouros, onde nem todos os chamados possuem um número específico de porta.
- Latitude e Longitude contem a mesma quantidade de linhas vazias indicando que são chamados onde a localização geográfica não está disponível para registro.

In [53]:
#printando alguns valores de colunas para padronização
print("Valores únicos da coluna 'SEVICO_DESCRICAO': \n", df['SERVICO_DESCRICAO'].unique())


Valores únicos da coluna 'SEVICO_DESCRICAO': 
 ['DENUNCIA ARBOVIROSE' 'VISTORIA DE ARVORES' 'RECUP. DE ESCADARIA'
 'OPERACAO TAPA-BURACO EM ASFALTO' 'RECAPEAMENTO ASFALTICO'
 'MANUTENCAO EM LAMPADA APAGADA' 'CAPINACAO EM VIA NAO PAVIMENTADA'
 'CAPINACAO EM VIA PAVIMENTADA' 'REMOCAO DE ENTULHOS' 'APAGAR LAMPADA'
 'RECUPERACAO DE PAVIMENTO PARALELEPIPEDO' 'TERRAPLANAGEM DE RUAS'
 'IMPLANTAR LUMINARIA LED' 'RECUP. DE ABATIMENTO GALERIA'
 'IMPLANTACAO DE POSTE' 'CAPINACAO DE PRACAS AREAS VERD'
 'LIMPEZA DE CANAL' 'LIMPEZA DE ESCADARIAS'
 'LIMP. DE GALERIAS,VALETAS,SARJETAS'
 'REPOSICAO TAMPA DE POCO, GALERIAS E PRE-MOLDADOS'
 'LIMPEZA DE  CANALETAS' 'REPOSICAO VAO DE REDE'
 'IMPLANTACAO DE LUMINARIAS' 'RECUP. EM PAV DE CONCRETO'
 'REGULARIZAR COLETA DOMICILIAR' 'RECUP.EM MUROS DE ARRIMO'
 'RETIRADA DE MATERIAIS - SERVICOS'
 'REG. DE VARRICAO DE VIA OU ESVAZIAR PAPELEIRA' 'IMP. COLETA SELETIVA'
 'RECLAMACAO LIMPEZA URBANA' 'RECUP.DE CALCADA PUBLICA'
 'FISCALIZACAO EM TERRENO IRREGULAR' 'REC

### Criando Uma Nova Coluna Para Agrupar os Serviços de Acordo Com o Seu Tipo:

- **ILUMINAÇÃO PÚBLICA:** MANUTENCAO EM LAMPADA APAGADA, APAGAR LAMPADA, ACENDER CIRCUITO, POSICIONAR LUMINARIA, APAGAR CIRCUITO, IMPLANTAR LUMINARIA LED, IMPLANTACAO DE LUMINARIAS, REPOSICAO DE LUMINARIA, INST. E RET. PROV. ILUMINACAO PROJETORES, LIMPEZA DE LUMINARIA, IMPLANTACAO DE VAO DE REDE, REPOSICAO VAO DE REDE, INST. E RET. PROV. DE QUADRO, INST. E RET. PROV. DE PONTO DE AC, INST. E RET. PROV., REPOSICAO DESL. E RET. DE POSTE, IMPLANTACAO DE POSTE.

- **PAVIMENTAÇÃO E DRENAGEM:** OPERACAO TAPA-BURACO EM ASFALTO, RECAPEAMENTO ASFALTICO, RECUPERACAO DE PAVIMENTO PARALELEPIPEDO, RECUP. EM PAV DE CONCRETO, TERRAPLANAGEM DE RUAS, RECUP. DE ABATIMENTO GALERIA, RECUP.DE CALCADA PUBLICA, RECOLOCACAO DE MEIO FIO, PINTURA DE MEIO FIO, RECUP. DE PONTES E PONTILHOES, RECUP.DE CANALETAS DE DRENAGEM, OBRAS DRENAG.E RECUP./PROPRIOS, CONSERTO DE CALCADAS E MUROS, RECUP.CALCADA POR ERRADICACAO, RECUP.EM MUROS DE ARRIMO, RECUP. PASSARELA DE PEDESTRES, VISTORIA INTERVENCAO INDEVIDA EM VIAS PUBLICAS, PROJETO DE PAVIMENTACAO E DRENAGEM, RECUP. DE CANALETA DE ESCADARIA, CONTROLE TECNOLOGICO DO ASFALTO.

- **LIMPEZA URBANA:** CAPINACAO EM VIA NAO PAVIMENTADA, CAPINACAO EM VIA PAVIMENTADA, REMOCAO DE ENTULHOS, REMOCAO DE PODA DO CIDADAO, REMOCAO MECANIZADA, REMOCAO DE AREIA OU BARRO DE ENXURRADA, LIMPEZA DE RUAS - EVENTOS, CAPINACAO DE PRACAS AREAS VERD, LIMPEZA DE PRACAS, LIMPEZA DE COQUEIROS PALMEIRAS, REG. DE VARRICAO DE VIA OU ESVAZIAR PAPELEIRA, RECLAMACAO LIMPEZA URBANA, IMPLANTACAO DE VARRICAO DE VIAS PAVIMENTADA.

- **COLETA DE LIXO**: REGULARIZAR COLETA DOMICILIAR, IMP. COLETA SELETIVA, REG. COLETA SELETIVA, PALESTRA COLETA SELETIVA, DOACAO DE COLETA SELETIVA, DANO CAUSADO COLETA/LIXO, COLETA HOSPITALAR IRREGULAR, RECLAMACAO CONTENEDOR-CACAMBA ESTACIONARIA, MUDANCA DE PONTO DE CONFINAMENTO DE LIXO, INSTALACAO DE CONTENEDORES DE LIXO, ERRADICACAO PONTO CRITICO LIXO - ACAO SOCIOAMBIENTAL, PONTO CRITICO-CATADOR.

- **Arborização:** VISTORIA DE ARVORES, QUEDA DE ARVORE, PODA DE ARVORES, QUEDA PARCIAL ARVORE, DESTOCA DE ARVORE, PLANTIO DE ARVORES OU ARBUSTO, ERRADICACAO DE ARVORES, TRATAMENTO FITOSSANITARIO, FISCALIZACAO DE DESCARTE IRREGULAR DE PODA.

- **LIMPEZA DE DRENAGEM/CANAIS:** LIMPEZA DE CANAL, LIMPEZA DE ESCADARIAS, LIMP. DE GALERIAS,VALETAS,SARJETAS, LIMPEZA DE CANALETAS, REPOSICAO TAMPA DE POCO, GALERIAS E PRE-MOLDADOS.

- **ESTRUTURAS/EQUIPAMENTOS:**	RECUP. DE BRINQUEDOS EM PRACAS, MANUT. EM CAMPOS QUADRAS POLIESPORTIVAS, MANUT. RECUP. DE EQUIP. E PROPRIOS MUNICIPAIS, LIMPEZA DE PROPRIOS MUNICIPAIS, MANUT. E RECUP. DE BANHEIROS PUBLICOS, MANUT. RECUP. EM MONUMENTOS, RECUP.DA VEGETACAO DE PRACAS, RECUP.E MANUT. DE PRACA, INSTALACAO DE PAPELEIRAS, AVAL. INST. DE CESTAS DE LIXO, MANUT. DE ENROCAMENTO EM PRAIA, INST. E RET. PROV. TABLADOS E PALANQUES, MANUTENCAO EM PEV, IMPLANTACAO DE PEV.

- **DIVERSOS/DENÚNCIAS:**	DENUNCIA ARBOVIROSE, RECUP. DE ESCADARIA, RETIRADA DE MATERIAIS - SERVICOS, FISCALIZACAO EM TERRENO IRREGULAR, REMOCAO DE ANIMAIS MORTOS DE GRANDE PORTE, REMOCAO DE ANIMAIS MORTOS PEQUENOS, DENUNCIAS EMLURB, CONECTA RECIFE, AVALIACAO E PARECER TECNICO
  

In [54]:
mapeamento_servicos = {
    'MANUTENCAO EM LAMPADA APAGADA': 'ILUMINAÇÃO PÚBLICA',
    'APAGAR LAMPADA': 'ILUMINAÇÃO PÚBLICA',
    'ACENDER CIRCUITO': 'ILUMINAÇÃO PÚBLICA',
    'POSICIONAR LUMINARIA': 'ILUMINAÇÃO PÚBLICA',
    'APAGAR CIRCUITO': 'ILUMINAÇÃO PÚBLICA',
    'IMPLANTAR LUMINARIA LED': 'ILUMINAÇÃO PÚBLICA',
    'IMPLANTACAO DE LUMINARIAS': 'ILUMINAÇÃO PÚBLICA',
    'REPOSICAO DE LUMINARIA': 'ILUMINAÇÃO PÚBLICA',
    'INST. E RET. PROV. ILUMINACAO PROJETORES': 'ILUMINAÇÃO PÚBLICA',
    'LIMPEZA DE LUMINARIA': 'ILUMINAÇÃO PÚBLICA',
    'IMPLANTACAO DE VAO DE REDE': 'ILUMINAÇÃO PÚBLICA',
    'REPOSICAO VAO DE REDE': 'ILUMINAÇÃO PÚBLICA',
    'INST. E RET. PROV. DE QUADRO': 'ILUMINAÇÃO PÚBLICA',
    'INST. E RET. PROV. DE PONTO DE AC': 'ILUMINAÇÃO PÚBLICA',
    'INST. E RET. PROV.': 'ILUMINAÇÃO PÚBLICA',
    'REPOSICAO DESL. E RET. DE POSTE': 'ILUMINAÇÃO PÚBLICA',
    'IMPLANTACAO DE POSTE': 'ILUMINAÇÃO PÚBLICA',
    
    'OPERACAO TAPA-BURACO EM ASFALTO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECAPEAMENTO ASFALTICO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUPERACAO DE PAVIMENTO PARALELEPIPEDO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP. EM PAV DE CONCRETO': 'PAVIMENTAÇÃO E DRENAGEM',
    'TERRAPLANAGEM DE RUAS': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP. DE ABATIMENTO GALERIA': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP.DE CALCADA PUBLICA': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECOLOCACAO DE MEIO FIO': 'PAVIMENTAÇÃO E DRENAGEM',
    'PINTURA DE MEIO FIO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP. DE PONTES E PONTILHOES': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP.DE CANALETAS DE DRENAGEM': 'PAVIMENTAÇÃO E DRENAGEM',
    'OBRAS DRENAG.E RECUP./PROPRIOS': 'PAVIMENTAÇÃO E DRENAGEM',
    'CONSERTO DE CALCADAS E MUROS': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP.CALCADA POR ERRADICACAO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP.EM MUROS DE ARRIMO': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP. PASSARELA DE PEDESTRES': 'PAVIMENTAÇÃO E DRENAGEM',
    'VISTORIA INTERVENCAO INDEVIDA EM VIAS PUBLICAS': 'PAVIMENTAÇÃO E DRENAGEM',
    'PROJETO DE PAVIMENTACAO E DRENAGEM': 'PAVIMENTAÇÃO E DRENAGEM',
    'RECUP. DE CANALETA DE ESCADARIA': 'PAVIMENTAÇÃO E DRENAGEM',
    'CONTROLE TECNOLOGICO DO ASFALTO': 'PAVIMENTAÇÃO E DRENAGEM',
    
    'CAPINACAO EM VIA NAO PAVIMENTADA': 'LIMPEZA URBANA',
    'CAPINACAO EM VIA PAVIMENTADA': 'LIMPEZA URBANA',
    'REMOCAO DE ENTULHOS': 'LIMPEZA URBANA',
    'REMOCAO DE PODA DO CIDADAO': 'LIMPEZA URBANA',
    'REMOCAO MECANIZADA': 'LIMPEZA URBANA',
    'REMOCAO DE AREIA OU BARRO DE ENXURRADA': 'LIMPEZA URBANA',
    'LIMPEZA DE RUAS - EVENTOS': 'LIMPEZA URBANA',
    'CAPINACAO DE PRACAS AREAS VERD': 'LIMPEZA URBANA',
    'LIMPEZA DE PRACAS': 'LIMPEZA URBANA',
    'LIMPEZA DE COQUEIROS PALMEIRAS': 'LIMPEZA URBANA',
    'REG. DE VARRICAO DE VIA OU ESVAZIAR PAPELEIRA': 'LIMPEZA URBANA',
    'RECLAMACAO LIMPEZA URBANA': 'LIMPEZA URBANA',
    'IMPLANTACAO DE VARRICAO DE VIAS PAVIMENTADA': 'LIMPEZA URBANA',
    
    'REGULARIZAR COLETA DOMICILIAR': 'COLETA DE LIXO',
    'IMP. COLETA SELETIVA': 'COLETA DE LIXO',
    'REG. COLETA SELETIVA': 'COLETA DE LIXO',
    'PALESTRA COLETA SELETIVA': 'COLETA DE LIXO',
    'DOACAO DE COLETA SELETIVA': 'COLETA DE LIXO',
    'DANO CAUSADO COLETA/LIXO': 'COLETA DE LIXO',
    'COLETA HOSPITALAR IRREGULAR': 'COLETA DE LIXO',
    'RECLAMACAO CONTENEDOR-CACAMBA ESTACIONARIA': 'COLETA DE LIXO',
    'MUDANCA DE PONTO DE CONFINAMENTO DE LIXO': 'COLETA DE LIXO',
    'INSTALACAO DE CONTENEDORES DE LIXO': 'COLETA DE LIXO',
    'ERRADICACAO PONTO CRITICO LIXO - ACAO SOCIOAMBIENTAL': 'COLETA DE LIXO',
    'PONTO CRITICO-CATADOR': 'COLETA DE LIXO',
    
    'VISTORIA DE ARVORES': 'ARBORIZAÇÃO',
    'QUEDA DE ARVORE': 'ARBORIZAÇÃO',
    'PODA DE ARVORES': 'ARBORIZAÇÃO',
    'QUEDA PARCIAL ARVORE': 'ARBORIZAÇÃO',
    'DESTOCA DE ARVORE': 'ARBORIZAÇÃO',
    'PLANTIO DE ARVORES OU ARBUSTO': 'ARBORIZAÇÃO',
    'ERRADICACAO DE ARVORES': 'ARBORIZAÇÃO',
    'TRATAMENTO FITOSSANITARIO': 'ARBORIZAÇÃO',
    'FISCALIZACAO DE DESCARTE IRREGULAR DE PODA': 'ARBORIZAÇÃO',
    
    'LIMPEZA DE CANAL': 'LIMPEZA DE DRENAGEM/CANAIS',
    'LIMPEZA DE ESCADARIAS': 'LIMPEZA DE DRENAGEM/CANAIS',
    'LIMP. DE GALERIAS,VALETAS,SARJETAS': 'LIMPEZA DE DRENAGEM/CANAIS',
    'LIMPEZA DE  CANALETAS': 'LIMPEZA DE DRENAGEM/CANAIS',
    'REPOSICAO TAMPA DE POCO, GALERIAS E PRE-MOLDADOS': 'LIMPEZA DE DRENAGEM/CANAIS',
    
    'RECUP. DE BRINQUEDOS EM PRACAS': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUT. EM CAMPOS QUADRAS POLIESPORTIVAS': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUT. RECUP. DE EQUIP. E PROPRIOS MUNICIPAIS': 'ESTRUTURAS/EQUIPAMENTOS',
    'LIMPEZA DE PROPRIOS MUNICIPAIS': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUT. E RECUP. DE BANHEIROS PUBLICOS': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUT. RECUP. EM MONUMENTOS': 'ESTRUTURAS/EQUIPAMENTOS',
    'RECUP.DA VEGETACAO DE PRACAS': 'ESTRUTURAS/EQUIPAMENTOS',
    'RECUP.E MANUT. DE PRACA': 'ESTRUTURAS/EQUIPAMENTOS',
    'INSTALACAO DE PAPELEIRAS': 'ESTRUTURAS/EQUIPAMENTOS',
    'AVAL. INST. DE CESTAS DE LIXO': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUT. DE ENROCAMENTO EM PRAIA': 'ESTRUTURAS/EQUIPAMENTOS',
    'INST. E RET. PROV. TABLADOS E PALANQUES': 'ESTRUTURAS/EQUIPAMENTOS',
    'MANUTENCAO EM PEV': 'ESTRUTURAS/EQUIPAMENTOS',
    'IMPLANTACAO DE PEV': 'ESTRUTURAS/EQUIPAMENTOS',

    'DENUNCIA ARBOVIROSE': 'DIVERSOS/DENÚNCIAS',
    'RECUP. DE ESCADARIA': 'DIVERSOS/DENÚNCIAS',
    'RETIRADA DE MATERIAIS - SERVICOS': 'DIVERSOS/DENÚNCIAS',
    'FISCALIZACAO EM TERRENO IRREGULAR': 'DIVERSOS/DENÚNCIAS',
    'REMOCAO DE ANIMAIS MORTOS DE GRANDE PORTE': 'DIVERSOS/DENÚNCIAS',
    'REMOCAO DE ANIMAIS MORTOS PEQUENOS': 'DIVERSOS/DENÚNCIAS',
    'DENUNCIAS EMLURB': 'DIVERSOS/DENÚNCIAS',
    'CONECTA RECIFE': 'DIVERSOS/DENÚNCIAS',
    'AVALIACAO E PARECER TECNICO': 'DIVERSOS/DENÚNCIAS',
    'RECLAMACAO MANUNTENCAO URBANA': 'DIVERSOS/DENÚNCIAS'
}

#Criando a nova coluna SERVICO_AGRUPADO
df['SERVICO_AGRUPADO'] = df['SERVICO_DESCRICAO'].replace(mapeamento_servicos)

#### Exibindo os 5 principais grupos e o total de grupos antes e depois

In [55]:
print("Número de serviços únicos ANTES do agrupamento:", df['SERVICO_DESCRICAO'].nunique())
print("Número de serviços únicos DEPOIS do agrupamento:", df['SERVICO_AGRUPADO'].nunique())
print("\nTop 5 Categorias Agrupadas (SERVICO_AGRUPADO):")
print(df['SERVICO_AGRUPADO'].value_counts().head(5))

Número de serviços únicos ANTES do agrupamento: 100
Número de serviços únicos DEPOIS do agrupamento: 9

Top 5 Categorias Agrupadas (SERVICO_AGRUPADO):
SERVICO_AGRUPADO
ILUMINAÇÃO PÚBLICA            40900
LIMPEZA URBANA                16155
ARBORIZAÇÃO                   12811
PAVIMENTAÇÃO E DRENAGEM       12530
LIMPEZA DE DRENAGEM/CANAIS     9474
Name: count, dtype: int64


In [56]:
#Exibindo as primeiras linhas do com a nova coluna
display(df[['SERVICO_DESCRICAO', 'SERVICO_AGRUPADO']].head())

Unnamed: 0,SERVICO_DESCRICAO,SERVICO_AGRUPADO
0,DENUNCIA ARBOVIROSE,DIVERSOS/DENÚNCIAS
1,VISTORIA DE ARVORES,ARBORIZAÇÃO
2,VISTORIA DE ARVORES,ARBORIZAÇÃO
3,RECUP. DE ESCADARIA,DIVERSOS/DENÚNCIAS
4,RECUP. DE ESCADARIA,DIVERSOS/DENÚNCIAS


#### Verificando os valores presentes na coluna "NUMERO"

In [57]:
print("Top 10 valores mais frequentes na coluna 'NUMERO':")
print(df['NUMERO'].value_counts().head(10))

Top 10 valores mais frequentes na coluna 'NUMERO':
NUMERO
SN     13615
       11192
S/N    10665
00      9412
625     2559
0       1306
000      678
23       589
100      308
10       297
Name: count, dtype: int64


#### Alterando os valores vazios de "numero", "latitute" e "longitude".

**Na coluna "NUMERO":** 
- valores como '0', '00', ... passamos para '0'.
- valores como '' e 'SN' transformamos em 'S/N'

**Na coluna "LATITUDE" e "LOGITUDE":**
- valores '' foram transformados em 'INDETERMINADO'
  

In [61]:
padronizacao_numero = {
    '': 'S/N',
    'SN': 'S/N',

    '000': '0',
    '00': '0',
    '0':'0'
}
df['NUMERO'] = df['NUMERO'].replace(padronizacao_numero)


df['latitude'] = df['latitude'].replace('', 'INDETERMINADO')
df['longitude'] = df['longitude'].replace('', 'INDETERMINADO')

print("Valores únicos e contagem após preenchimento:")
print("\nNUMERO (Top 5):")
print(df['NUMERO'].value_counts().head())

print("\nlatitude (Top 5):")
print(df['latitude'].value_counts().head())

print("\nlongitude (Top 5):")
print(df['longitude'].value_counts().head())

Valores únicos e contagem após preenchimento:

NUMERO (Top 5):
NUMERO
S/N    35472
0      11396
625     2559
23       589
100      308
Name: count, dtype: int64

latitude (Top 5):
latitude
INDETERMINADO    19863
-8.0652743         260
-8.0531498         220
-8.0498212         208
-8.0279902         192
Name: count, dtype: int64

longitude (Top 5):
longitude
INDETERMINADO    19863
-34.8969194        260
-34.9459467        221
-34.8739471        208
-34.9029646        192
Name: count, dtype: int64
