# Agregando Datasets do SP196 em um Arquivo Consolidado

## Aviso: Comentários resumidos neste código; consulte a  [Documentação](https://github.com/DemikFR/Analise-Controle-Zoonoses-SP156/blob/main/README.md) para obter uma compreensão mais detalhada das razões por trás de cada trecho de código.

## Gerar o dataframe com os dados da Prefeitura

In [1]:
import requests
import re
from bs4 import BeautifulSoup as bs
import pandas as pd
from io import StringIO
import chardet

### Criar o dataframe que conterá os dados necessários para a análise

In [2]:
df = pd.DataFrame()
dfs = []

## Função para buscar os caminhos para o download de cada dataset

In [3]:
def get_soup(url, search):
    response = requests.get(url)
    
    # Verificar se a conexão foi bem sucedida
    if response.status_code == 200:
        soup = bs(response.content, 'html.parser')

        # Retornar as páginas onde terão as de download
        return soup.find_all('a', href=True, attrs={'title': re.compile(search)}) 
    else:
        return f'Página{link["title"]} está inacessível. Código: {response.status_code}'

## Código para inserir os dados em uma lista

In [4]:
# URL base do site da Prefeitura
url_base = 'http://dados.prefeitura.sp.gov.br'

# URL inicial onde estarão os links para os datasets
url_inicial = 'http://dados.prefeitura.sp.gov.br/dataset/dados-do-sp156'

# extensão do dataset para filtrar
file_type = '.csv'

for link in get_soup(url_inicial, r'^Dados do SP156.*'):
    
    # Pegar o link de download
    for page in get_soup(url_base+link['href'], r'^http://dados.prefeitura.sp.gov.br/dataset/.*'):
        link_download = page['href']
        
        # Verificar se é o arquivo a ser baixado é Excel
        if file_type in link_download:
            
            # Pegar o conteúdo do CSV
            response_csv = requests.get(page['href'])
            
            # Cada datset tem um encoding diferente, por isso foi necessário usar a biblioteca chardet para identificar 
            # automaticamente qual é.
            encoding = chardet.detect(response_csv.content)['encoding']
            
            # Colocar os dados na tabela auxiliar
            if int(link["title"][-4:]) >= 2020:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=';', encoding=encoding, low_memory=False)
            else:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=',', encoding=encoding, low_memory=False)
                
            dfs.append(df3)  # Adicionar o DataFrame intermediário à lista
            
            # Inserir os dados na planilha original
            print(f'Os dados do {link["title"]} foram inseridos com sucesso.')

Os dados do Dados do SP156 - 1º TRI 2023 foram inseridos com sucesso.
Os dados do Dados do SP156 - 4º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 4º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - Dezembro - 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - Outubro e Novembro - 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º SEM 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º SEM 2019 foram inseridos com sucesso.
Os

## Criar o dataframe com todos os datasets coletados

In [5]:
df = pd.concat(dfs, ignore_index=True)

In [6]:
df.shape

(13862242, 33)

## Verificar todas as colunas disponibilizadas

In [7]:
df.any()

Data de abertura                                                          True
Canal                                                                     True
Tema                                                                      True
Assunto                                                                   True
Serviço                                                                   True
Logradouro                                                                True
Número                                                                    True
CEP                                                                       True
Subprefeitura                                                             True
Distrito                                                                  True
Setor                                                                     True
Quadra                                                                    True
Latitude                                            

## Manter apenas os campos necessários

In [8]:
df = df[['Data de abertura', 'Tema', 'Assunto', 'Especificação do assunto', 'Serviço', 'Bairro', 'Distrito'
         , 'Status da solicitação', 'Data do parecer']]

## Apagar registros que por terem muitos valores nulo, não servirão para a análise

In [9]:
df = df.dropna(thresh=4)

In [10]:
df[df['Data de abertura'].isnull()]

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer


In [11]:
df.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
8043100,2019-10-14 17:13:11.669,Bilhete Único,BU Estudante e Professor,,Bilhete Único Estudante - Apresentação de just...,,,FINALIZADA,2019-10-15 14:08:52.506
13387795,2012-12-05 12:14:47.640,,Poluição Sonora,Residencia com Atividade Profissional,,JARDIM VILA FORMOSA,4.0,REALIZADA,2013-12-09 12:45:50.293
2807774,2021-12-02 16:40:00,Finanças,Senha Web,,"Senha Web - Desbloqueio online para MEI, Empre...",,,FINALIZADA,2021-12-03 16:42:10
12007270,2014-02-21,,Transporte publico / Conduta de Trabalho,Motorista não aguardar embarque / desembarque,,JARDIM SAO JOSE,,REALIZADA,2014-03-19 00:00:00.000
849087,2022-11-23 11:08:46,Finanças,Senha Web,,"Senha Web - Desbloqueio online para MEI, Empre...",,,FINALIZADA,2022-11-23 16:33:28
10697150,2016-05-03 17:20:51.513,Saúde,Dengue/chikungunya/zika (mosquito aedes aegypti),,Água limpa e parada – Solicitar vistoria de lo...,,VILA FORMOSA,FINALIZADA,2016-06-16 03:00:00.000
8604547,2019-04-06 01:22:13.245,Bilhete Único,BU Estudante e Professor,,Bilhete Único Estudante ou Professor - Correçã...,,,FINALIZADA,2019-04-09 14:10:23.186
11516728,2015-06-02 21:34:38.630,Trânsito e Transporte,"Ônibus - Conduta de Trabalho do Motorista, Cob...",,Ônibus - Denunciar motorista por não atender a...,,ITAIM BIBI,FINALIZADA,2015-06-19 16:00:00.000
10612148,2016-03-29 12:50:25.103,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,VILA MARIA,FINALIZADA,2016-05-13 03:00:00.000
129992,2023-01-21 19:56:31,Cidadania e assistência social,População ou pessoa em situação de rua,,Pessoa em situação de rua ? Solicitar atendime...,,,FINALIZADA,2023-01-21 22:03:06


## Filtrar apenas os dados necessários para a análise

In [12]:
df['Tema'].drop_duplicates()

0           Cidadania e assistência social
5                                  Animais
7               Obras, imóveis e habitação
10                            Rua e bairro
34                           Meio Ambiente
37                          Lixo e limpeza
41                                Urgência
54                                   Saúde
67                     Comércio e serviços
95                   Trânsito e Transporte
151                           Causa animal
188           Ouvidoria Geral do Município
227                         Pragas urbanas
431                               Finanças
439                         Acessibilidade
918                          Bilhete Único
1272                      Segurança urbana
2334                 Documentos e licenças
2885              Cultura, esporte e lazer
4389                              Educação
8048                              Trabalho
334059              Descomplica São Miguel
596920               Canais de Atendimento
597569     

### Entender o motivo de existirem nulos no 'Tema'

In [13]:
pd.set_option('display.max_rows', None)
df[df.Tema.isnull()]['Assunto'].drop_duplicates()

11562002                             Construcao de passarelas
11562003                                               Buraco
11562004                                      Poluição Sonora
11562006    Placas de Nomes de Ruas, Praças e demais Logra...
11562008                         Iluminacao - Lampada apagada
11562009             Transporte publico / Conduta de Trabalho
11562010                              Remoção veículo/carcaça
11562012                                               Elogio
11562016                            Vistoria / Infraestrutura
11562019                                                Obras
11562020                                           Edificacao
11562021                                        Animais / Cão
11562026                                         Pavimentacao
11562031                      Árvore(Calçada/Passeio Público)
11562034                          Transporte publico / Outros
11562036                                       Guias/sarjetas
11562038

### O campo 'Tema' só é usado em datasets mais recentes, por isso deve-se utilizar o campo 'Assunto' para filtrar

In [14]:
df1 = df[df['Assunto'].str.contains('Animais', regex=False) | df['Tema'].str.contains(r'^Anim.*|^Pragas.*', regex=True)].reset_index(drop=True)

In [15]:
df1.shape

(704360, 9)

In [16]:
df1.sample(20)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
44820,2022-07-16 12:51:51,Animais,Animais que transmitem doenças ou risco à saúde,,Abelhas e Vespas - Solicitar vistoria em ninhos,,JOSE BONIFACIO,FINALIZADA,2022-08-09 13:58:10
493908,2015-11-17 13:48:54.093,Animais,Criação inadequada de animais,,Denunciar condições inadequadas de criação,,SANTANA,FINALIZADA,2015-11-26 14:33:02.187
100165,2022-01-11 10:56:38,Animais,Registro de animais - RGA,,Registro Geral do Animal (RGA) - Solicitar ide...,,,INDEFERIDO,2022-02-04 15:26:11
415737,2018-05-30 15:05:50.160,Animais,Animais que transmitem doenças ou risco à saúde,,Pernilongo/Mosquito - Solicitar vistoria em lo...,,ERMELINO MATARAZZO,FINALIZADA,2018-06-19 13:20:27.439
262217,2020-12-03 00:49:34,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,INDEFERIDO,2021-01-09 21:43:28
116641,2022-02-22 10:58:39,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,JABAQUARA,FINALIZADO,2022-02-25 15:21:04
89519,2022-06-11 18:11:25,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,INDEFERIDO,2022-06-23 16:41:46
444607,2017-03-15 16:01:02.347,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,CIDADE ADEMAR,FINALIZADA,2017-04-12 13:38:54.730
687785,2012-03-23 13:43:28.673,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,,JARDIM LETICIA,,REALIZADA,2012-03-23 00:00:00.000
11707,2023-02-08 05:31:32,Pragas urbanas,Dengue/chikungunya/zika (mosquito aedes aegypti),,Água limpa e parada ? Solicitar vistoria de lo...,,BELEM,FINALIZADA,2023-03-01 08:00:20


## Padronizar o campo 'Serviço' com o 'Especificação do assunto'

#### Os dois campos possuem o mesmo objetivo

In [17]:
df1.loc[df1['Serviço'].isnull(), 'Serviço'] = df1.loc[df1['Serviço'].isnull(), 'Especificação do assunto']

In [18]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
257351,2021-03-20 19:00:05,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-03-29 11:38:28
346336,2019-09-11 15:14:39.602,Animais,Animais que transmitem doenças ou risco à saúde,,Abelhas e Vespas - Solicitar vistoria em ninhos,,SACOMA,FINALIZADA,2020-03-18 15:06:31.026
465511,2016-03-16 17:46:55.603,Animais,Animais que transmitem doenças ou risco à saúde,,Pernilongo/Mosquito - Solicitar vistoria em lo...,,JARDIM PAULISTA,FINALIZADA,2016-08-09 03:00:00.000
420894,2017-08-15 17:42:45.955,Animais,Animais que transmitem doenças ou risco à saúde,,Morcegos - Reclamar sobre local com morcegos,,SANTANA,FINALIZADA,2017-08-17 14:39:46.743
308408,2020-09-03 14:13:00,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2020-10-20 13:42:08
280678,2020-11-03 00:15:36,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2020-12-09 14:42:04
364068,2019-01-28 11:10:00.318,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,SOCORRO,FINALIZADA,2019-02-26 16:18:05.166
223111,2021-06-24 13:28:09,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-06-30 11:51:03
170203,2021-08-04 15:38:04,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-08-19 16:48:54
234072,2021-01-20 12:57:33,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-01-20 13:22:06


In [19]:
df1[df1['Serviço'].isnull()]

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer


#### Deletar o campo que não terá mais utilidade

In [20]:
df1 = df1.drop('Especificação do assunto', axis=1)

## Tratamento dos campos de localização

#### Os campos 'Bairro' e 'Distrito' são ambíguos, por isso que os valores que estão nulos em 'Distrito' receberão o valor de 'Bairro', caso exista. Além disso, o campo 'Distrito' existe alguns que são número, indicando um distrito que está na metadado disponibilizado neste repositório.

### Converter os valores que estão em código para o seu nome original

In [21]:
distrito = pd.read_csv('codigos_de_distritos.csv', sep=';')

In [22]:
distrito['Nr Distrito'] = distrito['Nr Distrito'].astype(float)

In [23]:
distrito

Unnamed: 0,Nr Distrito,Nome Distrito
0,1.0,Agua Rasa
1,2.0,Alto de Pinheiros
2,3.0,Anhanguera
3,4.0,Aricanduva
4,5.0,Artur Alvim
5,6.0,Barra Funda
6,7.0,Bela Vista
7,8.0,Belem
8,9.0,Bom Retiro
9,10.0,Bras


In [24]:
df1['Distrito'] = df1['Distrito'].replace(distrito.set_index('Nr Distrito')['Nome Distrito'])

### Preencher valores de 'Distrito' com o de 'Bairro'

In [25]:
df1.loc[df1['Distrito'].isnull() & df1['Bairro'].notnull(), 'Distrito'] = df1.loc[df1['Distrito'].isnull() & df1['Bairro'].notnull(), 'Bairro']

In [26]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
571107,2014-03-21,,"Animais / Abelhas, Vespas, Marimbondos",Colméia/Vespeiro instalado,JARDIM PAULISTANO,JARDIM PAULISTANO,REALIZADA,2014-07-21 00:00:00.000
27482,2022-11-07 23:38:43,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,,FINALIZADA,2022-11-09 08:22:31
658311,2012-10-26 23:20:14.147,,Animais / Cão,Cão Agressor,TUCURUVI,Vila Andrade,REALIZADA,2013-03-22 09:55:10.440
165278,2021-07-21 10:37:21,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-07-22 13:42:15
344956,2019-08-27 14:37:19.067,Animais,Animais que transmitem doenças ou risco à saúde,Ratos - Solicitar vistoria em local infestado,,VILA MEDEIROS,FINALIZADA,2019-10-03 13:30:41.379
318372,2020-09-30 15:53:28,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,,FINALIZADA,2020-10-19 21:23:31
504108,2015-01-15 12:07:50.497,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas - Solicitar vistoria em ninhos,,CIDADE DUTRA,FINALIZADA,2015-01-23 02:00:00.000
220366,2021-06-17 13:11:53,Animais,Criação inadequada de animais,Denunciar condições inadequadas de criação,,JABAQUARA,FINALIZADA,2021-06-23 14:28:11
324264,2020-02-03 09:35:33,Animais,Animal agressor e/ou invasor,Avisar sobre animal agressor em vias públicas,,GRAJAU,FINALIZADA,2020-02-18 17:31:05
373329,2019-04-15 05:56:51.836,Animais,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em lo...,,CAPAO REDONDO,FINALIZADA,2019-04-18 20:40:02.131


In [27]:
df1 = df1.drop('Bairro', axis=1)

In [28]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Serviço,Distrito,Status da solicitação,Data do parecer
525575,2015-05-27 13:34:53.110,Animais,Animal agressor e/ou invasor,Avisar sobre animal agressor em vias públicas,VILA ANDRADE,FINALIZADA,2015-06-10 03:00:00.000
120283,2022-03-06 12:50:01,Animais,Animal em via pública,Solicitar remoção de animal morto em via pública,MANDAQUI,FINALIZADO,2022-03-06 18:04:25
565531,2014-02-21,,"Animais / Abelhas, Vespas, Marimbondos",Colméia/Vespeiro instalado,JARDIM SAO PAULO,REALIZADA,2014-03-10 00:00:00.000
265133,2020-12-11 20:46:46,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2020-12-14 13:03:36
335449,2020-06-09 15:13:59,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2020-06-11 18:03:45
307244,2020-08-30 21:09:33,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2020-10-14 14:12:24
681548,2012-02-26 22:55:37.200,,Animais / Cão,Cão Agressor,Moema,CANCELADA,2012-04-24 00:00:00.000
645313,2012-07-30 12:27:57.220,,Animais / Ratos,Reclamação de ratos,Pedreira,REALIZADA,2012-08-02 15:45:42.290
219611,2021-06-15 19:22:05,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-06-21 10:27:41
653278,2012-09-23 11:31:34.460,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,PARQUE INDEPENDENCIA,REALIZADA,2017-05-04 17:23:21.817000


In [29]:
df1['Distrito'].isnull().sum()

232507

In [30]:
df1['Distrito'].notnull().sum()

471853

## Tratamento das descrições (Assunto, Serviço)

In [31]:
df2 = df1.rename({'Assunto': 'Tipo de Serviço'}, axis=1)

In [32]:
df2.sample()

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
328271,2020-03-04 18:58:44,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas - Solicitar vistoria em ninhos,AGUA RASA,FINALIZADA,2020-04-09 16:44:58


In [33]:
df2['Tipo de Serviço'].drop_duplicates()

0                                Registro de animais - RGA
1                              Exames, vacinas e castração
3                                        Adoção de animais
4                            Criação inadequada de animais
6                                       Animais silvestres
9                                    Animal em via pública
14         Animais que transmitem doenças ou risco à saúde
23                            Animal agressor e/ou invasor
66        Dengue/chikungunya/zika (mosquito aedes aegypti)
26265                                  Comércio de animais
128038                    Animais que podem causar doenças
361615                                      Animais/Aranha
386661                                  Animais/Carrapatos
392961                                      Animais/Pulgas
397007                                      Animais/barata
529214                                       Animais / Cão
529218                                      Animais / Ga

In [34]:
df2[['Tipo de Serviço', 'Serviço']].drop_duplicates()

Unnamed: 0,Tipo de Serviço,Serviço
0,Registro de animais - RGA,Avisar sobre animal encontrado com Registro G...
1,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente
3,Adoção de animais,Adotar cães e gatos
4,Criação inadequada de animais,Denunciar condições inadequadas de criação
6,Animais silvestres,Animais silvestres feridos ? Solicitar atendim...
9,Animal em via pública,Solicitar remoção de animal morto em via pública
12,Animal em via pública,Avaliação de animal em sofrimento sem propriet...
14,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em lo...
15,Animais que transmitem doenças ou risco à saúde,Morcegos - Reclamar sobre local com morcegos
19,Animais que transmitem doenças ou risco à saúde,Ratos - Solicitar vistoria em local infestado


### Padronizar o Tipo de Serviço

In [35]:
df2.loc[df2['Tipo de Serviço'].str.contains('Animais[ |/]') & df2['Tipo de Serviço']
        .str.match('^(?!.*(Cão|Gato|Cavalo|silvestres|RGA|agressor|via))'), 'Tipo de Serviço'
       ] = 'Animais que transmitem doenças ou risco à saúde'

In [36]:
df2[['Tipo de Serviço', 'Serviço']].drop_duplicates()

Unnamed: 0,Tipo de Serviço,Serviço
0,Registro de animais - RGA,Avisar sobre animal encontrado com Registro G...
1,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente
3,Adoção de animais,Adotar cães e gatos
4,Criação inadequada de animais,Denunciar condições inadequadas de criação
6,Animais silvestres,Animais silvestres feridos ? Solicitar atendim...
9,Animal em via pública,Solicitar remoção de animal morto em via pública
12,Animal em via pública,Avaliação de animal em sofrimento sem propriet...
14,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em lo...
15,Animais que transmitem doenças ou risco à saúde,Morcegos - Reclamar sobre local com morcegos
19,Animais que transmitem doenças ou risco à saúde,Ratos - Solicitar vistoria em local infestado


In [37]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace('Animais / ', '')

In [38]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace(' / Animais', '')

In [39]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace('Dengue/chikungunya/zika (mosquito aedes aegypti)', 'Vistoria')

In [40]:
df2['Tipo de Serviço'].drop_duplicates()

0                               Registro de animais - RGA
1                             Exames, vacinas e castração
3                                       Adoção de animais
4                           Criação inadequada de animais
6                                      Animais silvestres
9                                   Animal em via pública
14        Animais que transmitem doenças ou risco à saúde
23                           Animal agressor e/ou invasor
66                                               Vistoria
26265                                 Comércio de animais
529214                                                Cão
529218                                               Gato
529226                                            Animais
529765                                             Cavalo
Name: Tipo de Serviço, dtype: object

### Apagar os registros de teste

In [41]:
df2 = df2.drop(df2.loc[df1['Serviço'].str.contains('TESTE', regex=True)].index)

### Padronizar o Serviço

#### Tratar o Tipo de Serviço 'Animais que transmitem doenças ou risco à saúde'

In [42]:
df2.loc[df2['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

21          Abelhas e Vespas - Solicitar vistoria em ninhos
529220                           Colméia/Vespeiro instalado
69        Escorpião - Solicitar vistoria de local com es...
15             Morcegos - Reclamar sobre local com morcegos
529296                   Ocorrências / Condições de criação
529237                              Ocorrências com morcego
585177                               Ocorrências rotineiras
14        Pernilongo/Mosquito - Solicitar vistoria em lo...
227          Pombos - Solicitar vistoria em local infestado
19            Ratos - Solicitar vistoria em local infestado
361615                                Reclamação de Aranhas
529472                                Reclamação de Baratas
529263                             Reclamação de Carrapatos
540659                             Reclamação de Escorpiões
529244                  Reclamação de Escorpiões ou Aranhas
529414                               Reclamação de Formigas
529725                                 R

In [43]:
df3 = df2.copy()

#### Juntar Serviços iguais com nomes diferentes

In [44]:
df3.loc[(df3['Serviço'].str.contains('Pernilongo/Mosquito', regex=True)) | (df3['Serviço'] == 'Reclamação de Pernilongo'), 'Serviço'] = 'Reclamação de Pernilongos e Mosquitos'

In [45]:
df3.loc[(df3['Serviço'] == 'Abelhas e Vespas') | (df3['Serviço'] == 'Colméia/Vespeiro instalado'), 'Serviço'] = 'Remoção de Abelhas, Vespas ou Marimbondos'

In [46]:
df3.loc[df3['Serviço'].str.contains('Escorpião', regex=True), 'Serviço'] = 'Escorpiões'

In [47]:
df3.loc[df3['Serviço'] == 'Reclamação de Escorpião', 'Serviço'] = 'Reclamação de Escorpiões'

In [48]:
df3.loc[df3['Serviço'] == 'Ocorrências com morcego', 'Serviço'] = 'Reclamação de Morcegos'

#### Juntar diversos Serviços que estão duplicados, seguindo um padrão igual

In [49]:
df3.loc[df3['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'] = df3.loc[df3[
    'Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].str.replace(r' -.*', '', regex=True)

In [50]:
df3.loc[df3['Serviço'].str.split().str.len() == 1, 'Serviço'] = 'Reclamação de ' + df3['Serviço']

In [51]:
df3.loc[df3['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

21                                 Abelhas e Vespas
529296           Ocorrências / Condições de criação
585177                       Ocorrências rotineiras
361615                        Reclamação de Aranhas
529472                        Reclamação de Baratas
529263                     Reclamação de Carrapatos
69                         Reclamação de Escorpiões
529244          Reclamação de Escorpiões ou Aranhas
529414                       Reclamação de Formigas
15                           Reclamação de Morcegos
529725                         Reclamação de Moscas
14            Reclamação de Pernilongos e Mosquitos
227                            Reclamação de Pombos
529482                         Reclamação de Pulgas
19                              Reclamação de Ratos
397007                        Reclamação de baratas
386661                     Reclamação de carrapatos
392961                         Reclamação de pulgas
529219                          Reclamação de ratos
529220    Re

#### Tratar os Tipos de Serviços que NÃO são 'Animais que transmitem doenças ou risco à saúde'

#### Retirar caracteres não úteis

In [52]:
df3['Serviço'] = df3['Serviço'].str.replace('?', '-')
df3['Serviço'] = df3['Serviço'].str.replace('–', '-')
df3['Serviço'] = df3['Serviço'].str.replace('Invadiu o local ', 'Invadiu o local')

In [53]:
pd.set_option('display.max_colwidth', None)
df3.loc[df3['Tipo de Serviço'] != 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

529406                                                          Acidentado sem proprietário
3                                                                       Adotar cães e gatos
1460                                        Animais silvestres - Agendar entrega voluntária
6                            Animais silvestres feridos - Solicitar atendimento veterinário
109                                        Animal de grande porte solto - Solicitar remoção
529221                                     Atropelado ou Acidentado vivo e sem proprietário
529238                                                          Atropelado sem proprietário
12        Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
0                        Avisar  sobre animal encontrado com Registro Geral do Animal (RGA)
23                                            Avisar sobre animal agressor em vias públicas
34365                  Cadastro Municipal de Comércio de Animais (CMCA) - Cancel

#### Padronizar os 'Serviços' que contém 'Acidentado' ou 'Atropelado'

In [54]:
df3.loc[df3['Serviço'].str.contains('Atropelado') | df3['Serviço'].str.contains('Acidentado'), 'Serviço'
       ] = 'Atropelado ou Acidentado vivo e sem proprietário'

#### Padronizar 'Condições de criação' e 'Denunciar condições inadequadas de criação' com 'Condições de criação / maus tratos'

In [55]:
df3.loc[df3['Serviço'].str.match('.*ondições'), 'Serviço'
       ] = 'Condições de criação / maus tratos'

#### Padronizar os que tem 'Remoção de animal morto em via pública' (3)

In [56]:
df3.loc[df3['Serviço'].str.match('.*morto em via.*'), 'Serviço'
       ] = 'Remoção de animal morto em via pública'

#### Usar o 'Tipo de Serviço' para preencher 'Serviços' não tão bem descritos, como 'Solto em via pública'

In [57]:
condicoes = (df3['Serviço'] == 'Em parques') | (df3['Serviço'] == 'Invadiu o local') | (df3['Serviço'] == 'Solto em via pública')
df3.loc[condicoes, 'Serviço'] = df3.loc[condicoes, 'Tipo de Serviço'].str.cat(df3.loc[condicoes, 'Serviço'], sep=' ')

In [58]:
condicoes = (df3['Serviço'] == 'Diversas ocorrências') | (df3['Serviço'] == 'Ocorrências rotineiras')
df3.loc[condicoes, 'Serviço'] = df3.loc[condicoes, 'Tipo de Serviço'].str.cat(df3.loc[condicoes, 'Serviço'], sep=' - ')

In [59]:
pd.set_option('display.max_colwidth', None)
df3.loc[df3['Tipo de Serviço'] != 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

3                                                                       Adotar cães e gatos
1460                                        Animais silvestres - Agendar entrega voluntária
6                            Animais silvestres feridos - Solicitar atendimento veterinário
109                                        Animal de grande porte solto - Solicitar remoção
529221                                     Atropelado ou Acidentado vivo e sem proprietário
12        Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
0                        Avisar  sobre animal encontrado com Registro Geral do Animal (RGA)
23                                            Avisar sobre animal agressor em vias públicas
34365                  Cadastro Municipal de Comércio de Animais (CMCA) - Cancelar cadastro
26265                    Cadastro Municipal de Comércio de Animais (CMCA) - Fazer inscrição
501                                        Castrar cães e gatos de protetores in

In [60]:
df3[['Tipo de Serviço', 'Serviço']].drop_duplicates().sort_values(by=['Tipo de Serviço', 'Serviço'])

Unnamed: 0,Tipo de Serviço,Serviço
3,Adoção de animais,Adotar cães e gatos
529226,Animais,Remoção de animal morto em via pública
21,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas
585177,Animais que transmitem doenças ou risco à saúde,Animais que transmitem doenças ou risco à saúde - Ocorrências rotineiras
529296,Animais que transmitem doenças ou risco à saúde,Condições de criação / maus tratos
361615,Animais que transmitem doenças ou risco à saúde,Reclamação de Aranhas
529472,Animais que transmitem doenças ou risco à saúde,Reclamação de Baratas
529263,Animais que transmitem doenças ou risco à saúde,Reclamação de Carrapatos
69,Animais que transmitem doenças ou risco à saúde,Reclamação de Escorpiões
529244,Animais que transmitem doenças ou risco à saúde,Reclamação de Escorpiões ou Aranhas


In [61]:
df3.sample(10)

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
351481,2019-10-24 17:35:57.216,Animais,Animais que transmitem doenças ou risco à saúde,Reclamação de Ratos,RIO PEQUENO,FINALIZADA,2019-10-30 18:58:45.845
325414,2020-02-11 16:10:48,Animais,Criação inadequada de animais,Condições de criação / maus tratos,PIRITUBA,FINALIZADA,2020-07-17 19:01:19
650069,2012-09-03 19:29:42.857,,Animais que transmitem doenças ou risco à saúde,Reclamação de ratos,Cidade Ademar,REALIZADA,2012-09-24 00:00:00.000
347263,2019-09-18 22:58:51.861,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas,TREMEMBE,FINALIZADA,2019-09-20 17:33:39.802
301573,2020-08-09 03:34:10,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,INDEFERIDO,2020-08-23 16:41:41
403950,2018-02-01 21:43:30.243,Animais,Animal em via pública,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor),SANTO AMARO,FINALIZADA,2018-02-02 01:19:30.572
566369,2014-02-26,,Animais que transmitem doenças ou risco à saúde,"Remoção de Abelhas, Vespas ou Marimbondos",JARDIM ARICANDUVA,INDEFERIDA,2015-04-06 03:00:00.000
626927,2013-03-26,,Animais que transmitem doenças ou risco à saúde,"Remoção de Abelhas, Vespas ou Marimbondos",VILA PALMEIRAS,REALIZADA,2013-03-28 00:00:00.000
486069,2015-09-21 13:14:24.273,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas,PINHEIROS,FINALIZADA,2015-09-24 03:00:00.000
312557,2020-09-15 17:23:56,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2020-11-16 18:55:28


### Realizar um capitalize em cada "Serviço" caso gouver necessidade

In [62]:
def capitalize(servico):
    # Descobrir o sinal que a frase usa
    sinal = re.findall(r" - | / ", servico)
    
    if sinal:
        # Dividindo a frase em duas partes: antes e depois do traço ou da barra
        partes = re.split(sinal[0], servico)
        
        # Realizando o capitalize na primeira parte (antes do traço)
        parte1 = partes[0].capitalize()

        # Realizando o capitalize na segunda parte (depois do traço)
        parte2 = partes[1].capitalize()
        
        return "".join([parte1, sinal[0], parte2])
    else:
        return servico.capitalize()

In [63]:
df3['Serviço'] = df3['Serviço'].apply(lambda x: capitalize(x) if not re.search(r'RGA|CMCA', x) else x)

In [64]:
df3[['Tipo de Serviço', 'Serviço']].drop_duplicates().sort_values(by=['Tipo de Serviço', 'Serviço'])

Unnamed: 0,Tipo de Serviço,Serviço
3,Adoção de animais,Adotar cães e gatos
529226,Animais,Remoção de animal morto em via pública
21,Animais que transmitem doenças ou risco à saúde,Abelhas e vespas
585177,Animais que transmitem doenças ou risco à saúde,Animais que transmitem doenças ou risco à saúde - Ocorrências rotineiras
529296,Animais que transmitem doenças ou risco à saúde,Condições de criação / Maus tratos
361615,Animais que transmitem doenças ou risco à saúde,Reclamação de aranhas
397007,Animais que transmitem doenças ou risco à saúde,Reclamação de baratas
386661,Animais que transmitem doenças ou risco à saúde,Reclamação de carrapatos
69,Animais que transmitem doenças ou risco à saúde,Reclamação de escorpiões
529244,Animais que transmitem doenças ou risco à saúde,Reclamação de escorpiões ou aranhas


### Transformar todas as datas e horas para apenas data

In [65]:
df4 = df3.copy()

#### 'Data de abertura'

In [66]:
df4['Data de abertura'] = df4['Data de abertura'].str.slice(0,10)

In [67]:
df4['Data de abertura'] = pd.to_datetime(df4['Data de abertura']).dt.date

In [68]:
df4['Data de abertura'].sample(10)

178409    2021-08-26
8383      2023-01-26
295055    2020-07-17
519102    2015-04-08
117180    2022-02-23
202445    2021-05-04
376020    2019-05-05
530342    2014-07-14
306047    2020-08-25
601790    2013-11-12
Name: Data de abertura, dtype: object

In [69]:
df4.loc[df4['Data do parecer'].notnull(), 'Data do parecer'] = df4.loc[
    df4['Data do parecer'].notnull(), 'Data do parecer'].str.slice(0,10)

In [70]:
df4['Data do parecer'].sample(10)

192701    2021-04-19
148297    2021-12-23
525157    2015-05-29
347833    2019-10-02
521778    2015-07-24
625455    2013-06-18
387484    2018-09-12
425031    2017-10-25
482120    2015-09-14
107039    2022-02-14
Name: Data do parecer, dtype: object

In [71]:
df4.sample(10)

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
554686,2014-01-03,,Animais que transmitem doenças ou risco à saúde,Reclamação de pernilongos e mosquitos,VILA SANTO HENRIQUE,REALIZADA,2014-01-14
310316,2020-09-10,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2020-10-26
433630,2017-12-18,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e vespas,PERUS,FINALIZADA,2017-12-29
345473,2019-09-02,Animais,Animal agressor e/ou invasor,Cães e gatos invasores de instituições públicas - Solicitar avaliação,JAGUARA,FINALIZADA,2019-09-02
372165,2019-04-03,Animais,Animais que transmitem doenças ou risco à saúde,Reclamação de escorpiões,CACHOEIRINHA,FINALIZADA,2019-04-15
433283,2017-12-15,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e vespas,CIDADE ADEMAR,FINALIZADA,2018-02-27
130561,2021-10-09,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,INDEFERIDO,2021-10-23
461042,2016-02-16,Animais,Animais que transmitem doenças ou risco à saúde,Reclamação de ratos,,FINALIZADA,2016-06-13
7781,2023-01-24,Animais,Animal em via pública,Animal de grande porte solto - Solicitar remoção,JARDIM SAO LUIS,FINALIZADA,2023-01-24
474953,2016-06-02,Animais,Criação inadequada de animais,Condições de criação / Maus tratos,,INDEFERIDO,2016-06-06


In [72]:
df4.isnull().any()

Data de abertura         False
Tema                      True
Tipo de Serviço          False
Serviço                  False
Distrito                  True
Status da solicitação    False
Data do parecer           True
dtype: bool

## Gerar o arquivo com os dados necessários

In [73]:
df4.to_parquet('sp156_all_time.gzip',
              compression='gzip',
              index=False)