# Pipeline ETL: Agregando Datasets do SP196 em um Arquivo Consolidado

## Aviso: Comentários resumidos neste código; consulte a  [Documentação](https://github.com/DemikFR/Analise-Controle-Zoonoses-SP156/blob/main/README.md) para obter uma compreensão mais detalhada das razões por trás de cada trecho de código.

## Gerar o dataframe com os dados da Prefeitura

In [1]:
import requests
import re
from bs4 import BeautifulSoup as bs
import pandas as pd
from io import StringIO
import chardet

### Criar o dataframe que conterá os dados necessários para a análise

In [2]:
df = pd.DataFrame()
dfs = []

## Função para buscar os caminhos para o download de cada dataset

In [3]:
def get_soup(url, search):
    response = requests.get(url)
    
    # Verificar se a conexão foi bem sucedida
    if response.status_code == 200:
        soup = bs(response.content, 'html.parser')

        # Retornar as páginas onde terão as de download
        return soup.find_all('a', href=True, attrs={'title': re.compile(search)}) 
    else:
        return f'Página{link["title"]} está inacessível. Código: {response.status_code}'

## Código para inserir os dados em uma lista

In [4]:
# URL base do site da Prefeitura
url_base = 'http://dados.prefeitura.sp.gov.br'

# URL inicial onde estarão os links para os datasets
url_inicial = 'http://dados.prefeitura.sp.gov.br/dataset/dados-do-sp156'

# extensão do dataset para filtrar
file_type = '.csv'

for link in get_soup(url_inicial, r'^Dados do SP156 -.*'):
    
    # Pegar o link de download
    for page in get_soup(url_base+link['href'], r'^http://dados.prefeitura.sp.gov.br/dataset/.*'):
        link_download = page['href']
        
        # Verificar se é o arquivo a ser baixado é Excel
        if file_type in link_download:
            
            # Pegar o conteúdo do CSV
            response_csv = requests.get(page['href'])
            
            # Cada datset tem um encoding diferente, por isso foi necessário usar a biblioteca chardet para identificar 
            # automaticamente qual é.
            encoding = chardet.detect(response_csv.content)['encoding']
            
            # Colocar os dados na tabela auxiliar
            if int(link["title"][-4:]) >= 2021:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=';', encoding=encoding, low_memory=False)
            else:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=',', encoding=encoding, low_memory=False)
                
            dfs.append(df3)  # Adicionar o DataFrame intermediário à lista
            
            # Inserir os dados na planilha original
            print(f'Os dados do {link["title"]} foram inseridos com sucesso.')

Os dados do Dados do SP156 - 1º TRI 2023 foram inseridos com sucesso.
Os dados do Dados do SP156 - 4º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º TRI 2022 foram inseridos com sucesso.
Os dados do Dados do SP156 - 4º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º TRI 2021 foram inseridos com sucesso.
Os dados do Dados do SP156 - Dezembro - 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - Outubro e Novembro - 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 3º TRI 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 1º SEM 2020 foram inseridos com sucesso.
Os dados do Dados do SP156 - 2º SEM 2019 foram inseridos com sucesso.
Os

## Criar o dataframe com todos os datasets coletados

In [85]:
df = pd.concat(dfs, ignore_index=True)

In [86]:
df.shape

(13688540, 33)

## Verificar todas as colunas disponibilizadas

In [87]:
df.any()

Data de abertura                                                          True
Canal                                                                     True
Tema                                                                      True
Assunto                                                                   True
Serviço                                                                   True
Logradouro                                                                True
Número                                                                    True
CEP                                                                       True
Subprefeitura                                                             True
Distrito                                                                  True
Setor                                                                     True
Quadra                                                                    True
Latitude                                            

## Manter apenas os campos necessários

In [88]:
df = df[['Data de abertura', 'Tema', 'Assunto', 'Especificação do assunto', 'Serviço', 'Bairro', 'Distrito'
         , 'Status da solicitação', 'Data do parecer']]

## Apagar registros que por terem muitos valores nulo, não servirão para a análise

In [89]:
df = df.dropna(thresh=4)

In [90]:
df[df['Data de abertura'].isnull()]

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer


In [91]:
df.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
1627950,2022-04-28 10:14:20,Bilhete Único,BU Estudante e Professor,,Bilhete Único Estudante - Apresentação de justificativa após bloqueio por reconhecimento facial,,,FINALIZADA,2022-04-28 18:04:29
1989830,2022-01-10 17:50:07,Segurança urbana,Alistamento e Serviço Militar,,Certificado de Reservista - 2ª via,,,FINALIZADO,2022-02-04 11:28:31
3812327,2021-04-30 02:15:27,Cidadania e assistência social,Renda Básica Emergencial,,Renda Básica Emergencial - Consultar segunda parcela (abril de 2021),,,FINALIZADA,2021-04-30 02:39:11
8564649,2019-05-15 18:55:21.259,Animais,Criação inadequada de animais,,Denunciar condições inadequadas de criação,,CIDADE TIRADENTES,FINALIZADA,2019-08-01 14:29:09.723
707787,2022-10-24 12:00:40,Trânsito e Transporte,Estacionamento,,Cartão de estacionamento idoso,,,FINALIZADA,2022-10-25 15:00:05
6996328,2020-01-28 10:20:40.020,Rua e bairro,"Reparos em asfalto, pontes e viadutos",,Tapa-buraco,,CIDADE LIDER,INDEFERIDO,2020-05-05 03:02:46.000
3110198,2021-07-27 14:58:25,Finanças,Senha Web,,"Senha Web - Desbloqueio online para MEI, Empresário Individual e Pessoa Física",,,FINALIZADA,2021-07-28 18:20:16
5382655,2021-03-31 03:24:20,Cidadania e assistência social,Renda Básica Emergencial,,Renda Básica Emergencial - Consultar benefício de 2020,,,FINALIZADA,2021-03-31 03:24:22
7627501,2019-07-24 01:23:00.812,"Obras, imóveis e habitação",IPTU - Imposto Predial e Territorial Urbano,,IPTU - Fale com a Fazenda,,,FINALIZADA,2019-07-24 16:30:00.711
5725501,2020-12-11 19:38:09.098,Cidadania e assistência social,Renda Básica Emergencial,,Renda Básica Emergencial - Consultar benefício de 2020,,,FINALIZADA,2020-12-11 21:37:54.116


## Filtrar apenas os dados necessários para a análise

In [92]:
df['Tema'].drop_duplicates()

0           Cidadania e assistência social
5                                  Animais
7               Obras, imóveis e habitação
10                            Rua e bairro
34                           Meio Ambiente
37                          Lixo e limpeza
41                                Urgência
54                                   Saúde
67                     Comércio e serviços
95                   Trânsito e Transporte
151                           Causa animal
188           Ouvidoria Geral do Município
227                         Pragas urbanas
431                               Finanças
439                         Acessibilidade
918                          Bilhete Único
1272                      Segurança urbana
2334                 Documentos e licenças
2885              Cultura, esporte e lazer
4389                              Educação
8048                              Trabalho
334059              Descomplica São Miguel
596920               Canais de Atendimento
597569     

### Entender o motivo de existirem nulos no 'Tema'

In [93]:
pd.set_option('display.max_rows', None)
df[df.Tema.isnull()]['Assunto'].drop_duplicates()

11388300                                                 Construcao de passarelas
11388301                                                                   Buraco
11388302                                                          Poluição Sonora
11388304                     Placas de Nomes de Ruas, Praças e demais Logradouros
11388306                                             Iluminacao - Lampada apagada
11388307                                 Transporte publico / Conduta de Trabalho
11388308                                                  Remoção veículo/carcaça
11388310                                                                   Elogio
11388314                                                Vistoria / Infraestrutura
11388317                                                                    Obras
11388318                                                               Edificacao
11388319                                                            Animais / Cão
11388324        

### O campo 'Tema' só é usado em datasets mais recentes, por isso deve-se utilizar o campo 'Assunto' para filtrar

In [94]:
df1 = df[df['Assunto'].str.contains('Animais', regex=False) | df['Tema'].str.contains(r'^Anim.*|^Pragas.*', regex=True)].reset_index(drop=True)

In [95]:
df1.shape

(704360, 9)

In [96]:
df1.sample(20)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
559017,2014-01-22,,"Animais / Abelhas, Vespas, Marimbondos",Colméia/Vespeiro instalado,,JARDIM VARGINHA DO ITAIM,,REALIZADA,2014-03-10 00:00:00.000
238683,2021-01-31 19:15:47,Animais,Criação inadequada de animais,,Denunciar condições inadequadas de criação,,JARDIM HELENA,FINALIZADA,2021-04-29 14:50:40
218837,2021-06-14 13:30:09,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2021-06-17 09:58:54
574304,2014-04-07,,Animais / Formiga,Reclamação de Formigas,,JARDIM DANFER,,REALIZADA,2014-05-21 00:00:00.000
89938,2022-06-13 15:04:14,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,CAMPO GRANDE,FINALIZADA,2022-07-12 13:53:25
619149,2013-02-17,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,,VILA DAS BELEZAS,,REALIZADA,2013-02-19 00:00:00.000
148072,2021-11-27 02:35:48,Animais,Registro de animais - RGA,,Registro Geral do Animal (RGA) - Solicitar identidade do animal,,,FINALIZADA,2022-01-07 19:12:13
539870,2014-10-01,,Animais / Cavalo,Condições de criação,,VILA CARMOSINA,,REALIZADA,2015-01-05 00:00:00.000
44120,2022-07-14 09:19:35,Animais,Animais que transmitem doenças ou risco à saúde,,Ratos - Solicitar vistoria em local infestado,,IGUATEMI,FINALIZADA,2022-09-08 14:24:54
569202,2014-03-13,,Animais / Ratos,Reclamação de ratos,,VILA CARMOSINA,,REALIZADA,2014-09-23 00:00:00.000


## Padronizar o campo 'Serviço' com o 'Especificação do assunto'

#### Os dois campos possuem o mesmo objetivo

In [97]:
df1.loc[df1['Serviço'].isnull(), 'Serviço'] = df1.loc[df1['Serviço'].isnull(), 'Especificação do assunto']

In [98]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
528252,2015-06-20 14:03:36.403,Animais,Animal em via pública,,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor),,CIDADE DUTRA,CANCELADA,2018-04-12 12:14:04.320
559947,2014-01-27,,Animais / Moscas,Reclamação de Moscas,Reclamação de Moscas,CONJUNTO RESIDENCIAL JOSE BONIFACIO,,REALIZADA,2014-07-17 00:00:00.000
629173,2013-04-08,,Animais / Escorpiões ou Aranhas,Reclamação de Escorpiões ou Aranhas,Reclamação de Escorpiões ou Aranhas,SITIO DA FIGUEIRA,,REALIZADA,2013-05-13 00:00:00.000
645733,2012-08-02 10:59:02.460,,Animais / Ratos,Reclamação de ratos,Reclamação de ratos,CIDADE TIRADENTES,,REALIZADA,2012-08-07 10:40:44.420
301321,2020-08-07 17:46:50.172,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2020-09-02 17:40:52.679
673604,2012-01-20 09:25:19.990,,Animais / Cão,Invadiu o local,Invadiu o local,JARDIM SAO VICENTE,76.0,CANCELADA,2015-05-28 00:00:00.000
345802,2019-09-05 14:53:43.106,Animais,Animais que transmitem doenças ou risco à saúde,,Escorpião - Solicitar vistoria de local com escorpiões,,CACHOEIRINHA,FINALIZADA,2019-12-16 14:50:53.293
305898,2020-08-25 12:12:00.057,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,FINALIZADA,2020-09-25 13:19:25.413
382382,2018-07-13 20:26:54.101,Animais,Criação inadequada de animais,,Denunciar condições inadequadas de criação,,IPIRANGA,FINALIZADA,2018-09-25 11:33:03.584
374517,2019-04-23 15:57:31.337,Animais,Animal em via pública,,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor),,CAMPO LIMPO,FINALIZADA,2019-04-23 20:47:44.196


In [99]:
df1[df1['Serviço'].isnull()]

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer


#### Deletar o campo que não terá mais utilidade

In [100]:
df1 = df1.drop('Especificação do assunto', axis=1)

## Tratamento dos campos de localização

#### Os campos 'Bairro' e 'Distrito' são ambíguos, por isso que os valores que estão nulos em 'Distrito' receberão o valor de 'Bairro', caso exista. Além disso, o campo 'Distrito' existe alguns que são número, indicando um distrito que está na metadado disponibilizado neste repositório.

### Preencher valores de 'Distrito' com o de 'Bairro'

In [101]:
df1.loc[df1['Distrito'].isnull() & df1['Bairro'].notnull(), 'Distrito'] = df1.loc[df1['Distrito'].isnull() & df1['Bairro'].notnull(), 'Bairro']

In [102]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
404510,2018-02-08 10:41:18.937,Animais,Animal em via pública,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor),,BRASILANDIA,FINALIZADA,2018-02-08 19:34:41.745
343733,2019-08-12 21:32:18.432,Animais,Criação inadequada de animais,Denunciar condições inadequadas de criação,,CAMPO LIMPO,FINALIZADA,2019-09-09 11:39:37.789
580377,2014-05-14,,Animais / Pombos,Reclamação de Pombos,VILA PALMEIRAS,VILA PALMEIRAS,REALIZADA,2014-06-09 00:00:00.000
583366,2014-06-11,,Animais / Escorpiões ou Aranhas,Reclamação de Escorpiões ou Aranhas,CONJUNTO RESIDENCIAL JOSE BONIFACIO,CONJUNTO RESIDENCIAL JOSE BONIFACIO,REALIZADA,2014-06-16 00:00:00.000
33848,2022-12-06 09:14:23,Animais,Dengue/chikungunya/zika (mosquito aedes aegypti),Água limpa e parada ? Solicitar vistoria de local com acúmulo,,,FINALIZADA,2023-01-17 14:42:19
484769,2015-09-11 12:28:25.593,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas - Solicitar vistoria em ninhos,,VILA FORMOSA,FINALIZADA,2015-11-06 02:00:00.000
666978,2012-12-17 13:53:16.790,,Animais / Cão,Condições de criação / maus tratos,VILA SANTO HENRIQUE,60.0,REALIZADA,2013-11-04 00:00:00.000
626431,2013-03-23,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,RIVIERA PAULISTA,RIVIERA PAULISTA,REALIZADA,2017-05-15 10:37:40.806
126950,2022-03-28 23:15:49,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,,FINALIZADO,2022-03-29 11:39:39
79614,2022-05-10 10:15:52,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,,INDEFERIDO,2022-05-22 18:05:26


### Converter os valores que estão em código para o seu nome original

In [103]:
distrito = pd.read_csv('codigos_de_distritos.csv', sep=';')

In [104]:
distrito['Nr Distrito'] = distrito['Nr Distrito'].astype(float)

In [105]:
distrito

Unnamed: 0,Nr Distrito,Nome Distrito
0,1.0,Agua Rasa
1,2.0,Alto de Pinheiros
2,3.0,Anhanguera
3,4.0,Aricanduva
4,5.0,Artur Alvim
5,6.0,Barra Funda
6,7.0,Bela Vista
7,8.0,Belem
8,9.0,Bom Retiro
9,10.0,Bras


In [106]:
df1['Distrito'] = df1['Distrito'].replace(distrito.set_index('Nr Distrito')['Nome Distrito'])

In [107]:
df1 = df1.drop('Bairro', axis=1)

In [108]:
df1.sample(10)

Unnamed: 0,Data de abertura,Tema,Assunto,Serviço,Distrito,Status da solicitação,Data do parecer
683497,2012-03-04 13:36:43.850,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,Jardim Sao Luis,REALIZADA,2012-03-04 00:00:00.000
117129,2022-02-23 13:42:29,Animais,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em local infestado,CAMPO GRANDE,FINALIZADO,2022-03-21 17:05:29
145298,2021-11-22 23:42:17,Animais,Registro de animais - RGA,Registro Geral do Animal (RGA) - Solicitar identidade do animal,,INDEFERIDO,2021-12-08 14:21:33
416642,2018-06-13 14:26:13.862,Animais,Animal agressor e/ou invasor,Avisar sobre animal agressor em vias públicas,CIDADE LIDER,FINALIZADA,2018-06-20 22:00:53.392
171167,2021-08-06 18:31:11,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,INDEFERIDO,2021-08-22 16:55:55
588335,2013-07-29,,Animais / Cão,Cão Agressor,JAGUARE,REALIZADA,2013-07-29 00:00:00.000
137943,2021-11-04 12:56:48,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-11-04 17:52:39
142878,2021-11-18 13:20:38,Animais,Registro de animais - RGA,Registro Geral do Animal (RGA) - Solicitar identidade do animal,,FINALIZADA,2021-12-08 18:42:08
373214,2019-04-12 21:44:04.409,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas - Solicitar vistoria em ninhos,SANTANA,FINALIZADA,2019-06-07 18:43:05.214
550742,2014-12-08,,"Animais / Abelhas, Vespas, Marimbondos",Colméia/Vespeiro instalado,JARDIM DAS ACACIAS,REALIZADA,2015-01-05 18:41:29.777


In [109]:
df1['Distrito'].isnull().sum()

232552

In [110]:
df1['Distrito'].notnull().sum()

471808

## Tratamento das descrições (Assunto, Serviço)

In [111]:
df2 = df1.rename({'Assunto': 'Tipo de Serviço'}, axis=1)

In [112]:
df2.sample()

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
374158,2019-04-21 14:53:49.913,Animais,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em local infestado,MANDAQUI,FINALIZADA,2020-11-12 16:37:58.007


In [113]:
df2['Tipo de Serviço'].drop_duplicates()

0                                Registro de animais - RGA
1                              Exames, vacinas e castração
3                                        Adoção de animais
4                            Criação inadequada de animais
6                                       Animais silvestres
9                                    Animal em via pública
14         Animais que transmitem doenças ou risco à saúde
23                            Animal agressor e/ou invasor
66        Dengue/chikungunya/zika (mosquito aedes aegypti)
26265                                  Comércio de animais
128038                    Animais que podem causar doenças
361615                                      Animais/Aranha
386661                                  Animais/Carrapatos
392961                                      Animais/Pulgas
397007                                      Animais/barata
529214                                       Animais / Cão
529218                                      Animais / Ga

In [114]:
df2[['Tipo de Serviço', 'Serviço']].drop_duplicates()

Unnamed: 0,Tipo de Serviço,Serviço
0,Registro de animais - RGA,Avisar sobre animal encontrado com Registro Geral do Animal (RGA)
1,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente
3,Adoção de animais,Adotar cães e gatos
4,Criação inadequada de animais,Denunciar condições inadequadas de criação
6,Animais silvestres,Animais silvestres feridos ? Solicitar atendimento veterinário
9,Animal em via pública,Solicitar remoção de animal morto em via pública
12,Animal em via pública,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
14,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em local infestado
15,Animais que transmitem doenças ou risco à saúde,Morcegos - Reclamar sobre local com morcegos
19,Animais que transmitem doenças ou risco à saúde,Ratos - Solicitar vistoria em local infestado


### Padronizar o Tipo de Serviço

In [115]:
df2.loc[df2['Tipo de Serviço'].str.contains('Animais[ |/]') & df2['Tipo de Serviço']
        .str.match('^(?!.*(Cão|Gato|Cavalo|silvestres|RGA|agressor|via))'), 'Tipo de Serviço'
       ] = 'Animais que transmitem doenças ou risco à saúde'

In [116]:
df2[['Tipo de Serviço', 'Serviço']].drop_duplicates()

Unnamed: 0,Tipo de Serviço,Serviço
0,Registro de animais - RGA,Avisar sobre animal encontrado com Registro Geral do Animal (RGA)
1,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente
3,Adoção de animais,Adotar cães e gatos
4,Criação inadequada de animais,Denunciar condições inadequadas de criação
6,Animais silvestres,Animais silvestres feridos ? Solicitar atendimento veterinário
9,Animal em via pública,Solicitar remoção de animal morto em via pública
12,Animal em via pública,Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
14,Animais que transmitem doenças ou risco à saúde,Pernilongo/Mosquito - Solicitar vistoria em local infestado
15,Animais que transmitem doenças ou risco à saúde,Morcegos - Reclamar sobre local com morcegos
19,Animais que transmitem doenças ou risco à saúde,Ratos - Solicitar vistoria em local infestado


In [117]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace('Animais / ', '')

In [118]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace(' / Animais', '')

In [119]:
df2['Tipo de Serviço'] = df2['Tipo de Serviço'].str.replace('Dengue/chikungunya/zika (mosquito aedes aegypti)', 'Vistoria')

In [120]:
df2['Tipo de Serviço'].drop_duplicates()

0                               Registro de animais - RGA
1                             Exames, vacinas e castração
3                                       Adoção de animais
4                           Criação inadequada de animais
6                                      Animais silvestres
9                                   Animal em via pública
14        Animais que transmitem doenças ou risco à saúde
23                           Animal agressor e/ou invasor
66                                               Vistoria
26265                                 Comércio de animais
529214                                                Cão
529218                                               Gato
529226                                            Animais
529765                                             Cavalo
Name: Tipo de Serviço, dtype: object

### Apagar os registros de teste

In [121]:
df2 = df2.drop(df2.loc[df1['Serviço'].str.contains('TESTE', regex=True)].index)

### Padronizar o Serviço

#### Tratar o Tipo de Serviço 'Animais que transmitem doenças ou risco à saúde'

In [122]:
df2.loc[df2['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

21                    Abelhas e Vespas - Solicitar vistoria em ninhos
529220                                     Colméia/Vespeiro instalado
69             Escorpião - Solicitar vistoria de local com escorpiões
15                       Morcegos - Reclamar sobre local com morcegos
529296                             Ocorrências / Condições de criação
529237                                        Ocorrências com morcego
585177                                         Ocorrências rotineiras
14        Pernilongo/Mosquito - Solicitar vistoria em local infestado
227                    Pombos - Solicitar vistoria em local infestado
19                      Ratos - Solicitar vistoria em local infestado
361615                                          Reclamação de Aranhas
529472                                          Reclamação de Baratas
529263                                       Reclamação de Carrapatos
540659                                       Reclamação de Escorpiões
529244              

In [123]:
df3 = df2.copy()

#### Juntar Serviços iguais com nomes diferentes

In [124]:
df3.loc[(df3['Serviço'] == 'Pernilongo/Mosquito') | (df3['Serviço'] == 'Reclamação de Pernilongo'), 'Serviço'] = 'Reclamação de Pernilongos e Mosquitos'

In [125]:
df3.loc[(df3['Serviço'] == 'Abelhas e Vespas') | (df3['Serviço'] == 'Colméia/Vespeiro instalado'), 'Serviço'] = 'Remoção de Abelhas, Vespas ou Marimbondos'

In [126]:
df3.loc[df3['Serviço'] == 'Escorpião', 'Serviço'] = 'Escorpiões'

In [127]:
df3.loc[df3['Serviço'] == 'Ocorrências com morcego', 'Serviço'] = 'Reclamação de Morcegos'

#### Juntar diversos Serviços que estão duplicados, seguindo um padrão igual

In [128]:
df3.loc[df3['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'] = df3.loc[df3[
    'Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].str.replace(r' -.*', '', regex=True)

In [129]:
df3.loc[df3['Serviço'].str.split().str.len() == 1, 'Serviço'] = 'Reclamação de ' + df3['Serviço']

In [130]:
df3.loc[df3['Tipo de Serviço'] == 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

21                                 Abelhas e Vespas
529296           Ocorrências / Condições de criação
585177                       Ocorrências rotineiras
361615                        Reclamação de Aranhas
529472                        Reclamação de Baratas
529263                     Reclamação de Carrapatos
69                          Reclamação de Escorpião
540659                     Reclamação de Escorpiões
529244          Reclamação de Escorpiões ou Aranhas
529414                       Reclamação de Formigas
15                           Reclamação de Morcegos
529725                         Reclamação de Moscas
14                Reclamação de Pernilongo/Mosquito
529229        Reclamação de Pernilongos e Mosquitos
227                            Reclamação de Pombos
529482                         Reclamação de Pulgas
19                              Reclamação de Ratos
397007                        Reclamação de baratas
386661                     Reclamação de carrapatos
392961      

#### Tratar os Tipos de Serviços que NÃO são 'Animais que transmitem doenças ou risco à saúde'

#### Retirar caracteres não úteis

In [131]:
df3['Serviço'] = df3['Serviço'].str.replace('?', '-')
df3['Serviço'] = df3['Serviço'].str.replace('–', '-')
df3['Serviço'] = df3['Serviço'].str.replace('Invadiu o local ', 'Invadiu o local')

In [132]:
pd.set_option('display.max_colwidth', None)
df3.loc[df3['Tipo de Serviço'] != 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

529406                                                          Acidentado sem proprietário
3                                                                       Adotar cães e gatos
1460                                        Animais silvestres - Agendar entrega voluntária
6                            Animais silvestres feridos - Solicitar atendimento veterinário
109                                        Animal de grande porte solto - Solicitar remoção
529221                                     Atropelado ou Acidentado vivo e sem proprietário
529238                                                          Atropelado sem proprietário
12        Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
0                        Avisar  sobre animal encontrado com Registro Geral do Animal (RGA)
23                                            Avisar sobre animal agressor em vias públicas
34365                  Cadastro Municipal de Comércio de Animais (CMCA) - Cancel

#### Padronizar os 'Serviços' que contém 'Acidentado' ou 'Atropelado'

In [133]:
df3.loc[df3['Serviço'].str.contains('Atropelado') | df3['Serviço'].str.contains('Acidentado'), 'Serviço'
       ] = 'Atropelado ou Acidentado vivo e sem proprietário'

#### Padronizar 'Condições de criação' e 'Denunciar condições inadequadas de criação' com 'Condições de criação / maus tratos'

In [134]:
df3.loc[df3['Serviço'].str.match('.*ondições'), 'Serviço'
       ] = 'Condições de criação / maus tratos'

#### Padronizar os que tem 'Remoção de animal morto em via pública' (3)

In [135]:
df3.loc[df3['Serviço'].str.match('.*morto em via.*'), 'Serviço'
       ] = 'Remoção de animal morto em via pública'

#### Usar o 'Tipo de Serviço' para preencher 'Serviços' não tão bem descritos, como 'Solto em via pública'

In [136]:
condicoes = (df3['Serviço'] == 'Em parques') | (df3['Serviço'] == 'Invadiu o local') | (df3['Serviço'] == 'Solto em via pública')
df3.loc[condicoes, 'Serviço'] = df3.loc[condicoes, 'Tipo de Serviço'].str.cat(df3.loc[condicoes, 'Serviço'], sep=' ')

In [137]:
condicoes = (df3['Serviço'] == 'Diversas ocorrências') | (df3['Serviço'] == 'Ocorrências rotineiras')
df3.loc[condicoes, 'Serviço'] = df3.loc[condicoes, 'Tipo de Serviço'].str.cat(df3.loc[condicoes, 'Serviço'], sep=' - ')

In [138]:
pd.set_option('display.max_colwidth', None)
df3.loc[df3['Tipo de Serviço'] != 'Animais que transmitem doenças ou risco à saúde', 'Serviço'].drop_duplicates().sort_values()

3                                                                       Adotar cães e gatos
1460                                        Animais silvestres - Agendar entrega voluntária
6                            Animais silvestres feridos - Solicitar atendimento veterinário
109                                        Animal de grande porte solto - Solicitar remoção
529221                                     Atropelado ou Acidentado vivo e sem proprietário
12        Avaliação de animal em sofrimento sem proprietário para eutanásia (morte sem dor)
0                        Avisar  sobre animal encontrado com Registro Geral do Animal (RGA)
23                                            Avisar sobre animal agressor em vias públicas
34365                  Cadastro Municipal de Comércio de Animais (CMCA) - Cancelar cadastro
26265                    Cadastro Municipal de Comércio de Animais (CMCA) - Fazer inscrição
501                                        Castrar cães e gatos de protetores in

In [139]:
df3[['Tipo de Serviço', 'Serviço']].drop_duplicates().sort_values(by=['Tipo de Serviço', 'Serviço'])

Unnamed: 0,Tipo de Serviço,Serviço
3,Adoção de animais,Adotar cães e gatos
529226,Animais,Remoção de animal morto em via pública
21,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas
585177,Animais que transmitem doenças ou risco à saúde,Animais que transmitem doenças ou risco à saúde - Ocorrências rotineiras
529296,Animais que transmitem doenças ou risco à saúde,Condições de criação / maus tratos
361615,Animais que transmitem doenças ou risco à saúde,Reclamação de Aranhas
529472,Animais que transmitem doenças ou risco à saúde,Reclamação de Baratas
529263,Animais que transmitem doenças ou risco à saúde,Reclamação de Carrapatos
69,Animais que transmitem doenças ou risco à saúde,Reclamação de Escorpião
540659,Animais que transmitem doenças ou risco à saúde,Reclamação de Escorpiões


In [140]:
df3.sample(10)

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
367546,2019-02-20 17:49:25.414,Animais,Animal em via pública,Remoção de animal morto em via pública,JARDIM ANGELA,FINALIZADA,2019-02-21 17:25:58.000
272335,2020-10-07 15:21:23.411,Animais,Animais que transmitem doenças ou risco à saúde,Reclamação de Pernilongo/Mosquito,SANTO AMARO,FINALIZADA,2020-10-26 13:35:08.500
595304,2013-09-23,,Animais que transmitem doenças ou risco à saúde,Condições de criação / maus tratos,VILA OLIMPIA,REALIZADA,2013-09-26 00:00:00.000
590233,2013-08-14,,Cão,Condições de criação / maus tratos,PARQUE CASA DE PEDRA,REALIZADA,2013-10-14 00:00:00.000
609282,2013-01-02,,Animais que transmitem doenças ou risco à saúde,"Remoção de Abelhas, Vespas ou Marimbondos",SANTO AMARO,REALIZADA,2013-03-05 00:00:00.000
90859,2022-06-17 08:57:43,Animais,Criação inadequada de animais,Condições de criação / maus tratos,JARDIM SAO LUIS,FINALIZADA,2022-08-09 16:57:45
177347,2021-08-24 16:48:04,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-09-02 14:32:12
397289,2018-12-12 19:54:30.358,Animais,Animais que transmitem doenças ou risco à saúde,Abelhas e Vespas,ARTUR ALVIM,FINALIZADA,2019-02-05 17:36:50.428
334321,2020-05-26 14:49:11.648,Animais,Animais silvestres,Animais silvestres feridos - Solicitar atendimento veterinário,CIDADE DUTRA,FINALIZADA,2020-07-09 16:19:32.855
151698,2021-12-06 23:54:56,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-12-15 10:26:25


### Transformar todas as datas e horas para apenas data

In [209]:
df4 = df3.copy()

#### 'Data de abertura'

In [210]:
df4['Data de abertura'] = df4['Data de abertura'].str.slice(0,10)

In [211]:
df4['Data de abertura'] = pd.to_datetime(df4['Data de abertura']).dt.date

In [212]:
df4['Data de abertura'].drop_duplicates()

0         2022-12-31
5         2023-01-01
89        2023-01-02
515       2023-01-03
986       2023-01-04
1422      2023-01-05
1801      2023-01-06
2096      2023-01-07
2275      2023-01-08
2414      2023-01-09
2858      2023-01-10
3261      2023-01-11
3644      2023-01-12
4082      2023-01-13
4481      2023-01-14
4670      2023-01-15
4827      2023-01-16
5349      2023-01-17
5769      2023-01-18
6208      2023-01-19
6620      2023-01-20
6988      2023-01-21
7147      2023-01-22
7320      2023-01-23
7770      2023-01-24
8195      2023-01-25
8374      2023-01-26
8709      2023-01-27
9092      2023-01-28
9241      2023-01-29
9405      2023-01-30
9792      2023-01-31
10151     2023-02-01
10445     2023-02-02
10739     2023-02-03
10981     2023-02-04
11078     2023-02-05
11150     2023-02-06
11379     2023-02-07
11692     2023-02-08
11965     2023-02-09
12172     2023-02-10
12304     2023-02-11
12354     2023-02-12
12391     2023-02-13
12530     2023-02-14
12693     2023-02-15
12835     202

In [213]:
df4.loc[df4['Data do parecer'].notnull(), 'Data do parecer'] = df4.loc[
    df4['Data do parecer'].notnull(), 'Data do parecer'].str.slice(0,10)

In [62]:
#df4['Data do parecer'] = pd.to_datetime(df4['Data do parecer']).dt.date

In [214]:
df4['Data do parecer'].drop_duplicates()

0         2022-12-31
1         2023-01-01
2         2023-01-02
3         2023-01-13
5         2023-01-05
6         2023-01-07
8         2023-01-06
14        2023-03-10
15        2023-01-03
17        2023-03-16
19        2023-01-26
21        2023-01-24
22        2023-02-10
26        2023-03-02
34        2023-02-07
35        2023-04-01
37        2023-02-24
41        2023-03-17
42        2023-01-04
45               NaN
46        2023-01-11
50        2023-02-28
57        2023-03-06
63        2023-01-12
66        2023-02-27
69        2023-01-19
72        2023-02-02
79        2023-01-15
80        2023-01-23
81        2023-03-03
83        2023-01-09
86        2023-01-31
95        2023-02-14
96        2023-01-27
97        2023-01-30
100       2023-01-14
101       2023-01-17
106       2023-03-01
108       2023-03-07
117       2023-03-08
119       2023-01-10
129       2023-02-01
145       2023-02-16
152       2023-03-22
154       2023-03-09
166       2023-02-17
184       2023-01-18
195       202

In [219]:
df4.sample(10)

Unnamed: 0,Data de abertura,Tema,Tipo de Serviço,Serviço,Distrito,Status da solicitação,Data do parecer
691211,2012-04-11,,Gato,Gato Invadiu o local,Jaguara,CANCELADA,2012-04-11
171343,2021-08-07,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-08-12
651660,2012-09-14,,Animais,Remoção de animal morto em via pública,JARDIM ANGELA,REALIZADA,2012-09-17
525228,2015-05-25,Animais,Animais que transmitem doenças ou risco à saúde,Reclamação de Pernilongo/Mosquito,SAO MIGUEL,FINALIZADA,2016-02-22
509247,2015-02-12,Animais,Criação inadequada de animais,Condições de criação / maus tratos,TUCURUVI,FINALIZADA,2015-04-06
165751,2021-07-22,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-07-22
104389,2022-01-19,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADO,2022-01-31
248849,2021-02-25,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,INDEFERIDO,2021-03-20
241675,2021-02-07,Animais,"Exames, vacinas e castração",Castrar cães e gatos gratuitamente,,FINALIZADA,2021-02-09
537912,2014-09-19,,Cão,Cão Agressor,VILA PRUDENTE,REALIZADA,2014-09-24


In [223]:
df4.isnull().any()

Data de abertura         False
Tema                      True
Tipo de Serviço          False
Serviço                  False
Distrito                  True
Status da solicitação    False
Data do parecer           True
dtype: bool

## Gerar o arquivo com os dados necessários

In [234]:
df4.to_parquet('sp156_all_time.gzip',
              compression='gzip',
              index=False)