# Buscar os dados necessários para a análise

## Gerar o dataframe com os dados da Prefeitura

In [1]:
import requests
import re
from bs4 import BeautifulSoup as bs
import pandas as pd
from io import StringIO
import chardet

### Criar o dataframe que conterá os dados necessários para a análise

In [2]:
df = pd.DataFrame()

### Função para buscar os caminhos para o download de cada dataset

In [3]:
def get_soup(url, search):
    response = requests.get(url)
    
    # Verificar se a conexão foi bem sucedida
    if response.status_code == 200:
        soup = bs(response.content, 'html.parser')

        # Retornar as páginas onde terão as de download
        return soup.find_all('a', href=True, attrs={'title': re.compile(search)}) 
    else:
        return f'Página{link["title"]} está inacessível. Código: {response.status_code}'

### Código para inserir os dados em um dataframe

In [None]:
# URL base do site da Prefeitura
url_base = 'http://dados.prefeitura.sp.gov.br'

# URL inicial onde estarão os links para os datasets
url_inicial = 'http://dados.prefeitura.sp.gov.br/dataset/dados-do-sp156'

# extensão do dataset para filtrar
file_type = '.csv'

for link in get_soup(url_inicial, r'^Dados do SP156 -.*'):
    
    # Pegar o link de download
    for page in get_soup(url_base+link['href'], r'^http://dados.prefeitura.sp.gov.br/dataset/.*'):
        link_download = page['href']
        
        # Verificar se é o arquivo a ser baixado é Excel
        if file_type in link_download:
            
            # Pegar o conteúdo do CSV
            response_csv = requests.get(page['href'])
            
            # Cada datset tem um encoding diferente, por isso foi necessário usar a biblioteca chardet para identificar 
            # automaticamente qual é.
            encoding = chardet.detect(response_csv.content)['encoding']
            
            # Colocar os dados na tabela auxiliar
            if int(link["title"][-4:]) >= 2021:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=';', encoding=encoding, low_memory=False)
            else:
                df3 = pd.read_csv(StringIO(response_csv.content.decode(encoding)), sep=',', encoding=encoding, low_memory=False)
            
            # Inserir os dados na planilha original
            df = pd.concat([df, df3], ignore_index=True)
            print(f'Os dados do {link["title"]} foram inseridos com sucesso.')

In [23]:
df

Unnamed: 0,Data de abertura,Canal,Tema,Assunto,Serviço,Logradouro,Número,CEP,Subprefeitura,Distrito,...,"De modo geral, qual o seu nível de satisfação com o serviço prestado?",Prazo de atendimento,Qualidade do serviço,A Prefeitura atendeu a sua solicitação?,Compreensão da resposta recebida,Cep,Unnamed: 23,Canal de atendimento,Especificação do assunto,Bairro
0,2022-12-31 21:07:05,CENTRAL TELEFÔNICA,Cidadania e assistência social,População ou pessoa em situação de rua,Pessoa em situação de rua ? Solicitar atendime...,,,,,,...,,,,,,,,,,
1,2022-12-31 21:13:26,CENTRAL TELEFÔNICA,Cidadania e assistência social,População ou pessoa em situação de rua,Pessoa em situação de rua ? Solicitar atendime...,,,,,,...,,,,,,,,,,
2,2022-12-31 21:15:16,CENTRAL TELEFÔNICA,Cidadania e assistência social,População ou pessoa em situação de rua,Pessoa em situação de rua ? Solicitar atendime...,,,,MOOCA,BELEM,...,,,,,,,,,,
3,2022-12-31 21:16:08,CENTRAL TELEFÔNICA,Cidadania e assistência social,População ou pessoa em situação de rua,Pessoa em situação de rua ? Solicitar atendime...,,,,SE,SE,...,,,,,,,,,,
4,2022-12-31 21:22:07,CENTRAL TELEFÔNICA,Cidadania e assistência social,População ou pessoa em situação de rua,Pessoa em situação de rua ? Solicitar atendime...,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13688535,2012-06-30 23:48:36.770,,,População ou Pessoa em Situação de Rua,,,,,,,...,,,,,,,,SAC,Abordagem social a Pessoa em Situação de Rua,JARDIM JARAGUA
13688536,2012-06-30 23:49:06.000,,,Iluminacao - Lampada acesa durante o dia,,,,,,5.0,...,,,,,,,,SAC,Iluminacao - Lampada acesa durante o dia,VILA RE
13688537,2012-06-30 23:50:58.493,,,Transporte publico / Linha e Itinerário,,,,,,48.0,...,,,,,,,,Central 156,Programação horária inadequada,AGUA BRANCA
13688538,2012-06-30 23:52:49.217,,,População ou Pessoa em Situação de Rua,,,,,,20.0,...,,,,,,,,SAC,Abordagem social a Pessoa em Situação de Rua,CHACARA CALIFORNIA


## Manter apenas os dados e campos necessários

In [6]:
df = df[['Data de abertura', 'Tema', 'Assunto', 'Especificação do assunto', 'Serviço', 'Bairro', 'Distrito'
         , 'Status da solicitação', 'Data do parecer']]

In [7]:
df = df[df['Assunto'].str.contains('Animais', regex=False) | df['Tema'].str.contains(r'^Anim.*', regex=True)].reset_index(
    drop=True)

In [8]:
df.sample(20)

Unnamed: 0,Data de abertura,Tema,Assunto,Especificação do assunto,Serviço,Bairro,Distrito,Status da solicitação,Data do parecer
52299,2020-09-17 20:39:00.971,Animais,"Exames, vacinas e castração",,Castrar cães e gatos gratuitamente,,,INDEFERIDO,2020-11-30 13:34:28.525
180895,2017-02-20 19:23:56.245,Animais,Animais que transmitem doenças ou risco à saúde,,Abelhas e Vespas - Solicitar vistoria em ninhos,,JARDIM HELENA,FINALIZADA,2017-02-24 17:23:00.446
193620,2016-01-11 10:36:56.637,Animais,Animal em via pública,,Avaliação de animal em sofrimento sem propriet...,,CAMPO LIMPO,FINALIZADA,2017-06-19 13:07:38.990
149729,2018-04-07 11:20:45.877,Animais,Criação inadequada de animais,,Denunciar condições inadequadas de criação,,ITAQUERA,FINALIZADA,2018-05-02 11:43:25.307
436902,2012-05-19 11:11:11.023,,Animais / Pombos,Reclamação de Pombos,,CONJUNTO RESIDENCIAL VISTA VERDE,64.0,REALIZADA,2012-06-04 00:00:00.000
118015,2019-06-05 15:55:02.335,Animais,Animal em via pública,,Avaliação de animal em sofrimento sem propriet...,,SAUDE,FINALIZADA,2020-02-14 18:19:17.607
383407,2012-07-25 09:59:07.083,,Animais / Cão,Atropelado ou Acidentado vivo e sem proprietário,,LAUZANE PAULISTA,51.0,CANCELADA,2012-07-25 00:00:00.000
199373,2016-02-13 15:13:44.133,Animais,Animais que transmitem doenças ou risco à saúde,,Abelhas e Vespas - Solicitar vistoria em ninhos,,ARICANDUVA,FINALIZADA,2016-04-11 13:36:03.013
101548,2019-01-18 18:30:39.845,Animais,Animal em via pública,,Solicitar remoção de animal morto em via pública,,ITAIM BIBI,FINALIZADA,2019-02-06 15:59:39.000
82171,2019-08-09 16:15:04.514,Animais,Animais que transmitem doenças ou risco à saúde,,Abelhas e Vespas - Solicitar vistoria em ninhos,,MOEMA,FINALIZADA,2019-08-13 13:25:07.165


## Gerar o arquivo com os dados necessários

In [10]:
df.to_csv('sp156_all_time.csv', sep=';')