In [1]:
from minio import Minio
from dotenv import load_dotenv
import os
import json

In [2]:
load_dotenv()

minio_client = Minio(
    endpoint=os.getenv("MINIO_ENDPOINT"),
    access_key=os.getenv("MINIO_ACCESS_KEY"), 
    secret_key=os.getenv("MINIO_SECRET_KEY"), 
    secure=False 
)
bucket_name = os.getenv("MINIO_BUCKET_NAME")

In [3]:
import re

# Lista de bairros de Fortaleza/CE
bairros_fortaleza = [
    "Aeroporto", "Aerol√¢ndia", "Alagadi√ßo Novo", "Aldeota", "Alto da Balan√ßa",
    "√Ålvaro Weyne", "Amadeu Furtado", "Ancuri", "Ant√¥nio Bezerra", "Autran Nunes",
    "Barra do Cear√°", "Barroso", "Bela Vista", "Benfica", "Bom Futuro",
    "Bom Jardim", "Bonsucesso", "Cais do Porto", "Cajazeiras", "Cambeba",
    "Canindezinho", "Carlito Pamplona", "Cidade 2000", "Cidade dos Funcion√°rios", "Coa√ßu",
    "Coc√≥", "Conjunto Cear√° I", "Conjunto Cear√° II", "Conjunto Esperan√ßa", "Conjunto Palmeiras",
    "Couto Fernandes", "Cristo Redentor", "Curi√≥", "Damas", "Dem√≥crito Rocha",
    "Dend√™", "Dias Macedo", "Dion√≠sio Torres", "Dom Lustosa", "Edson Queiroz",
    "Ellery", "Engenheiro Luciano Cavalcante", "Farias Brito", "F√°tima", "Floresta",
    "Geniba√∫", "Granja Lisboa", "Granja Portugal", "Guajeru", "Guararapes",
    "Henrique Jorge", "Itaoca", "Itaperi", "Jacarecanga", "Jangurussu",
    "Jardim Am√©rica", "Jardim Cearense", "Jardim das Oliveiras", "Jardim Guanabara", "Jardim Iracema",
    "Jo√£o XXIII", "Joaquim T√°vora", "J√≥quei Clube", "Jos√© Bonif√°cio", "Jos√© de Alencar",
    "Lagoa Redonda", "Manuel Dias Branco", "Manoel S√°tiro", "Maraponga", "Messejana",
    "Meireles", "Mondubim", "Monte Castelo", "Montese", "Moura Brasil",
    "Mucuripe", "Panamericano", "Papicu", "Parangaba", "Parque Arax√°",
    "Parque Dois Irm√£os", "Parque Iracema", "Parque Manibura", "Parquel√¢ndia", "Parre√£o",
    "Passar√©", "Paupina", "Pedras", "Pici", "Pirambu",
    "Planalto Ayrton Senna", "Praia de Iracema", "Praia do Futuro I", "Praia do Futuro II", "Prefeito Jos√© Walter",
    "Presidente Kennedy", "Presidente Vargas", "Quintino Cunha", "Rodolfo Te√≥filo", "Sabiaguaba",
    "Salinas", "Santa Rosa", "S√£o Bento", "S√£o Gerardo", "S√£o Jo√£o do Tauape",
    "S√£o Jos√©", "Sapiranga", "Serrinha", "Siqueira", "Varjota",
    "Vicente Pinzon", "Vila Ellery", "Vila Peri", "Vila Uni√£o", "Vila Velha"
]


mensagens_com_bairros = []

In [4]:
import unicodedata
def normalizar_texto(texto):
    return ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    ).lower()

In [5]:
bairros_normalizados = [normalizar_texto(bairro) for bairro in bairros_fortaleza]

In [8]:
bairros_normalizados

['aeroporto',
 'aerolandia',
 'alagadico novo',
 'aldeota',
 'alto da balanca',
 'alvaro weyne',
 'amadeu furtado',
 'ancuri',
 'antonio bezerra',
 'autran nunes',
 'barra do ceara',
 'barroso',
 'bela vista',
 'benfica',
 'bom futuro',
 'bom jardim',
 'bonsucesso',
 'cais do porto',
 'cajazeiras',
 'cambeba',
 'canindezinho',
 'carlito pamplona',
 'cidade 2000',
 'cidade dos funcionarios',
 'coacu',
 'coco',
 'conjunto ceara i',
 'conjunto ceara ii',
 'conjunto esperanca',
 'conjunto palmeiras',
 'couto fernandes',
 'cristo redentor',
 'curio',
 'damas',
 'democrito rocha',
 'dende',
 'dias macedo',
 'dionisio torres',
 'dom lustosa',
 'edson queiroz',
 'ellery',
 'engenheiro luciano cavalcante',
 'farias brito',
 'fatima',
 'floresta',
 'genibau',
 'granja lisboa',
 'granja portugal',
 'guajeru',
 'guararapes',
 'henrique jorge',
 'itaoca',
 'itaperi',
 'jacarecanga',
 'jangurussu',
 'jardim america',
 'jardim cearense',
 'jardim das oliveiras',
 'jardim guanabara',
 'jardim iracema'

In [6]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

In [9]:
dados = []
list_objects = minio_client.list_objects(bucket_name, prefix='Portalnoticiasceara', recursive=True)
# Processar cada objeto encontrado
for obj in list_objects:
    if obj.object_name.endswith('.json'):  # Verificar se √© um arquivo JSON
        print(f"Lendo o arquivo: {obj.object_name}")
        try:
            # Baixar o objeto
            response = minio_client.get_object(bucket_name=bucket_name, object_name=obj.object_name)
            
            # Ler o conte√∫do
            data = response.read().decode('utf-8')
            
            # Parsear JSON
            json_data = json.loads(data)
            
            # Verificar se √© uma lista
            if isinstance(json_data, list):
                for item in json_data:
                    # Extrair informa√ß√µes relevantes
                    message = item.get('message', '')
                    message_id = item.get('id', None)
                    date = item.get('date', None)
                    media_path = item.get('media_path', None)
                    
                    if message:
                        # Normalizar a mensagem
                        message_normalizada = normalizar_texto(message)
                        
                        # Identificar bairros mencionados
                        bairros_mencionados = [
                            bairro_original for bairro_original, bairro_normalizado in zip(bairros_fortaleza, bairros_normalizados)
                            if bairro_normalizado in message_normalizada
                        ]
                        
                        # Se algum bairro foi identificado, salvar os dados
                        if bairros_mencionados:
                            for bairro in bairros_mencionados:
                                dados.append({
                                    "id": message_id,
                                    "mensagem": message,
                                    "bairro": bairro,
                                    "data": date,
                                    "media_path": media_path
                                })
            
            # Fechar o response
            response.close()
            response.release_conn()
            
            with open('./silver_metadata.json', 'w', encoding='utf-8') as json_file:
                json.dump(dados, json_file, ensure_ascii=False, indent=4)

        except Exception as e:
            print(f"Erro ao processar {obj.object_name}: {e}")

MaxRetryError: HTTPConnectionPool(host='localhost', port=9000): Max retries exceeded with url: /raw-portaldenoticias?location= (Caused by ProtocolError('Connection aborted.', BadStatusLine('√ø\x00\x00\x00\x00\x00\x00\x00\x01\x7f\n')))

In [21]:
df = pd.DataFrame(dados)

In [22]:
df.tail()

Unnamed: 0,id,mensagem,bairro,data,media_path
453,5954,"**ATEN√á√ÉO üö®** HOMIC√çDIO REGISTRADO A POUCOS MINUTOS PR√ìXIMO DA LAGOA DA ZEZA,BAIRRO JARDIM DAS OLIVEIRAS (TDN) EM FORTALEZA.\n\nSMD",Jardim das Oliveiras,2024-12-17T19:59:29+00:00,
454,5958,"Homic√≠dio registrado a poucos minutos pr√≥ximo a lagoa da ZEZA (TDN) bairro jardim das oliveiras em fortaleza.\n\nV√≠tima do sexo masculino,sem identifica√ß√£o at√© o momento, estaria em uma motocicleta quando foi alvejado por v√°rios disparos de arma de fogo,vindo a √≥bito no local.",Jardim das Oliveiras,2024-12-17T20:20:15+00:00,Portalnoticiasceara/2024-12-17/media/photo_5958.jpg.zstd
455,5962,Aten√ß√£o üö®rajada de tiros a poucos instante no planalto Ayrton Senna em fortaleza. \nMovimenta√ß√£o policial nesse momento na regi√£o.\n\nAguardando mas detalhes.,Planalto Ayrton Senna,2024-12-17T21:13:42+00:00,
456,5963,ATEN√á√ÉO üö® BALA NESTE EXATO MOMENTO PR√ìXIMO A RUA DIAMANTE NO BARROSO 2 EM FORTALEZA. \n\nAGUARDANDO MAS DETALHES.,Barroso,2024-12-17T21:27:57+00:00,
457,5987,"Homic√≠dio agora nesse exato momento no Conjunto Palmeiras, na rua Oscarito\nPerto da padaria do Moreira\nO MESMO N√ÉO TINHA NENHUM ENVOLVIMENTO, MAIS N√ÉO SE SABE O MOTIVO, \n\nSMD AMD.",Conjunto Palmeiras,2024-12-18T09:39:21+00:00,Portalnoticiasceara/2024-12-18/media/photo_5987.jpg.zstd


In [31]:
df[df['bairro'] == 'Barra do Cear√°'].sort_values(by='data', ascending=False)

Unnamed: 0,id,mensagem,bairro,data,media_path
435,5852,"Barra do Cear√°, fortaleza.\nüö®üö®",Barra do Cear√°,2024-12-16T10:35:09+00:00,Portalnoticiasceara/2024-12-16/media/photo_5852.jpg.zstd
398,5724,Atualiza√ß√£o üö®\n\nTriplo homic√≠dio na col√¥nia (GDE)\nBarra do Cear√°.\n\nhttps://t.me/Portalnoticiasceara/5719,Barra do Cear√°,2024-12-14T07:50:04+00:00,Portalnoticiasceara/2024-12-14/media/photo_5724.jpg.zstd
396,5719,"**Triplo homic√≠dio registrado na madrugada deste s√°bado na Col√¥nia, Barra do Cear√°**\n\nNa madrugada deste s√°bado (14/12), por volta das 4h33, um triplo homic√≠dio foi registrado na comunidade da Col√¥nia (GDE), na Barra do Cear√°, Fortaleza. De acordo com informa√ß√µes recebidas pelo Portal Not√≠cias CE, indiv√≠duos chegaram em um ve√≠culo na rua Grito de Alerta, se passando por policiais civis.\n\nAo avistarem tr√™s pessoas, ordenaram que colocassem as m√£os na cabe√ßa, simulando uma abordagem policial. Logo em seguida, efetuaram diversos disparos de arma de fogo contra as v√≠timas, que n√£o tiveram nenhuma chance de defesa. Testemunhas relataram ter ouvido cerca de 20 tiros ou mais.\n\nEquipes da pol√≠cia e do rabec√£o foram acionadas e estiveram no local para os procedimentos iniciais e a remo√ß√£o dos corpos. At√© o momento, n√£o h√° informa√ß√µes sobre a identidade ou o sexo das v√≠timas, tampouco se possu√≠am liga√ß√£o com atividades criminosas.\n\nO Portal Not√≠cias CE continuar√° acompanhando o caso e trar√° novas atualiza√ß√µes assim que dispon√≠veis.",Barra do Cear√°,2024-12-14T07:00:44+00:00,
395,5713,**ATEN√á√ÉO üö®** CHUVA DE BALAS NESTE EXATO MOMENTO NA COMUNIDADE DA COL√îNIA (GDE) BARRA DO CEAR√Å EM FORTALEZA.\n\nINTENSA TROCA DE TIROS ENTRE FAC√á√ïES RIVAIS ( CV X GDE ).\n\nSMD,Barra do Cear√°,2024-12-14T04:33:22+00:00,
348,5481,**ATEN√á√ÉO üö®** MUITA BALA NESTE EXATO MOMENTO NA COMUNIDADE DA COL√îNIA (GDE) BAIRRO BARRA DO CEAR√Å EM FORTALEZA.\n\nSMD,Barra do Cear√°,2024-12-11T17:38:56+00:00,
341,5465,"**Pol√≠cia Civil captura alvos envolvidos em crimes na Regi√£o Norte do Estado\n\n**Um intenso trabalho de combate aos grupos criminosos no Estado realizado pela Pol√≠cia Civil do Estado do Cear√° (PCCE) resultou no cumprimento de mandados judiciais de pris√£o preventiva, regress√£o cautelar e de senten√ßa condenat√≥ria na Capital e na Regi√£o Norte. As a√ß√µes policiais aconteceram nessa segunda-feira (9) e nesta ter√ßa-feira (10).\nUm dos alvos, um homem de 21 anos, √© investigado pelo crime de homic√≠dio qualificado. Al√©m desse crime, o suspeito tamb√©m √© investigado por outros homic√≠dios nas cidades de Amontada ‚Äì √Årea Integrada de Seguran√ßa (AIS 17) do Estado, Mira√≠ma (AIS 17) e nos bairros Pirambu (AIS 8) e Barra do Cear√° (AIS 8) da Capital. A captura do suspeito que tinha um mandado de pris√£o preventiva em aberto, aconteceu no bairro Bom Jardim (AIS 2) de Fortaleza.\nUm outro suspeito, de 27 anos, √© investigado pelos crimes de amea√ßa e descumprimento de medida protetiva de urg√™ncia. Ele foi preso em um im√≥vel no munic√≠pio de Itapipoca (AIS 17) e conduzido para a Delegacia Regional de Itapipoca, onde foi cumprido o mandado de regress√£o cautelar.\nO terceiro alvo, capturado em Sobral (AIS 14), possu√≠a um mandado de pris√£o por senten√ßa condenat√≥ria em aberto pelo crime de les√£o corporal dolosa seguida de morte. Ele j√° responde pelos crimes de tentativa de homic√≠dio, tr√°fico de drogas, roubo √† pessoa e porte ilegal de arma de fogo.\nOs tr√™s indiv√≠duos foram conduzidos para as unidades policiais, onde as ordens judiciais foram cumpridas. Agora, os homens est√£o √† disposi√ß√£o do Poder Judici√°rio.",Barra do Cear√°,2024-12-11T14:02:36+00:00,
314,5384,"**Homem √© preso armado e com drogas no Campo do Gr√™mio, em Fortaleza**\n\nNa tarde deste domingo, 8 de dezembro, um indiv√≠duo conhecido pelo vulgo ""Playboy"" foi preso no Campo do Gr√™mio (GDE) barra do Cear√°, em Fortaleza. Durante a abordagem, foram encontrados com ele uma arma de fogo e uma quantidade de drogas, que n√£o foi especificada.",Barra do Cear√°,2024-12-09T19:16:53+00:00,Portalnoticiasceara/2024-12-09/media/photo_5384.jpg.zstd
309,5368,"üö®**Cear√° registra 21 homic√≠dios no primeiro final de semana de dezembro\n**\nO primeiro final de semana de dezembro de 2024 foi marcado pela viol√™ncia no Cear√°, com o registro de 21 homic√≠dios em v√°rias cidades do Estado. O n√∫mero reflete a alta criminalidade que historicamente atinge o Cear√° nos √∫ltimos meses do ano.\n\nAs principais ocorr√™ncias ocorreram na capital Fortaleza, no litoral leste e na serra da Ibiapaba. Entre os casos mais graves, destaca-se uma tentativa de chacina em Beberibe, onde uma pessoa foi morta e outras ficaram feridas. Em Tiangu√°, tr√™s homens foram assassinados a tiros dentro de um bar.\n\nEm Fortaleza, os homic√≠dios ocorreram nos bairros Planalto Ayrton Senna, Edson Queiroz e Barra do Cear√°. Outras cidades, como Cascavel, Jaguaretama, Iguatu, Trairi , Senador Pompeu, e Caucaia tamb√©m registraram homicidios.\n\nA Secretaria da Seguran√ßa P√∫blica e Defesa Social do Cear√° informou que investiga os casos, com esfor√ßos concentrados em identificar os autores.",Barra do Cear√°,2024-12-09T11:23:19+00:00,Portalnoticiasceara/2024-12-09/media/photo_5368.jpg.zstd
306,5356,"**Homic√≠dio registrado na Barra do Cear√°, em Fortaleza**\n\nNa noite deste domingo, 08 de dezembro, um homic√≠dio foi registrado no cruzamento das ruas Frei Dami√£o com Grito de Alerta, entre as comunidades 4 Varas e Favela da 3P, no bairro Barra do Cear√° (GDE), em Fortaleza.\n\nA v√≠tima, identificada como ""Alejandro"", foi alvejada por disparos de arma de fogo ap√≥s um ataque realizado por uma fac√ß√£o rival na regi√£o. Alejandro n√£o resistiu aos ferimentos e morreu no local.\n\nEquipes policiais foram acionadas e realizaram dilig√™ncias na √°rea, mas at√© o momento, n√£o h√° informa√ß√µes sobre suspeitos. O caso segue sob investiga√ß√£o.",Barra do Cear√°,2024-12-09T04:29:32+00:00,Portalnoticiasceara/2024-12-09/media/photo_5356.jpg.zstd
303,5343,**ATEN√á√ÉO üö®** MUITA BALA FOI REGISTRADA A POUCOS MINUTOS NA REGI√ÉO DA BARRA DO CEAR√Å EM FORTALEZA.\n\nSMD\nAMD,Barra do Cear√°,2024-12-08T23:24:10+00:00,


In [28]:
df['bairro'].value_counts().head(20)

bairro
Barra do Cear√°           42
Pici                     26
Messejana                25
Jardim das Oliveiras     22
Carlito Pamplona         22
Pirambu                  20
Vila Velha               17
Barroso                  17
Jangurussu               16
Edson Queiroz            15
Pedras                   11
Conjunto Palmeiras       11
Bom Jardim               10
S√£o Jos√©                 10
Paupina                   8
Mondubim                  8
Planalto Ayrton Senna     8
Quintino Cunha            8
√Ålvaro Weyne              8
Coc√≥                      8
Name: count, dtype: int64

In [24]:
import zstandard
decompressor = zstandard.ZstdDecompressor()

In [25]:
def download_and_decompress(path, bucket_name):
    # Baixar o arquivo do MinIO
    result = minio_client.get_object(bucket_name, path)
    
    # Ler os dados comprimidos
    compressed_data = result.read()
    
    # Descomprimir os dados
    decompressor = zstandard.ZstdDecompressor()
    
    try:
        # Usando BytesIO para garantir que os dados sejam tratados como fluxo
        decompressed_data = decompressor.decompress(compressed_data)
        return decompressed_data
    except zstandard.ZstdError as e:
        print(f"Erro ao descomprimir o arquivo {path}: {e}")
        return None

In [26]:
paths = df[df['id'] == 5777]['media_path']  # Carregar os paths do dataframe

for path in paths:
    print(f"Processando {path}...")
    decompressed_data = download_and_decompress(path, bucket_name)
    
    if decompressed_data:
        print(f"Arquivo {path} descomprimido com sucesso.")
        # Aqui voc√™ pode salvar ou processar os dados descomprimidos
    else:
        print(f"Falha ao descomprimir o arquivo {path}.")

Processando Portalnoticiasceara/2024-12-15/media/photo_5777.jpg.zstd...
Erro ao descomprimir o arquivo Portalnoticiasceara/2024-12-15/media/photo_5777.jpg.zstd: could not determine content size in frame header
Falha ao descomprimir o arquivo Portalnoticiasceara/2024-12-15/media/photo_5777.jpg.zstd.
