In [16]:
from minio import Minio
from dotenv import load_dotenv
import os
import json

In [17]:
load_dotenv()

minio_client = Minio(
    endpoint=os.getenv("MINIO_ENDPOINT"),
    access_key=os.getenv("MINIO_ACCESS_KEY"), 
    secret_key=os.getenv("MINIO_SECRET_KEY"), 
    secure=False 
)
bucket_name = os.getenv("MINIO_BUCKET_NAME")

In [18]:
import re

# Lista de bairros de Fortaleza/CE
bairros_fortaleza = [
    "Aeroporto", "Aerol√¢ndia", "Alagadi√ßo Novo", "Aldeota", "Alto da Balan√ßa",
    "√Ålvaro Weyne", "Amadeu Furtado", "Ancuri", "Ant√¥nio Bezerra", "Autran Nunes",
    "Barra do Cear√°", "Barroso", "Bela Vista", "Benfica", "Bom Futuro",
    "Bom Jardim", "Bonsucesso", "Cais do Porto", "Cajazeiras", "Cambeba",
    "Canindezinho", "Carlito Pamplona", "Cidade 2000", "Cidade dos Funcion√°rios", "Coa√ßu",
    "Coc√≥", "Conjunto Cear√° I", "Conjunto Cear√° II", "Conjunto Esperan√ßa", "Conjunto Palmeiras",
    "Couto Fernandes", "Cristo Redentor", "Curi√≥", "Damas", "Dem√≥crito Rocha",
    "Dend√™", "Dias Macedo", "Dion√≠sio Torres", "Dom Lustosa", "Edson Queiroz",
    "Ellery", "Engenheiro Luciano Cavalcante", "Farias Brito", "F√°tima", "Floresta",
    "Geniba√∫", "Granja Lisboa", "Granja Portugal", "Guajeru", "Guararapes",
    "Henrique Jorge", "Itaoca", "Itaperi", "Jacarecanga", "Jangurussu",
    "Jardim Am√©rica", "Jardim Cearense", "Jardim das Oliveiras", "Jardim Guanabara", "Jardim Iracema",
    "Jo√£o XXIII", "Joaquim T√°vora", "J√≥quei Clube", "Jos√© Bonif√°cio", "Jos√© de Alencar",
    "Lagoa Redonda", "Manuel Dias Branco", "Manoel S√°tiro", "Maraponga", "Messejana",
    "Meireles", "Mondubim", "Monte Castelo", "Montese", "Moura Brasil",
    "Mucuripe", "Panamericano", "Papicu", "Parangaba", "Parque Arax√°",
    "Parque Dois Irm√£os", "Parque Iracema", "Parque Manibura", "Parquel√¢ndia", "Parre√£o",
    "Passar√©", "Paupina", "Pedras", "Pici", "Pirambu",
    "Planalto Ayrton Senna", "Praia de Iracema", "Praia do Futuro I", "Praia do Futuro II", "Prefeito Jos√© Walter",
    "Presidente Kennedy", "Presidente Vargas", "Quintino Cunha", "Rodolfo Te√≥filo", "Sabiaguaba",
    "Salinas", "Santa Rosa", "S√£o Bento", "S√£o Gerardo", "S√£o Jo√£o do Tauape",
    "S√£o Jos√©", "Sapiranga", "Serrinha", "Siqueira", "Varjota",
    "Vicente Pinzon", "Vila Ellery", "Vila Peri", "Vila Uni√£o", "Vila Velha"
]


mensagens_com_bairros = []

In [19]:
import unicodedata
def normalizar_texto(texto):
    return ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    ).lower()

In [20]:
bairros_normalizados = [normalizar_texto(bairro) for bairro in bairros_fortaleza]

In [21]:
bairros_normalizados

['aeroporto',
 'aerolandia',
 'alagadico novo',
 'aldeota',
 'alto da balanca',
 'alvaro weyne',
 'amadeu furtado',
 'ancuri',
 'antonio bezerra',
 'autran nunes',
 'barra do ceara',
 'barroso',
 'bela vista',
 'benfica',
 'bom futuro',
 'bom jardim',
 'bonsucesso',
 'cais do porto',
 'cajazeiras',
 'cambeba',
 'canindezinho',
 'carlito pamplona',
 'cidade 2000',
 'cidade dos funcionarios',
 'coacu',
 'coco',
 'conjunto ceara i',
 'conjunto ceara ii',
 'conjunto esperanca',
 'conjunto palmeiras',
 'couto fernandes',
 'cristo redentor',
 'curio',
 'damas',
 'democrito rocha',
 'dende',
 'dias macedo',
 'dionisio torres',
 'dom lustosa',
 'edson queiroz',
 'ellery',
 'engenheiro luciano cavalcante',
 'farias brito',
 'fatima',
 'floresta',
 'genibau',
 'granja lisboa',
 'granja portugal',
 'guajeru',
 'guararapes',
 'henrique jorge',
 'itaoca',
 'itaperi',
 'jacarecanga',
 'jangurussu',
 'jardim america',
 'jardim cearense',
 'jardim das oliveiras',
 'jardim guanabara',
 'jardim iracema'

In [22]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

In [23]:
dados = []
list_objects = minio_client.list_objects(bucket_name, prefix='Portalnoticiasceara', recursive=True)
# Processar cada objeto encontrado
for obj in list_objects:
    if obj.object_name.endswith('.json'):  # Verificar se √© um arquivo JSON
        print(f"Lendo o arquivo: {obj.object_name}")
        try:
            # Baixar o objeto
            response = minio_client.get_object(bucket_name=bucket_name, object_name=obj.object_name)
            
            # Ler o conte√∫do
            data = response.read().decode('utf-8')
            
            # Parsear JSON
            json_data = json.loads(data)
            
            # Verificar se √© uma lista
            if isinstance(json_data, list):
                for item in json_data:
                    # Extrair informa√ß√µes relevantes
                    message = item.get('message', '')
                    message_id = item.get('id', None)
                    date = item.get('date', None)
                    media_path = item.get('media_path', None)
                    
                    if message:
                        # Normalizar a mensagem
                        message_normalizada = normalizar_texto(message)
                        
                        # Identificar bairros mencionados
                        bairros_mencionados = [
                            bairro_original for bairro_original, bairro_normalizado in zip(bairros_fortaleza, bairros_normalizados)
                            if bairro_normalizado in message_normalizada
                        ]
                        
                        # Se algum bairro foi identificado, salvar os dados
                        if bairros_mencionados:
                            for bairro in bairros_mencionados:
                                dados.append({
                                    "id": message_id,
                                    "mensagem": message,
                                    "bairro": bairro,
                                    "data": date,
                                    "media_path": media_path
                                })
            
            # Fechar o response
            response.close()
            response.release_conn()
            
            with open('./silver_metadata.json', 'w', encoding='utf-8') as json_file:
                json.dump(dados, json_file, ensure_ascii=False, indent=4)

        except Exception as e:
            print(f"Erro ao processar {obj.object_name}: {e}")

Lendo o arquivo: Portalnoticiasceara/2024-12-14/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-15/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-16/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-17/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-25/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-26/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-27/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-28/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-29/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-30/metadata.json
Lendo o arquivo: Portalnoticiasceara/2024-12-31/metadata.json
Lendo o arquivo: Portalnoticiasceara/2025-01-01/metadata.json


In [24]:
df = pd.DataFrame(dados)

In [25]:
df.tail()

Unnamed: 0,id,mensagem,bairro,data,media_path
226,6853,"**MOTIVO DOS FOGOS NA COMUNIDADE DA COL√îNIA (GDE) BARRA DO CEAR√Å EM FORTALEZA √â POR CONTA DO S√âTIMO DIA DE UM TAL DE ""KAK√Å""**",Barra do Cear√°,2024-12-31T17:13:57+00:00,
227,6857,"**Idoso √© executado a tiros no bairro Cristo Redentor, em Fortaleza**\n\nNa tarde desta ter√ßa-feira, 31, um idoso, ainda sem identifica√ß√£o, foi executado com disparos de arma de fogo por tr√°s da UPA da Leste Oeste, no conjunto Alves de Lima (CV), bairro Cristo Redentor, em Fortaleza.\n\nAt√© o momento, a motiva√ß√£o do crime √© desconhecida. A Pol√≠cia Militar esteve no local para isolar a √°rea e iniciar as investiga√ß√µes. O caso ser√° apurado pela Pol√≠cia Civil.",Cristo Redentor,2024-12-31T20:31:09+00:00,Portalnoticiasceara/2024-12-31/media/photo_6857.jpg.zstd
228,6870,Planalto Ayrton Senna homic√≠dio nas primeiras horas do primeiro de janeiro de 2025.,Planalto Ayrton Senna,2025-01-01T16:22:21+00:00,Portalnoticiasceara/2025-01-01/media/photo_6870.jpg.zstd
229,6882,"PM VITIMA(3¬∞SGT PM SOUSA/LOTADO NO RAIO BATURIT√â, SUICIDIO POR ARMA DE FOGO NA CASA DOS PAIS- RUA LINEU MACHADO 1292 JO√ÉO XXIII) FORTALEZA-AIS06 13H15 RAIO04",Jo√£o XXIII,2025-01-01T17:26:57+00:00,Portalnoticiasceara/2025-01-01/media/photo_6882.jpg.zstd
230,6885,Rua Cerejeiras no Parque Santa Rosa (GDE) em fortaleza,Santa Rosa,2025-01-01T17:51:41+00:00,Portalnoticiasceara/2025-01-01/media/photo_6885.jpg.zstd


In [26]:
df[df['bairro'] == 'Barra do Cear√°'].sort_values(by='data', ascending=False)

Unnamed: 0,id,mensagem,bairro,data,media_path
226,6853,"**MOTIVO DOS FOGOS NA COMUNIDADE DA COL√îNIA (GDE) BARRA DO CEAR√Å EM FORTALEZA √â POR CONTA DO S√âTIMO DIA DE UM TAL DE ""KAK√Å""**",Barra do Cear√°,2024-12-31T17:13:57+00:00,
214,6731,"**Suspeito de homic√≠dio √© encontrado morto na Barra do Cear√°, Fortaleza**\n\nNa comunidade do Gueto (CV), no bairro Barra do Cear√°, em Fortaleza, um homem, apontado como respons√°vel pela morte de Erick na Rua 6 Companheiros, foi encontrado morto dentro de uma resid√™ncia.\n\nDe acordo com informa√ß√µes, o suspeito estava comemorando o assassinato de Erick quando foi sequestrado por indiv√≠duos ligados √† v√≠tima. Ele foi levado √† comunidade, onde foi executado.\n\nA pol√≠cia foi acionada e encontrou o corpo do homem, ainda sem identifica√ß√£o, durante uma opera√ß√£o na √°rea.",Barra do Cear√°,2024-12-29T22:37:29+00:00,Portalnoticiasceara/2024-12-29/media/video_6731.mp4.zstd
204,6607,**ATEN√á√ÉO üö®** DISPAROS DE ARMA DE FOGO NESTE EXATO MOMENTO NA COMUNIDADE DA COL√îNIA (GDE) BAIRRO BARRA DO CEAR√Å EM FORTALEZA.\n\nSMD\nAMD,Barra do Cear√°,2024-12-28T01:02:57+00:00,
189,6493,"**Homic√≠dio registrado h√° poucos minutos na Barra do Cear√°, em Fortaleza**\n\nUm homic√≠dio foi registrado h√° poucos minutos na rua peri pr√≥ximo √† Escola Agostinho Moreira,bairro Barra do Cear√°, em Fortaleza. A v√≠tima, um homem ainda sem identifica√ß√£o, foi atingida por disparos de arma de fogo, vindo a √≥bito no local.\n\nEquipes da Pol√≠cia Militar j√° est√£o no local para realizar os primeiros levantamentos. A motiva√ß√£o e a autoria do crime ainda s√£o desconhecidas e ser√£o investigadas pela Delegacia de Homic√≠dios e Prote√ß√£o √† Pessoa (DHPP).",Barra do Cear√°,2024-12-26T20:26:59+00:00,Portalnoticiasceara/2024-12-26/media/photo_6493.jpg.zstd
188,6490,"**ATEN√á√ÉO üö®** HOMIC√çDIO REGISTRADO A POUCOS MINUTOS PR√ìXIMO A ESCOLA AGOSTINHO MOREIRA,BAIRRO BARRA DO CEAR√Å EM FORTALEZA.\n\nNOSSA EQUIPE EST√Å COLHENDO MAIS DETALHES. üóû",Barra do Cear√°,2024-12-26T20:06:25+00:00,
186,6487,**ATEN√á√ÉO üö®** DISPAROS DE ARMA DE FOGO FORAM REGISTRADOS A POUCOS MINUTOS NA COMUNIDADE DA COL√îNIA (GDE) BARRA DO CEAR√Å EM FORTALEZA.\n\nSMD,Barra do Cear√°,2024-12-26T19:47:08+00:00,
185,6479,"**Suspeito tenta fugir da equipe raio pelo mar, mas acaba sendo preso\n**\nNa manh√£ desta quinta-feira (26) um suspeito tentou fugir da equipe raio pr√≥ximo ao vila do mar, na barra do Cear√°. O mesmo rebolou uma pistola calibre .380 no mar, Logo ap√≥s a equipe raio acionou outras equipes e obtendo √™xito e achando a pistola na √°gua.",Barra do Cear√°,2024-12-26T13:31:50+00:00,Portalnoticiasceara/2024-12-26/media/photo_6479.jpg.zstd
105,5852,"Barra do Cear√°, fortaleza.\nüö®üö®",Barra do Cear√°,2024-12-16T10:35:09+00:00,
166,5852,"Barra do Cear√°, fortaleza.\nüö®üö®",Barra do Cear√°,2024-12-16T10:35:09+00:00,
30,5724,Atualiza√ß√£o üö®\n\nTriplo homic√≠dio na col√¥nia (GDE)\nBarra do Cear√°.\n\nhttps://t.me/Portalnoticiasceara/5719,Barra do Cear√°,2024-12-14T07:50:04+00:00,


In [27]:
df['bairro'].value_counts().head(20)

bairro
Barra do Cear√°           21
Edson Queiroz            16
Vila Velha               14
Jangurussu               11
Barroso                  10
Conjunto Palmeiras        9
Quintino Cunha            9
Mondubim                  8
Planalto Ayrton Senna     8
Carlito Pamplona          8
Pici                      7
Pedras                    7
Messejana                 7
Presidente Vargas         7
Pirambu                   7
Santa Rosa                6
Jardim das Oliveiras      6
Serrinha                  5
Bom Jardim                5
Henrique Jorge            5
Name: count, dtype: int64

In [28]:
import zstandard
decompressor = zstandard.ZstdDecompressor()

In [29]:
def download_and_decompress(path, bucket_name):
    # Baixar o arquivo do MinIO
    result = minio_client.get_object(bucket_name, path)
    
    # Ler os dados comprimidos
    compressed_data = result.read()
    
    # Descomprimir os dados
    decompressor = zstandard.ZstdDecompressor()
    
    try:
        # Usando BytesIO para garantir que os dados sejam tratados como fluxo
        decompressed_data = decompressor.decompress(compressed_data)
        return decompressed_data
    except zstandard.ZstdError as e:
        print(f"Erro ao descomprimir o arquivo {path}: {e}")
        return None

In [30]:
paths = df[df['id'] == 5777]['media_path']  # Carregar os paths do dataframe

for path in paths:
    print(f"Processando {path}...")
    decompressed_data = download_and_decompress(path, bucket_name)
    
    if decompressed_data:
        print(f"Arquivo {path} descomprimido com sucesso.")
        # Aqui voc√™ pode salvar ou processar os dados descomprimidos
    else:
        print(f"Falha ao descomprimir o arquivo {path}.")

Processando None...


TypeError: 