In [None]:
#| default_exp reading
%load_ext autoreload
%autoreload 2

import sys
from fastcore.xtras import Path
# Insert in Path Project Directory
sys.path.insert(0, str(Path().cwd().parent))

# Leitura
> Este módulo concentra funções para a leitura dos diversos arquivos que compõe a base de dados

* `STEL` - Serviços Privados de Telecomunicações
* `RADCOM` - Serviço de Radiodifusão Comunitária
* `MOSAICO` - Demais serviços de Radiodifusão, e.g. TV, RTV, FM, AM, etc.
* `AERONAUTICA` - Consolidação de diversas bases de dados públicas da aeronáutica 

In [None]:
#| export
import os
from typing import Union
from pathlib import Path

import pandas as pd
import pyodbc
from pymongo import MongoClient
from dotenv import load_dotenv

from extracao.updates import (
    update_srd,
    update_stel,
    update_radcom,
    update_base,
    update_telecom,
    update_aero,
)

from extracao.icao import get_icao
from extracao.aisgeo import get_aisg
from extracao.aisweb import get_aisw
from extracao.redemet import get_redemet
from extracao.format import _read_df

load_dotenv()

True

## MOSAICO
> O mosaico atualmente é composto por 2 bases complementares originárias de um banco `MongoDB`: 

-  `Estações`
- `Plano Básico`

In [None]:
#| export
def read_srd(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    conn: MongoClient = None,  # Objeto de Conexão com o banco MongoDB, atualiza os dados caso válido
) -> pd.DataFrame:  # Dataframe com os dados do mosaico
    """Lê o banco de dados salvo localmente do MOSAICO e opcionalmente o atualiza."""
    return update_srd(conn, folder) if conn else _read_df(folder, "srd")


In [None]:
folder = Path.cwd().parent / 'dados'

In [None]:
from extracao.constants import MIN_LAT, MAX_LAT, MIN_LONG, MAX_LONG
from pandas_profiling import ProfileReport

In [None]:
mosaico = read_srd(folder)

In [None]:
mosaico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30364 entries, 0 to 30363
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Frequência            30364 non-null  string
 1   Entidade              30341 non-null  string
 2   Fistel                30364 non-null  string
 3   Número_Estação        26379 non-null  string
 4   Município             30363 non-null  string
 5   Código_Município      30364 non-null  string
 6   UF                    30364 non-null  string
 7   Latitude              15159 non-null  string
 8   Longitude             15159 non-null  string
 9   Classe                30353 non-null  string
 10  Num_Serviço           30364 non-null  string
 11  Classe_Emissão        0 non-null      string
 12  Largura_Emissão(kHz)  30364 non-null  string
 13  Validade_RF           28122 non-null  string
 14  Status                30364 non-null  string
 15  Fonte                 30364 non-null

In [None]:
for c in ['Latitude', 'Longitude']:
    mosaico[c] = mosaico[c].astype('float')

In [None]:
mos_bad_coords = mosaico[~(mosaico.Latitude.between(MIN_LAT, MAX_LAT) | mosaico.Longitude.between(MIN_LONG, MAX_LONG))]
mos_bad_coords

Unnamed: 0,Frequência,Entidade,Fistel,Número_Estação,Município,Código_Município,UF,Latitude,Longitude,Classe,Num_Serviço,Classe_Emissão,Largura_Emissão(kHz),Validade_RF,Status,Fonte,Multiplicidade
0,207.0,REDE DE COMUNICACOES ACREANA LTDA,50442889933,,Cruzeiro do Sul,1200203,AC,,,A,248,,6000.0,,TV-C1,MOS,1
1,539.0,X-MEDIAGROUP S.A.,50410887137,,Mâncio Lima,1200336,AC,,,C,248,,6000.0,,TV-C1,MOS,1
16,593.0,FUNDACAO EDUCACIONAL E CULTURAL DAS AGUAS QUENTES,50403401330,,Caldas Novas,5204508,GO,,,B,248,,6000.0,,TV-C1,MOS,1
17,665.0,GUARANI RADIODIFUSAO LTDA,50410887218,,Caldas Novas,5204508,GO,,,C,248,,6000.0,2023-12-31,TV-C2,MOS,1
25,551.0,OCAN COMUNICACAO DIGITAL SE LTDA,50410887307,1004428283,Santa Quitéria do Maranhão,2110104,MA,,,C,248,,6000.0,2023-12-31,TV-C3,MOS,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30359,635.0,REDE RONDONIA DE COMUNICACAO LTDA,50444067248,,Codajás,1301308,AM,,,C,801,,5700.0,,TV-C1,MOS,1
30360,629.0,REDE RONDONIA DE COMUNICACAO LTDA,50444067400,,Parintins,1303403,AM,,,C,801,,5700.0,,TV-C1,MOS,1
30361,91.1,SISTEMA NOROESTE DE COMUNICACAO LTDA EPP,50407817506,1007790129,Piacatu,3537701,SP,,,C,230,,256.0,2029-01-08,FM-C4,MOS,1
30362,557.0,KAKE TV LTDA,50444198776,,Espigão D'Oeste,1100098,RO,,,C,801,,5700.0,2043-01-12,TV-C2,MOS,1


In [None]:
print(f"A base de radiodifusão do Mosaico possui {len(mos_bad_coords)} registros de coordenadas inválidas do total de {len(mosaico)}")

A base de radiodifusão do Mosaico possui 15206 registros de coordenadas inválidas do total de 30364


In [None]:
mosaico['Frequência'] = mosaico['Frequência'].astype('category')
mosaico_profile = ProfileReport(mosaico, config_file='report_config.yaml', title='MOSAICO')
mosaico_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

## LICENCIAMENTO
> A Base licenciamento é composta de serviços privados de telecomunicações, tanto antigos migrados do STEL como novos para um novo banco de dados `MongoDB`

In [None]:
#| export
def read_telecom(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    conn: MongoClient = None,  # Objeto de Conexão com o banco MongoDB, atualiza os dados caso válido
) -> pd.DataFrame:  # Dataframe com os dados do mosaico
    """Lê o banco de dados salvo localmente do LICENCIAMENTO e opcionalmente o atualiza."""
    return update_telecom(conn, folder) if conn else _read_df(folder, "telecom")


In [None]:
#|eval: false
#|code_fold: true
telecom = read_telecom(folder)

In [None]:
#|eval: false
for c in ['Latitude', 'Longitude']:
    telecom[c] = telecom[c].astype('float')

In [None]:
#| eval: false
telecom[~(telecom.Latitude.between(MIN_LAT, MAX_LAT) | telecom.Longitude.between(MIN_LONG, MAX_LONG))]

Unnamed: 0,Frequência,Entidade,Fistel,Número_Estação,Município,Código_Município,UF,Latitude,Longitude,Classe,Num_Serviço,Classe_Emissão,Largura_Emissão(kHz),Validade_RF,Status,Fonte,Multiplicidade
72,368.5625,Cricom do Brasil Ltda,50402602889,1002369336,Curitiba,4106902,PR,-49.255278,-25.408333,ML,011,F1E,7.6,2035-11-11,L,MOS,601
73,368.6125,Cricom do Brasil Ltda,50402602889,1002369336,Curitiba,4106902,PR,-49.255278,-25.408333,ML,011,F1E,7.6,2035-11-11,L,MOS,601
74,368.7625,Cricom do Brasil Ltda,50402602889,1002369336,Curitiba,4106902,PR,-49.255278,-25.408333,ML,011,F1E,7.6,2035-11-11,L,MOS,601
75,368.7875,Cricom do Brasil Ltda,50402602889,1002369336,Curitiba,4106902,PR,-49.255278,-25.408333,ML,011,F1E,7.6,2035-11-11,L,MOS,601
76,368.8375,Cricom do Brasil Ltda,50402602889,1002369336,Curitiba,4106902,PR,-49.255278,-25.408333,ML,011,F1E,7.6,2035-11-11,L,MOS,601
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
312195,166.46875,POLICIA MILITAR DO ESTADO DE SÃO PAULO,50403450381,1002523190,,3541000,SP,-46.572306,-24.069194,FX,019,F1E,8.1,2036-08-16,L,MOS,1
312200,166.46875,POLICIA MILITAR DO ESTADO DE SÃO PAULO,50403450381,1007552457,,3541000,SP,-46.419528,-24.001528,FX,019,F1E,8.1,2036-08-16,L,MOS,1
316733,459.0875,VICOMP - SISTEMAS COMPUTADORIZADOS E TELECOMUN...,50418017549,1009209393,,3120904,MG,-44.419408,-18.762592,FX,019,F1D,10.0,2039-06-05 00:00:00.000,L,MOS,1
440162,19562.5,TELEFONICA BRASIL S.A.,50417179405,1014420943,São Bernardo do Campo,3548708,SP,-46.531500,0.000000,FX,019,D7W,55000.0,2039-02-08,L,MOS,1


In [None]:
#| eval: false
telecom['Frequência'] = telecom['Frequência'].astype('category')
telecom_profile = ProfileReport(telecom, config_file='report_config.yaml', title='Telecomunicações')
telecom_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

##  RADCOM

In [None]:
#| export
def read_radcom(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    conn: pyodbc.Connection = None,  # Objeto de conexão de banco, atualiza os dados caso válido
) -> pd.DataFrame:  # Dataframe com os dados de RADCOM
    """Lê o banco de dados salvo localmente de RADCOM. Opcionalmente o atualiza pelo Banco de Dados ANATELBDRO05 caso `update = True` ou não exista o arquivo local"""
    return update_radcom(conn, folder) if conn else _read_df(folder, "radcom")


In [None]:
#|eval: false
#|code_fold: true
radcom = read_radcom(folder)
radcom['Frequência'] = radcom['Frequência'].astype('category')
radcom_profile = ProfileReport(radcom, config_file='report_config.yaml', title='RADCOM')
radcom_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

## STEL

In [None]:
#| export
def read_stel(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    conn: pyodbc.Connection = None,  # Objeto de conexão de banco. Atualiza os dados caso válido
) -> pd.DataFrame:  # Dataframe com os dados do STEL
    """Lê o banco de dados salvo localmente do STEL.
     Opcionalmente o atualiza pelo Banco de Dados ANATELBDRO05
    caso `update = True` ou não exista o arquivo local"""
    return update_stel(conn, folder) if conn else _read_df(folder, "stel")


In [None]:
#|eval: false
#|code_fold: true
stel = read_stel(folder)
stel['Frequência'] = stel['Frequência'].astype('category')
stel_profile = ProfileReport(stel, config_file='report_config.yaml', title='STEL')
stel_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
from extracao.constants import SQL_VALIDA_COORD

In [None]:
def valida_coords(
    conn: pyodbc.Connection,  # Objeto de conexão de banco
    row: pd.Series,  # Linha de um DataFrame
) -> tuple:  # DataFrame com dados do município
    """Valida os dados de coordenadas e município em `row` no polígono dos municípios em banco corporativo"""
    
    sql = SQL_VALIDA_COORD.format(
        row.Longitude, row.Latitude, row.Código_Município
    )
    crsr = conn.cursor()
    crsr.execute(sql)
    result = crsr.fetchone()
    if result is None:
        return (row.Código_Município, row.Longitude, row.Latitude, -1)
    elif result.COORD_VALIDA == 1:
        return result
    else:
        return (
            result.NO_MUNICIPIO,
            result.NU_LONGITUDE,
            result.NU_LATITUDE,
            result.COORD_VALIDA,
        )

## Bases Externas da Aeronáutica

In [None]:
#| export
def read_icao(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    update: bool = False,  # Atualiza os dados caso `True`
) -> pd.DataFrame:  # Dataframe com os dados do ICAO
    """Lê a base de dados do Frequency Finder e Canalização VOR/ILS/DME"""
    return get_icao if update else _read_df(folder, "icao")


In [None]:
#| export
def read_aisw(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    update: bool = False,  # Atualiza os dados caso `True`
) -> pd.DataFrame:  # Dataframe com os dados do AISWEB
    """Fontes da informação: AISWEB, REDEMET, Ofício nº 2/SSARP/14410 e Canalização VOR/ILS/DME."""
    return get_aisw() if update else _read_df(folder, "aisw")


In [None]:
#| export
def read_aisg(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    update: bool = False,  # Atualiza os dados caso `True`
) -> pd.DataFrame:  # Dataframe com os dados do GEOAISWEB
    """Fontes da informação: GEOAISWEB, REDEMET, Ofício nº 2/SSARP/14410 e Canalização VOR/ILS/DME."""
    return get_aisg() if update else _read_df(folder, "aisg")


In [None]:
#| export
def read_redemet(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    update: bool = False,  # Atualiza os dados caso `True`
) -> pd.DataFrame:  # Dataframe com os dados do AISWEB
    """Fontes da informação: AISWEB, REDEMET, Ofício nº 2/SSARP/14410 e Canalização VOR/ILS/DME."""
    return get_redemet() if update else _read_df(folder, "redemet")


In [None]:
#| export
def read_aero(
    folder: Union[str, Path],  # Pasta onde ler/salvar os dados
    update: bool = False,  # Atualiza os dados caso `True`
) -> pd.DataFrame:  # Dataframe com os dados mesclados das 3 bases da Aeronáutica anteriores
    """Lê os arquivos de dados da aeronáutica e retorna os registros comuns e únicos"""
    return update_aero(folder) if update else _read_df(folder, "aero")


In [None]:
#| eval: false
aero = read_aero(folder)
aero['Frequency'] = aero['Frequency'].astype('category')
aero_profile = ProfileReport(aero, config_file='report_config.yaml', title='AERONAUTICA')
aero_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

## Base Consolidada

In [None]:
#| export
def read_base(
    folder: Union[str, Path],
    conn: pyodbc.Connection = None,  # Objeto de conexão do banco SQL Server
    clientMongoDB: MongoClient = None,  # Objeto de conexão do banco MongoDB
) -> pd.DataFrame:
    """Lê a base de dados e opcionalmente a atualiza antes da leitura casos as conexões de banco sejam válidas"""
    return (
        update_base(conn, clientMongoDB, folder)
        if all([conn, clientMongoDB])
        else _read_df(folder, "base")
    )

In [None]:
#|eval: false
#|code_fold: true
base = read_base(folder)
base['Frequência'] = base['Frequência'].astype('category')
base_profile = ProfileReport(base, config_file='report_config.yaml', title='Base Consolidada')
base_profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]