## Importing modules and reading csv file

In [1]:
import os
import polars as pl
from utils import *
import pandas as pd
from datetime import datetime

In [2]:
def get_cleaned_df(state):
    csv_files_dir = '../data/cleaned_csv_files'
    file = f'{state}.csv'
    file_path = os.path.join(csv_files_dir, file)
    df = read_csv_pl(file_path, separator = ',')
    df = df.to_pandas()
    return df

Let's read the data corresponding to a single state ('AC' in this case) to explore it.

In [None]:
csv_files_dir = '../data/csv_files'
file = 'RS.csv'
file_path = os.path.join(csv_files_dir, file)
df = read_csv_pl(file_path, separator = ',')
pdf = df.to_pandas()

Let's check the different types of 'ClassInfraFisica' present.

In [None]:
df.group_by('ClassInfraFisica').count()

Let's fix the typo:

In [None]:
df = strip_column_pl(df, 'ClassInfraFisica')

In [None]:
df.group_by('ClassInfraFisica').agg(pl.col('ClassInfraFisica').count().alias('Count'))

In [None]:
df = replace_values_pl(df, 'ClassInfraFisica', 'Greenfild', 'Greenfield')

## Investigating the relationship between ClassInfraFisica and NumEstacao

Now, we have to check whether each station (indicated by the column 'NumEstacao') corresponds to a single type of 'ClassInfraFisica'; which is the expected behavior (assumption).

In [None]:
count_unique_values = df.group_by('NumEstacao').agg(pl.col('ClassInfraFisica').n_unique().alias('unique_count'))
instances_with_different_values = count_unique_values.filter(count_unique_values['unique_count'] > 1)
print(instances_with_different_values)

We found that we can actually get two different 'ClassInfraFisica' for any individual station. But if we check further, we'll see that it's actually pairing types with 'null' values, which does not compromise the assumption.

In [None]:
df.filter(df['NumEstacao'] == 1007447238)[['NumEstacao', 'ClassInfraFisica']]

Let's group by 'NumEstacao', but keeping all the info present in the rows as sets (or as a single value if all rows match)

In [None]:
dfg = pdf.groupby('NumEstacao').agg(lambda x: set_aggregation(x))
dfg.head(4)

In [None]:
print(f"Percentage of initial rows kept when grouping = {len(dfg)*100/len(df):.2f}%")

Now we have a dataframe with all the original information, but only 16% of the rows; in which each represents a single station

## Understanding the Columns

Let's understand what the columns are about. This will futurely enable us to better make sense of them, process them if necessary, or drop irrelevant ones.

From [Página de Emissões - Anatel](https://sistemas.anatel.gov.br/anexar-api/publico/anexos/download/9cfc11fc83fcfc2d2586cdb887f72cb5), we can understand what each column refers to.

Status.state: Situação da solicitação na Anatel.

NumFistel: É um código numérico definido pela Anatel, composto de onze dígitos que identifica a autorização que a empresa possui para determinado serviço em determinada região.

NomeEntidade: Nome da Empresa detentora da estação.

NumServico: Código do serviço de telecomunicações na Anatel.

NumAto: Número do Ato de Autorização de Uso de Radiofrequência, sendo que os quatro últimos dígitos se referem ao ano da assinatura do respectivo ato. Exemplo XYZW2017, ato XYZW de 2017.

EnderecoEstacao: Endereço completo onde a estação está instalada.

EndComplemento: Complemento do endereço, caso haja.

DesignacaoEmissao: Baseado em [Método de Designação - Anatel](https://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublicacao=60403&assuntoPublicacao=null&caminhoRel=null&filtro=1&documentoPath=outros/autocadastramento/metodo_de_designacao.pdf)

Designação de emissão. Para uma completa designação da emissão, necessitamos sempre de 9 caracteres alfanuméricos. Os quatros primeiros representam a _largura de faixa necessária_; os três seguintes as _características básicas_ e os dois últimos as _características adicionais facultativas_.
- Largura de faixa necessária: Para uma dada classe de emissão, o valor mínimo da largura de faixa ocupada pela emissão, suficiente para garantir a transmissão da informação com a velocidade de transmissão e com a qualidade requerida para o sistema empregado, nas condições especificadas. A largura de faixa necessária será sempre expressa por meio de três algarismos, que indicam os três primeiros algarismos significativos de largura de faixa necessária e uma letra que ocupa a posição da virgula decimal e representa a Unidade de largura de faixa e será H para Hertz, K para Kilohertz, M para Megahertz ou G para Gigahertz.
- Características básicas: descritas por três símbolos:
    - Primeiro símbolo: tipo de modulação da portaria principal.
    - Segundo símbolo: natureza do(s) sinais que modulam a portaria principal.
    - Terceiro símbolo: tipo de informação a ser transmitida.
- Características adicionais facultativas: Para descrição mais completa de uma emissão, são previstas duas características facultativas, as quais são expressas pelos quarto e quinto símbolos. Quando não se utiliza o quarto ou o quinto símbolo, convém indicar isso mediante um traço no lugar em que cada símbolo apareceria.

meioAcesso: é um campo de ‘estações dispensadas de licenciamento’. As opções são: fibra, par metálico, cabo coaxial e radiação restrita.

Azimute: posicionamento m graus em relação ao Norte do lóbulo principal de radiação da antena. Quando for utilizada antena omnidirecional será 0.

CodTipoClasseEstacao: Classe da Estação conforme lista permitida no sistema de canalização do Mosaico, conforme o Regulamento da faixa de frequência utilizada conforme Manual de Projetos Técnicos do SITAR, disponível em [Manual de Projeto - Anatel](https://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublicacao=60402&assuntoPublicacao=MANUAL%20DE%20PROJETOS%20T%C9CNICOS%20(SITAR)&caminhoRel=CidadaoComunica%E7%E3o%20via%20R%E1dioServi%E7o%20Limitado&filtro=1&documentoPath=outros/). Exemplos:
- ML: Estação móvel terrestre
- FX: Estação fixa
- FB: Estação de base
- XR: Estação fixa repetidora
- FA: Estação aeronáutica
- RC: Radiofarol não direcional

ClassInfraFisica: Classificação de Infraestrutura Física. Apenas para estações dos serviços de interesse coletivo (STFC, SCM e SMP). Para serviços de interesse restrito (SLP), estará em branco. Valores válidos: Greenfield, Streetlevel, Ran Sharing, Small Cell, COW, Picocelula, Harmonizada, Rooftop, Indoor, Outdoor

CompartilhamentoInfraFisica: Compartilhamento de Infraestrutura Física. Apenas para estações dos serviços de interesse coletivo (não se aplica para SLP).

CodTipoAntena: Tipo Antena: campo obrigatório, onde é inserido o código conforme item 2.3.4 do [Manual de Projeto - Anatel](https://www.anatel.gov.br/Portal/verificaDocumentos/documento.asp?numeroPublicacao=60402&assuntoPublicacao=MANUAL%20DE%20PROJETOS%20T%C9CNICOS%20(SITAR)&caminhoRel=CidadaoComunica%E7%E3o%20via%20R%E1dioServi%E7o%20Limitado&filtro=1&documentoPath=outros/). Exemplos:
- 019: Monopolo vertical
- 060: V invertido
- 213: Cabo fendido

GanhoAntena: Ganho da Antena em dB. Se a frequência for superior a 28.000 kHz, é informado o ganho da antena em relação a uma antena isotrópica (dbi); se inferior, este é dado em relação a uma antena dipolo (dBd).

FrenteCostaAntena: Relação Frente/Costa em dBi (campo obrigatório). Deve ser menor que 90 dbi. Será 0 (zero) quando for utilizada antena omnidirecional.

AnguloMeiaPotenciaAntena: Ângulo de meia potência em graus decimais (campo obrigatório). Pontos no diagrama onde a potência radiada equivale à metade da radiada na direção principal.

AnguloElevacao: : Ângulo de elevação mecânico em graus decimais. O valor deve estar entre 0 e 90 e ser medido com relação à linha de horizonte, sendo negativo quando a linha de visada estiver abaixo desta referência.

Polarizacao:  a orientação do campo elétrico da onda de rádio com respeito a terra ou direção de propagação; e é determinado pela estrutura física da antena e por sua orientação. Valores aceitos: H (horizontal), V (vertical), CR (circular á direita), CL (circular à esquerda) e X (horizontal e vertical simultâneas ou não).

AlturaAntena: Altura da antena (em relação a cota do terreno). Deve ser menor que 200 m.

PotenciaTransmissorWatts: Potência nominal (saída do transmissor) em watts.

CodDebitoTFI: Código da Taxa de Fiscalização de Instalação (TFI) conforme lei nº 5.070, de 7 de julho de 1966.
Taxa de fiscalização da instalação é aquela devida pelas concessionárias e permissionárias de serviços de telecomunicações, no momento em que lhes é outorgada autorização para a execução do serviço e tem a finalidade de ressarcir as despesas realizadas pelo Poder Público até o licenciamento das respectivas estações. Não serão licenciadas as estações das permissionárias e concessionárias de serviços de telecomunicações que não efetuarem o pagamento da taxa de fiscalização da instalação.
[Lei do Fistel](https://www2.camara.leg.br/legin/fed/lei/1960-1969/lei-5070-7-julho-1966-364619-anexo-pl.pdf)

DataLicenciamento:  Data do último licenciamento da estação. Formato: AAAA/MM/DD

DataPrimeiroLicenciamento: Data do primeiro licenciamento da estação. Formato: AAAA/MM/DD

NumRede: Valor numérico, definido pelo usuário, para identificar grupo de estações que se comunicam. Visa facilitar a análise da comunicação das redes.

_id:  Identificação da emissão / frequência da estação

DataValidade: Validade da RF associada àquela estação.

NumFistelAssociado: Campo preenchido quando a emissão for de outro Fistel (do mesmo CNPJ ou diferentes): licenciamento conjunto. Nesse caso, é informado o número do Fistel responsável pelo Ato de RF da emissão dessa linha



meioAcesso consists of all None values

In [None]:
pdf['meioAcesso'].value_counts(dropna=False)

In [None]:
# CodEquipamentoTransmissor
print(f"number of rows: {len(pdf['CodEquipamentoTransmissor'])}")
print(f"number of unique rows: {pdf['CodEquipamentoTransmissor'].nunique()}")

In [None]:
# CodDebitoTFI
pdf['CodDebitoTFI'].value_counts()

In [None]:
# _id
pdf['_id'].value_counts()

In [None]:
# DataValidade
pdf['DataValidade'].value_counts()

In [None]:
pdf['NumFistelAssociado'].value_counts()

In [None]:
pdf['NomeEntidadeAssociado'].value_counts()

## Filtering out irrelevant columns

In [None]:
pdf = filter_columns(pdf)

pdf.head()

### NomeEntidade

Given the high number of different providers found in this column (sometimes it's the mobile network operator, sometimes it's the venue owner), we will not be using this column.

## Column Treatment

Now we will correctly treat each column in order to have relevant information and prepare it for training.

### SiglaUf

In [None]:
pdf['SiglaUf']

### CodMunicipio

In [None]:
pdf['CodMunicipio'] = pdf['CodMunicipio'].fillna(0).astype(int)
pdf['CodMunicipio']

### DesignacaoEmissao

In [None]:
pdf[['LarguraFaixaNecessaria', 'CaracteristicasBasicas']] = pdf.apply(process_designacao_emissao, axis=1)
pdf.drop(columns=['DesignacaoEmissao'], inplace=True)

### Tecnologia & tipoTecnologia

In [None]:
pdf['Tecnologia_e_Tipo'] = pdf.apply(lambda row: concatenate_columns(row, 'Tecnologia', 'tipoTecnologia'), axis=1)
pdf.drop(columns=['Tecnologia', 'tipoTecnologia'], inplace=True)

In [None]:
x[~x['tipoTecnologia'].isnull()]

### FreqTxMHz

In [None]:
pdf['FreqTxMHz']

### FreqRxMHz

In [None]:
pdf['FreqRxMHz']

### CodTipoClasseEstacao

In [None]:
pdf['CodTipoClasseEstacao'].value_counts()

### ClassInfraFisica

In [None]:
file = 'SP.csv'
file_path = os.path.join(csv_files_dir, file)
df = read_csv_pl(file_path, separator = ',')
pdf = df.to_pandas()
pdf = strip_column(pdf, 'ClassInfraFisica')
pdf['ClassInfraFisica'] = pdf['ClassInfraFisica'].str.upper()
pdf['ClassInfraFisica'].value_counts(dropna=False)

In [None]:
pdf['ClassInfraFisica'].value_counts(dropna=False)

In [None]:
pdf = strip_column(pdf, 'ClassInfraFisica')
pdf['ClassInfraFisica'] = pdf['ClassInfraFisica'].str.upper()
pdf = replace_values(pdf, 'ClassInfraFisica', 'GREENFILD', 'GREENFIELD')
pdf['ClassInfraFisica'].value_counts(dropna=False)

### CompartilhamentoInfraFisica

In [None]:
pdf['CompartilhamentoInfraFisica'].value_counts(dropna=False)

### CodTipoAntena

In [None]:
pdf['CodTipoAntena'].value_counts()

In [None]:
pdf['CodTipoAntena'] = pdf['CodTipoAntena'].fillna(0).astype(int)
pdf['CodTipoAntena'] = pdf['CodTipoAntena'].astype(str)
pdf['CodTipoAntena'].value_counts()

### GanhoAntena

In [None]:
pdf['GanhoAntena'].value_counts()

In [None]:
pdf['GanhoAntena'] = pd.to_numeric(pdf['GanhoAntena'], errors='coerce')
pdf['GanhoAntena']

### FrenteCostaAntena

In [None]:
pdf['FrenteCostaAntena'] = pd.to_numeric(pdf['FrenteCostaAntena'], errors='coerce')
pdf['FrenteCostaAntena']

### AnguloMeiaPotenciaAntena

In [None]:
pdf['AnguloMeiaPotenciaAntena'] = pd.to_numeric(pdf['AnguloMeiaPotenciaAntena'], errors='coerce')
pdf['AnguloMeiaPotenciaAntena']

### AnguloElevacao

In [None]:
pdf['AnguloElevacao'] = pd.to_numeric(pdf['AnguloElevacao'], errors='coerce')
pdf['AnguloElevacao']

### Polarizacao

In [None]:
pdf['Polarizacao'] = pdf['Polarizacao'].str.upper()
pdf['Polarizacao']

### AlturaAntena

In [None]:
pdf['AlturaAntena'] = pd.to_numeric(pdf['AlturaAntena'], errors='coerce')
pdf['AlturaAntena']

### CodEquipamentoTransmissor

In [None]:
pdf['CodEquipamentoTransmissor'].value_counts()

### PotenciaTransmissorWatts

In [None]:
pdf['PotenciaTransmissorWatts'].value_counts(dropna=False)

### CodDebitoTFI

In [None]:
pdf['CodDebitoTFI'].value_counts(dropna=False)

### DataLicenciamento

In [None]:
# pdf['DataLicenciamento'] = pd.to_datetime(pdf['DataLicenciamento'], errors='coerce')
# pdf['IdadeLicenciamento'] = (pd.to_datetime('today') - pdf['DataLicenciamento']).dt.days
# pdf['IdadeLicenciamento'].where(pdf['DataLicenciamento'].notna(), None, inplace=True)
pdf['IdadeLicenciamento'] = pdf.apply(process_data, date_column='DataLicenciamento', axis=1)

In [None]:
# pdf[pdf['DataLicenciamento'].isna()][['DataLicenciamento', 'IdadeLicenciamento']]
z = pdf[['DataLicenciamento', 'IdadeLicenciamento']]

### DataPrimeiroLicenciamento

In [None]:
pdf['IdadePrimeiroLicenciamento'] = pdf.apply(process_data, date_column='DataPrimeiroLicenciamento', axis=1)

In [None]:
z = pdf[['NumEstacao', 'DataLicenciamento', 'IdadeLicenciamento', 'DataPrimeiroLicenciamento', 'IdadePrimeiroLicenciamento']]

### DataValidade

In [None]:
pdf['DiasAteExpirar'] = pdf.apply(process_data, date_column='DataValidade', axis=1)

In [None]:
pdf[['DiasAteExpirar', 'DataValidade']]

### NumFistelAssociado

Huge number of NaNs and not that important of a column

In [None]:
pdf['NumFistelAssociado'].value_counts(dropna=False)

# Labeled ClassInfraFisica proportion

In [None]:
df = get_cleaned_df('PR')

In [None]:
dfg = df.groupby('NumEstacao').agg(lambda x: set_aggregation(x))

In [None]:
z = dfg[['ClassInfraFisica']]

In [None]:
x = dfg.isna().sum().reset_index(name='NaN_Count').merge(dfg.count().reset_index(name='Non_NaN_Count'), how='outer')
x['NaN_proportion'] = 100*x['NaN_Count']/(x['NaN_Count'] + x['Non_NaN_Count'])
x[x['index']=='ClassInfraFisica']

# Defining Grouping Criterion for Each Column

In [None]:
df = get_cleaned_df('PR')
df.head(1)

In [9]:
for col in df.columns:
    print(f"Column: {col}, Data Type: {df[col].dtype}")

Column: NumEstacao, Data Type: int64
Column: SiglaUf, Data Type: object
Column: CodMunicipio, Data Type: int64
Column: FreqTxMHz, Data Type: float64
Column: FreqRxMHz, Data Type: float64
Column: CodTipoClasseEstacao, Data Type: object
Column: ClassInfraFisica, Data Type: object
Column: CompartilhamentoInfraFisica, Data Type: object
Column: CodTipoAntena, Data Type: int64
Column: GanhoAntena, Data Type: object
Column: FrenteCostaAntena, Data Type: float64
Column: AnguloMeiaPotenciaAntena, Data Type: float64
Column: AnguloElevacao, Data Type: float64
Column: Polarizacao, Data Type: object
Column: AlturaAntena, Data Type: float64
Column: CodEquipamentoTransmissor, Data Type: float64
Column: PotenciaTransmissorWatts, Data Type: float64
Column: CodDebitoTFI, Data Type: object
Column: DataValidade, Data Type: object
Column: LarguraFaixaNecessaria, Data Type: object
Column: CaracteristicasBasicas, Data Type: object
Column: Tecnologia_e_Tipo, Data Type: object
Column: DiasDesdeLicenciamento, D

### Checking columns whose type is _object_

In [None]:
# df['SiglaUf'].astype(str)
# df['CodTipoClasseEstacao'].astype(str)
# df['ClassInfraFisica'].astype(str).sort_values()
# df['CompartilhamentoInfraFisica'].astype(str).sort_values()
# df['GanhoAntena'].astype(float)
# df['Polarizacao'].astype(str)
# df['CodDebitoTFI'].astype(str)
x=df['LarguraFaixaNecessaria'].astype(str) #pegar so a string entre ''
y = df['CaracteristicasBasicas'].astype(str) #pegar so a string entre ''

In [None]:
problematic_rows_indices = df[df['DataValidade'].apply(lambda x: pd.to_datetime(x, errors='coerce') is pd.NaT)].index

for index in problematic_rows_indices:
    print(f"Index: {index}, Value: {df.at[index, 'DataValidade']}")


In [11]:
df['Tecnologia_e_Tipo'].astype(str)

0          WCDMA
1          WCDMA
2          WCDMA
3            GSM
4            GSM
           ...  
263452    NR_NSA
263453    NR_NSA
263454     WCDMA
263455     WCDMA
263456     WCDMA
Name: Tecnologia_e_Tipo, Length: 263457, dtype: object

## Nan Treatment

In [10]:
df = get_cleaned_df('AC')
df.columns

Index(['NumEstacao', 'SiglaUf', 'CodMunicipio', 'FreqTxMHz', 'FreqRxMHz',
       'CodTipoClasseEstacao', 'ClassInfraFisica',
       'CompartilhamentoInfraFisica', 'CodTipoAntena', 'GanhoAntena',
       'FrenteCostaAntena', 'AnguloMeiaPotenciaAntena', 'AnguloElevacao',
       'Polarizacao', 'AlturaAntena', 'CodEquipamentoTransmissor',
       'PotenciaTransmissorWatts', 'CodDebitoTFI', 'LarguraFaixaNecessaria',
       'CaracteristicasBasicas', 'Tecnologia_e_Tipo', 'DiasDesdeLicenciamento',
       'DiasDesdePrimeiroLicenciamento', 'DiasAteExpirar'],
      dtype='object')

In [11]:
print(df.iloc[6999]['GanhoAntena'])
print(df.iloc[6999]['FreqRxMHz'])
print(df.iloc[6999]['ClassInfraFisica'])
print(df.iloc[4245]['CodEquipamentoTransmissor'])
print('--')
print(type(df.iloc[6999]['GanhoAntena']))
print(type(df.iloc[6999]['FreqRxMHz']))
print(type(df.iloc[6999]['ClassInfraFisica']))
print(type(df.iloc[4245]['CodEquipamentoTransmissor']))

None
nan
None
nan
--
<class 'NoneType'>
<class 'numpy.float64'>
<class 'str'>
<class 'numpy.float64'>


In [12]:
df.groupby('Tecnologia_e_Tipo', dropna=False).size()

Tecnologia_e_Tipo
DMR             6
GSM           983
LTE          3719
NR_NSA         24
NR_SA-NSA     245
None         3004
VHF             8
WCDMA         902
dtype: int64

In [17]:
df[df['Tecnologia_e_Tipo'] == 'None']['Tecnologia_e_Tipo']

2294    None
2295    None
2296    None
2297    None
2298    None
        ... 
8878    None
8879    None
8880    None
8881    None
8882    None
Name: Tecnologia_e_Tipo, Length: 3004, dtype: object

In [19]:
df.groupby('NumEstacao', dropna=False).size().sort_values(ascending=False)

NumEstacao
684990849     63
684990822     50
684991233     48
1000628164    45
700024506     45
              ..
695315803      1
695315790      1
1000602092     1
1000602084     1
1006972150     1
Length: 1506, dtype: int64

In [21]:
df.groupby('CodTipoClasseEstacao', dropna=False).size().sort_values(ascending=False)

CodTipoClasseEstacao
FB    6198
FX    1427
ML    1202
BR      25
XR      22
FC       6
FP       6
FA       3
RC       2
dtype: int64

In [22]:
df.groupby('ClassInfraFisica', dropna=False).size().sort_values(ascending=False)

ClassInfraFisica
None           6157
GREENFIELD     2535
ROOFTOP         129
RAN SHARING      39
STREETLEVEL      24
INDOOR            7
dtype: int64

In [27]:
df.groupby('FrenteCostaAntena', dropna=False).size().sort_values(ascending=False)
df[df['FrenteCostaAntena'] == 'NaN']

Unnamed: 0,NumEstacao,SiglaUf,CodMunicipio,FreqTxMHz,FreqRxMHz,CodTipoClasseEstacao,ClassInfraFisica,CompartilhamentoInfraFisica,CodTipoAntena,GanhoAntena,...,AlturaAntena,CodEquipamentoTransmissor,PotenciaTransmissorWatts,CodDebitoTFI,LarguraFaixaNecessaria,CaracteristicasBasicas,Tecnologia_e_Tipo,DiasDesdeLicenciamento,DiasDesdePrimeiroLicenciamento,DiasAteExpirar


In [34]:
df.groupby('CodEquipamentoTransmissor', dropna=False).size().sort_values(ascending=False)
df[df['CodEquipamentoTransmissor'] == 'NaN']

Unnamed: 0,NumEstacao,SiglaUf,CodMunicipio,FreqTxMHz,FreqRxMHz,CodTipoClasseEstacao,ClassInfraFisica,CompartilhamentoInfraFisica,CodTipoAntena,GanhoAntena,...,AlturaAntena,CodEquipamentoTransmissor,PotenciaTransmissorWatts,CodDebitoTFI,LarguraFaixaNecessaria,CaracteristicasBasicas,Tecnologia_e_Tipo,DiasDesdeLicenciamento,DiasDesdePrimeiroLicenciamento,DiasAteExpirar


In [41]:
df.groupby('DiasAteExpirar', dropna=False).size().sort_values(ascending=False)

DiasAteExpirar
-3309    2111
-2199    1181
-2657     828
-1323     490
-5264     472
         ... 
-3713       2
-3619       2
-3943       2
-913        1
 1          1
Length: 69, dtype: int64

## Grouping

In [5]:
df = get_cleaned_df('AC')
df.head(1)

Unnamed: 0,NumEstacao,SiglaUf,CodMunicipio,FreqTxMHz,FreqRxMHz,CodTipoClasseEstacao,ClassInfraFisica,CompartilhamentoInfraFisica,CodTipoAntena,GanhoAntena,...,AlturaAntena,CodEquipamentoTransmissor,PotenciaTransmissorWatts,CodDebitoTFI,LarguraFaixaNecessaria,CaracteristicasBasicas,Tecnologia_e_Tipo,DiasDesdeLicenciamento,DiasDesdePrimeiroLicenciamento,DiasAteExpirar
0,64300,AC,1200401,874.5,829.5,FB,,11.2,760,11.2,...,35.0,19980700000.0,40.0,G,5M00,G9W,WCDMA,118.0,8404,-233


In [None]:
aggregation_criteria = {
    'SiglaUf': 'max',
    'CodMunicipio': 'max',
    'FreqTxMHz': 'mean',
    'FreqRxMHz': 'mean',
    'CodTipoClasseEstacao': lambda x: set(x),
    'ClassInfraFisica': 'max',
    'CompartilhamentoInfraFisica': 'max',
    'CodTipoAntena': lambda x: set(x),
    'GanhoAntena': 'mean',
    'CodDebitoTFI': lambda x: set(x)
}

g = df.groupby('NumEstacao').agg(aggregation_criteria).reset_index()