# Dados de telefonia móvel - Ano 2022

Análise dos dados de tecnologia de 2022 (responsável: Beatriz Pierri)

## Orientação para rodar este caderno

<ul>
    <li>Os codigos foram feitos para rodar sem ter que ficar alterando o nome das variaveis (os nomes das variaveis sao genericos, sem especificar o ano)</li>
    <li>Favor dar uma conferida para ver se os comandos fazem sentido e se não cometi algum erro</li>
    <li>Células em que o ano do arquivo deve ser especificado:</li>
    <li>Célula 2: colocar o arquivo do ano correspondente na variável "diretorio" e na variavel 'ano'</li>
    <li>Células 17, 23, 28, 35, 39: renomear o arquivo com o ano correspondente ao transformar em csv</li>
    <li>A tecnologia 5G começou no Brasil em 2022 (comercialmente); se, ao rodar a célula ??, der erro, provavelmente o seu ano não possui esta tecnologia indexada. Neste caso, comentar (com #) as células de comando sobre o 5G. </li>
</ul>

In [1]:
# importação de bibliotecas

import pandas as pd

## Puxando os dados de uma dataframe já criado e tratado

In [2]:
# os dados originais da Anatel estão separados, majoritariamente, por semestre
# no notebook chamado 'acessos_2022', fizemos o merge dos 2 arquivos semestrais em 1, e o chamamos de 'df_2022'
# tratamos os dados (grafias das strings, dados NaN, inserção de colunas 'soma_meses' e 'media_ano' 
# para trabalharmos os dados)
# salvamos o dataframe 'df_2022' e o salvamos como um csv de mesmo nome
# é este arquivo csv já tratado que vamos trabalhar aqui, mas vamos renomea-lo para 'df_2022_tec' para 
# fazermos alteraçoes, caso necessario

# vou chamar de df_tec para facilitar a rodagem dos dados em todos os anos

# este caderno é referente ao ano: 2022

# Diretório onde os arquivos CSV estão localizados:

diretorio = 'C:/Users/beapi/Bootcamp Enap/projeto-smp/df_2022_.csv'

df_tec = pd.read_csv(diretorio, sep = ';')

# Ano a que se refere o dataframe:

ano = 2022

In [3]:
# fazendo as conferencias basicas do dataframe que importamos

df_tec.head(5)

# vemos, de pronto, que ele trouxe uma coluna denominada 'Unnamed: 0' (que provavelmente era o 
# index do dataframe que trabalhamos no notebbok 'acesso_2022')

Unnamed: 0.1,Unnamed: 0,CNPJ,Código Nacional,Município,UF,Modalidade de Cobrança,Tecnologia,Tecnologia Geração,Empresa,Porte da Prestadora,...,2022-05,2022-06,2022-07,2022-08,2022-09,2022-10,2022-11,2022-12,soma_meses,media_ano
0,0,71208516000174,14,Bastos,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,...,20,20,20,10,0,0,0,0,180,15
1,1,71208516000174,14,Bastos,SP,Pós-pago,WCDMA,3G,ALGAR (CTBC TELECOM),Pequeno Porte,...,0,0,0,0,0,0,0,0,40,33
2,2,71208516000174,16,Sertãozinho,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,...,40,40,10,30,30,20,20,20,440,367
3,3,71208516000174,16,Sertãozinho,SP,Pós-pago,WCDMA,3G,ALGAR (CTBC TELECOM),Pequeno Porte,...,10,10,0,0,0,10,10,10,80,67
4,4,71208516000174,16,Altinópolis,SP,Pós-pago,GSM,2G,ALGAR (CTBC TELECOM),Pequeno Porte,...,420,420,410,400,400,410,410,410,4950,4125


In [4]:
# vamor excluir esta coluna 'Unnamed: 0'

df_tec.drop(columns=['Unnamed: 0'], inplace = True)

In [5]:
df_tec.head(3)

# deu certo: coluna excluída

Unnamed: 0,CNPJ,Código Nacional,Município,UF,Modalidade de Cobrança,Tecnologia,Tecnologia Geração,Empresa,Porte da Prestadora,Tipo de Pessoa,...,2022-05,2022-06,2022-07,2022-08,2022-09,2022-10,2022-11,2022-12,soma_meses,media_ano
0,71208516000174,14,Bastos,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Física,...,20,20,20,10,0,0,0,0,180,15
1,71208516000174,14,Bastos,SP,Pós-pago,WCDMA,3G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Física,...,0,0,0,0,0,0,0,0,40,33
2,71208516000174,16,Sertãozinho,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Jurídica,...,40,40,10,30,30,20,20,20,440,367


In [6]:
df_tec['media_ano'].dtype

# com este tipo não conseguimos trabalhar
# por alguma razão os arquivos csv vieram com virgula como separador de casa decimal, em vez de ponto,
# que é o default do python

dtype('O')

In [7]:
# transformando a virgula da casa decimal em ponto na coluna 'media_ano' (que é  que usamos
# para nossos calculos)

df_tec['media_ano'] = df_tec['media_ano'].str.replace(',', '.', regex=True).astype(float)

In [8]:
df_tec['media_ano'].dtype

# agora nossa coluna 'media_ano' está no formato numerico float

dtype('float64')

In [9]:
# vendo se a soma dos acessos está correta (por volta de 250 a 260 milhoes de acessos para o anos 2022)

df_tec['media_ano'].sum()

258493710.94000018

In [10]:
# vendo se os dados de 'media_ano' estão com a casa decimal correta (ponto)
# obs.: não consegui rodar nenhum comando com a casa decimal no formato 'virgula'

df_tec.head(3)

Unnamed: 0,CNPJ,Código Nacional,Município,UF,Modalidade de Cobrança,Tecnologia,Tecnologia Geração,Empresa,Porte da Prestadora,Tipo de Pessoa,...,2022-05,2022-06,2022-07,2022-08,2022-09,2022-10,2022-11,2022-12,soma_meses,media_ano
0,71208516000174,14,Bastos,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Física,...,20,20,20,10,0,0,0,0,180,1.5
1,71208516000174,14,Bastos,SP,Pós-pago,WCDMA,3G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Física,...,0,0,0,0,0,0,0,0,40,0.33
2,71208516000174,16,Sertãozinho,SP,Pós-pago,LTE,4G,ALGAR (CTBC TELECOM),Pequeno Porte,Pessoa Jurídica,...,40,40,10,30,30,20,20,20,440,3.67


In [11]:
# vendo se temos Not a Number (NaN)

df_tec.isna().sum()

# não temos NaN

CNPJ                      0
Código Nacional           0
Município                 0
UF                        0
Modalidade de Cobrança    0
Tecnologia                0
Tecnologia Geração        0
Empresa                   0
Porte da Prestadora       0
Tipo de Pessoa            0
Tipo de Produto           0
Código IBGE Município     0
Grupo Econômico           0
2022-01                   0
2022-02                   0
2022-03                   0
2022-04                   0
2022-05                   0
2022-06                   0
2022-07                   0
2022-08                   0
2022-09                   0
2022-10                   0
2022-11                   0
2022-12                   0
soma_meses                0
media_ano                 0
dtype: int64

## Compreendendo o que são as colunas e variáveis que vamos analisar

In [12]:
# vendo que tipo de informações temos no nosso dataframe quando o assunto é tecnologia 

df_tec.columns

Index(['CNPJ', 'Código Nacional', 'Município', 'UF', 'Modalidade de Cobrança',
       'Tecnologia', 'Tecnologia Geração', 'Empresa', 'Porte da Prestadora',
       'Tipo de Pessoa', 'Tipo de Produto', 'Código IBGE Município',
       'Grupo Econômico', '2022-01', '2022-02', '2022-03', '2022-04',
       '2022-05', '2022-06', '2022-07', '2022-08', '2022-09', '2022-10',
       '2022-11', '2022-12', 'soma_meses', 'media_ano'],
      dtype='object')

### Estudando essas tecnologias (LTE, GSM etc.)

In [13]:
df_tec['Tecnologia'].value_counts()
# este count traz apenas o numero de linhas em que a tecnologia foi citada (não tem relação 
# com a nossa variável 'media_ano')

Tecnologia
LTE           257120
GSM           195426
WCDMA         180081
NR              1163
NR NSA           701
CDMA IS 95        85
Name: count, dtype: int64

LTE: A tecnologia 4G LTE funciona desde 2013 no território brasileiro, e são várias as faixas de frequência utilizadas por operadoras como Claro, Oi, TIM e Vivo. (...) nem todas as faixas estão disponíveis no Brasil inteiro ou por todas as operadoras; a adoção e licenciamento variam conforme a localidade.
Fonte: https://tecnoblog.net/responde/quais-as-bandas-de-4g-no-brasil-saiba-a-da-sua-cidade/

GSM: GSM (sigla para Global System for Mobile Communications) é um padrão de telefonia móvel 2G. De acordo com dados da Anatel, em março de 2012, a tecnologia GSM era a mais utilizada no Brasil, estando presente em 78,75% dos 250 milhões de linhas. Fonte: https://tecnoblog.net/sobre/gsm/

WCDMA: O acesso múltiplo à divisão de código de banda larga (WCDMA na sigla em inglês) é uma tecnologia de comunicação sem fio de terceira geração (3G) padrão usada para redes móveis digitais. Também conhecida como wideband CDMA, é um método de acesso a canal que permite que vários transmissores enviem voz e dados simultaneamente pelo mesmo canal de comunicação. O WCDMA usa tecnologia de espectro de difusão, que permite que vários usuários compartilhem a largura de banda sem interferência. Fonte: https://www.capterra.com.br/glossary/320/wcdma-wideband-code-division-multiple-access#:~:text=O%20acesso%20m%C3%BAltiplo%20%C3%A0%20divis%C3%A3o,usada%20para%20redes%20m%C3%B3veis%20digitais.

NR: Tecnologia atrelado ao 5G. Com fase de testes em laboratório iniciada por volta de 2014, o 5G é a quinta geração de internet móvel, como seu nome sugere, também identificada pela sigla NR (New Radio, ou Novo Rádio, em tradução livre). A rede foi desenvolvida ao longo da década de 2010 com objetivos ambiciosos, visando aumentar em mais de 10 vezes a velocidade de conexão comparado ao 4G LTE (Long Term Evolution, ou Evolução de Longo Prazo). (...) O 5G NR, também conhecido como "5G puro", estreou no Brasil em julho de 2022, com o início das operações de Claro, Tim e Vivo em Brasília oferecendo 80% de cobertura na cidade, e será gradualmente implementado nas principais capitais do país, incluindo São Paulo, Belo Horizonte, Porto Alegre e João Pessoa, nos meses seguintes. Fonte: https://canaltech.com.br/telecom/o-que-e-5g-37077/

NR NSA: O NRA NSA (Non Stand Alone) é o mesmo que o 5G non stand alone. Vide abaixo (tecologia de geração para compreender).
O 5G NSA utiliza núcleos das conexões de rede 4G, o que garante uma expansão mais rápida que a versão 100% pura da conexão, mas reduz o desempenho quando o assunto é latência. Ou seja, diferente do 5G SA, a versão non-standalone abre mão de um tempo de resposta ultrarrápido para entregar internet de alta velocidade, na casa dos gigabits por segundo, para mais usuários, já que ainda se aproveita de infraestrutura do 4G. Fonte: https://www.tecmundo.com.br/internet/242765-diferenca-5g-sa-5g-nsa-5g-dss.htm

CDMA IS 95: O CDMA (Code Division Multiple Access) defendia a técnica de espalhamento espectral (spread spectrum), na qual, para um determinado canal, seria usada toda a largura de banda disponível (1,23MHz), muitas vezes maior do que necessária, a princípio, para a transmissão de um único sinal. O CDMA foi desenvolvido conforme a família de normas da TIA IS-95, da
Telecommunications Industry Association dos Estados Unido, que 
padronizou os sistemas celulares digitais de segunda geração
conhecidos popularmente como CDMA, ou cdma One e que  ão
baseados no IS-95. Esta tecolo
gia f i em
grande parte
desenvolvida pela empresa americana Qu Fonte: Anatel e https://instrutorcarlos.yolasite.com/resources/07%20Tecnologia%20CDMA.pdfaptops.

In [14]:
# nao vamos nos aprofundar na teoria por trás dessas tecnologias
# mas, caso sejamos perguntadas, temos como dizer qual a tecnologia dominante no Brasil

tec_tipo = pd.DataFrame(df_tec.groupby(['Tecnologia']).sum()['media_ano'])

# no Brasil, em 2022, a tecnologia predominante é a LTE (78% dos acessos), que é justamente a tecnologia
# que roda o sinal 4G

In [15]:
tec_tipo['percentual'] = round(tec_tipo['media_ano'] / tec_tipo['media_ano'].sum() *100, 2)
tec_tipo['ano'] = ano

In [16]:
tec_tipo

Unnamed: 0_level_0,media_ano,percentual,ano
Tecnologia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CDMA IS 95,192.32,0.0,2022
GSM,26408630.0,10.22,2022
LTE,201730400.0,78.04,2022
NR,2206060.0,0.85,2022
NR NSA,1077526.0,0.42,2022
WCDMA,27070880.0,10.47,2022


In [17]:
tec_tipo.to_csv("tec_2022_tipo.csv", sep=';', decimal = ",", encoding='utf-8')

### Estudando essas tecnologias de geração (5G, 4G etc.)

In [18]:
df_tec['Tecnologia Geração'].value_counts()
# este count traz apenas o numero de linhas em que a tecnologia foi citada (não tem relação 
# com a nossa variável 'media_ano')

Tecnologia Geração
4G                    257120
2G                    195511
3G                    180081
5G                      1163
5G Non Stand Alone       701
Name: count, dtype: int64

Temos 5 tipos de 'tecnologia geração':

As tecnologias 5G se dividem em 2 modalidades: 5G standalone (SA) e o non-standalone (NSA). A rede 5G standalone ou popularmente conhecida como rede 5G pura, é um sinal que depende apenas de equipamentos com a tecnologia 5G de transmissão para disponibilizar a rede de dados móvel mais recente. Em contrapartida, o 5G non-standalone depende de uma arquitetura (tecnologia) que reaproveita equipamentos e estrutura até então utilizados no 4G para emitir o sinal 5G e, por esse motivo, não consegue muitas vezes entregar ao usuário os 10 Gbps (Gigabits por segundo) como é o padrão difundido pela imprensa como padrão dessa tecnologia.

5G standalone (SA): A rede 5G SA é uma arquitetura nativa do 5G, desenvolvida desde o início com base nos padrões do 5G. Ela não depende de elementos criados para o 4G, permitindo uma arquitetura totalmente independente e otimizada para a nova geração.

5G Non-Standalone (NSA): A rede 5G NSA depende de uma implementação que utiliza elementos da rede 4G existente. Ela depende das infraestruturas do 4G para funcionar, com o 5G sendo utilizado principalmente para fornecer velocidade mais rápida e menor latência, mas sem todo o potencial do 5G SA.

Fonte: https://olhardigital.com.br/2023/07/04/internet-e-redes-sociais/qual-a-diferenca-entre-5g-standalone-sa-e-non-standalone-nsa/

## Relevância das diferentes tecnologias de geração no Brasil

In [19]:
# criando um dataframe que agrupa os dados por 'Tecnologia da Geração'

tec_geracao = pd.DataFrame(df_tec.groupby(['Tecnologia Geração']).sum()['media_ano'])

In [20]:
# criando a coluna que contém o percentual que cada tecnologia ocupa na oferta total de serviços (acessos)
# no Brasil

tec_geracao['percentual'] = round(tec_geracao['media_ano'] / tec_geracao['media_ano'].sum() *100, 2)

In [21]:
# criando a coluna 'ano'
tec_geracao['ano'] = ano

In [22]:
# visualizando os dados

tec_geracao

Unnamed: 0_level_0,media_ano,percentual,ano
Tecnologia Geração,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2G,26408830.0,10.22,2022
3G,27070880.0,10.47,2022
4G,201730400.0,78.04,2022
5G,2206060.0,0.85,2022
5G Non Stand Alone,1077526.0,0.42,2022


In [23]:
# exportando nosso dataframe para um arquivo csv (para construirmos séries temporais)

tec_geracao.to_csv("tec_2022_geracao.csv", sep=';', decimal = ",", encoding='utf-8')

## Tecnologia geração x pré/pós pago

In [24]:
print(df_tec['Modalidade de Cobrança'].unique())
print(df_tec['Tipo de Produto'].unique())

['Pós-pago' 'Pré-pago']
['VOZ+DADOS' 'M2M' 'DADOS' 'PONTO_DE_SERVICO' 'VOZ']


In [25]:
tec_modalidade = pd.DataFrame(df_tec.groupby(['Tecnologia Geração', 'Modalidade de Cobrança']).sum()['media_ano'])

In [26]:
tec_modalidade['percentual'] = round((tec_modalidade['media_ano'] / tec_modalidade.groupby('Tecnologia Geração').sum()['media_ano']) * 100, 2)

In [27]:
tec_modalidade['ano'] = ano

In [41]:
tec_modalidade

Unnamed: 0_level_0,Unnamed: 1_level_0,media_ano,percentual,ano
Tecnologia Geração,Modalidade de Cobrança,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2G,Pré-pago,8923752.0,33.79,2022
2G,Pós-pago,17485070.0,66.21,2022
3G,Pré-pago,7176730.0,26.51,2022
3G,Pós-pago,19894150.0,73.49,2022
4G,Pré-pago,101505500.0,50.32,2022
4G,Pós-pago,100224900.0,49.68,2022
5G,Pré-pago,420244.2,19.05,2022
5G,Pós-pago,1785816.0,80.95,2022
5G Non Stand Alone,Pré-pago,185409.5,17.21,2022
5G Non Stand Alone,Pós-pago,892116.1,82.79,2022


In [28]:
# exportando nosso dataframe para um arquivo csv (para construirmos séries temporais)

tec_modalidade.to_csv("tec_2022_modalidade.csv", sep=';', decimal = ",", encoding='utf-8')

## Oferta de tecnologia 5G (stand alone)

In [29]:
# vendo quais estados e municipios ofertam a tecnologia 5G stand alone (a tecnologia mais de ponta) e colocando
# o resultando em uma variavel chamada 'tec_5g'

tec_5g = df_tec.query('`Tecnologia Geração` == "5G"').loc[:, ['Código Nacional', 'UF', 'Município',  
        'Tecnologia', 'Tecnologia Geração', 'Empresa', 'Grupo Econômico', 'media_ano']]
tec_5g.head()

Unnamed: 0,Código Nacional,UF,Município,Tecnologia,Tecnologia Geração,Empresa,Grupo Econômico,media_ano
577958,11,SP,Barueri,NR,5G,CLARO,TELECOM AMERICAS,12.42
577959,11,SP,Barueri,NR,5G,CLARO,TELECOM AMERICAS,5114.5
577960,11,SP,Barueri,NR,5G,CLARO,TELECOM AMERICAS,104.67
577961,11,SP,Barueri,NR,5G,CLARO,TELECOM AMERICAS,7.83
577962,11,SP,Barueri,NR,5G,CLARO,TELECOM AMERICAS,660.25


### Tecnologia 5G Pura por estado

In [30]:
# filtrando a tecnologia 5g (stand alone) por estado

tec_5g_por_estado = round(pd.DataFrame(tec_5g.groupby(['UF']).sum()["media_ano"]), 2)
tec_5g_por_estado

Unnamed: 0_level_0,media_ano
UF,Unnamed: 1_level_1
AC,11118.65
AL,22796.17
AM,59046.41
AP,7681.5
BA,70986.25
CE,72033.59
DF,139051.82
ES,20014.18
GO,84502.33
MA,26045.98


In [31]:
# criando uma nova coluna para ver a distribuição percentual da tecnologia 5G no Brasil

tec_5g_por_estado['percentual'] = round(tec_5g_por_estado['media_ano'] / tec_5g_por_estado['media_ano'].sum() *100, 2)

In [32]:
# criando nova coluna com o ano

tec_5g_por_estado['ano'] = ano

In [33]:
# visualizando os dados em ordem descrecente (não vamos salvar isso como variável porque esses dados 
# entrarão em uma série temporal)

pd.DataFrame(tec_5g_por_estado['percentual'].sort_values(ascending=False))

# Em 2022, SP, RJ, DF, MG e PR estão no Top 5 estados em termos de oferta, por número de acesso (chips vigentes), 
# da tecnologia 5G (exclusiva 5G)

Unnamed: 0_level_0,percentual
UF,Unnamed: 1_level_1
SP,36.12
RJ,14.03
DF,6.3
MG,5.05
PR,4.52
GO,3.83
CE,3.27
BA,3.22
RS,3.17
AM,2.68


In [34]:
# vendo nossos dados

tec_5g_por_estado.head(5)

Unnamed: 0_level_0,media_ano,percentual,ano
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,11118.65,0.5,2022
AL,22796.17,1.03,2022
AM,59046.41,2.68,2022
AP,7681.5,0.35,2022
BA,70986.25,3.22,2022


In [35]:
# exportar um dataframe para acompanhar a expansão do 5G no Brasil? 
# como começou em 2022, tavez apenas os anos de 2022 e 2023 tenham esses dados, e talvez em 2020 e 
# 2021, em fase de testes
# talvez não precisemos fazer uma série temporal, mas sim um 'retrato' de como estamos hoje

# alterar o ano que constará no mome do arquivo

tec_5g_por_estado.to_csv("tec_2022_5g_por_estado.csv", sep=';', decimal = ",", encoding='utf-8')

### Tecnologia 5G Pura por município

In [36]:
# a tecnologia 5G começou a ser implementada no Brasil em 2022

# não vamos fazer uma série histórica, mas apenas ver um 'retrato' de quais municípios detinham a tecnologia
# em 2022 2 2023

# para quem pegou anos anteriores a esse, comentem esta célula para não rodar o comando (se rodar, como não deve ter
# as variáveis que chamamos, deve dar erro)

# Vamos fazer um Top 10 dos municípios que mais tinham acessos de 5G pura no ano:

tec_5g_por_municipio = round(pd.DataFrame(tec_5g.groupby(['Município']).sum()["media_ano"]), 2)
tec_5g_por_municipio['percentual'] = round(tec_5g_por_municipio['media_ano'] / tec_5g_por_municipio['media_ano'].sum() *100, 2)
tec_5g_por_municipio = pd.DataFrame(tec_5g_por_municipio['percentual'].sort_values(ascending=False))

In [37]:
# criando nova coluna com o ano

tec_5g_por_municipio['ano'] = ano

In [42]:
# vendo os Top 10 dos munciípios com tecnologia 5G Pura

tec_5g_por_municipio.head(10)

Unnamed: 0_level_0,percentual,ano
Município,Unnamed: 1_level_1,Unnamed: 2_level_1
São Paulo,26.08,2022
Rio de Janeiro,12.6,2022
Brasília,6.3,2022
Belo Horizonte,4.91,2022
Curitiba,4.42,2022
Goiânia,3.31,2022
Fortaleza,3.21,2022
Salvador,2.95,2022
Porto Alegre,2.81,2022
Manaus,2.68,2022


In [39]:
# exportando os municípios com tecnologia 5G Pura para um arquivo csv

tec_5g_por_municipio.to_csv("tec_2022_5g_por_municipio.csv", sep=';', decimal = ",", encoding='utf-8')

## Transformando os dataframes obtidos em arquivos 'csv'

In [40]:
# Transformamos os seguintes arquivos em csv (para que possamos fazer a linha do tempo dos anos):

# tec_2022_tipo.csv
# tec_2022_geracao.csv
# tec_2022_modalidade.csv
# tec_2022_5g_por_estado.csv (nem todas terão este arquivo)
# tec_2022_5g_por_municipio.csv (nem todas terão este arquivo)