![anatel](img/anatel_logo.png "Logo Anatel")

# Análise de Dados da Anatel em Minas Gerais (2006 - 2019)

A Agência Nacional de Telecomunicaçõe ([Anatel](https://www.anatel.gov.br/institucional/)) foi criada em 16 de julho de 1997 com o objetivo de regular o setor de telecomunicações para contribuir com o desenvolvimento do Brasil. Neste estudo iremos explorar o conjunto de dados das **Reclamações Registradas na Anatel** no estado de Minas Gerais durante os anos de 2006 até 2019. Os dados foram baixaados do  website [Dados Abertos](http://www.dados.gov.br/dataset/solicitacoesregistradasnaanatel) e o [Dicionário de Dados Oficial](data/Reclamações_Glossário_e_Metadados.pdf) está disponível na pasta: [`data/Reclamações_Glossário_e_Metadados.pdf`](data/Reclamações_Glossário_e_Metadados.pdf).

## Exercícios
Faça as questões abaixo usando somente a biblioteca [pandas](https://pandas.pydata.org/).

1. Importe o pacote **pandas** como o nome pd.

In [1]:
import numpy as np
import pandas as pd

2. Carregue em memória o conjunto de dados disponível na pasta [`data/anatel_mg_2006_2019.csv`](data/anatel_mg_2006_2019.csv) para uma variável chamada **df**.

In [3]:
df = pd.read_csv('anatel_mg_2006_2019.csv')

3. Quantas linhas e quantas colunas foram carregadas em memória?

In [4]:
len(df)

509706

4. Mostre as 5 primeiras linhas do *dataset*.

In [5]:
df.head()

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
0,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Interferência,MG,3
1,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Outorga,MG,8
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1


5.  Quais são os tipos de dados de cada uma das colunas?

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 509706 entries, 0 to 509705
Data columns (total 12 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   DataExtracao   509706 non-null  object
 1   Ano            509706 non-null  int64 
 2   Mes            509706 non-null  int64 
 3   CanalEntrada   509706 non-null  object
 4   Condicao       509706 non-null  object
 5   GrupoEconNorm  509404 non-null  object
 6   Tipo           509706 non-null  object
 7   Servico        509706 non-null  object
 8   Modalidade     509706 non-null  object
 9   Motivo         509706 non-null  object
 10  UF             509706 non-null  object
 11  QtdeSolic      509706 non-null  int64 
dtypes: int64(3), object(9)
memory usage: 46.7+ MB


6. Mostre a quantidade de colunas para cada um dos tipos de dados.

In [7]:
df.describe()

Unnamed: 0,Ano,Mes,QtdeSolic
count,509706.0,509706.0,509706.0
mean,2014.852788,6.317014,8.469714
std,3.443596,3.395123,44.456639
min,2006.0,1.0,1.0
25%,2013.0,3.0,1.0
50%,2016.0,6.0,2.0
75%,2017.0,9.0,5.0
max,2019.0,12.0,4164.0


7. Mostre as informações básicas do DataFrame.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 509706 entries, 0 to 509705
Data columns (total 12 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   DataExtracao   509706 non-null  object
 1   Ano            509706 non-null  int64 
 2   Mes            509706 non-null  int64 
 3   CanalEntrada   509706 non-null  object
 4   Condicao       509706 non-null  object
 5   GrupoEconNorm  509404 non-null  object
 6   Tipo           509706 non-null  object
 7   Servico        509706 non-null  object
 8   Modalidade     509706 non-null  object
 9   Motivo         509706 non-null  object
 10  UF             509706 non-null  object
 11  QtdeSolic      509706 non-null  int64 
dtypes: int64(3), object(9)
memory usage: 46.7+ MB


8. Verifique se existem dados ausentes (*misssing data*) no conjunto de dados.

In [9]:
df.isnull().values.any()


True

9. Qual é o número total de dados ausentes?

In [10]:
df.isnull().sum().sum()


302

10. Qual é o número total de dados ausentes por coluna? 

In [11]:
df.isnull().sum()


DataExtracao       0
Ano                0
Mes                0
CanalEntrada       0
Condicao           0
GrupoEconNorm    302
Tipo               0
Servico            0
Modalidade         0
Motivo             0
UF                 0
QtdeSolic          0
dtype: int64

11. Remova todos os dados ausentes encontrados.

In [12]:
df = df.dropna(subset=['GrupoEconNorm'])

12. Selecione o serviço que possui o maior número de solicitações `QtdeSolic` na Anatel.

In [13]:
df['QtdeSolic'].max()

4164

13. Qual é o menor número de solicitações `QtdeSolic` na Anatel.

In [14]:
menor_solic = df['QtdeSolic'].min()
menor_solic

1

14. Mostre todas as linhs iguais ao menor número de solicitações `QtdeSolic` na Anatel.

In [15]:

qtd_solic = np.where(df['QtdeSolic'] == menor_solic) 
len(qtd_solic[0])

231120

15. Mostre as contagens de solicitações `QtdeSolic` por tipo de serviço `Servico`.

In [16]:
contagem_solic = df.groupby(['Servico'])['QtdeSolic'].sum()

contagem_solic

Servico
Banda Larga Fixa                                            348860
Celular Pré-Pago                                            307646
Celular Pós-Pago                                            812191
Limitado Privado                                              1020
Móvel Pessoal                                              1082677
Outros                                                        2972
Radioamador (PY)                                              2810
Radiochamada (Paging)                                           25
Radiodifusão (Rádio e TV)                                     6493
Rádio do Cidadão (PX)                                         2963
Serviço Móvel Aeronáutico                                      153
Serviço Móvel Marítimo                                          20
Serviço Telefônico Fixo Comutado - STFC                     532895
Serviço de Comunicação Multimídia                           254742
Serviço de Rede e Transporte de Telecomunicações - SRT

16. Ao longo dos anos mostre o número de solicitações por mês?

In [17]:
ano = df.groupby(['Ano', 'Mes'])['QtdeSolic'].sum()
ano

Ano   Mes
2006  1       6234
      2       5120
      3       6762
      4       5992
      5       6736
             ...  
2019  5      36382
      6      30281
      7      37304
      8      34418
      9      32626
Name: QtdeSolic, Length: 165, dtype: int64

17. Crie o vetor **reclamacoes** com todos os dados que cuja coluna `Tipo` seja igual a "Reclamação".

In [18]:
reclama = np.where(df['Tipo'] == "Reclamação")[0]

len(reclama)

477862

18. Mostre o número total de solictiações `QtdeSolic` de reclamações para cada tipo de serviço `Servico`

In [19]:
total_solic = df.where(df['Tipo'] == "Reclamação").groupby(['Servico']).sum()
total_solic.QtdeSolic

Servico
Banda Larga Fixa                                            348859.0
Celular Pré-Pago                                            307646.0
Celular Pós-Pago                                            812189.0
Limitado Privado                                                83.0
Móvel Pessoal                                              1068603.0
Outros                                                        2230.0
Radioamador (PY)                                               173.0
Radiochamada (Paging)                                            1.0
Radiodifusão (Rádio e TV)                                      203.0
Rádio do Cidadão (PX)                                          133.0
Serviço Móvel Aeronáutico                                        9.0
Serviço Móvel Marítimo                                           3.0
Serviço Telefônico Fixo Comutado - STFC                     526752.0
Serviço de Comunicação Multimídia                           239967.0
Serviço de Rede e Transpor

19. Quais são os maiores ou maior motivo de solicitação de reclamações?

In [21]:
maior = total_solic.QtdeSolic.max()
maior

1068603.0

20. Faça um agrupamento de dados pela coluna `GrupoEconNorm`, mostrando um sumário estatístico da quantidade solicitações `QtdeSolic`.

In [22]:
GrupoEconNorm = df.groupby(['GrupoEconNorm']).sum()

GrupoEconNorm.QtdeSolic

GrupoEconNorm
ALGAR                  95407
Anatel                 57950
BLUE                    5020
Brisanet                   5
CABO TELECOM               1
CLARO                 407880
Correios Celular         292
Datora                     3
EMBRATEL                2909
GVT                    38981
HUGHES NET               542
Intelig                  315
NET                   257177
NEXTEL                  6618
NOSSA TV - BRASIL         12
OI                   1832855
Outros                 96430
SERCOMTEL                 61
SKY                   164339
TIM                   696485
VIVO                  653376
Name: QtdeSolic, dtype: int64