![anatel](img/anatel_logo.png "Logo Anatel")

# Análise de Dados da Anatel em Minas Gerais (2006 - 2019)

A Agência Nacional de Telecomunicaçõe ([Anatel](https://www.anatel.gov.br/institucional/)) foi criada em 16 de julho de 1997 com o objetivo de regular o setor de telecomunicações para contribuir com o desenvolvimento do Brasil. Neste estudo iremos explorar o conjunto de dados das **Reclamações Registradas na Anatel** no estado de Minas Gerais durante os anos de 2006 até 2019. Os dados foram baixaados do  website [Dados Abertos](http://www.dados.gov.br/dataset/solicitacoesregistradasnaanatel) e o [Dicionário de Dados Oficial](data/Reclamações_Glossário_e_Metadados.pdf) está disponível na pasta: [`data/Reclamações_Glossário_e_Metadados.pdf`](data/Reclamações_Glossário_e_Metadados.pdf).

## Exercícios
Faça as questões abaixo usando somente a biblioteca [pandas](https://pandas.pydata.org/).

1. Importe o pacote **pandas** como o nome pd.

In [3]:
import numpy as np
import pandas as pd

2. Carregue em memória o conjunto de dados disponível na pasta [`data/anatel_mg_2006_2019.csv`](data/anatel_mg_2006_2019.csv) para uma variável chamada **df**.

In [4]:
df = pd.read_csv('anatel_mg_2006_2019.csv')

3. Quantas linhas e quantas colunas foram carregadas em memória?

In [5]:
df.shape

(35327, 12)

4. Mostre as 5 primeiras linhas do *dataset*.

In [6]:
df.head()

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
0,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Interferência,MG,3.0
1,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Outorga,MG,8.0
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0


5.  Quais são os tipos de dados de cada uma das colunas?

In [None]:
df.dtypes

DataExtracao      object
Ano                int64
Mes                int64
CanalEntrada      object
Condicao          object
GrupoEconNorm     object
Tipo              object
Servico           object
Modalidade        object
Motivo            object
UF                object
QtdeSolic        float64
dtype: object

6. Mostre a quantidade de colunas para cada um dos tipos de dados.

In [7]:
df.dtypes.value_counts()

object     9
int64      2
float64    1
dtype: int64

7. Mostre as informações básicas do DataFrame.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35327 entries, 0 to 35326
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   DataExtracao   35327 non-null  object 
 1   Ano            35327 non-null  int64  
 2   Mes            35327 non-null  int64  
 3   CanalEntrada   35327 non-null  object 
 4   Condicao       35327 non-null  object 
 5   GrupoEconNorm  35326 non-null  object 
 6   Tipo           35326 non-null  object 
 7   Servico        35326 non-null  object 
 8   Modalidade     35326 non-null  object 
 9   Motivo         35326 non-null  object 
 10  UF             35326 non-null  object 
 11  QtdeSolic      35326 non-null  float64
dtypes: float64(1), int64(2), object(9)
memory usage: 3.2+ MB


8. Verifique se existem dados ausentes (*misssing data*) no conjunto de dados.

In [9]:
df.isnull().values.any()

True

9. Qual é o número total de dados ausentes?

In [10]:
df.isnull().sum().sum()

7

10. Qual é o número total de dados ausentes por coluna? 

In [11]:
df.isnull().sum()

DataExtracao     0
Ano              0
Mes              0
CanalEntrada     0
Condicao         0
GrupoEconNorm    1
Tipo             1
Servico          1
Modalidade       1
Motivo           1
UF               1
QtdeSolic        1
dtype: int64

11. Remova todos os dados ausentes encontrados.

In [12]:
df = df.dropna();
df.isnull().values.any()

False

12. Selecione o serviço que possui o maior número de solicitações `QtdeSolic` na Anatel.

In [19]:
df.sort_values(by='QtdeSolic', ascending=False).head(1)


Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
23602,2016-04-28,2007,12,Call Center,Nova,TIM,Reclamação,Móvel Pessoal,Pós-Pago,Cobrança,MG,611.0


13. Qual é o menor número de solicitações `QtdeSolic` na Anatel.

In [14]:
df.QtdeSolic.min()

1.0

14. Mostre todas as linhs iguais ao menor número de solicitações `QtdeSolic` na Anatel.

In [15]:
menor = df.QtdeSolic.min()
df.loc[df['QtdeSolic'] == menor]

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0
5,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Reparo,MG,1.0
6,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cancelamento,MG,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
35317,2016-04-28,2008,8,Fale Conosco,Reaberta,Outros,Reclamação,Móvel Pessoal,Pré-Pago,Promoções,MG,1.0
35318,2016-04-28,2008,8,Fale Conosco,Reaberta,Outros,Reclamação,Móvel Pessoal,Pré-Pago,Serviços Adicionais,MG,1.0
35319,2016-04-28,2008,8,Fale Conosco,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Completamento de Chamadas,MG,1.0
35321,2016-04-28,2008,8,Fale Conosco,Reaberta,TIM,Pedido de Informação,Móvel Pessoal,Pós-Pago,Planos de serviço,MG,1.0


15. Mostre as contagens de solicitações `QtdeSolic` por tipo de serviço `Servico`.

In [16]:
pd.crosstab(df['Servico'], ['QtdeSolic'])

col_0,QtdeSolic
Servico,Unnamed: 1_level_1
Limitado Privado,187
Móvel Pessoal,16568
Outros,210
Radioamador (PY),288
Radiochamada (Paging),11
Radiodifusão (Rádio e TV),913
Rádio do Cidadão (PX),222
Serviço Móvel Aeronáutico,15
Serviço Móvel Marítimo,6
Serviço Telefônico Fixo Comutado - STFC,9681


16. Ao longo dos anos mostre o número de solicitações por mês?

In [32]:
ano_solic_mes = df.groupby(['Ano', 'Mes'])['QtdeSolic'].sum()
ano_solic_mes

Ano   Mes
2006  1       6234.0
      2       5120.0
      3       6762.0
      4       5992.0
      5       6736.0
      6       6551.0
      7       5893.0
      8       5725.0
      9       5555.0
      10      6536.0
      11      7316.0
      12      7031.0
2007  1       7698.0
      2       5963.0
      3       7776.0
      4       7005.0
      5       7938.0
      6       7207.0
      7       7985.0
      8       9341.0
      9       8227.0
      10      8909.0
      11      8959.0
      12      8560.0
2008  1       9665.0
      2       9620.0
      3      10398.0
      4      11588.0
      5      11526.0
      6      11407.0
      7      11021.0
      8      10279.0
      9       3456.0
Name: QtdeSolic, dtype: float64

17. Crie o vetor **reclamacoes** com todos os dados que cuja coluna `Tipo` seja igual a "Reclamação".

In [25]:
reclamacoes = df[df.Tipo == "Reclamação"]
reclamacoes

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0
5,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Reparo,MG,1.0
6,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cancelamento,MG,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
35319,2016-04-28,2008,8,Fale Conosco,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Completamento de Chamadas,MG,1.0
35322,2016-04-28,2008,8,Fale Conosco,Reaberta,TIM,Reclamação,Móvel Pessoal,Pós-Pago,Atendimento,MG,2.0
35323,2016-04-28,2008,8,Fale Conosco,Reaberta,TIM,Reclamação,Móvel Pessoal,Pós-Pago,Cancelamento,MG,1.0
35324,2016-04-28,2008,8,Fale Conosco,Reaberta,TIM,Reclamação,Móvel Pessoal,Pós-Pago,Cobrança,MG,7.0


18. Mostre o número total de solictiações `QtdeSolic` de reclamações para cada tipo de serviço `Servico`

In [29]:
pd.crosstab(reclamacoes['Servico'], ['QtdeSolic'])

col_0,QtdeSolic
Servico,Unnamed: 1_level_1
Limitado Privado,45
Móvel Pessoal,14065
Outros,76
Radioamador (PY),50
Radiodifusão (Rádio e TV),30
Rádio do Cidadão (PX),31
Serviço Móvel Aeronáutico,3
Serviço Móvel Marítimo,1
Serviço Telefônico Fixo Comutado - STFC,8123
Serviço de Comunicação Multimídia,2140


19. Quais são os maiores ou maior motivo de solicitação de reclamações?

In [None]:
reclamacoes.Motivo.max()

'Área de Cobertura'

20. Faça um agrupamento de dados pela coluna `GrupoEconNorm`, mostrando um sumário estatístico da quantidade solicitações `QtdeSolic`.

In [None]:
pd.crosstab(df['GrupoEconNorm'], ['QtdeSolic'])

col_0,QtdeSolic
GrupoEconNorm,Unnamed: 1_level_1
ALGAR,16459
Anatel,22833
BLUE,2781
CLARO,26806
EMBRATEL,1420
GVT,6398
Intelig,228
NET,23452
NEXTEL,1638
OI,64661
