![anatel](img/anatel_logo.png "Logo Anatel")

# Análise de Dados da Anatel em Minas Gerais (2006 - 2019)

A Agência Nacional de Telecomunicaçõe ([Anatel](https://www.anatel.gov.br/institucional/)) foi criada em 16 de julho de 1997 com o objetivo de regular o setor de telecomunicações para contribuir com o desenvolvimento do Brasil. Neste estudo iremos explorar o conjunto de dados das **Reclamações Registradas na Anatel** no estado de Minas Gerais durante os anos de 2006 até 2019. Os dados foram baixaados do  website [Dados Abertos](http://www.dados.gov.br/dataset/solicitacoesregistradasnaanatel) e o [Dicionário de Dados Oficial](data/Reclamações_Glossário_e_Metadados.pdf) está disponível na pasta: [`data/Reclamações_Glossário_e_Metadados.pdf`](data/Reclamações_Glossário_e_Metadados.pdf).

## Exercícios
Faça as questões abaixo usando somente a biblioteca [pandas](https://pandas.pydata.org/).

1. Importe o pacote **pandas** como o nome pd.

In [14]:
import numpy as np
import pandas as pd

2. Carregue em memória o conjunto de dados disponível na pasta [`data/anatel_mg_2006_2019.csv`](data/anatel_mg_2006_2019.csv) para uma variável chamada **df**.

In [15]:
df = pd.read_csv('anatel_mg_2006_2019.csv')

3. Quantas linhas e quantas colunas foram carregadas em memória?

In [16]:
df.shape

(247510, 12)

4. Mostre as 5 primeiras linhas do *dataset*.

In [17]:
df.head()

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
0,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Interferência,MG,3.0
1,2016-04-28,2006,1,Atendimento Pessoal,Nova,Anatel,Denúncia,Radiodifusão (Rádio e TV),Rádio FM,Outorga,MG,8.0
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0


5.  Quais são os tipos de dados de cada uma das colunas?

In [18]:
df.dtypes

DataExtracao      object
Ano                int64
Mes                int64
CanalEntrada      object
Condicao          object
GrupoEconNorm     object
Tipo              object
Servico           object
Modalidade        object
Motivo            object
UF                object
QtdeSolic        float64
dtype: object

6. Mostre a quantidade de colunas para cada um dos tipos de dados.

In [19]:
df.dtypes.value_counts()

object     9
int64      2
float64    1
dtype: int64

7. Mostre as informações básicas do DataFrame.

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 247510 entries, 0 to 247509
Data columns (total 12 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   DataExtracao   247510 non-null  object 
 1   Ano            247510 non-null  int64  
 2   Mes            247510 non-null  int64  
 3   CanalEntrada   247510 non-null  object 
 4   Condicao       247510 non-null  object 
 5   GrupoEconNorm  247510 non-null  object 
 6   Tipo           247510 non-null  object 
 7   Servico        247510 non-null  object 
 8   Modalidade     247510 non-null  object 
 9   Motivo         247510 non-null  object 
 10  UF             247509 non-null  object 
 11  QtdeSolic      247509 non-null  float64
dtypes: float64(1), int64(2), object(9)
memory usage: 22.7+ MB


8. Verifique se existem dados ausentes (*misssing data*) no conjunto de dados.

In [21]:
df.isnull().values.any()

True

9. Qual é o número total de dados ausentes?

In [22]:
df.isnull().sum().sum()

2

10. Qual é o número total de dados ausentes por coluna? 

In [11]:
df.isnull().sum()

DataExtracao     0
Ano              0
Mes              0
CanalEntrada     0
Condicao         0
GrupoEconNorm    0
Tipo             0
Servico          0
Modalidade       0
Motivo           0
UF               1
QtdeSolic        1
dtype: int64

11. Remova todos os dados ausentes encontrados.

In [23]:
df = df.dropna();
print(df)

       DataExtracao   Ano  ...  UF QtdeSolic
0        2016-04-28  2006  ...  MG       3.0
1        2016-04-28  2006  ...  MG       8.0
2        2016-04-28  2006  ...  MG       1.0
3        2016-04-28  2006  ...  MG       1.0
4        2016-04-28  2006  ...  MG       1.0
...             ...   ...  ...  ..       ...
247504   2017-01-08  2016  ...  MG     168.0
247505   2017-01-08  2016  ...  MG       1.0
247506   2017-01-08  2016  ...  MG       4.0
247507   2017-01-08  2016  ...  MG       7.0
247508   2017-01-08  2016  ...  MG       2.0

[247509 rows x 12 columns]


12. Selecione o serviço que possui o maior número de solicitações `QtdeSolic` na Anatel.

In [24]:
df.sort_values(by='QtdeSolic', ascending=False).head(1)

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
139270,2016-04-19,2013,12,Call Center,Nova,OI,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Reparo,MG,4164.0


13. Qual é o menor número de solicitações `QtdeSolic` na Anatel.

In [25]:
df.QtdeSolic.min()

1.0

14. Mostre todas as linhs iguais ao menor número de solicitações `QtdeSolic` na Anatel.

In [26]:
df.loc[df['QtdeSolic'] == 1.0]

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0
5,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Reparo,MG,1.0
6,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cancelamento,MG,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
247476,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,"Documento de Cobrança, Contrato, Gravações",Mudança de endereço para recebimento de conta ...,MG,1.0
247483,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,Instalação ou Ativação ou Habilitação,Instalação ou habilitação de serviço cancelada...,MG,1.0
247484,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,Instalação ou Ativação ou Habilitação,Não fornecimento de serviço adicional,MG,1.0
247486,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,Longa Distância/Interurbano,Dificuldade de completamento de chamada,MG,1.0


15. Mostre as contagens de solicitações `QtdeSolic` por tipo de serviço `Servico`.

In [27]:
pd.crosstab(df['Servico'], ['QtdeSolic'])

col_0,QtdeSolic
Servico,Unnamed: 1_level_1
Banda Larga Fixa,12533
Celular Pré-Pago,12410
Celular Pós-Pago,23593
Limitado Privado,463
Móvel Pessoal,67732
Outros,908
Radioamador (PY),991
Radiochamada (Paging),24
Radiodifusão (Rádio e TV),2666
Rádio do Cidadão (PX),853


16. Ao longo dos anos mostre o número de solicitações por mês?

In [28]:
df[["Ano" , "QtdeSolic", "Mes"]].groupby(["QtdeSolic", "Mes"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Ano
QtdeSolic,Mes,Unnamed: 2_level_1
1.0,1,2012.939213
1.0,2,2012.149531
1.0,3,2011.684620
1.0,4,2011.768080
1.0,5,2011.637534
...,...,...
2954.0,1,2014.000000
3000.0,7,2013.000000
3058.0,2,2014.000000
3238.0,11,2013.000000


17. Crie o vetor **reclamacoes** com todos os dados que cuja coluna `Tipo` seja igual a "Reclamação".

In [29]:
reclamacoes = df[df.Tipo == "Reclamação"]
reclamacoes

Unnamed: 0,DataExtracao,Ano,Mes,CanalEntrada,Condicao,GrupoEconNorm,Tipo,Servico,Modalidade,Motivo,UF,QtdeSolic
2,2016-04-28,2006,1,Atendimento Pessoal,Nova,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cobrança,MG,1.0
3,2016-04-28,2006,1,Atendimento Pessoal,Nova,OI,Reclamação,Móvel Pessoal,Pós-Pago,Serviços Adicionais,MG,1.0
4,2016-04-28,2006,1,Atendimento Pessoal,Nova,Outros,Reclamação,Móvel Pessoal,Pós-Pago,Clonagem,MG,1.0
5,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,NET,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Reparo,MG,1.0
6,2016-04-28,2006,1,Atendimento Pessoal,Reaberta,Outros,Reclamação,Serviço Telefônico Fixo Comutado - STFC,Local,Cancelamento,MG,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
247504,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,"Qualidade, Funcionamento e Reparo",Reparo recusado pela prestadora,MG,168.0
247505,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,Ressarcimento,Não possibilidade de escolha da forma do ressa...,MG,1.0
247506,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,Telefone Fixo,Ressarcimento,Ressarcimento menor que o valor cobrado indevi...,MG,4.0
247507,2017-01-08,2016,2,Call Center,Nova,OI,Reclamação,TV por Assinatura,Atendimento,Consumidor não consegue falar com atendente,MG,7.0


18. Mostre o número total de solictiações `QtdeSolic` de reclamações para cada tipo de serviço `Servico`

In [30]:
pd.crosstab(reclamacoes['Servico'], ['QtdeSolic'])

col_0,QtdeSolic
Servico,Unnamed: 1_level_1
Banda Larga Fixa,12533
Celular Pré-Pago,12410
Celular Pós-Pago,23593
Limitado Privado,67
Móvel Pessoal,60642
Outros,440
Radioamador (PY),145
Radiochamada (Paging),1
Radiodifusão (Rádio e TV),126
Rádio do Cidadão (PX),111


19. Quais são os maiores ou maior motivo de solicitação de reclamações?

In [31]:
reclamacoes.Motivo.max()

'Área de Cobertura'

20. Faça um agrupamento de dados pela coluna `GrupoEconNorm`, mostrando um sumário estatístico da quantidade solicitações `QtdeSolic`.

In [32]:
pd.crosstab(df['GrupoEconNorm'], ['QtdeSolic'])

col_0,QtdeSolic
GrupoEconNorm,Unnamed: 1_level_1
ALGAR,16459
Anatel,22833
BLUE,2781
CLARO,26806
EMBRATEL,1420
GVT,6398
Intelig,228
NET,23452
NEXTEL,1638
OI,64661
