<a href="https://colab.research.google.com/github/LumaLynai/ProjetoFinalETL/blob/main/Projeto_Final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 - INTRODUÇÃO


Projeto Final do curso de Engenharia de Dados da SoulCode da turma BC17.

Os integrantes do grupo são: Gabriel, Luma, Jum e Victor.

O tema do projeto é 'Telecomunicações'

# 2 - INSTALL E BIBLIOTECAS



In [1]:
!pip install gcsfs # Usado para conexão com a Google Cloud Platform

!pip install pyspark # Usado para manipulação de dados

!pip install psycopg2-binary==2.8.6 # Usado para trabalhar com postresql

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gcsfs
  Downloading gcsfs-2022.5.0-py2.py3-none-any.whl (25 kB)
Collecting aiohttp<4
  Downloading aiohttp-3.8.1-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 7.3 MB/s 
Collecting fsspec==2022.5.0
  Downloading fsspec-2022.5.0-py3-none-any.whl (140 kB)
[K     |████████████████████████████████| 140 kB 52.4 MB/s 
Collecting yarl<2.0,>=1.0
  Downloading yarl-1.7.2-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (271 kB)
[K     |████████████████████████████████| 271 kB 52.8 MB/s 
[?25hCollecting async-timeout<5.0,>=4.0.0a3
  Downloading async_timeout-4.0.2-py3-none-any.whl (5.8 kB)
Collecting multidict<7.0,>=4.5
  Downloading multidict-6.0.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (94 kB)
[K     |███████

In [2]:
from google.cloud import storage
from google.colab import drive
import os

import csv, json

from pymongo import MongoClient

import pandas as pd

import numpy as np

from pyspark.sql import SparkSession
from pyspark import SparkConf
import pyspark.sql.functions as F
from pyspark.sql.types import *

import psycopg2
from sqlalchemy import create_engine

# 3 - CONEXÕES

## 3.1 - Google

In [None]:
# Conectando ao drive para acessar a chave
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# Utilizando a chave para obter as informações de acesso
serviceAccount = '/content/drive/MyDrive/SoulCode/Datasets/macro-mercury-349020-d9ed9a670580.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

# Conectando ao bucket
client_bucket = storage.Client()
bucket = client_bucket.get_bucket('soulcode-bc17-telecom')

## 3.2 - MongoDB Atlas

In [None]:
# Credenciais de acesso
path = 'mongodb://soulcode:a1b2c3@cluster0-shard-00-00.ap3gr.mongodb.net/test?replicaSet=atlas-fg5u6j-shard-0&ssl=true&authSource=admin'
# Configurações do banco
client = MongoClient(path)
db = client['soulcode']

## 3.3 - Spark

In [41]:
spark = (SparkSession.builder
                      .master("local")
                      .appName("ProjetoFinalSoulCode")
                      .config("spark.ui.port","4050")
                      .config("spark.jars", 'https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-hadoop2-latest.jar')
                      .getOrCreate()
)

spark.conf.set("spark.sql.execution.arrow.enabled", "true") # O spark arrow é um método experimental que acelera a conversão de pandas para parquet

spark # Verficação da conexão             

## 3.4 - Postgres SQL

In [None]:
# Credenciais de acesso para o banco de dados Postgres sql criado na GCP
engine = create_engine("postgresql://postgres:xk5fMiHn74FDBw_@34.132.83.213/projeto_final")

# 4 - ETL

## 4.1 - ACESSOS BANDA LARGA FIXA

### 4.1.1 - Leitura dos datasets (Extract)

In [None]:
df_blf2021 = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Original/Acessos_Banda_Larga_Fixa_2021.csv', sep=';')
df_blf2022 = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Original/Acessos_Banda_Larga_Fixa_2022.csv', sep=';')

### 4.1.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas


#### 4.1.2.1 - gcp

In [None]:
df_blf2021.to_csv('gs://soulcode-bc17-telecom/Original/Acessos_Banda_Larga_Fixa_2021.csv')
df_blf2022.to_csv('gs://soulcode-bc17-telecom/Original/Acessos_Banda_Larga_Fixa_2022.csv')

#### 4.1.2.2 - postgres sql

In [None]:
df_blf2021.to_sql('Acessos_Banda_Larga_Fixa_2021',engine,if_exists='replace',index=False)
df_blf2022.to_sql('Acessos_Banda_Larga_Fixa_2022',engine,if_exists='replace',index=False)

### 4.1.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

#### 4.1.3.1 - dataset do ano de 2021

In [None]:
# Quantidade de linhas
df_blf2021.shape

(5859823, 14)

In [None]:
# Tipo de dado de cada coluna
df_blf2021.dtypes

Ano                       int64
Mês                       int64
Grupo Econômico          object
Empresa                  object
CNPJ                      int64
Porte da Prestadora      object
UF                       object
Município                object
Código IBGE Município     int64
Faixa de Velocidade      object
Tecnologia               object
Meio de Acesso           object
Tipo de Pessoa           object
Acessos                   int64
dtype: object

In [None]:
# Valores únicos por coluna
df_blf2021.nunique()

In [None]:
# Valores vazios
df_blf2021.isna().sum()

In [None]:
# Determinando o número de duplicatas
df_blf2021.duplicated().sum()

756891

In [None]:
pd.unique(df_blf2021['Mês'])

array([12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

#### 4.1.3.1 - dataset do ano de 2022

In [None]:
# Quantidade de linhas
df_blf2022.shape

(1532656, 14)

In [None]:
# Tipo de dado de cada coluna
df_blf2022.dtypes

In [None]:
# Valores únicos por coluna
df_blf2022.nunique()

In [None]:
# Valores vazios
df_blf2022.isna().sum()

In [None]:
# Determinando o número de duplilcatas
df_blf2022.duplicated().sum()

0

Conclusão da análise:
- Concatenar os dataset de 2021 e 2022 em um único dataset
- Há duplicatas

### 4.1.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes


In [None]:
# Eliminando as duplicatas
df_blf2021.drop_duplicates(inplace=True)
df_blf2022.drop_duplicates(inplace=True)

In [None]:
# Concatenhando os arquivos
df_blf = pd.concat([df_blf2021,df_blf2022], sort = False)

In [None]:
df_blf.shape

(6426151, 14)

In [None]:
df_blf.head()

Unnamed: 0,Ano,Mes,Grupo_Economico,Empresa,CNPJ,Porte da Prestadora,UF,Municipio,Codigo_IBGE_Municipio,Faixa de Velocidade,Tecnologia,Meio de Acesso,Tipo de Pessoa,Acessos
0,2022,3,OI,OI,76535764000143,Grande Porte,RS,Caxias do Sul,4305108,512kbps a 2Mbps,ADSL1,Cabo Metálico,Pessoa Jurídica,2
1,2022,3,OUTROS,Telecomunicacoes Brasileiras S.A. Telebras,336701000104,Pequeno Porte,MG,Rio Acima,3154804,512kbps a 2Mbps,VSAT,Satélite,Pessoa Jurídica,1
2,2022,3,OI,OI,76535764000143,Grande Porte,PE,Caruaru,2604106,> 34Mbps,ETHERNET,Cabo Metálico,Pessoa Jurídica,1
3,2022,3,OI,OI,76535764000143,Grande Porte,MG,Três Marias,3169356,512kbps a 2Mbps,ADSL1,Cabo Metálico,Pessoa Física,18
4,2022,3,OUTROS,Infotec - Servicos de Provedor da Internet Eireli,7565239000158,Pequeno Porte,BA,Jandaíra,2917904,2Mbps a 12Mbps,ETHERNET,Cabo Metálico,Pessoa Física,54


In [None]:
df_blf.drop_duplicates(inplace=True)

In [None]:
df_blf.duplicated().sum()

0

In [None]:
(df_blf.rename(columns={'Mês':'Mes', 
                        'Grupo Econômico':'Grupo_Economico',
                        'Município':'Municipio',
                        'Código IBGE Município':'Codigo_IBGE_Municipio'},
                        inplace = True)
)

### 4.1.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)

#### 4.1.5.1 - mongodb atlas

In [None]:
# Criando a collection que receberá o dataset
db.create_collection('Acesso_Banda_Larga_Fixa')
collection = db['Acesso_Banda_Larga_Fixa']


df_blf_dict = df_blf.to_dict('records')
# Carga dos dados
collection.insert_many(df_blf_dict)

<pymongo.results.InsertManyResult at 0x7f64ca182090>

#### 4.1.5.2 - gcp

In [None]:
# Carga dos dados
df_blf.to_parquet('gs://soulcode-bc17-telecom/Tratados/Acessos_Banda_Larga_Fixa.parquet')

## 4.2 - ÁREA DE COBERTURA RURAL X URBANO

### 4.2.1 - Leitura dos datasets (Extract)

In [66]:
df_spark_cob = spark.read.csv('gs://telecomunicacao2/Cobertura_Todas.csv',sep=';',header=True, inferSchema=True)

### 4.2.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas

#### 4.2.2.1 - gcp

In [53]:
df_cob.to_csv('gs://soulcode-bc17-telecom/Original/Cobertura_Todas.csv', sep=';')

NameError: ignored

#### 4.2.2.2 - postgres sql

In [None]:
df_cob.to_sql('Cobertura_Todas',engine,if_exists='replace',index=False)

### 4.2.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

In [None]:
# Número de linhas e colunas
print((df_spark_cob.count(), len(df_spark_cob.columns)))

(1447226, 18)


In [82]:
df_spark_cob.show()

+----+----------+-----------------------+--------------------+----------+-----------------+---------------+--------------------+----------------+---------------+---+------------+---------+----------+---------+--------------------+
| Ano|Tecnologia|Codigo_Setor_Censitario|              Bairro|Tipo_Setor|Codigo_Localidade|Nome_Localidade|Categoria_Localidade|Codigo_Municipio|      Municipio| UF|      Regiao| Area_km2|Domicilios|Moradores|Percentual_Cobertura|
+----+----------+-----------------------+--------------------+----------+-----------------+---------------+--------------------+----------------+---------------+---+------------+---------+----------+---------+--------------------+
|2021|        3G|        316550305000007|SARDOÁ (todos os ...|     Rural|                0|           null|                null|         3165503|         Sardoá| MG|     Sudeste|15.063662|        74|      295|              11.324|
|2021|    2G3G4G|        316550305000005|SARDOÁ (todos os ...|     Rural|   

In [83]:
# Tipo de dados
df_spark_cob.printSchema()

root
 |-- Ano: integer (nullable = true)
 |-- Tecnologia: string (nullable = true)
 |-- Codigo_Setor_Censitario: long (nullable = true)
 |-- Bairro: string (nullable = true)
 |-- Tipo_Setor: string (nullable = true)
 |-- Codigo_Localidade: long (nullable = true)
 |-- Nome_Localidade: string (nullable = true)
 |-- Categoria_Localidade: string (nullable = true)
 |-- Codigo_Municipio: integer (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Regiao: string (nullable = true)
 |-- Area_km2: float (nullable = true)
 |-- Domicilios: integer (nullable = true)
 |-- Moradores: integer (nullable = true)
 |-- Percentual_Cobertura: float (nullable = true)



In [None]:
# Contagem de valores únicos por coluna
df_spark_cob.select([F.countDistinct(c).alias(c) for c in df_spark_cob.columns]).show()

+---+---------+----------+-----------------------+------+----------+-----------------+---------------+--------------------+---------------------+----------------+---------+---+------+----------+----------+---------+--------------------+
|Ano|Operadora|Tecnologia|Código Setor Censitário|Bairro|Tipo Setor|Código Localidade|Nome Localidade|Categoria Localidade|Localidade Agregadora|Código Município|Município| UF|Região|Área (km2)|Domicílios|Moradores|Percentual Cobertura|
+---+---------+----------+-----------------------+------+----------+-----------------+---------------+--------------------+---------------------+----------------+---------+---+------+----------+----------+---------+--------------------+
|  1|        1|         5|                 293697| 14121|         2|            14310|          11568|                   8|                    0|            5565|     5292| 27|     5|    293695|       841|     2493|              170613|
+---+---------+----------+-----------------------+--

In [None]:
# Valores nulos
df_spark_cob.select([F.count(F.when(F.col(c).contains('None') | \
                            F.col(c).contains('NULL') | \
                            (F.col(c) == '' ) | \
                            F.col(c).isNull() | \
                            F.isnan(c), c 
                           )).alias(c)
                    for c in df_spark_cob.columns]).show()

+---+----------+-----------------------+------+----------+-----------------+---------------+--------------------+----------------+---------+---+------+----------+----------+---------+--------------------+
|Ano|Tecnologia|Código Setor Censitário|Bairro|Tipo Setor|Código Localidade|Nome Localidade|Categoria Localidade|Código Município|Município| UF|Região|Área (km2)|Domicílios|Moradores|Percentual Cobertura|
+---+----------+-----------------------+------+----------+-----------------+---------------+--------------------+----------------+---------+---+------+----------+----------+---------+--------------------+
|  0|         0|                      0|     0|         0|                0|              0|                   0|               0|        0|  0|     0|         0|         0|        0|                   0|
+---+----------+-----------------------+------+----------+-----------------+---------------+--------------------+----------------+---------+---+------+----------+----------+-------

In [None]:
# Valores duplicados
total = (df_spark_cob.count()) - (df_spark_cob.dropDuplicates().count())
print(total)

0



- A coluna 'Localidade Agregadora' está vazia
- A coluna 'Operadoras' possui somente um valor
- Há muitos valores nulos

### 4.2.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes

In [69]:
# Eliminando a coluna 'Operadora' pois ela possuiu somente um valor
df_spark_cob = df_spark_cob.drop('Operadora')

In [70]:
# Eliminando a coluna 'Localidade Agregadora' pois ela está vazia
df_spark_cob = df_spark_cob.drop('Localidade Agregadora')

In [71]:
# Substituindo os valores nulos por 'Não informado'
df_spark_cob = df_spark_cob.fillna(0)

In [68]:
# Renomeando as colunas devido à compatibilidade com Spark
df_spark_cob = (df_spark_cob.withColumnRenamed('Código Setor Censitário',"Codigo_Setor_Censitario")
                            .withColumnRenamed('Tipo Setor','Tipo_Setor')
                            .withColumnRenamed('Código Localidade','Codigo_Localidade')
                            .withColumnRenamed('Nome Localidade','Nome_Localidade')
                            .withColumnRenamed('Categoria Localidade','Categoria_Localidade')
                            .withColumnRenamed('Código Município','Codigo_Municipio')
                            .withColumnRenamed('Município','Municipio')
                            .withColumnRenamed('Região','Regiao')
                            .withColumnRenamed('Área (km2)','Area_km2')
                            .withColumnRenamed('Domicílios','Domicilios')
                            .withColumnRenamed('Percentual Cobertura','Percentual_Cobertura')
)

In [72]:
# Convertendo o tipo de dados
df_spark_cob = (df_spark_cob.withColumn('Percentual_Cobertura', F.regexp_replace('Percentual_Cobertura', ',', '.'))
                            .withColumn('Area_km2', F.regexp_replace('Area_km2', ',', '.'))
                            )

In [81]:
df_spark_cob = (df_spark_cob.withColumn("Area_km2", df_spark_cob["Area_km2"].cast("float"))
                            .withColumn("Percentual_Cobertura", df_spark_cob["Percentual_Cobertura"].cast("float"))
)


### 4.2.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)

In [None]:
# Mongo
df_cob_set = df_spark_cob.toPandas()
df_cob_set_dict = df_cob_set.to_dict('records')
collection = db['Cobertura_Setor']
collection.insert_many(df_cob_set_dict)

In [84]:
# GCP
df_spark_cob.toPandas().to_parquet('gs://soulcode-bc17-telecom/Tratados/Cobertura_Setor.parquet')

## 4.3 - ACESSOS POR MUNICÍPIO

### 4.3.1 - Leitura dos datasets (Extract)

In [25]:
df_ac_mun = pd.read_csv('https://storage.googleapis.com/telecomunicacao2/Meu_Municipio_Acessos.csv',sep=';', decimal=',')

### 4.3.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas

#### 4.3.2.1 - gcp 

In [None]:
df_ac_mun.to_csv('gs://soulcode-bc17-telecom/Original/Meu_Municipio_Acessos.csv')

#### 4.3.2.2 - postgres sql

In [None]:
df_ac_mun.to_sql('Meu_Municipio_Acessos',engine,if_exists='replace',index=False)

### 4.3.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

In [27]:
df_ac_mun.head()

Unnamed: 0,Ano,Mês,Acessos,Serviço,Densidade,Código IBGE,Município,UF,Nome UF,Região,Código Nacional
0,2021,6,5597,Telefonia Móvel,73.114932,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
1,2021,6,713,Banda Larga Fixa,27.993718,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
2,2021,6,132,TV por Assinatura,5.182568,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
3,2021,6,327,Telefonia Fixa,12.838634,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
4,2021,6,162149,Telefonia Móvel,113.77138,3300209,Araruama - RJ,RJ,Rio de Janeiro,Sudeste,22


In [None]:
df_ac_mun.shape

In [26]:
df_ac_mun.dtypes

Ano                  int64
Mês                  int64
Acessos              int64
Serviço             object
Densidade          float64
Código IBGE          int64
Município           object
UF                  object
Nome UF             object
Região              object
Código Nacional      int64
dtype: object

In [11]:
df_ac_mun.isna().sum()

Ano                0
Mes                0
Acessos            0
Servico            0
Densidade          0
Codigo_IBGE        0
Municipio          0
UF                 0
Nome_UF            0
Regiao             0
Codigo_Nacional    0
dtype: int64

In [6]:
df_ac_mun.nunique()

Ano                    3
Mês                    2
Acessos            16951
Serviço                4
Densidade          65170
Código IBGE         5570
Município           5570
UF                    27
Nome UF               27
Região                 5
Código Nacional       67
dtype: int64

In [9]:
df_ac_mun.duplicated().sum()

0

### 4.3.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes

In [29]:
# Removendo caracteres estranhos do título das colunas
(df_ac_mun.rename(columns={'Mês':'Mes', 
                        'Serviço':'Servico',
                        'Código IBGE':'Codigo_IBGE',
                        'Município':'Municipio',
                        'Região':'Regiao',
                        'Código Nacional':'Codigo_Nacional',
                        'Município':'Municipio',
                        'Nome UF':'Nome_UF'
                        },
                        inplace = True)
)

In [30]:
# Removendo UF do nome do Município
df_ac_mun['Municipio'] = df_ac_mun['Municipio'].str[:-5]

### 4.3.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)


In [None]:
# Mongo
db.create_collection('Acesso_Municipios')
df_ac_mun_dict = df_ac_mun.to_dict('records')
collection = db['Acesso_Municipios']
collection.insert_many(df_ac_mun_dict)

In [31]:
# GCP
df_ac_mun.to_parquet('gs://soulcode-bc17-telecom/Tratados/Acesso_Muncipios.parquet')

## 4.4 - ÁREA DE COBERTURA - MUNICÍPIO

### 4.4.1 - Leitura dos datasets (Extract)

In [34]:
df_cob_mun = pd.read_csv('https://storage.googleapis.com/telecomunicacao2/Meu_Municipio_Cobertura.csv', sep=';', decimal=',')

### 4.4.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas

#### 4.4.2.1 - gcp

In [None]:
#  Backup na GCP
df_cob_mun.to_csv('gs://soulcode-bc17-telecom/Original/Meu_Municipio_Cobertura.csv')

#### 4.4.2.2 - postgres sql

In [None]:
# Backup no postgresql
df_cob_mun.to_sql('Meu_Municipio_Cobertura',engine,if_exists='replace',index=False)

### 4.4.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

In [17]:
df_cob_mun.shape

(258795, 15)

In [39]:
df_cob_mun.dtypes

Operadora                object
Tecnologia Cobertura     object
Moradores Cobertos        int64
Domicílios Cobertos       int64
Área km2 Coberta        float64
Moradores Município       int64
Domicílios Município      int64
Área Município km2      float64
Ano                       int64
Código IBGE               int64
Município                object
UF                       object
Nome UF                  object
Região                   object
Código Nacional           int64
dtype: object

In [38]:
df_cob_mun.head()

Unnamed: 0,Operadora,Tecnologia Cobertura,Moradores Cobertos,Domicílios Cobertos,Área km2 Coberta,Moradores Município,Domicílios Município,Área Município km2,Ano,Código IBGE,Município,UF,Nome UF,Região,Código Nacional
0,LIGUE,2G,0,0,0.0,6885,2174,369.861546,2021,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
1,TIM,3G+4G,0,0,0.0,6885,2174,369.861546,2021,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
2,LIGUE,3G,0,0,0.0,6885,2174,369.861546,2021,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
3,VIVO,4G,0,0,0.0,6885,2174,369.861546,2021,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42
4,CLARO,2G,439,132,25.246752,6885,2174,369.861546,2021,4118709,Paulo Frontin - PR,PR,Paraná,Sul,42


In [None]:
# Valores nulos
df_cob_mun.isna().sum()

In [None]:
# Análise mais profunda das linhas com valores nulos
df_null = df_cob_mun[df_cob_mun.isna().any(axis=1)]
df_null.nunique()

In [None]:
# Valores únicos
df_cob_mun.nunique()

In [None]:
# Duplicatas
df_cob_mun.duplicated().sum()

0

- Há nulos
- Os tipos de dados precisam de ajustes

### 4.4.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes

In [36]:
# Exluíndo linhas com valores vazios. Estas linhas não possuem relevância estatística significativa
df_cob_mun.dropna(inplace=True)

In [37]:
# Alterando o tipo das colunas
df_cob_mun['Moradores Cobertos'] = df_cob_mun['Moradores Cobertos'].astype(int)
df_cob_mun['Domicílios Cobertos'] = df_cob_mun['Domicílios Cobertos'].astype(int)
df_cob_mun['Moradores Município'] = df_cob_mun['Moradores Município'].astype(int)
df_cob_mun['Domicílios Município'] = df_cob_mun['Domicílios Município'].astype(int)
df_cob_mun['Ano'] = pd.df_cob_mun['Ano'].astype(int)

In [None]:
# Removendo a UF do nome do município
df_cob_mun['Município'] = df_cob_mun['Município'].str[:-5]

In [None]:
# Removendo a coluna 'Nome UF' e 'Código Nacional'
df_cob_mun = df_cob_mun.drop('Nome UF', axis=1)
df_cob_mun = df_cob_mun.drop('Código Nacional', axis=1)

In [None]:
# Removendo caracteres estranhos do título das colunas
(df_cob_mun.rename(columns={'Domicílios Cobertos':'Domicilios_Cobertos', 
                        'Moradores Município':'Moradores_Municipio',
                        'Domicílios Município':'Domicilios_Municipio',
                        'Área km2 Coberta':'Area_km2_Coberta',
                        'Área Município km2':'Area_Municipio_km2',
                        'Código IBGE':'Codigo_IBGE',
                        'Município':'Municipio',
                        'Região':'Regiao'
                        },
                        inplace = True)
)

### 4.4.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)

In [None]:
# MONGO
db.create_collection('Cobertura_Municipios')
df_cob_mun_dict = df_cob_mun.to_dict('records')
collection = db['Cobertura_Municipios']
collection.insert_many(df_cob_mun_dict)

OperationFailure: ignored

In [None]:
#  GCP
df_cob_mun.to_parquet('gs://soulcode-bc17-telecom/Tratados/Cobertura_Municipios.parquet')

## 4.5 - VELOCIDADE CONTRATADA

### 4.5.1 - Leitura dos datasets (Extract)

In [13]:
df_vel = pd.read_csv('https://storage.googleapis.com/telecomunicacao2/Velocidade_Contratada_SCM.csv', sep=';')

### 4.5.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas

#### 4.5.2.1 - gcp

In [None]:
df_vel.to_csv('gs://soulcode-bc17-telecom/Original/Velocidade_Contratada_SCM.csv')

#### 4.5.2.2 - postgres sql

In [None]:
df_vel.to_sql('Velocidade_Contratada_SCM', engine, if_exists='append', index=False, chunksize=100000, method='multi')

### 4.5.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

In [14]:
df_vel.head()

Unnamed: 0,Ano,Mês,razao_social,cnpj,velocidade_contratada_mbps,uf,municipio,codigo_ibge,acessos,tipo,municipio_uf
0,2020.0,12.0,algar telecom s/a,71.208.516/0001-74,40.0,MG,UBERLANDIA,3170206.0,16660.0,INTERNET,Uberlândia - MG
1,2020.0,12.0,algar telecom s/a,71.208.516/0001-74,40.0,SP,FRANCA,3516200.0,5093.0,INTERNET,Franca - SP
2,2020.0,12.0,algar telecom s/a,71.208.516/0001-74,10.0,MG,UBERLANDIA,3170206.0,10507.0,INTERNET,Uberlândia - MG
3,2020.0,12.0,algar telecom s/a,71.208.516/0001-74,60.0,MG,CAPINOPOLIS,3112604.0,498.0,INTERNET,Capinópolis - MG
4,2020.0,12.0,algar telecom s/a,71.208.516/0001-74,100.0,MG,SANTA JULIANA,3157708.0,508.0,INTERNET,Santa Juliana - MG


In [None]:
df_vel.shape

(5789372, 11)

In [12]:
df_vel.dtypes

Ano                           float64
Mês                           float64
razao_social                   object
cnpj                           object
velocidade_contratada_mbps     object
uf                             object
municipio                      object
codigo_ibge                   float64
acessos                       float64
tipo                           object
municipio_uf                   object
dtype: object

In [None]:
df_vel.isna().sum()

Ano                             1
Mês                             1
razao_social                    1
cnpj                            1
velocidade_contratada_mbps     95
uf                              1
municipio                       1
codigo_ibge                     1
acessos                       256
tipo                            1
municipio_uf                    1
dtype: int64

In [None]:
df_vel.nunique()

Ano                               4
Mês                              12
razao_social                     21
cnpj                             23
velocidade_contratada_mbps     1300
uf                               27
municipio                     12956
codigo_ibge                    5565
acessos                       23005
tipo                              2
municipio_uf                   5584
dtype: int64

In [None]:
df_vel.duplicated().sum()

0

### 4.5.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes

In [None]:
# Removendo valores nulos
df_vel.dropna(inplace=True)

In [None]:
# Eliminando as cuplicatas
df_vel.drop_duplicates(inplace=True)

In [None]:
# Alterando o tipo de dado
df_vel['Ano'] = df_vel['Ano'].astype('Int64')
df_vel['Mês'] = df_vel['Mês'].astype('Int64')
df_vel['codigo_ibge'] = df_vel['codigo_ibge'].astype('Int64')
df_vel['acessos'] = df_vel['acessos'].astype('Int64')

In [None]:
# Removendo caracteres estranhos do nome da coluna
(df_vel.rename(columns = {'Mês':'Mes'}, inplace = True)
)

### 4.5.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)

In [None]:
# MONGO
db.create_collection('Velocidde_Contratada')
df_vel_dict = df_vel.to_dict('records')
collection = db['Velocidade_Contratada']
collection.insert_many(df_vel_dict)

In [None]:
# GCP
df_vel.to_parquet('gs://soulcode-bc17-telecom/Tratados/Velocidade_Contratada.parquet')

## 4.6 - ACESSO TELEFONIA MOVEL

In [None]:
'''
PUXA ARQUIVO CSV DO BUCKET GCP CONVERTE PARA JSON E SALVA LOCAL
'''

listaNomes = ['Acessos_Telefonia_Movel_202107-202112.csv',
              'Acessos_Telefonia_Movel_202107-202112_Colunas.csv', 'Acessos_Telefonia_Movel_202201-202106_Colunas.csv',
              'Acessos_Telefonia_Movel_202201-202206.csv', 'Acessos_Telefonia_Movel_Pre_Pos_Total.csv',
              'Acessos_Telefonia_Movel_Total.csv', 'Densidade_Telefonia_Movel.csv']

for nomeArquivo in listaNomes:

    GCpath = "gs://soulcode-bc17-telecom/" + nomeArquivo

    if nomeArquivo == 'Acessos_Telefonia_Movel_202107-202112.csv':
      colsList = [0, 1, 3, 6, 7, 11, 12, 13, 14, 15,16]
      with pd.read_csv(GCpath, sep=';', usecols=colsList, chunksize=5000000) as leitor:
        chunkNO = 1
        for chunk in leitor:
          nomeArquivo = listaNomes[0].split('.')
          nomeProcc = (str(nomeArquivo[0]) + '_chunk' + str(chunkNO) + '.json')
          localpath = r"/content/ArquivosOut/" + nomeProcc
          chunk.to_json(localpath)
          chunkNO = chunkNO + 1

    else:
      dfCSV = pd.read_csv(GCpath, sep=';')      
    
      nomeProcc = nomeArquivo.split('.')
      nomeArquivo = nomeProcc[0] + '.json'
      localpath = r"/content/ArquivosOut/" + nomeArquivo
      dfCSV.to_json(localpath)



### 4.6.1 - Leitura dos datasets (Extract)

#### 4.6.1.1 - dataset de telefonia móvel

In [None]:
# Ano 2021
df_movel_1 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk1.json')
df_movel_2 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk2.json')
df_movel_3 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk3.json')
df_movel_4 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk4.json')
df_movel_5 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk5.json')
df_movel_6 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_chunk6.json')
# Ano 2022
df_movel_7 = pd.read_json('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202201-202206.json')

#### 4.6.1.2 - datasets de telefonia móvel - colunas

In [None]:
df_mov_col = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202107-202112_Colunas.csv', sep=';')
df_mov_col2 = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_202201-202106_Colunas.csv', sep=';')

#### 4.6.1.3 - dataset de telefonia móvel pré e pós

In [121]:
df_mov_total = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Acessos_Telefonia_Movel_Pre_Pos_Total.csv', sep=';')

#### 4.6.1.4 - dataset de densidade telefonia movel

In [92]:
df_mov_dens = pd.read_csv('https://storage.googleapis.com/soulcode-bc17-telecom/Densidade_Telefonia_Movel.csv', sep=';', decimal=',')

### 4.6.2 - Backup
Criando backup dos arquivos originais na nuvem, um na GPC e outro no MongoDB Atlas

#### 4.6.2.1 - gcp

#### 4.6.2.2 - postgres sql

In [None]:
df_mov.to_sql('Acessos_Telefonia_Movel_202201-202206', engine, if_exists='append', index=False, chunksize=100000, method='multi')
df_mov2.to_sql('Acessos_Telefonia_Movel_202201-202206', engine, if_exists='append', index=False, chunksize=100000, method='multi')

In [None]:
df_mov_col.to_sql('Acessos_Telefonia_Movel_202107-202112_Colunas', engine, if_exists='append', index=False, chunksize=100000, method='multi')
df_mov_col2.to_sql('Acessos_Telefonia_Movel_202201-202106_Colunas', engine, if_exists='append', index=False, chunksize=100000, method='multi')

In [None]:
df_mov_total.to_sql('Acessos_Telefonia_Movel_Pre_Pos_Total', engine, if_exists='append', index=False, chunksize=100000, method='multi')

In [None]:
df_mov_dens.to_sql('Densidade_Telefonia_Movel', engine, if_exists='append', index=False, chunksize=100000, method='multi')

### 4.6.3 - Análise exploratória
Analisando o dataset por inconsistências e transformações necessárias

#### 4.6.3.1 - Telefonia Móvel

In [None]:
# Removendo colunas do dataframe de 2022 para concatenar os arquivos
df_movel_7 = df_movel_7.drop('Grupo Econômico', axis=1)
df_movel_7 = df_movel_7.drop('CNPJ', axis=1)
df_movel_7 = df_movel_7.drop('Porte da Prestadora', axis=1)
df_movel_7 = df_movel_7.drop('Código IBGE Município', axis=1)
df_movel_7 = df_movel_7.drop('Código Nacional', axis=1)
df_movel_7 = df_movel_7.drop('Código Nacional (Chip)', axis=1)

In [None]:
# Criando o dataframe consolidade de telefonia movel
df_movel = pd.concat([df_movel_1,df_movel_2,df_movel_3,df_movel_4,df_movel_5,df_movel_6,df_movel_7], sort = False)

In [None]:
df_movel.shape

In [None]:
df_movel.dtypes

In [None]:
df_movel.head() 

In [None]:
df_movel.duplicated().sum()

In [None]:
df_movel.nunique()

In [None]:
df_movel.isna().sum()

#### 4.6.3.2 - Telefonia móvel - colunas

In [None]:
df_mov_col.head()

In [None]:
df_mov_col.shape

In [None]:
df_mov_col.dtypes

CNPJ                       int64
Município                 object
UF                        object
Modalidade de Cobrança    object
Tecnologia                object
Tecnologia Geração        object
Empresa                   object
Porte da Prestadora       object
Tipo de Pessoa            object
Tipo de Produto           object
2021-07                    Int64
2021-08                    Int64
2021-09                    Int64
2021-10                    Int64
2021-11                    Int64
2021-12                    Int64
dtype: object

In [None]:
df_mov_col.isna().sum()

In [None]:
df_mov_col.nunique()

In [None]:
pd.unique(df_mov_col['Tipo de Produto'])

array(['DADOS', 'VOZ+DADOS', 'M2M', 'PONTO_DE_SERVICO', 'VOZ'],
      dtype=object)

In [None]:
df_mov_col.duplicated().sum()

0

In [None]:
df_mov_col.describe()

In [None]:
df_mov_col2.head()

In [None]:
df_mov_col2.shape

In [None]:
df_mov_col2.dtypes

In [None]:
df_mov_col2.isna().sum()

CNPJ                          0
Código Nacional               0
Município                     0
UF                            0
Modalidade de Cobrança        0
Tecnologia                    0
Tecnologia Geração            0
Empresa                       0
Porte da Prestadora           0
Tipo de Pessoa                0
Tipo de Produto               0
Código IBGE Município         0
Grupo Econômico               0
2022-01                   30700
2022-02                   38558
2022-03                   27841
dtype: int64

In [None]:
df_mov_col2.nunique()

In [None]:
df_mov_col2.duplicated().sum()

#### 4.6.3.3 - Telefonia móvel - pre pós

---



In [123]:
df_mov_total.head()

Unnamed: 0,Ano,Mes,Modalidade_de_Cobranca,Acessos
0,2022,3,Pós-pago,138629611
1,2022,3,Pré-pago,119642952
2,2022,2,Pós-pago,137439913
3,2022,2,Pré-pago,119004007
4,2022,1,Pós-pago,136500794


In [102]:
df_mov_total.shape

(412, 4)

In [103]:
df_mov_total.dtypes

Ano                        int64
Mês                        int64
Modalidade de Cobrança    object
Acessos                    int64
dtype: object

In [104]:
df_mov_total.duplicated().sum()

0

In [105]:
df_mov_total.isna().sum()

Ano                       0
Mês                       0
Modalidade de Cobrança    0
Acessos                   0
dtype: int64

In [106]:
df_mov_total.nunique()

Ano                        18
Mês                        12
Modalidade de Cobrança      2
Acessos                   412
dtype: int64

#### 4.6.3.4 - Densidade

In [86]:
df_mov_dens.head()

Unnamed: 0,Ano,Mês,UF,Município,Código IBGE,Densidade,Nível Geográfico Densidade
0,2022,3,Brasil,Brasil,0.0,12196723524202,Brasil
1,2022,2,Brasil,Brasil,0.0,12110367262288,Brasil
2,2022,1,Brasil,Brasil,0.0,12073751906513,Brasil
3,2021,12,Brasil,Brasil,0.0,12028536970803,Brasil
4,2021,11,Brasil,Brasil,0.0,11948517870301,Brasil


In [87]:
df_mov_dens.shape

(223046, 7)

In [93]:
df_mov_dens.dtypes

Ano                             int64
Mês                             int64
UF                             object
Município                      object
Código IBGE                   float64
Densidade                     float64
Nível Geográfico Densidade     object
dtype: object

In [89]:
df_mov_dens.duplicated().sum()

0

In [94]:
df_mov_dens.isna().sum()

Ano                            0
Mês                            0
UF                            48
Município                     48
Código IBGE                   48
Densidade                     48
Nível Geográfico Densidade     0
dtype: int64

In [91]:
df_mov_dens.nunique()

Ano                               18
Mês                               12
UF                                28
Município                       5325
Código IBGE                     5598
Densidade                     217090
Nível Geográfico Densidade         3
dtype: int64

In [98]:
pd.unique(df_mov_dens['Nível Geográfico Densidade'])

array(['Brasil', 'UF', 'Municipio'], dtype=object)

### 4.6.4 - Transformação (Transform)
Tratamento de dados, remoção dos dados inconsistêntes

#### 4.6.4.1 - Telefonia móvel

In [None]:
# Remoção das duplicatas
df_movel.drop_duplicates(inplace=True)

#### 4.6.4.2 - Telefonia móvel - colunas

In [None]:
# Trocando o tipo dos dados de float para inteiro
df_mov_col['2021-07'] = df_mov_col['2021-07'].astype('Int64')
df_mov_col['2021-08'] = df_mov_col['2021-08'].astype('Int64')
df_mov_col['2021-09'] = df_mov_col['2021-09'].astype('Int64')
df_mov_col['2021-10'] = df_mov_col['2021-10'].astype('Int64')
df_mov_col['2021-11'] = df_mov_col['2021-11'].astype('Int64')
df_mov_col['2021-12'] = df_mov_col['2021-12'].astype('Int64')

In [None]:
# Removendo colunas
df_mov_col = df_mov_col.drop('Código Nacional', axis=1)
df_mov_col = df_mov_col.drop('Grupo Econômico', axis=1)
df_mov_col = df_mov_col.drop('Código IBGE Município', axis=1)

In [None]:
# Trocando o tipo dos dados de float para inteiro
df_mov_col2['2022-01'] = df_mov_col2['2022-01'].astype('Int64')
df_mov_col2['2022-02'] = df_mov_col2['2022-02'].astype('Int64')
df_mov_col2['2022-03'] = df_mov_col2['2022-03'].astype('Int64')

In [None]:
# Removendo colunas
df_mov_col2 = df_mov_col2.drop('Código Nacional', axis=1)
df_mov_col2 = df_mov_col2.drop('Grupo Econômico', axis=1)
df_mov_col2 = df_mov_col2.drop('Código IBGE Município', axis=1)

In [None]:
# Renomeando colunas devido à compatibilidade com a Bigquery
(df_mov_col.rename(columns = {'2021-07':'_2021-07',
                              '2021-08':'_2021-08',
                              '2021-09':'_2021-09',
                              '2021-10':'_2021-10',
                              '2021-11':'_2021-11',
                              '2021-12':'_2021-12'}, inplace = True)
)


In [None]:
(df_mov_col2.rename(columns = {'2022-01':'_2022-01',
                               '2022-02':'_2022-02',
                               '2022-03':'_2022-03'}, inplace = True)
)

#### 4.6.4.3 - pré/pós

In [122]:
# Renomeando as colunas 
(df_mov_total.rename(columns={'Mês':'Mes', 
                        'Modalidade de Cobrança':'Modalidade_de_Cobranca',
                        },
                        inplace = True)
)

#### 4.6.4.4 - Densidade

In [109]:
# Removendo valores nulos
df_mov_dens.dropna(inplace=True)

In [99]:
# Renomeando as colunas
(df_mov_dens.rename(columns={'Mês':'Mes', 
                        'Município':'Municipio',
                        'Código IBGE':'Codigo_IBGE',
                        'Município':'Municipio',
                        'Nível Geográfico Densidade':'Nivel_Geografico_Densidade'
                        },
                        inplace = True)
)

### 4.6.5 - Carregamento (Load)
Conversão dos datasets para o formato parquet(quando necessário) e fazendo a carga dos dados tratados para um Data Warehouse (MongoDB Atlas e GCP)

In [None]:
# GCP - acessos movel
df_movel.to_parquet('gs://soulcode-bc17-telecom/Tratados/Acessos_Movel.parquet')

In [None]:
# MONGO - acessos movel
db.create_collection('Acesso_Movel')

df_movel_dict = df_movel.to_dict('records')
collection = db['Acesso_Movel']
collection.insert_many(df_movel_dict)

In [None]:
# GCP - covel colunas
df_mov_col.to_parquet('gs://soulcode-bc17-telecom/Tratados/Acessos_Movel_col.parquet')

In [None]:
df_mov_col2.to_parquet('gs://soulcode-bc17-telecom/Tratados/Acessos_Movel_col2.parquet')

In [None]:
# MONGO - movel colunas
db.create_collection('Movel_Coluna')
df_mov_col_dict = df_mov_col.to_dict('records')
collection = db['Movel_Coluna']
collection.insert_many(df_mov_col_dict)

df_mov_col2_dict = df_mov_col2.to_dict('records')
collection.insert_many(df_mov_col2_dict)

In [124]:
# GCP - Pré/Pós
df_mov_total.to_parquet('gs://soulcode-bc17-telecom/Tratados/PrePos_Movel.parquet')

In [None]:
# MONGO - Pré/Pós
db.create_collection('PrePos_movel')

df_mov_total_dict = df_mov_total.to_dict('records')
collection.insert_many(df_mov_total_dict)

In [None]:
# GCP - Densidade
df_mov_dens.to_parquet('gs://soulcode-bc17-telecom/Tratados/Densidade_Movel.parquet')

In [None]:
# MONGO - Densidade
db.create_collection('Densidade_movel')

df_mov_dens_dict = df_mov_dens.to_dict('records')
collection.insert_many(df_mov_dens_dict)

# 5 - ANÁLISE - SPARK




In [174]:
# Lendo DataFrame da GCP
df_spark_blf = (spark.read.format("parquet")
                .option("header", True)
                .option("delimiter",",")
                .load("gs://soulcode-bc17-telecom/Tratados/Acessos_Banda_Larga_Fixa.parquet")
)

In [None]:
df_spark_blf.show()

In [178]:
df_spark_blf = (df_spark_blf.withColumnRenamed("Meio de Acesso","Meio_Acesso"))

In [180]:
df_spark_blf.createOrReplaceTempView("bandfixa")

In [None]:
spark.sql("select * from bandfixa").show()

In [152]:
# Obtendo o total de acessos para utilizar no cálculo das porcentagens
spark.sql("select sum(acessos) as total_acessos from bandfixa" ).show()

+------------+
|sum(acessos)|
+------------+
|   594083787|
+------------+



In [158]:
# Acessos por Estado
spark.sql("SELECT uf, sum(acessos) AS acessos, ROUND((SUM(acessos)/594083787)*100,2) AS porcent FROM bandfixa GROUP BY uf HAVING ROUND((SUM(acessos)/594083787)*100,2)>1  ORDER BY porcent DESC ").show()

+---+---------+-------+
| uf|  acessos|porcent|
+---+---------+-------+
| SP|186970496|  31.47|
| MG| 64044645|  10.78|
| RJ| 55161665|   9.29|
| RS| 42030644|   7.07|
| PR| 41986126|   7.07|
| SC| 32525189|   5.47|
| BA| 21765710|   3.66|
| CE| 19763136|   3.33|
| GO| 17719883|   2.98|
| DF| 11997008|   2.02|
| PE| 11742930|   1.98|
| ES| 10809381|   1.82|
| MT|  8893073|    1.5|
| RN|  8773989|   1.48|
| PA|  8796813|   1.48|
| PB|  8053971|   1.36|
| MS|  7077543|   1.19|
| AM|  6545058|    1.1|
| MA|  6436060|   1.08|
+---+---------+-------+



In [159]:
# Empresas responsáveis pelas maiores quantidades de acesso
spark.sql("SELECT empresa, sum(acessos) AS acessos, ROUND((SUM(acessos)/594083787)*100,2) AS porcent FROM bandfixa GROUP BY empresa ORDER BY porcent DESC").show(4)

+--------------------+---------+-------+
|             empresa|  acessos|porcent|
+--------------------+---------+-------+
|               CLARO|146286095|  24.62|
|                VIVO| 94990779|  15.99|
|                  OI| 77473755|  13.04|
|Brisanet Servicos...| 11573482|   1.95|
+--------------------+---------+-------+
only showing top 4 rows



In [182]:
# Tecnologia e meio de acessos
spark.sql("SELECT Tecnologia, Meio_Acesso, SUM(acessos) AS acessos, ROUND((SUM(acessos)/594083787)*100,2) AS porcent FROM bandfixa GROUP BY tecnologia, Meio_Acesso  ORDER BY porcent DESC").show(7)

+----------+-------------+---------+-------+
|Tecnologia|  Meio_Acesso|  acessos|porcent|
+----------+-------------+---------+-------+
|      FTTH|        Fibra|314309777|  52.91|
|       HFC| Cabo Coaxial|137634016|  23.17|
|     ADSL2|Cabo Metálico| 52803821|   8.89|
|  ETHERNET|        Fibra| 19616141|    3.3|
|  ETHERNET|        Rádio|  9599155|   1.62|
|  ETHERNET|Cabo Metálico|  8967252|   1.51|
|     Wi-Fi|        Rádio|  8766433|   1.48|
+----------+-------------+---------+-------+
only showing top 7 rows



# 6 - GRÁFICOS PANDAS


In [None]:
df_pd_plot=spark.sql("select uf,sum(acessos) as acessos,round((sum(acessos)/594083787)*100,2) as porcent From bandfixa group by uf order by porcent desc ")

In [None]:
df_pd_plot=df_pd_plot.toPandas()

In [None]:
df_pd_plot.plot(x='uf', y='porcent',kind='bar',color='porcent')