######**PySpark | V1 | BY: Ademir Mendonça**

**Link oficial do dado:**
http://blog.mds.gov.br/redesuas/wp-content/uploads/2018/06/Lista_Munic%C3%ADpios_com_IBGE_Brasil_Versao_CSV.csv

**Link dado tratado:**
https://raw.githubusercontent.com/ademirmendonca/DadosPublicos/main/Lista_Municipios.csv

**UnravelingCode:**
https://www.youtube.com/c/UnravelingCode

##**O Objetivo deste material é estudar o framework pyspark então, vamos lá!**
#**:)** 

Instalando pacotes necessários.

In [None]:
from IPython.display import clear_output

#!pip install upgrade pip #Atualizando o gestor de pacotes do Python
!pip install findspark
!pip install pyspark #Instalar a lib do PySpark



clear_output(wait=True) #Limpar a saída

Importando o Spark

In [None]:
import findspark, pyspark
from pyspark.sql import SparkSession
from pyspark import SparkFiles

from pyspark.sql.functions import col, udf

Criando uma instância do Spark

In [None]:
findspark.init()
spark = SparkSession.builder.getOrCreate()

Lendo e baixando fonte de dados em um arquivo CSV, no github

In [None]:
url = "https://raw.githubusercontent.com/ademirmendonca/DadosPublicos/main/Lista_Municipios.csv"
spark.sparkContext.addFile(url) # Faz o download do arquivo de dados
csv_listaMunicipios = SparkFiles.get('Lista_Municipios.csv')
df_municipios = spark.read.csv(csv_listaMunicipios, header=True, inferSchema=True, sep=';')

####Prévia dos dados impressos

In [None]:
df_municipios.show() #.show() limita a impressão em apenas 20 linhas, no ambiente local

+--------------------+------+-------+---+--------------------+------------+-------------+----------+-------+----+----+
|         ConcatUFMun|  IBGE|  IBGE7| UF|           Municipio|      Regiao|Populacao2010|     Porte|Capital| _c9|_c10|
+--------------------+------+-------+---+--------------------+------------+-------------+----------+-------+----+----+
|ROAlta Floresta D...|110001|1100015| RO|Alta Floresta D o...|Regiao Norte|        24392|Pequeno II|   null|null|null|
|         ROAriquemes|110002|1100023| RO|           Ariquemes|Regiao Norte|        90353|     Medio|   null|null|null|
|            ROCabixi|110003|1100031| RO|              Cabixi|Regiao Norte|         6313| Pequeno I|   null|null|null|
|            ROCacoal|110004|1100049| RO|              Cacoal|Regiao Norte|        78574|     Medio|   null|null|null|
|        ROCerejeiras|110005|1100056| RO|          Cerejeiras|Regiao Norte|        17029| Pequeno I|   null|null|null|
| ROColorado do Oeste|110006|1100064| RO|   Colo

In [None]:
df_municipios.show(truncate = False, n=30) # n=30 para imprimir 30 linhas.    Alternativa: df_municipios.show(30)

+--------------------------+------+-------+---+------------------------+------------+-------------+----------+-------+----+----+
|ConcatUFMun               |IBGE  |IBGE7  |UF |Municipio               |Regiao      |Populacao2010|Porte     |Capital|_c9 |_c10|
+--------------------------+------+-------+---+------------------------+------------+-------------+----------+-------+----+----+
|ROAlta Floresta D'oeste   |110001|1100015|RO |Alta Floresta D oeste   |Regiao Norte|24392        |Pequeno II|null   |null|null|
|ROAriquemes               |110002|1100023|RO |Ariquemes               |Regiao Norte|90353        |Medio     |null   |null|null|
|ROCabixi                  |110003|1100031|RO |Cabixi                  |Regiao Norte|6313         |Pequeno I |null   |null|null|
|ROCacoal                  |110004|1100049|RO |Cacoal                  |Regiao Norte|78574        |Medio     |null   |null|null|
|ROCerejeiras              |110005|1100056|RO |Cerejeiras              |Regiao Norte|17029       

##Modificando o visual

In [None]:
spark.conf.set('spark.sql.repl.eagerEval.enabled', True) #Modificando o visual
df_municipios

ConcatUFMun,IBGE,IBGE7,UF,Municipio,Regiao,Populacao2010,Porte,Capital,_c9,_c10
ROAlta Floresta D...,110001,1100015,RO,Alta Floresta D o...,Regiao Norte,24392,Pequeno II,,,
ROAriquemes,110002,1100023,RO,Ariquemes,Regiao Norte,90353,Medio,,,
ROCabixi,110003,1100031,RO,Cabixi,Regiao Norte,6313,Pequeno I,,,
ROCacoal,110004,1100049,RO,Cacoal,Regiao Norte,78574,Medio,,,
ROCerejeiras,110005,1100056,RO,Cerejeiras,Regiao Norte,17029,Pequeno I,,,
ROColorado do Oeste,110006,1100064,RO,Colorado do Oeste,Regiao Norte,18591,Pequeno I,,,
ROCorumbiara,110007,1100072,RO,Corumbiara,Regiao Norte,8783,Pequeno I,,,
ROCosta Marques,110008,1100080,RO,Costa Marques,Regiao Norte,13678,Pequeno I,,,
ROEspigao D'oeste,110009,1100098,RO,Espigao D oeste,Regiao Norte,28729,Pequeno II,,,
ROGuajara-mirim,110010,1100106,RO,Guajara-mirim,Regiao Norte,41656,Pequeno II,,,


##Outra forma de imprimir os dados na tela, de forma mais simplificada.

In [None]:
df_municipios

ConcatUFMun,IBGE,IBGE7,UF,Municipio,Regiao,Populacao2010,Porte,Capital,_c9,_c10
ROAlta Floresta D...,110001,1100015,RO,Alta Floresta D o...,Regiao Norte,24392,Pequeno II,,,
ROAriquemes,110002,1100023,RO,Ariquemes,Regiao Norte,90353,Medio,,,
ROCabixi,110003,1100031,RO,Cabixi,Regiao Norte,6313,Pequeno I,,,
ROCacoal,110004,1100049,RO,Cacoal,Regiao Norte,78574,Medio,,,
ROCerejeiras,110005,1100056,RO,Cerejeiras,Regiao Norte,17029,Pequeno I,,,
ROColorado do Oeste,110006,1100064,RO,Colorado do Oeste,Regiao Norte,18591,Pequeno I,,,
ROCorumbiara,110007,1100072,RO,Corumbiara,Regiao Norte,8783,Pequeno I,,,
ROCosta Marques,110008,1100080,RO,Costa Marques,Regiao Norte,13678,Pequeno I,,,
ROEspigao D'oeste,110009,1100098,RO,Espigao D oeste,Regiao Norte,28729,Pequeno II,,,
ROGuajara-mirim,110010,1100106,RO,Guajara-mirim,Regiao Norte,41656,Pequeno II,,,


###Cálculo da soma total da população, agrupado por UF.

In [None]:
df_municipios.groupBy('UF').sum('Populacao2010').show(n=30)

+---+------------------+
| UF|sum(Populacao2010)|
+---+------------------+
| SC|           6248436|
| RO|           1562409|
| PI|           3118360|
| AM|           3483985|
| RR|            450479|
| GO|           6003788|
| TO|           1383445|
| MT|           3035122|
| SP|          41262199|
| PB|           3766528|
| ES|           3514952|
| RS|          10693929|
| MS|           2449024|
| AL|           3120494|
| MG|          19597330|
| PA|           7581051|
| BA|          14016906|
| SE|           2068017|
| PE|           8796448|
| CE|           8452381|
| RN|           3168027|
| RJ|          15989929|
| MA|           6574789|
| AC|            733559|
| DF|           2570160|
| PR|          10444526|
| AP|            669526|
+---+------------------+



###Exibindo dados ordenados por UF

In [None]:
df_municipios.orderBy('UF')

ConcatUFMun,IBGE,IBGE7,UF,Municipio,Regiao,Populacao2010,Porte,Capital,_c9,_c10
ACAcrelandia,120001,1200013,AC,Acrelandia,Regiao Norte,12538,Pequeno I,,,
ACXapuri,120070,1200708,AC,Xapuri,Regiao Norte,16091,Pequeno I,,,
ACAssis Brasil,120005,1200054,AC,Assis Brasil,Regiao Norte,6072,Pequeno I,,,
ACBrasileia,120010,1200104,AC,Brasileia,Regiao Norte,21398,Pequeno II,,,
ACBujari,120013,1200138,AC,Bujari,Regiao Norte,8471,Pequeno I,,,
ACCapixaba,120017,1200179,AC,Capixaba,Regiao Norte,8798,Pequeno I,,,
ACCruzeiro do Sul,120020,1200203,AC,Cruzeiro do Sul,Regiao Norte,78507,Medio,,,
ACEpitaciolandia,120025,1200252,AC,Epitaciolandia,Regiao Norte,15100,Pequeno I,,,
ACFeijo,120030,1200302,AC,Feijo,Regiao Norte,32412,Pequeno II,,,
ACJordao,120032,1200328,AC,Jordao,Regiao Norte,6577,Pequeno I,,,


##Obtendo o mínimo da população por município, ordenado por UF

In [None]:
cols = ['UF', 'Populacao2010']
(
    df_municipios
    .groupBy('UF')
    .min('Populacao2010')
    .orderBy('min(Populacao2010)')
    .withColumnRenamed('min(Populacao2010)', ('PopulacaoMinima')) # withColumnRenamed, para renomear a coluna min(População2010)
    .show(30) 
)

+---+---------------+
| UF|PopulacaoMinima|
+---+---------------+
| SP|            805|
| MG|            815|
| GO|           1020|
| TO|           1037|
| MT|           1096|
| RS|           1216|
| PI|           1253|
| PB|           1256|
| PR|           1409|
| SC|           1465|
| RN|           1618|
| SE|           2275|
| RO|           2315|
| BA|           2612|
| PE|           2630|
| AL|           2866|
| MS|           2928|
| PA|           3431|
| AP|           3793|
| MA|           4020|
| CE|           4164|
| ES|           4516|
| AC|           4691|
| RJ|           5269|
| RR|           6750|
| AM|           7326|
| DF|        2570160|
+---+---------------+



###Obtendo média populacional, agrupada por UF, e ordenada por UF

In [None]:
cols = ['UF', 'Populacao2010']
(
    df_municipios
    .groupBy('UF')
    .avg('Populacao2010')
    .orderBy('UF')
    .withColumnRenamed('avg(Populacao2010)', ('PopulacaoMedia')) #withColumnRenamed: para renomear o nome da coluna (criar um apelido)
    .show(30) #Ao invés de utilizar .show(n=30)
)

+---+------------------+
| UF|    PopulacaoMedia|
+---+------------------+
| AC| 33343.59090909091|
| AL| 30593.07843137255|
| AM|  56193.3064516129|
| AP|         41845.375|
| BA| 33613.68345323741|
| CE| 45936.85326086957|
| DF|         2570160.0|
| ES| 45063.48717948718|
| GO|24405.642276422765|
| MA|30298.566820276497|
| MG| 22974.59554513482|
| MS| 31397.74358974359|
| MT|21525.687943262412|
| PA|53014.342657342655|
| PB|  16890.2600896861|
| PE| 47548.36756756757|
| PI|          13921.25|
| PR|26176.756892230576|
| RJ| 173803.5760869565|
| RN|18970.221556886227|
| RO|30046.326923076922|
| RR|30031.933333333334|
| RS| 21560.34072580645|
| SC|21325.720136518772|
| SE|          27573.56|
| SP|  63972.4015503876|
| TO| 9952.841726618704|
+---+------------------+



####Agrupando dados por Unidade Federativa
#####Obs: Sem formatação para o nome das colunas

In [None]:
df_municipios.groupBy(['UF']).sum()

UF,sum(IBGE),sum(IBGE7),sum(Populacao2010)
SC,124189368,1241894993,6248436
RO,5723521,57235443,1562409
PI,49407438,494075355,3118360
AM,8073418,80734451,3483985
RR,2100462,21004693,450479
GO,128198764,1281988737,6003788
TO,23790468,237905293,1383445
MT,71983896,719839592,3035122
SP,227600721,2276010133,41262199
PB,55944004,559441029,3766528


##Obtendo média da população, agrupado e ordenado por UF
####Obs: Sem formatar os nomes das colunas

In [None]:
df_municipios.groupBy('UF').avg().orderBy('UF')

UF,avg(IBGE),avg(IBGE7),avg(Populacao2010)
AC,120034.63636363635,1200350.8636363635,33343.59090909091
AL,270477.90196078434,2704783.470588235,30593.07843137255
AM,130216.41935483873,1302168.564516129,56193.3064516129
AP,160036.5,1600369.25,41845.375
BA,291714.5923261391,2917150.496402878,33613.68345323741
CE,230703.4402173913,2307038.891304348,45936.85326086957
DF,530010.0,5300108.0,2570160.0
ES,320290.2051282051,3202906.5384615385,45063.48717948718
GO,521133.18699186994,5211336.3292682925,24405.642276422765
MA,210646.64055299535,2106470.99078341,30298.566820276497


#Obtendo valor máximo da população ordenada por UF

In [None]:
df_municipios.groupBy('UF').max().orderBy('UF')

UF,max(IBGE),max(IBGE7),max(Populacao2010)
AC,120080,1200807,336038
AL,270940,2709400,932748
AM,130440,1304401,1802014
AP,160080,1600808,398204
BA,293360,2933604,2675656
CE,231410,2314102,2452185
DF,530010,5300108,2570160
ES,320530,3205309,414586
GO,522230,5222302,1302001
MA,211400,2114007,1014837


###Utilizando funções UDF

In [None]:

def convertCase(str): #Convertendo UDF
    resStr=""
    arr = str.split(" ")
    for x in arr:
       resStr= resStr + x[0:1].upper() + x[1:len(x)] + " "
    return resStr 


In [None]:
def upperCase(str): #Método upper para retornar os dados em MAIÚSCULO
    return str.upper()

In [None]:
from pyspark.sql.types import StringType
upperCaseUDF = udf(lambda z:upperCase(z),StringType())   

df_municipios.withColumn("MunicipioUPPER", upperCaseUDF(col("Municipio"))) \
  .show(truncate=False)

+--------------------------+------+-------+---+------------------------+------------+-------------+----------+-------+----+----+------------------------+
|ConcatUFMun               |IBGE  |IBGE7  |UF |Municipio               |Regiao      |Populacao2010|Porte     |Capital|_c9 |_c10|MunicipioUPPER          |
+--------------------------+------+-------+---+------------------------+------------+-------------+----------+-------+----+----+------------------------+
|ROAlta Floresta D'oeste   |110001|1100015|RO |Alta Floresta D oeste   |Regiao Norte|24392        |Pequeno II|null   |null|null|ALTA FLORESTA D OESTE   |
|ROAriquemes               |110002|1100023|RO |Ariquemes               |Regiao Norte|90353        |Medio     |null   |null|null|ARIQUEMES               |
|ROCabixi                  |110003|1100031|RO |Cabixi                  |Regiao Norte|6313         |Pequeno I |null   |null|null|CABIXI                  |
|ROCacoal                  |110004|1100049|RO |Cacoal                  |Regi

##Exibindo apenas a coluna com o dado origina, e a coluna com o dado modificado (upper).

In [None]:
from pyspark.sql.types import StringType
upperCaseUDF = udf(lambda z:upperCase(z),StringType())   

df_municipios.withColumn("MunicipioUPPER", upperCaseUDF(col("Municipio"))) \
  .select('Municipio', 'MunicipioUPPER') #Select para exibir apenas duas colunas 


Municipio,MunicipioUPPER
Alta Floresta D o...,ALTA FLORESTA D O...
Ariquemes,ARIQUEMES
Cabixi,CABIXI
Cacoal,CACOAL
Cerejeiras,CEREJEIRAS
Colorado do Oeste,COLORADO DO OESTE
Corumbiara,CORUMBIARA
Costa Marques,COSTA MARQUES
Espigao D oeste,ESPIGAO D OESTE
Guajara-mirim,GUAJARA-MIRIM
