In [0]:
from pyspark.sql.functions import *

In [0]:
dados = [('Acre','AC','Rio Branco')
,('Alagoas','AL','Maceió')
,('Amapá','AP','Macapá')
,('Amazonas','AM','Manaus')
,('Bahia','BA','Salvador')
,('Ceará','CE','Fortaleza')
,('Distrito Federal','DF','Brasília')
,('Espírito Santo','ES','Vitória')
,('Goiás','GO','Goiânia')
,('Maranhão','MA','São Luís')
,('Mato Grosso','MT','Cuiabá')
,('Mato Grosso do Sul','MS','Campo Grande')
,('Minas Gerais','MG','Belo Horizonte')
,('Pará','PA','Belém')
,('Paraíba','PB','João Pessoa')
,('Paraná','PR','Curitiba')
,('Pernambuco','PE','Recife')
,('Piauí','PI','Teresina')
,('Rio de Janeiro','RJ','Rio de Janeiro')
,('Rio Grande do Norte','RN','Natal')
,('Rio Grande do Sul','RS','Porto Alegre')
,('Rondônia','RO','Porto Velho')
,('Roraima','RR','Boa Vista')
,('Santa Catarina','SC','Florianópolis')
,('São Paulo','SP','São Paulo')
,('Sergipe','SE','Aracaju')
,('Tocantins','TO','Palmas')]

schema = ('Estado', 'UF', 'Capital')

df = spark.createDataFrame(dados, schema =schema)

df.show()

Out[3]: 27

## Regra de Negócio:

* Região Centro-Oeste. Distrito Federal Goiás Mato Grosso Mato Grosso do Sul.
* Região Nordeste. Alagoas Bahia Ceará Maranhão Paraiba Pernambuco Piauí Rio Grande do Norte Sergipe.
* Região Norte. Acre Amapá Amazonas Pará Rondônia Roraima Tocantis.
* Região Sudeste. Espírito Santo Minas Gerais Rio de Janeiro São Paulo.
* Região Sul. Paraná Santa Catarina Rio Grande do Sul.

In [0]:
display(df.withColumn('Regiao' , when(df.UF.isin(['DF','GO','MT','MS']), 'Centro-Oeste')
                         .when(df.UF.isin(['AL','BA','CE','MA','PB','PE','PI','RN','SE']), 'Nordeste')
                         .when(df.UF.isin(['AC','AP','AM','PA','RO','RR','TO']), 'Norte')
                         .when(df.UF.isin(['ES','MG','RJ','SP']), 'Sudeste')
                            .otherwise('Sul') ))

Estado,UF,Capital,Regiao
Acre,AC,Rio Branco,Norte
Alagoas,AL,Maceió,Nordeste
Amapá,AP,Macapá,Norte
Amazonas,AM,Manaus,Norte
Bahia,BA,Salvador,Nordeste
Ceará,CE,Fortaleza,Nordeste
Distrito Federal,DF,Brasília,Centro-Oeste
Espírito Santo,ES,Vitória,Sudeste
Goiás,GO,Goiânia,Centro-Oeste
Maranhão,MA,São Luís,Nordeste


In [0]:
display(df.select('*' , when(df.UF.isin(['DF','GO','MT','MS']), 'Centro-Oeste')
                         .when(df.UF.isin(['AL','BA','CE','MA','PB','PE','PI','RN','SE']), 'Nordeste')
                         .when(df.UF.isin(['AC','AP','AM','PA','RO','RR','TO']), 'Norte')
                         .when(df.UF.isin(['ES','MG','RJ','SP']), 'Sudeste')
                            .otherwise('Sul').alias('Regiao') ))

Estado,UF,Capital,Regiao
Acre,AC,Rio Branco,Norte
Alagoas,AL,Maceió,Nordeste
Amapá,AP,Macapá,Norte
Amazonas,AM,Manaus,Norte
Bahia,BA,Salvador,Nordeste
Ceará,CE,Fortaleza,Nordeste
Distrito Federal,DF,Brasília,Centro-Oeste
Espírito Santo,ES,Vitória,Sudeste
Goiás,GO,Goiânia,Centro-Oeste
Maranhão,MA,São Luís,Nordeste


In [0]:
display(df.withColumn('Regiao' , expr("CASE WHEN UF in ('DF','GO','MT','MS') THEN 'Centro-Oeste'" +
                        "WHEN UF in ('AL','BA','CE','MA','PB','PE','PI','RN','SE') THEN 'Nordeste'" +
                        "WHEN UF in ('AC','AP','AM','PA','RO','RR','TO') THEN 'Norte'" +
                        "WHEN UF in ('ES','MG','RJ','SP') THEN 'Sudeste' " +
                        "ELSE 'Sul' END")
                      ))

Estado,UF,Capital,Regiao
Acre,AC,Rio Branco,Norte
Alagoas,AL,Maceió,Nordeste
Amapá,AP,Macapá,Norte
Amazonas,AM,Manaus,Norte
Bahia,BA,Salvador,Nordeste
Ceará,CE,Fortaleza,Nordeste
Distrito Federal,DF,Brasília,Centro-Oeste
Espírito Santo,ES,Vitória,Sudeste
Goiás,GO,Goiânia,Centro-Oeste
Maranhão,MA,São Luís,Nordeste


In [0]:


df.createOrReplaceTempView('estados')

spark.sql("""         
         SELECT 
         *
         ,CASE WHEN UF in ('DF','GO','MT','MS') THEN 'Centro-Oeste'
                        WHEN UF in ('AL','BA','CE','MA','PB','PE','PI','RN','SE') THEN 'Nordeste'
                        WHEN UF in ('AC','AP','AM','PA','RO','RR','TO') THEN 'Norte'
                        WHEN UF in ('ES','MG','RJ','SP') THEN 'Sudeste'
                        ELSE 'Sul' END Regiao
         FROM estados  
         ORDER BY 4
         
         """).show(truncate=False)



+-------------------+---+------------+------------+
|Estado             |UF |Capital     |Regiao      |
+-------------------+---+------------+------------+
|Mato Grosso        |MT |Cuiabá      |Centro-Oeste|
|Distrito Federal   |DF |Brasília    |Centro-Oeste|
|Mato Grosso do Sul |MS |Campo Grande|Centro-Oeste|
|Goiás              |GO |Goiânia     |Centro-Oeste|
|Bahia              |BA |Salvador    |Nordeste    |
|Pernambuco         |PE |Recife      |Nordeste    |
|Ceará              |CE |Fortaleza   |Nordeste    |
|Sergipe            |SE |Aracaju     |Nordeste    |
|Piauí              |PI |Teresina    |Nordeste    |
|Maranhão           |MA |São Luís    |Nordeste    |
|Alagoas            |AL |Maceió      |Nordeste    |
|Paraíba            |PB |João Pessoa |Nordeste    |
|Rio Grande do Norte|RN |Natal       |Nordeste    |
|Amazonas           |AM |Manaus      |Norte       |
|Acre               |AC |Rio Branco  |Norte       |
|Pará               |PA |Belém       |Norte       |
|Amapá      

In [0]:

spark.sql("""         
         SELECT 
         *
         ,CASE WHEN UF in ('DF','GO','MT','MS') THEN 'Centro-Oeste'
                        WHEN UF in ('AL','BA','CE','MA','PB','PE','PI','RN','SE') THEN 'Nordeste'
                        WHEN UF in ('AC','AP','AM','PA','RO','RR','TO') THEN 'Norte'
                        WHEN UF in ('ES','MG','RJ','SP') THEN 'Sudeste'
                        ELSE 'Sul' END Regiao
         FROM {df}  
         ORDER BY 4
         
         """, df=df).show(truncate=False)



+-------------------+---+------------+------------+
|Estado             |UF |Capital     |Regiao      |
+-------------------+---+------------+------------+
|Mato Grosso        |MT |Cuiabá      |Centro-Oeste|
|Distrito Federal   |DF |Brasília    |Centro-Oeste|
|Mato Grosso do Sul |MS |Campo Grande|Centro-Oeste|
|Goiás              |GO |Goiânia     |Centro-Oeste|
|Sergipe            |SE |Aracaju     |Nordeste    |
|Rio Grande do Norte|RN |Natal       |Nordeste    |
|Pernambuco         |PE |Recife      |Nordeste    |
|Alagoas            |AL |Maceió      |Nordeste    |
|Piauí              |PI |Teresina    |Nordeste    |
|Bahia              |BA |Salvador    |Nordeste    |
|Paraíba            |PB |João Pessoa |Nordeste    |
|Ceará              |CE |Fortaleza   |Nordeste    |
|Maranhão           |MA |São Luís    |Nordeste    |
|Rondônia           |RO |Porto Velho |Norte       |
|Acre               |AC |Rio Branco  |Norte       |
|Roraima            |RR |Boa Vista   |Norte       |
|Amazonas   

In [0]:
%sql 

SELECT 
         *
         ,CASE WHEN UF in ('DF','GO','MT','MS') THEN 'Centro-Oeste'
                        WHEN UF in ('AL','BA','CE','MA','PB','PE','PI','RN','SE') THEN 'Nordeste'
                        WHEN UF in ('AC','AP','AM','PA','RO','RR','TO') THEN 'Norte'
                        WHEN UF in ('ES','MG','RJ','SP') THEN 'Sudeste'
                        ELSE 'Sul' END Regiao
         FROM estados  
         ORDER BY 4

Estado,UF,Capital,Regiao
Distrito Federal,DF,Brasília,Centro-Oeste
Mato Grosso,MT,Cuiabá,Centro-Oeste
Goiás,GO,Goiânia,Centro-Oeste
Mato Grosso do Sul,MS,Campo Grande,Centro-Oeste
Rio Grande do Norte,RN,Natal,Nordeste
Pernambuco,PE,Recife,Nordeste
Alagoas,AL,Maceió,Nordeste
Piauí,PI,Teresina,Nordeste
Sergipe,SE,Aracaju,Nordeste
Maranhão,MA,São Luís,Nordeste


In [0]:
display(df.select('*' , when(df.UF.isin(['df','go','MT','MS']), 'Centro-Oeste')
                         .when(df.UF.isin(['AL','BA','CE','MA','PB','PE','PI','RN','SE']), 'Nordeste')
                         .when(df.UF.isin(['AC','AP','AM','PA','RO','RR','TO']), 'Norte')
                         .when(df.UF.isin(['ES','MG','RJ','SP']), 'Sudeste')
                            .otherwise('Sul').alias('Regiao') ))

Estado,UF,Capital,Regiao
Acre,AC,Rio Branco,Norte
Alagoas,AL,Maceió,Nordeste
Amapá,AP,Macapá,Norte
Amazonas,AM,Manaus,Norte
Bahia,BA,Salvador,Nordeste
Ceará,CE,Fortaleza,Nordeste
Distrito Federal,DF,Brasília,Sul
Espírito Santo,ES,Vitória,Sudeste
Goiás,GO,Goiânia,Sul
Maranhão,MA,São Luís,Nordeste
