<a href="https://colab.research.google.com/github/npto04/PySpark/blob/main/PySpark_countries_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Estruturar as colunas do CSV utilizando o Struct Type

1) Renomear alguma coluna

2) Mostrar os países que possuam população maior que 10 milhões de habitantes em 2012

3) Mostrar todos os dados apenas dos países que comecem com a letra B

4) Criar uma nova coluna com a seguinte informação: Caso o país tenha mais que 1 milhão de habitantes, colocar o texto “População com mais de 1 milhão de habitantes”. Caso contrário, colocar o texto: “População com menos de 1 milhão de habitantes”

5) Mostre a soma da população no ano de 2017.

# installations & imports

In [None]:
!pip install pyspark 

Collecting pyspark
  Downloading pyspark-3.2.1.tar.gz (281.4 MB)
[K     |████████████████████████████████| 281.4 MB 34 kB/s 
[?25hCollecting py4j==0.10.9.3
  Downloading py4j-0.10.9.3-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 37.6 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.2.1-py2.py3-none-any.whl size=281853642 sha256=fb176df2d2af2f8fb600176d3ffccb4171c25873e8d493b0ff35de0be3f0da39
  Stored in directory: /root/.cache/pip/wheels/9f/f5/07/7cd8017084dce4e93e84e92efd1e1d5334db05f2e83bcef74f
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.3 pyspark-3.2.1


In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql import functions as F
from pyspark.sql.types import StructField, StructType, StringType, IntegerType, FloatType

# criar sessao spark

In [None]:
spark = (
    SparkSession.builder
    .master("local[3]")
    .appName("countries_dataset")
    .config("spark.ui.port", "4050")
    .getOrCreate()
)

In [None]:
spark

# carregar dataset em dataframe

In [None]:
path_dataset = "/content/drive/MyDrive/Datasets/countries_general_info_historical.24-10-2021.csv"

In [None]:
esquema = (
    StructType([
                StructField("Nome",StringType()),
                StructField("NomeOriginal",StringType()),
                StructField("CodigoTelefonico", IntegerType()),
                StructField("Iso3166P1Alpha2Code",StringType()),
                StructField("Iso3166P1Alpha3Code",StringType()),
                StructField("Iso3166P1NumericCode",StringType()),
                StructField("ISNI", StringType()),
                StructField("Populacao2010", IntegerType()),
                StructField("Populacao2011", IntegerType()),
                StructField("Populacao2012", IntegerType()),
                StructField("Populacao2013", IntegerType()),
                StructField("Populacao2014", IntegerType()),
                StructField("Populacao2015", IntegerType()),
                StructField("Populacao2016", IntegerType()),
                StructField("Populacao2017", IntegerType()),
                StructField("Populacao2018", IntegerType()),
                StructField("Populacao2019", IntegerType())
    ])
)

In [None]:
df = (
    spark
    .read
    .format("csv")
    .option("delimiter",",")
    .option("header", "true")
    .load(path=path_dataset,schema=esquema)
)

In [None]:
df.printSchema()

root
 |-- Nome: string (nullable = true)
 |-- NomeOriginal: string (nullable = true)
 |-- CodigoTelefonico: integer (nullable = true)
 |-- Iso3166P1Alpha2Code: string (nullable = true)
 |-- Iso3166P1Alpha3Code: string (nullable = true)
 |-- Iso3166P1NumericCode: string (nullable = true)
 |-- ISNI: string (nullable = true)
 |-- Populacao2010: integer (nullable = true)
 |-- Populacao2011: integer (nullable = true)
 |-- Populacao2012: integer (nullable = true)
 |-- Populacao2013: integer (nullable = true)
 |-- Populacao2014: integer (nullable = true)
 |-- Populacao2015: integer (nullable = true)
 |-- Populacao2016: integer (nullable = true)
 |-- Populacao2017: integer (nullable = true)
 |-- Populacao2018: integer (nullable = true)
 |-- Populacao2019: integer (nullable = true)



In [None]:
df.show()

+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|                Nome|        NomeOriginal|CodigoTelefonico|Iso3166P1Alpha2Code|Iso3166P1Alpha3Code|Iso3166P1NumericCode|               ISNI|Populacao2010|Populacao2011|Populacao2012|Populacao2013|Populacao2014|Populacao2015|Populacao2016|Populacao2017|Populacao2018|Populacao2019|
+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|              Canada|              Canada|               1|                 CA|                CAN|                 124|0000 0001 2238 5050|     34004889

# 2) Mostrar os países que possuam população maior que 10 milhões de habitantes em 2012

In [None]:
filtro_pop_maior_dez_milhoes = F.col("Populacao2012") > 10000000

In [None]:
(df.filter(filtro_pop_maior_dez_milhoes)
.select("Nome").show())

+--------------------+
|                Nome|
+--------------------+
|              Canada|
|               Japan|
|               Spain|
|United States of ...|
|             Belgium|
|              Poland|
|               Italy|
|              Greece|
|              Turkey|
|            Portugal|
|               Egypt|
|              Mexico|
|               Kenya|
|            Ethiopia|
|               Ghana|
|              France|
|      United Kingdom|
|People's Republic...|
|              Brazil|
|              Russia|
+--------------------+
only showing top 20 rows



# 3) Mostrar todos os dados apenas dos países que comecem com a letra B

In [None]:
(df.filter("Nome like 'B%'").show())

+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|                Nome|        NomeOriginal|CodigoTelefonico|Iso3166P1Alpha2Code|Iso3166P1Alpha3Code|Iso3166P1NumericCode|               Isni|Populacao2010|Populacao2011|Populacao2012|Populacao2013|Populacao2014|Populacao2015|Populacao2016|Populacao2017|Populacao2018|Populacao2019|
+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|             Belgium|   Koninkrijk Belgie|              32|                 BE|                BEL|                  56|               null|     10895586

In [None]:
(df.filter(F.col("Nome").startswith("B")).show())

+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|                Nome|        NomeOriginal|CodigoTelefonico|Iso3166P1Alpha2Code|Iso3166P1Alpha3Code|Iso3166P1NumericCode|               Isni|Populacao2010|Populacao2011|Populacao2012|Populacao2013|Populacao2014|Populacao2015|Populacao2016|Populacao2017|Populacao2018|Populacao2019|
+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+
|             Belgium|   Koninkrijk Belgie|              32|                 BE|                BEL|                  56|               null|     10895586

# 4) Criar uma nova coluna com a seguinte informação: Caso o país tenha mais que 1 milhão de habitantes, colocar o texto “População com mais de 1 milhão de habitantes”. Caso contrário, colocar o texto: “População com menos de 1 milhão de habitantes”

In [None]:
df2 = (df.withColumn("PopulacaoStatus", 
                     F.when(F.col("Populacao2019")>1000000, 
                            F.lit("População com mais de 1 milhão de habitantes"))
                     .otherwise(F.lit("População com menos de 1 milhão de habitantes"))))

df2.show()

+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+--------------------+
|                Nome|        NomeOriginal|CodigoTelefonico|Iso3166P1Alpha2Code|Iso3166P1Alpha3Code|Iso3166P1NumericCode|               Isni|Populacao2010|Populacao2011|Populacao2012|Populacao2013|Populacao2014|Populacao2015|Populacao2016|Populacao2017|Populacao2018|Populacao2019|     PopulacaoStatus|
+--------------------+--------------------+----------------+-------------------+-------------------+--------------------+-------------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+-------------+--------------------+
|              Canada|              Canada|               1|                 CA|           

# 5) Mostre a soma da população no ano de 2017.

In [None]:
df(F.sum(df.Populacao2017))

TypeError: ignored

In [None]:
df.agg(F.sum(df.Populacao2017).alias("População mundial no ano de 2017")).show()

+--------------------------------+
|População mundial no ano de 2017|
+--------------------------------+
|                      7448450667|
+--------------------------------+

