Exercício 1
--------------------------------------------------------------------------------

In [58]:
from pyspark.sql import SparkSession

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes = spark.read.csv("nomes_aleatorios.txt")

df_nomes.show(5)

+----------------+
|             _c0|
+----------------+
|  Frances Bennet|
|   Jamie Russell|
|  Edward Kistler|
|   Sheila Maurer|
|Donald Golightly|
+----------------+
only showing top 5 rows



Exercício 2
--------------------------------------------------------------------------------

In [59]:
from pyspark.sql import SparkSession

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes = spark.read.text("nomes_aleatorios.txt")

df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")

df_nomes.printSchema()
df_nomes.show(10)

root
 |-- value: string (nullable = true)

+-----------------+
|            value|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



Exercício 3
--------------------------------------------------------------------------------

In [60]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import when, rand

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes = spark.read.csv("nomes_aleatorios.txt")

df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")

df_nomes_com_escolaridade = df_nomes.withColumn("Escolaridade",
                         when(rand() < 0.33, "Fundamental")
                        .when(rand() < 0.66, "Médio")
                        .otherwise("Superior"))

df_nomes_com_escolaridade.show(10, False)


+-----------------+------------+
|Nomes            |Escolaridade|
+-----------------+------------+
|Frances Bennet   |Superior    |
|Jamie Russell    |Superior    |
|Edward Kistler   |Fundamental |
|Sheila Maurer    |Fundamental |
|Donald Golightly |Fundamental |
|David Gray       |Médio       |
|Joy Bennett      |Superior    |
|Paul Kriese      |Médio       |
|Berniece Ornellas|Superior    |
|Brian Farrell    |Médio       |
+-----------------+------------+
only showing top 10 rows



Exercício 4
--------------------------------------------------------------------------------

In [61]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import rand, when

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

paises_america_sul = ["Brasil", "Argentina", "Colômbia", "Venezuela", "Peru",
                      "Chile", "Equador", "Bolívia", "Paraguai", "Uruguai",
                      "Guiana", "Suriname", "Guiana Francesa"]

df_nomes_com_pais = df_nomes.withColumn("Pais", when(rand() < (1/13), paises_america_sul[0])
                                                .when(rand() < (2/13), paises_america_sul[1])
                                                .when(rand() < (3/13), paises_america_sul[2])
                                                .when(rand() < (4/13), paises_america_sul[3])
                                                .when(rand() < (5/13), paises_america_sul[4])
                                                .when(rand() < (6/13), paises_america_sul[5])
                                                .when(rand() < (7/13), paises_america_sul[6])
                                                .when(rand() < (8/13), paises_america_sul[7])
                                                .when(rand() < (9/13), paises_america_sul[8])
                                                .when(rand() < (10/13), paises_america_sul[9])
                                                .when(rand() < (11/13), paises_america_sul[10])
                                                .when(rand() < (12/13), paises_america_sul[11])
                                                .otherwise(paises_america_sul[12]))

df_nomes_com_pais.show(10, False)

+-----------------+---------+
|Nomes            |Pais     |
+-----------------+---------+
|Frances Bennet   |Chile    |
|Jamie Russell    |Brasil   |
|Edward Kistler   |Brasil   |
|Sheila Maurer    |Brasil   |
|Donald Golightly |Peru     |
|David Gray       |Bolívia  |
|Joy Bennett      |Chile    |
|Paul Kriese      |Argentina|
|Berniece Ornellas|Peru     |
|Brian Farrell    |Argentina|
+-----------------+---------+
only showing top 10 rows



Exercício 5
--------------------------------------------------------------------------------

In [62]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import rand, expr

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes_com_nascimento = df_nomes.withColumn("AnoNascimento", expr("cast(rand() * (2010 - 1945 + 1) + 1945 as int)"))

df_nomes_com_nascimento.show(10, False)

+-----------------+-------------+
|Nomes            |AnoNascimento|
+-----------------+-------------+
|Frances Bennet   |1959         |
|Jamie Russell    |1952         |
|Edward Kistler   |1974         |
|Sheila Maurer    |2008         |
|Donald Golightly |1995         |
|David Gray       |2003         |
|Joy Bennett      |1988         |
|Paul Kriese      |1987         |
|Berniece Ornellas|1959         |
|Brian Farrell    |1975         |
+-----------------+-------------+
only showing top 10 rows



Exercício 6
--------------------------------------------------------------------------------

In [63]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import rand, expr

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes = df_nomes_com_nascimento.filter("AnoNascimento >= 2000")

df_nomes.show(10, False)

+---------------+-------------+
|Nomes          |AnoNascimento|
+---------------+-------------+
|Sheila Maurer  |2008         |
|David Gray     |2003         |
|David Medina   |2010         |
|Page Marthe    |2007         |
|Roxie Bernal   |2001         |
|Jessie Jean    |2003         |
|Ricky Gilbert  |2004         |
|Ana Baker      |2003         |
|Jerry Remick   |2010         |
|Suzanne Bullard|2006         |
+---------------+-------------+
only showing top 10 rows



Exercício 7
--------------------------------------------------------------------------------

In [64]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import rand, expr

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes_com_nascimento = spark.range(1000).withColumn("AnoNascimento", expr("cast(rand() * (2010 - 1945 + 1) + 1945 as int)"))

df_nomes_com_nascimento.createOrReplaceTempView("pessoas")

# Consulta SQL para selecionar as pessoas que nasceram neste século
df_select = spark.sql("SELECT * FROM pessoas WHERE CAST(SUBSTRING(AnoNascimento, 1, 4) AS INT) >= 2000")

df_select.show(10, False)


+---+-------------+
|id |AnoNascimento|
+---+-------------+
|2  |2010         |
|5  |2002         |
|9  |2000         |
|10 |2005         |
|13 |2000         |
|16 |2007         |
|17 |2005         |
|21 |2001         |
|23 |2000         |
|42 |2006         |
+---+-------------+
only showing top 10 rows



Exercício 8
--------------------------------------------------------------------------------

In [65]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Inicializar a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

millennials_count = df_nomes \
    .select("*") \
    .filter((col("AnoNascimento") >= 1980) & (col("AnoNascimento") <= 1994)) \
    .count()

print("Número de pessoas da geração Millennials:", millennials_count)



Número de pessoas da geração Millennials: 0


Exercício 9
--------------------------------------------------------------------------------

In [66]:
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes_com_nascimento.createOrReplaceTempView("pessoas")

# SQL - Millennials
query = """
    SELECT COUNT(*)
    FROM pessoas
    WHERE AnoNascimento >= 1980 AND AnoNascimento <= 1994
"""

millennials_count = spark.sql(query).collect()[0][0]

print("Número de pessoas da geração Millennials:", millennials_count)


Número de pessoas da geração Millennials: 221


Exercício 10
--------------------------------------------------------------------------------

In [57]:
from pyspark.sql import SparkSession

# Inicializa a Spark Session
spark = SparkSession \
    .builder \
    .appName("Tarefa4") \
    .master("local[*]") \
    .getOrCreate()

df_nomes_com_pais.createOrReplaceTempView("Pais")

df_nomes_com_nascimento.createOrReplaceTempView("AnoNascimento")

# SQL - pessoas de cada país para cada geração
query = """
    SELECT pessoas_pais.Pais,
           CASE WHEN pessoas_nascimento.AnoNascimento BETWEEN 1944 AND 1964 THEN 'Baby Boomers'
                WHEN pessoas_nascimento.AnoNascimento BETWEEN 1965 AND 1979 THEN 'Geração X'
                WHEN pessoas_nascimento.AnoNascimento BETWEEN 1980 AND 1994 THEN 'Millennials'
                WHEN pessoas_nascimento.AnoNascimento BETWEEN 1995 AND 2015 THEN 'Geração Z'
                ELSE 'Outra' END AS Geracao,
           COUNT(*) AS Quantidade
    FROM pessoas_pais
    JOIN pessoas_nascimento
    ON pessoas_pais.id = pessoas_nascimento.id
    GROUP BY pessoas_pais.Pais, Geracao
"""

df_resultado = spark.sql(query)

df_resultado.orderBy("Pais", "Geracao", "Quantidade").show(df_resultado.count(), False)


+---------+------------+----------+
|Pais     |Geracao     |Quantidade|
+---------+------------+----------+
|Argentina|Baby Boomers|10        |
|Argentina|Geração X   |5         |
|Argentina|Geração Z   |7         |
|Argentina|Millennials |8         |
|Bolívia  |Geração X   |3         |
|Bolívia  |Geração Z   |1         |
|Brasil   |Baby Boomers|4         |
|Brasil   |Geração X   |1         |
|Brasil   |Geração Z   |2         |
|Brasil   |Millennials |6         |
|Chile    |Baby Boomers|5         |
|Chile    |Geração X   |6         |
|Chile    |Geração Z   |2         |
|Chile    |Millennials |3         |
|Colômbia |Baby Boomers|8         |
|Colômbia |Geração X   |5         |
|Colômbia |Geração Z   |5         |
|Colômbia |Millennials |9         |
|Equador  |Baby Boomers|3         |
|Equador  |Geração Z   |3         |
|Equador  |Millennials |7         |
|Guiana   |Geração Z   |1         |
|Paraguai |Geração Z   |1         |
|Peru     |Baby Boomers|6         |
|Peru     |Geração X   |5   