# **Etapa 1:**
Configurar o ambiente e carregar o arquivo

In [3]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
import random

# Criar Spark Session
spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Exercicio Intro") \
    .getOrCreate()

# Ler o arquivo CSV
df_nomes = spark.read.csv('Sprint_8\Exercicios\spark_batch/nomes_aleatorios.txt', header=False, inferSchema=True)

# Mostrar algumas linhas
df_nomes.show(5)


+----------------+
|             _c0|
+----------------+
|  Frances Bennet|
|   Jamie Russell|
|  Edward Kistler|
|   Sheila Maurer|
|Donald Golightly|
+----------------+
only showing top 5 rows



# **Etapa 2:**
Ajustar o schema e renomear coluna

In [4]:
# Renomear a coluna
df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")

# Imprimir o esquema
df_nomes.printSchema()

# Mostrar 10 linhas
df_nomes.show(10)


root
 |-- Nomes: string (nullable = true)

+-----------------+
|            Nomes|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



# **Etapa 3:**
Adicionar coluna Escolaridade

In [5]:
# Adicionar coluna Escolaridade
df_nomes = df_nomes.withColumn(
    "Escolaridade",
    F.expr("CASE WHEN rand() < 0.33 THEN 'Fundamental' WHEN rand() < 0.66 THEN 'Medio' ELSE 'Superior' END")
)

df_nomes.show(10)


+-----------------+------------+
|            Nomes|Escolaridade|
+-----------------+------------+
|   Frances Bennet|       Medio|
|    Jamie Russell| Fundamental|
|   Edward Kistler|    Superior|
|    Sheila Maurer| Fundamental|
| Donald Golightly|    Superior|
|       David Gray|       Medio|
|      Joy Bennett|       Medio|
|      Paul Kriese|    Superior|
|Berniece Ornellas|    Superior|
|    Brian Farrell|       Medio|
+-----------------+------------+
only showing top 10 rows



# **Etapa 4:**
Adicionar coluna País

In [10]:
paises = ["Argentina", "Bolívia", "Brasil", "Chile", "Colômbia", "Equador", "Guiana", "Paraguai", "Peru", "Suriname", "Uruguai", "Venezuela", "Guiana Francesa"]

# rand paises start
df_nomes = df_nomes.withColumn(
    "Pais",
    F.when(F.rand()< 1 / 13, paises[0])
    .when(F.rand()< 2 / 13, paises[1])
    .when(F.rand()< 3 / 13, paises[2])
    .when(F.rand()< 4 / 13, paises[3])
    .when(F.rand()< 5 / 13, paises[4])
    .when(F.rand()< 6 / 13, paises[5])
    .when(F.rand()< 7 / 13, paises[6])
    .when(F.rand()< 8 / 13, paises[7])
    .when(F.rand()< 9 / 13, paises[8])
    .when(F.rand()< 10 / 13, paises[9])
    .when(F.rand()< 11 / 13, paises[10])
    .when(F.rand()< 12 / 13, paises[11])
    .otherwise(paises[12])
    )

df_nomes.printSchema()
df_nomes.show(10)


root
 |-- Nomes: string (nullable = true)
 |-- Escolaridade: string (nullable = false)
 |-- Pais: string (nullable = false)

+-----------------+------------+---------+
|            Nomes|Escolaridade|     Pais|
+-----------------+------------+---------+
|   Frances Bennet|       Medio| Colômbia|
|    Jamie Russell| Fundamental|   Guiana|
|   Edward Kistler|    Superior|   Guiana|
|    Sheila Maurer| Fundamental|  Equador|
| Donald Golightly|    Superior|    Chile|
|       David Gray|       Medio| Colômbia|
|      Joy Bennett|       Medio|   Brasil|
|      Paul Kriese|    Superior|  Equador|
|Berniece Ornellas|    Superior| Colômbia|
|    Brian Farrell|       Medio|Argentina|
+-----------------+------------+---------+
only showing top 10 rows



# **Etapa 5:**
Adicionar coluna AnoNascimento

In [11]:
# Adicionar coluna AnoNascimento
df_nomes = df_nomes.withColumn(
    "AnoNascimento",
    (F.rand() * (2010 - 1945) + 1945).cast("int")
)

df_nomes.show(10)


+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet|       Medio| Colômbia|         2003|
|    Jamie Russell| Fundamental|   Guiana|         2006|
|   Edward Kistler|    Superior|   Guiana|         2003|
|    Sheila Maurer| Fundamental|  Equador|         1954|
| Donald Golightly|    Superior|    Chile|         1989|
|       David Gray|       Medio| Colômbia|         1953|
|      Joy Bennett|       Medio|   Brasil|         2005|
|      Paul Kriese|    Superior|  Equador|         1994|
|Berniece Ornellas|    Superior| Colômbia|         1998|
|    Brian Farrell|       Medio|Argentina|         1991|
+-----------------+------------+---------+-------------+
only showing top 10 rows



# **Etapa 6:**
Filtrar pessoas nascidas neste século

In [12]:
df_select = df_nomes.filter(df_nomes["AnoNascimento"] >= 2000)
df_select.show(10)

+--------------+------------+---------+-------------+
|         Nomes|Escolaridade|     Pais|AnoNascimento|
+--------------+------------+---------+-------------+
|Frances Bennet|       Medio| Colômbia|         2003|
| Jamie Russell| Fundamental|   Guiana|         2006|
|Edward Kistler|    Superior|   Guiana|         2003|
|   Joy Bennett|       Medio|   Brasil|         2005|
|Mary Dillahunt|    Superior|    Chile|         2008|
|   Sandra Todd| Fundamental|Argentina|         2006|
|Rosie Lovelady| Fundamental| Colômbia|         2001|
|   Donald Vogt|    Superior| Colômbia|         2000|
|   Lisa Baxley| Fundamental|  Equador|         2001|
| George Miller| Fundamental|  Equador|         2005|
+--------------+------------+---------+-------------+
only showing top 10 rows



# **Etapa 7:**
Repetir o filtro usando Spark SQL

In [13]:
df_nomes.createOrReplaceTempView("pessoas")
df_select_sql = spark.sql("SELECT * FROM pessoas WHERE AnoNascimento >= 2000")
df_select_sql.show(10)


+--------------+------------+---------+-------------+
|         Nomes|Escolaridade|     Pais|AnoNascimento|
+--------------+------------+---------+-------------+
|Frances Bennet|       Medio| Colômbia|         2003|
| Jamie Russell| Fundamental|   Guiana|         2006|
|Edward Kistler|    Superior|   Guiana|         2003|
|   Joy Bennett|       Medio|   Brasil|         2005|
|Mary Dillahunt|    Superior|    Chile|         2008|
|   Sandra Todd| Fundamental|Argentina|         2006|
|Rosie Lovelady| Fundamental| Colômbia|         2001|
|   Donald Vogt|    Superior| Colômbia|         2000|
|   Lisa Baxley| Fundamental|  Equador|         2001|
| George Miller| Fundamental|  Equador|         2005|
+--------------+------------+---------+-------------+
only showing top 10 rows



# **Etapa 8:**
Contar Millennials usando filter

In [14]:
millennials_count = df_nomes.filter((df_nomes["AnoNascimento"] >= 1980) & (df_nomes["AnoNascimento"] <= 1994)).count()
print(f"Total de Millennials: {millennials_count}")


Total de Millennials: 2306398


# **Etapa 9:**
Contar Millennials usando Spark SQL

In [15]:
millennials_count_sql = spark.sql(
    "SELECT COUNT(*) as Total FROM pessoas WHERE AnoNascimento BETWEEN 1980 AND 1994"
)
millennials_count_sql.show()


+-------+
|  Total|
+-------+
|2306398|
+-------+



# **Etapa 10:**
Quantidade por País e Geração

In [16]:
# Adicionar coluna Geração
df_nomes = df_nomes.withColumn(
    "Geracao",
    F.expr("""
        CASE
            WHEN AnoNascimento BETWEEN 1944 AND 1964 THEN 'Baby Boomers'
            WHEN AnoNascimento BETWEEN 1965 AND 1979 THEN 'Geração X'
            WHEN AnoNascimento BETWEEN 1980 AND 1994 THEN 'Millennials'
            WHEN AnoNascimento BETWEEN 1995 AND 2015 THEN 'Geração Z'
        END
    """)
)

# Registrar a tabela temporária
df_nomes.createOrReplaceTempView("pessoas")

# Consulta SQL
geracoes_pais = spark.sql("""
    SELECT Pais, Geracao, COUNT(*) as Quantidade
    FROM pessoas
    GROUP BY Pais, Geracao
    ORDER BY Pais, Geracao, Quantidade
""")
geracoes_pais.show()


+---------+------------+----------+
|     Pais|     Geracao|Quantidade|
+---------+------------+----------+
|Argentina|Baby Boomers|    236454|
|Argentina|   Geração X|    177610|
|Argentina|   Geração Z|    177399|
|Argentina| Millennials|    177183|
|  Bolívia|Baby Boomers|    436371|
|  Bolívia|   Geração X|    327892|
|  Bolívia|   Geração Z|    328097|
|  Bolívia| Millennials|    328700|
|   Brasil|Baby Boomers|    555104|
|   Brasil|   Geração X|    415880|
|   Brasil|   Geração Z|    415821|
|   Brasil| Millennials|    415013|
|    Chile|Baby Boomers|    567997|
|    Chile|   Geração X|    426552|
|    Chile|   Geração Z|    426902|
|    Chile| Millennials|    426817|
| Colômbia|Baby Boomers|    492984|
| Colômbia|   Geração X|    369072|
| Colômbia|   Geração Z|    370086|
| Colômbia| Millennials|    369023|
+---------+------------+----------+
only showing top 20 rows

