# Importando bibliotecas

In [2]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SQLContext
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
from pyspark.sql.functions import rand, when, col, round

In [3]:
spark = SparkSession \
            .builder \
            .master("local[*]")\
            .appName("Exercicio 02")\
            .getOrCreate()

# Schemas

In [4]:
schema = StructType([
    StructField("Nomes", StringType(), True),
    StructField("Escolaridade", StringType(), True),
    StructField("Pais", StringType(), True),
    StructField("AnoNascimento", IntegerType(), True)
])

# Etapa 1 

In [5]:
df = spark.read.csv("nomes_aleatorios.txt", header=False)
df_nomes = df
df_nomes.show(10)

+-----------------+
|              _c0|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



# Etapa 2

In [6]:
df = spark.read.csv("nomes_aleatorios.txt", header=False, schema=schema, sep=",")
df_nomes = df.withColumnRenamed("value", "Nomes")
df_nomes.printSchema()
df_nomes.show(10)

root
 |-- Nomes: string (nullable = true)
 |-- Escolaridade: string (nullable = true)
 |-- Pais: string (nullable = true)
 |-- AnoNascimento: integer (nullable = true)

+-----------------+------------+----+-------------+
|            Nomes|Escolaridade|Pais|AnoNascimento|
+-----------------+------------+----+-------------+
|   Frances Bennet|        NULL|NULL|         NULL|
|    Jamie Russell|        NULL|NULL|         NULL|
|   Edward Kistler|        NULL|NULL|         NULL|
|    Sheila Maurer|        NULL|NULL|         NULL|
| Donald Golightly|        NULL|NULL|         NULL|
|       David Gray|        NULL|NULL|         NULL|
|      Joy Bennett|        NULL|NULL|         NULL|
|      Paul Kriese|        NULL|NULL|         NULL|
|Berniece Ornellas|        NULL|NULL|         NULL|
|    Brian Farrell|        NULL|NULL|         NULL|
+-----------------+------------+----+-------------+
only showing top 10 rows



# Etapa 3

In [7]:
df = spark.read.csv("nomes_aleatorios.txt", header=False, schema=schema, sep=",")
df_nomes = df_nomes.withColumn("Escolaridade",
                         when(rand() < 0.3, "Fundamental")
                         .when(rand() >=0.3,"Medio")
                         .otherwise("Superior"))
df_nomes.show(10)


+-----------------+------------+----+-------------+
|            Nomes|Escolaridade|Pais|AnoNascimento|
+-----------------+------------+----+-------------+
|   Frances Bennet|    Superior|NULL|         NULL|
|    Jamie Russell| Fundamental|NULL|         NULL|
|   Edward Kistler|    Superior|NULL|         NULL|
|    Sheila Maurer| Fundamental|NULL|         NULL|
| Donald Golightly| Fundamental|NULL|         NULL|
|       David Gray| Fundamental|NULL|         NULL|
|      Joy Bennett| Fundamental|NULL|         NULL|
|      Paul Kriese|       Medio|NULL|         NULL|
|Berniece Ornellas|    Superior|NULL|         NULL|
|    Brian Farrell|    Superior|NULL|         NULL|
+-----------------+------------+----+-------------+
only showing top 10 rows



# Etapa 4

In [8]:
df_nomes= df_nomes.withColumn("Pais", 
                       when(rand() < 0.0769, "Argentina")
                        .when(rand() >= 0.3069, "Bolívia")
                        .when(rand() >= 0.1538, "Brasil")
                        .when(rand() >= 0.2307, "Chile")
                        .when(rand() >= 0.3076, "Colômbia")
                        .when(rand() >= 0.3845, "Equador")
                        .when(rand() >= 0.4614, "Guiana")
                        .when(rand() >= 0.5383, "França (Guiana Francesa)")
                        .when(rand() >= 0.6152, "Paraguai")
                        .when(rand() >= 0.6921, "Peru")
                        .when(rand() >= 0.769, "Suriname")
                        .when(rand() >= 0.8459, "Uruguai")
                        .when(rand() >= 0.9228, "Venezuela"))                          
df_nomes.show(10)

+-----------------+------------+-------+-------------+
|            Nomes|Escolaridade|   Pais|AnoNascimento|
+-----------------+------------+-------+-------------+
|   Frances Bennet|    Superior|Bolívia|         NULL|
|    Jamie Russell| Fundamental| Brasil|         NULL|
|   Edward Kistler|    Superior|  Chile|         NULL|
|    Sheila Maurer| Fundamental|Bolívia|         NULL|
| Donald Golightly| Fundamental|Bolívia|         NULL|
|       David Gray| Fundamental|Bolívia|         NULL|
|      Joy Bennett| Fundamental|Bolívia|         NULL|
|      Paul Kriese|       Medio|Bolívia|         NULL|
|Berniece Ornellas|    Superior|Bolívia|         NULL|
|    Brian Farrell|    Superior| Brasil|         NULL|
+-----------------+------------+-------+-------------+
only showing top 10 rows



# Etapa 5

In [9]:
df_nomes = df_nomes.withColumn("AnoNascimento",
                              round(1945 + (2010 - 1945) * rand()).cast("integer"))
df_nomes.show(10)

+-----------------+------------+-------+-------------+
|            Nomes|Escolaridade|   Pais|AnoNascimento|
+-----------------+------------+-------+-------------+
|   Frances Bennet|    Superior|Bolívia|         1974|
|    Jamie Russell| Fundamental| Brasil|         1946|
|   Edward Kistler|    Superior|  Chile|         1979|
|    Sheila Maurer| Fundamental|Bolívia|         1997|
| Donald Golightly| Fundamental|Bolívia|         1989|
|       David Gray| Fundamental|Bolívia|         1993|
|      Joy Bennett| Fundamental|Bolívia|         1984|
|      Paul Kriese|       Medio|Bolívia|         1957|
|Berniece Ornellas|    Superior|Bolívia|         1993|
|    Brian Farrell|    Superior| Brasil|         2004|
+-----------------+------------+-------+-------------+
only showing top 10 rows



# Etapa 6

In [10]:

df_select = df_nomes.where(col("AnoNascimento") >= 2001)

df_select.show(10)

+----------------+------------+---------+-------------+
|           Nomes|Escolaridade|     Pais|AnoNascimento|
+----------------+------------+---------+-------------+
|   Brian Farrell|    Superior|   Brasil|         2004|
|     Page Marthe|       Medio|  Bolívia|         2001|
|         Lois Ly|    Superior|  Bolívia|         2007|
|Wallace Mitchell|       Medio|   Brasil|         2001|
|  Amanda Gravitt|    Superior|  Bolívia|         2009|
|        Mary Lee|    Superior|  Bolívia|         2010|
|    Jerry Remick|       Medio|Argentina|         2002|
| Suzanne Bullard| Fundamental|  Bolívia|         2003|
| Pamela Banuelos|       Medio|  Bolívia|         2003|
|   Theresa Avila|       Medio|  Bolívia|         2009|
+----------------+------------+---------+-------------+
only showing top 10 rows



# Etapa 7

In [11]:
# if not spark.catalog.tableExists("Person"):
#     df_nomes.write.saveAsTable("Person")
    
#df_select= spark.table("Person")

df_nomes.createOrReplaceTempView("Person")
spark.sql("select * from Person").show()

+-----------------+------------+-------+-------------+
|            Nomes|Escolaridade|   Pais|AnoNascimento|
+-----------------+------------+-------+-------------+
|   Frances Bennet|    Superior|Bolívia|         1974|
|    Jamie Russell| Fundamental| Brasil|         1946|
|   Edward Kistler|    Superior|  Chile|         1979|
|    Sheila Maurer| Fundamental|Bolívia|         1997|
| Donald Golightly| Fundamental|Bolívia|         1989|
|       David Gray| Fundamental|Bolívia|         1993|
|      Joy Bennett| Fundamental|Bolívia|         1984|
|      Paul Kriese|       Medio|Bolívia|         1957|
|Berniece Ornellas|    Superior|Bolívia|         1993|
|    Brian Farrell|    Superior| Brasil|         2004|
|   Kara Mcelwaine|    Superior| Brasil|         1959|
|    Tracy Herring|       Medio| Brasil|         1985|
|  Howard Lazarine|       Medio|Bolívia|         1955|
|     Leroy Strahl|    Superior|Bolívia|         1948|
|     Ernest Hulet| Fundamental|Bolívia|         1958|
|     Davi

# Etapa 8

In [12]:
Num_Millennials = spark.sql("select * from Person where AnoNascimento BETWEEN 1980 AND 1994").count()
print(f"O numero de individuos que são da geração Millennials:{Num_Millennials}")

O numero de individuos que são da geração Millennials:2307599


# Etapa 9

In [13]:
df_Millennials = spark.sql("SELECT COUNT(*) AS Millennials_Count FROM Person WHERE AnoNascimento BETWEEN 1980 AND 1994")
df_Millennials.show()

+-----------------+
|Millennials_Count|
+-----------------+
|          2307599|
+-----------------+



# Etapa 10

In [15]:
df_nomes.createOrReplaceTempView("Person")
df_result = spark.sql("""
    SELECT 
        Pais,
        CASE
            WHEN AnoNascimento BETWEEN 1944 AND 1964 THEN 'Baby Boomers'
            WHEN AnoNascimento BETWEEN 1965 AND 1979 THEN 'Geração X'
            WHEN AnoNascimento BETWEEN 1980 AND 1994 THEN 'Millennials'
            WHEN AnoNascimento BETWEEN 1995 AND 2015 THEN 'Geração Z'
        END AS Geracao,
        COUNT(*) AS Quantidade
    FROM Person
    WHERE Pais IS NOT NULL
    GROUP BY Pais, Geracao
    ORDER BY Pais, Geracao, Quantidade
""")

df_result.show()

+---------+------------+----------+
|     Pais|     Geracao|Quantidade|
+---------+------------+----------+
|Argentina|Baby Boomers|    230116|
|Argentina|   Geração X|    176650|
|Argentina|   Geração Z|    183532|
|Argentina| Millennials|    177325|
|  Bolívia|Baby Boomers|   1919580|
|  Bolívia|   Geração X|   1477158|
|  Bolívia|   Geração Z|   1526685|
|  Bolívia| Millennials|   1477523|
|   Brasil|Baby Boomers|    720302|
|   Brasil|   Geração X|    553181|
|   Brasil|   Geração Z|    570381|
|   Brasil| Millennials|    552537|
|    Chile|Baby Boomers|    100215|
|    Chile|   Geração X|     77511|
|    Chile|   Geração Z|     79458|
|    Chile| Millennials|     76979|
| Colômbia|Baby Boomers|     20794|
| Colômbia|   Geração X|     16170|
| Colômbia|   Geração Z|     16582|
| Colômbia| Millennials|     16068|
+---------+------------+----------+
only showing top 20 rows

