In [2]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SQLContext

spark = SparkSession.builder.master("local[*]").appName("Exercicio Intro").getOrCreate()

df_nomes = spark.read.csv("nomes_aleatorios.txt")

df_nomes.show(5)

+----------------+
|             _c0|
+----------------+
|  Frances Bennet|
|   Jamie Russell|
|  Edward Kistler|
|   Sheila Maurer|
|Donald Golightly|
+----------------+
only showing top 5 rows



In [3]:
df_nomes.printSchema()
df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")
df_nomes.printSchema()
df_nomes.show(10)


root
 |-- _c0: string (nullable = true)

root
 |-- Nomes: string (nullable = true)

+-----------------+
|            Nomes|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



In [4]:
from pyspark.sql.functions import *

escolaridades = ['Fundamental', 'Medio', 'Superior']

df_nomes = df_nomes.withColumn("Escolaridade", element_at(lit(escolaridades), 
                                                          (rand() * len(escolaridades) + 1).cast("int")))
df_nomes.show()

+-----------------+------------+
|            Nomes|Escolaridade|
+-----------------+------------+
|   Frances Bennet|    Superior|
|    Jamie Russell|    Superior|
|   Edward Kistler|    Superior|
|    Sheila Maurer| Fundamental|
| Donald Golightly|       Medio|
|       David Gray|       Medio|
|      Joy Bennett|    Superior|
|      Paul Kriese|       Medio|
|Berniece Ornellas|    Superior|
|    Brian Farrell|    Superior|
|   Kara Mcelwaine|    Superior|
|    Tracy Herring|       Medio|
|  Howard Lazarine|    Superior|
|     Leroy Strahl| Fundamental|
|     Ernest Hulet|       Medio|
|     David Medina|       Medio|
|   Lorenzo Woodis|    Superior|
|      Page Marthe|    Superior|
|   Herbert Morris|       Medio|
|      Albert Leef|    Superior|
+-----------------+------------+
only showing top 20 rows



In [15]:
paises = [
    "Argentina", "Bolívia", "Brasil", "Chile", "Colômbia",
    "Equador", "Guiana", "Guiana Francesa", "Paraguai", "Peru",
    "Suriname", "Uruguai", "Venezuela"
]

df_nomes = df_nomes.withColumn("Pais", element_at(lit(paises), (rand() * len(paises) + 1).cast("int")))
df_nomes.show()

+-----------------+------------+-------------+---------------+
|            Nomes|Escolaridade|anoNascimento|           Pais|
+-----------------+------------+-------------+---------------+
|   Frances Bennet|    Superior|         1986|       Paraguai|
|    Jamie Russell|    Superior|         1962|       Suriname|
|   Edward Kistler|    Superior|         1978|        Equador|
|    Sheila Maurer| Fundamental|         1980|        Uruguai|
| Donald Golightly|       Medio|         1947|Guiana Francesa|
|       David Gray|       Medio|         1956|          Chile|
|      Joy Bennett|    Superior|         1995|       Paraguai|
|      Paul Kriese|       Medio|         1996|         Brasil|
|Berniece Ornellas|    Superior|         1972|      Venezuela|
|    Brian Farrell|    Superior|         1950|          Chile|
|   Kara Mcelwaine|    Superior|         1948|       Paraguai|
|    Tracy Herring|       Medio|         1948|        Equador|
|  Howard Lazarine|    Superior|         1982|       Pa

In [5]:
df_nomes = df_nomes.withColumn("anoNascimento", (rand() * 65 + 1945).cast("int"))
df_nomes.show()

+-----------------+------------+-------------+
|            Nomes|Escolaridade|anoNascimento|
+-----------------+------------+-------------+
|   Frances Bennet|    Superior|         1986|
|    Jamie Russell|    Superior|         1962|
|   Edward Kistler|    Superior|         1978|
|    Sheila Maurer| Fundamental|         1980|
| Donald Golightly|       Medio|         1947|
|       David Gray|       Medio|         1956|
|      Joy Bennett|    Superior|         1995|
|      Paul Kriese|       Medio|         1996|
|Berniece Ornellas|    Superior|         1972|
|    Brian Farrell|    Superior|         1950|
|   Kara Mcelwaine|    Superior|         1948|
|    Tracy Herring|       Medio|         1948|
|  Howard Lazarine|    Superior|         1982|
|     Leroy Strahl| Fundamental|         1965|
|     Ernest Hulet|       Medio|         1991|
|     David Medina|       Medio|         1968|
|   Lorenzo Woodis|    Superior|         1978|
|      Page Marthe|    Superior|         2002|
|   Herbert M

In [6]:
df_select = df_nomes.select("*").where(col("anoNascimento") > 2000)
df_select.select("Nomes", "anoNascimento").show(10)

+---------------+-------------+
|          Nomes|anoNascimento|
+---------------+-------------+
|    Page Marthe|         2002|
|   Charles Hill|         2004|
|Jerry Chynoweth|         2007|
|    Sandra Todd|         2002|
|  Milton Dillon|         2002|
|     Ned Tester|         2009|
|  Lynne Dustman|         2003|
|   Juliet Liles|         2001|
|  Jenna Johnson|         2007|
|   Ida Randazzo|         2003|
+---------------+-------------+
only showing top 10 rows



In [8]:
df_nomes.createOrReplaceTempView("pessoas")
spark.sql("SELECT * FROM pessoas WHERE anoNascimento > 2000").show()

+----------------+------------+-------------+
|           Nomes|Escolaridade|anoNascimento|
+----------------+------------+-------------+
|     Page Marthe|    Superior|         2002|
|    Charles Hill| Fundamental|         2004|
| Jerry Chynoweth| Fundamental|         2007|
|     Sandra Todd|    Superior|         2002|
|   Milton Dillon|    Superior|         2002|
|      Ned Tester|       Medio|         2009|
|   Lynne Dustman|       Medio|         2003|
|    Juliet Liles|    Superior|         2001|
|   Jenna Johnson|    Superior|         2007|
|    Ida Randazzo| Fundamental|         2003|
|    Jerry Remick| Fundamental|         2002|
| Suzanne Bullard|    Superior|         2003|
|    Curtis Sutch|       Medio|         2007|
| Pamela Banuelos| Fundamental|         2009|
| Kenneth Rayburn|    Superior|         2006|
|    Martha Brown|       Medio|         2003|
| Christine Frank|    Superior|         2002|
|Michael Anderson| Fundamental|         2006|
|      Stacy Koch|       Medio|   

In [13]:
df_nomes.select("*").where((col("anoNascimento") >= 1980) & 
                           (col("anoNascimento") <= 1994)).select(count("*")).show()

+--------+
|count(1)|
+--------+
| 2309538|
+--------+



In [9]:
df_nomes.createOrReplaceTempView("pessoas")
spark.sql("SELECT count(*) FROM pessoas WHERE anoNascimento >= 1980 AND anoNascimento <= 1994").show()

+--------+
|count(1)|
+--------+
| 2308218|
+--------+



In [16]:
df_nomes.createOrReplaceTempView("pessoas")
df_geracoes = spark.sql(
    "WITH tabela AS (\
        SELECT Nomes, Pais,\
        CASE\
            WHEN (anoNascimento >= 1944 AND anoNascimento <= 1964) THEN 'Baby Boomer'\
            WHEN (anoNascimento >= 1965 AND anoNascimento <= 1979) THEN 'Geracao X'\
            WHEN (anoNascimento >= 1980 AND anoNascimento <= 1994) THEN 'Millenial'\
            WHEN (anoNascimento >= 1995 AND anoNascimento <= 2015) THEN 'Geracao Z'\
            ELSE 'NULL'\
        END AS Geracao\
        FROM pessoas\
    )\
    SELECT Pais, Geracao, count(*) as Quantidade\
    FROM tabela\
    GROUP BY Geracao, Pais"
)
df_geracoes.createOrReplaceTempView("geracoes")
spark.sql("SELECT * FROM geracoes ORDER BY Pais, Geracao").show(52)

+---------------+-----------+----------+
|           Pais|    Geracao|Quantidade|
+---------------+-----------+----------+
|      Argentina|Baby Boomer|    237217|
|      Argentina|  Geracao X|    177254|
|      Argentina|  Geracao Z|    177596|
|      Argentina|  Millenial|    177865|
|        Bolívia|Baby Boomer|    236943|
|        Bolívia|  Geracao X|    177094|
|        Bolívia|  Geracao Z|    177403|
|        Bolívia|  Millenial|    177687|
|         Brasil|Baby Boomer|    236867|
|         Brasil|  Geracao X|    177162|
|         Brasil|  Geracao Z|    177046|
|         Brasil|  Millenial|    177466|
|          Chile|Baby Boomer|    237387|
|          Chile|  Geracao X|    177579|
|          Chile|  Geracao Z|    177658|
|          Chile|  Millenial|    178066|
|       Colômbia|Baby Boomer|    236452|
|       Colômbia|  Geracao X|    177883|
|       Colômbia|  Geracao Z|    177133|
|       Colômbia|  Millenial|    177909|
|        Equador|Baby Boomer|    235211|
|        Equador