# **EXERCÍCIO APACHE SPARK**

### **Bibliotecas usada**

In [1]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SQLContext
from pyspark.sql.functions import col,lit,rand,when


### **Inicia a Sessão Spark**

In [2]:
spark = SparkSession \
         .builder \
         .master("local[*]")\
         .appName("Exercício Intro") \
         .getOrCreate()

## **Etapa 01**

In [3]:
df_nomes = spark.read.csv("C:\\Users\\bianc\\PycharmProjects\\BiancaLages\\Sprint_8\\Exercícios\\Apache_Spark\\nomes_aleatorios.txt", header=False, inferSchema=True)
df_nomes.show(10)

+-----------------+
|              _c0|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



## **Etapa 02**

In [4]:
df_nomes = df_nomes.withColumnRenamed('_c0','Nomes')
df_nomes.show(10)

+-----------------+
|            Nomes|
+-----------------+
|   Frances Bennet|
|    Jamie Russell|
|   Edward Kistler|
|    Sheila Maurer|
| Donald Golightly|
|       David Gray|
|      Joy Bennett|
|      Paul Kriese|
|Berniece Ornellas|
|    Brian Farrell|
+-----------------+
only showing top 10 rows



## **Etapa 03**

In [5]:
df_nomes = df_nomes.withColumn(
    "Escolaridade",
    when(rand() <= 0.33, lit("Fundamental"))
    .when((rand() > 0.33) & (rand() <= 0.66), lit("Médio"))
    .otherwise(lit("Superior"))
)
df_nomes.show(10)

+-----------------+------------+
|            Nomes|Escolaridade|
+-----------------+------------+
|   Frances Bennet| Fundamental|
|    Jamie Russell|    Superior|
|   Edward Kistler|    Superior|
|    Sheila Maurer| Fundamental|
| Donald Golightly|       Médio|
|       David Gray| Fundamental|
|      Joy Bennett|    Superior|
|      Paul Kriese|       Médio|
|Berniece Ornellas|       Médio|
|    Brian Farrell| Fundamental|
+-----------------+------------+
only showing top 10 rows



## **Etapa 04**

In [6]:
paises_sul_america = ["Brasil", "Argentina", "Bolívia", "Chile", "Colômbia", "Equador",
                      "Guiana", "Paraguai", "Peru", "Suriname", "Uruguai", "Venezuela"]

df_nomes = df_nomes.withColumn(
    "Pais",
    when(rand() <= 1/13, lit("Brasil"))
    .when(rand() <= 1/13, lit("Argentina"))
    .when(rand() <= 1/13, lit("Bolivia"))
    .when(rand() <= 1/13, lit("Chile"))
    .when(rand() <= 1/13, lit("Colombia"))
    .when(rand() <= 1/13, lit("Equador"))
    .when(rand() <= 1/13, lit("Guiana"))
    .when(rand() <= 1/13, lit("Paraguai"))
    .when(rand() <= 1/13, lit("Peru"))
    .when(rand() <= 1/13, lit("Suriname"))
    .when(rand() <= 1/13, lit("Uruguai"))
    .when(rand() <= 1/13, lit("Venezuela"))
    .otherwise(lit("Venezuela"))

)
df_nomes.show(10)

+-----------------+------------+---------+
|            Nomes|Escolaridade|     Pais|
+-----------------+------------+---------+
|   Frances Bennet| Fundamental|   Brasil|
|    Jamie Russell|    Superior|  Equador|
|   Edward Kistler|    Superior|Venezuela|
|    Sheila Maurer| Fundamental|  Bolivia|
| Donald Golightly|       Médio|Venezuela|
|       David Gray| Fundamental| Colombia|
|      Joy Bennett|    Superior| Paraguai|
|      Paul Kriese|       Médio|   Guiana|
|Berniece Ornellas|       Médio|Venezuela|
|    Brian Farrell| Fundamental|Argentina|
+-----------------+------------+---------+
only showing top 10 rows



## **Etapa 05**

In [7]:
df_nomes = df_nomes.withColumn("AnoNascimento", (rand() * 65 + 1945).cast("int"))
df_nomes.show(10)

+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet| Fundamental|   Brasil|         1987|
|    Jamie Russell|    Superior|  Equador|         1952|
|   Edward Kistler|    Superior|Venezuela|         1946|
|    Sheila Maurer| Fundamental|  Bolivia|         1975|
| Donald Golightly|       Médio|Venezuela|         1990|
|       David Gray| Fundamental| Colombia|         1973|
|      Joy Bennett|    Superior| Paraguai|         2008|
|      Paul Kriese|       Médio|   Guiana|         1988|
|Berniece Ornellas|       Médio|Venezuela|         1996|
|    Brian Farrell| Fundamental|Argentina|         1987|
+-----------------+------------+---------+-------------+
only showing top 10 rows



## **Etapa 06**

In [8]:
df_select = df_nomes.filter(col("AnoNascimento") >= 2001)
df_select.select("Nomes").show(10)

+-----------------+
|            Nomes|
+-----------------+
|      Joy Bennett|
|  Howard Lazarine|
|   Amanda Gravitt|
|    George Miller|
|    Evelyn Shaver|
|Marguerite Rankin|
|      Rita Walter|
| Richelle Vasquez|
|George Fiorentino|
|    Melissa Rocha|
+-----------------+
only showing top 10 rows



## **Etapa 07**

In [9]:
df_nomes.createOrReplaceTempView("pessoas")
spark.sql("select * from pessoas").show()
spark.sql("select * from pessoas where AnoNascimento >= 2001").show()

+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet| Fundamental|   Brasil|         1987|
|    Jamie Russell|    Superior|  Equador|         1952|
|   Edward Kistler|    Superior|Venezuela|         1946|
|    Sheila Maurer| Fundamental|  Bolivia|         1975|
| Donald Golightly|       Médio|Venezuela|         1990|
|       David Gray| Fundamental| Colombia|         1973|
|      Joy Bennett|    Superior| Paraguai|         2008|
|      Paul Kriese|       Médio|   Guiana|         1988|
|Berniece Ornellas|       Médio|Venezuela|         1996|
|    Brian Farrell| Fundamental|Argentina|         1987|
|   Kara Mcelwaine| Fundamental|Venezuela|         1945|
|    Tracy Herring|       Médio| Suriname|         1983|
|  Howard Lazarine|    Superior|   Guiana|         2008|
|     Leroy Strahl|       Médio|Venezuela|         1965|
|     Ernest Hulet| Fundamental

## **Etapa08**

In [10]:
millennials = df_nomes.filter((col("AnoNascimento") >= 1980) &(col("AnoNascimento") <= 1994))
num_millenials = millennials.count()
print("Número de Millennials: ", num_millenials)

Número de Millennials:  2305978


## **Etapa 09**

In [11]:
resultado = spark.sql("""
    select count(*) as num_millenials
    from pessoas
    where AnoNascimento BETWEEN 1980 and 1994
""")
resultado.show()

+--------------+
|num_millenials|
+--------------+
|       2305978|
+--------------+



## **Etapa 10**

In [12]:
resposta = spark.sql("""
    select
        Pais,
        case
            when AnoNaScimento BETWEEN 1944 AND 1964 THEN "Baby Boomers"
            when AnoNascimento BETWEEN 1965 AND 1979 THEN "Geração X"
            when AnoNascimento BETWEEN 1980 AND 1994 THEN "Millenials"
            when AnoNascimento BETWEEN 1995 AND 2015 THEN "Geração Z"
            else "Outras Gerações"
        end as geracao,
        count(*) as quantidade
    from pessoas
    group by Pais, geracao
    order by Pais, geracao , quantidade
""")
resposta.show()

+---------+------------+----------+
|     Pais|     geracao|quantidade|
+---------+------------+----------+
|Argentina|Baby Boomers|    218096|
|Argentina|   Geração X|    163602|
|Argentina|   Geração Z|    164006|
|Argentina|  Millenials|    163380|
|  Bolivia|Baby Boomers|    201868|
|  Bolivia|   Geração X|    151248|
|  Bolivia|   Geração Z|    151932|
|  Bolivia|  Millenials|    150741|
|   Brasil|Baby Boomers|    237133|
|   Brasil|   Geração X|    177511|
|   Brasil|   Geração Z|    177893|
|   Brasil|  Millenials|    177655|
|    Chile|Baby Boomers|    186357|
|    Chile|   Geração X|    139676|
|    Chile|   Geração Z|    140114|
|    Chile|  Millenials|    139838|
| Colombia|Baby Boomers|    171443|
| Colombia|   Geração X|    128308|
| Colombia|   Geração Z|    128975|
| Colombia|  Millenials|    128620|
+---------+------------+----------+
only showing top 20 rows

