In [2]:
!pip install pyspark

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from google.colab import files

# Fazer upload do arquivo 'nomes_aleatorios.txt'
uploaded = files.upload()

# Criar a Spark Session
spark = SparkSession.builder.master("local[*]").appName("Exercicio Intro").getOrCreate()

# Ler o arquivo 'nomes_aleatorios.txt' e carregar em um DataFrame
df_nomes = spark.read.text(list(uploaded.keys())[0])
df_nomes = df_nomes.withColumn("Nomes", split(col("value"), "\n").getItem(0))
df_nomes = df_nomes.drop("value")

# Exibir as primeiras 5 linhas
df_nomes.show(5)


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyspark
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.4.1-py2.py3-none-any.whl size=311285398 sha256=69927aedc6e285950448472dadbad70a5740d255dcd80a22481201d521314b41
  Stored in directory: /root/.cache/pip/wheels/0d/77/a3/ff2f74cc9ab41f8f594dabf0579c2a7c6de920d584206e0834
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.4.1


Saving nomes_aleatorios.txt to nomes_aleatorios.txt
+----------------+
|           Nomes|
+----------------+
|  Frances Bennet|
|   Jamie Russell|
|  Edward Kistler|
|   Sheila Maurer|
|Donald Golightly|
+----------------+
only showing top 5 rows



In [30]:
from pyspark.sql.types import StringType

In [31]:
df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")
df_nomes.printSchema()
df_nomes.show(10)

root
 |-- Nomes: string (nullable = true)
 |-- Escolaridade: string (nullable = false)
 |-- Pais: string (nullable = false)
 |-- AnoNascimento: date (nullable = true)

+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet|    Superior|Argentina|   1981-01-01|
|    Jamie Russell| Fundamental|Venezuela|   1986-01-01|
|   Edward Kistler| Fundamental|   Brasil|   1987-01-01|
|    Sheila Maurer|    Superior|Venezuela|   2004-01-01|
| Donald Golightly| Fundamental|    Chile|   1964-01-01|
|       David Gray| Fundamental|     Peru|   1999-01-01|
|      Joy Bennett| Fundamental|    Chile|   1986-01-01|
|      Paul Kriese| Fundamental|  Bolívia|   1967-01-01|
|Berniece Ornellas|       Medio|    Chile|   1955-01-01|
|    Brian Farrell|       Medio|    Chile|   1981-01-01|
+-----------------+------------+---------+-------------+
only showing top 10 rows



In [32]:
df_nomes = df_nomes.withColumn("Escolaridade", when(rand() < 1/3, lit("Fundamental"))
                           .when(rand() < 2/3, lit("Medio"))
                           .otherwise(lit("Superior")))
df_nomes.show(10)

+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet|    Superior|Argentina|   1981-01-01|
|    Jamie Russell| Fundamental|Venezuela|   1986-01-01|
|   Edward Kistler|       Medio|   Brasil|   1987-01-01|
|    Sheila Maurer| Fundamental|Venezuela|   2004-01-01|
| Donald Golightly| Fundamental|    Chile|   1964-01-01|
|       David Gray|    Superior|     Peru|   1999-01-01|
|      Joy Bennett|       Medio|    Chile|   1986-01-01|
|      Paul Kriese| Fundamental|  Bolívia|   1967-01-01|
|Berniece Ornellas|       Medio|    Chile|   1955-01-01|
|    Brian Farrell|       Medio|    Chile|   1981-01-01|
+-----------------+------------+---------+-------------+
only showing top 10 rows



In [33]:
from pyspark.sql.functions import rand, when

# Lista dos países da América do Sul
paises_am_sul = ["Brasil", "Argentina", "Colômbia", "Peru", "Venezuela", "Chile", "Equador", "Bolívia", "Paraguai", "Uruguai", "Guiana", "Suriname", "Guiana Francesa"]

# Adicionar a coluna "Pais" com um país aleatório da lista
df_nomes = df_nomes.withColumn("Pais", when(rand() < 1/13, paises_am_sul[0])
                                    .when(rand() < 2/13, paises_am_sul[1])
                                    .when(rand() < 3/13, paises_am_sul[2])
                                    .when(rand() < 4/13, paises_am_sul[3])
                                    .when(rand() < 5/13, paises_am_sul[4])
                                    .when(rand() < 6/13, paises_am_sul[5])
                                    .when(rand() < 7/13, paises_am_sul[6])
                                    .when(rand() < 8/13, paises_am_sul[7])
                                    .when(rand() < 9/13, paises_am_sul[8])
                                    .when(rand() < 10/13, paises_am_sul[9])
                                    .when(rand() < 11/13, paises_am_sul[10])
                                    .when(rand() < 12/13, paises_am_sul[11])
                                    .otherwise(paises_am_sul[12]))

# Exibir as 10 primeiras linhas com as colunas "Nomes", "Escolaridade" e "Pais"
df_nomes.show(10)


+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet|    Superior|  Bolívia|   1981-01-01|
|    Jamie Russell| Fundamental|    Chile|   1986-01-01|
|   Edward Kistler|       Medio|Venezuela|   1987-01-01|
|    Sheila Maurer| Fundamental| Colômbia|   2004-01-01|
| Donald Golightly| Fundamental|  Equador|   1964-01-01|
|       David Gray|    Superior|  Equador|   1999-01-01|
|      Joy Bennett|       Medio|Argentina|   1986-01-01|
|      Paul Kriese| Fundamental| Colômbia|   1967-01-01|
|Berniece Ornellas|       Medio|    Chile|   1955-01-01|
|    Brian Farrell|       Medio|     Peru|   1981-01-01|
+-----------------+------------+---------+-------------+
only showing top 10 rows



In [34]:
from pyspark.sql.functions import rand, expr

# Adicionar a coluna "AnoNascimento" com valores aleatórios entre 1945 e 2010
df_nomes = df_nomes.withColumn("AnoNascimento", expr("CAST((rand() * 66 + 1945) AS INT)"))

# Exibir as 10 primeiras linhas com as colunas "Nomes", "Escolaridade", "Pais" e "AnoNascimento"
df_nomes.show(10)


+-----------------+------------+---------+-------------+
|            Nomes|Escolaridade|     Pais|AnoNascimento|
+-----------------+------------+---------+-------------+
|   Frances Bennet|    Superior|  Bolívia|         1979|
|    Jamie Russell| Fundamental|    Chile|         1960|
|   Edward Kistler|       Medio|Venezuela|         2003|
|    Sheila Maurer| Fundamental| Colômbia|         1968|
| Donald Golightly| Fundamental|  Equador|         1987|
|       David Gray|    Superior|  Equador|         1983|
|      Joy Bennett|       Medio|Argentina|         1980|
|      Paul Kriese| Fundamental| Colômbia|         1999|
|Berniece Ornellas|       Medio|    Chile|         1956|
|    Brian Farrell|       Medio|     Peru|         1992|
+-----------------+------------+---------+-------------+
only showing top 10 rows



In [15]:
!pip install --upgrade pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [35]:
# Registrar o DataFrame como uma tabela temporária
df_nomes.createOrReplaceTempView("nomes_table")

# Executar a consulta SQL para selecionar as pessoas que nasceram a partir do ano 2001
query = """
    SELECT Nomes, Escolaridade, Pais, AnoNascimento
    FROM nomes_table
    WHERE AnoNascimento >= 2001
    LIMIT 10
"""

# Executar a consulta SQL e armazenar o resultado em um novo DataFrame
df_select = spark.sql(query)

# Exibir 10 nomes do DataFrame df_select
df_select.show()


+----------------+------------+---------+-------------+
|           Nomes|Escolaridade|     Pais|AnoNascimento|
+----------------+------------+---------+-------------+
|  Edward Kistler|       Medio|Venezuela|         2003|
| Howard Lazarine|       Medio|     Peru|         2006|
|    David Medina|    Superior|Venezuela|         2003|
|  Lorenzo Woodis|       Medio| Colômbia|         2005|
|  Herbert Morris| Fundamental|   Brasil|         2003|
| Helen Blackwell| Fundamental|   Brasil|         2006|
|Wallace Mitchell|    Superior|    Chile|         2009|
| Kenneth Rayburn|       Medio|Venezuela|         2002|
|  Mary Dillahunt|    Superior|Venezuela|         2003|
|     Sandra Todd|       Medio| Colômbia|         2007|
+----------------+------------+---------+-------------+



In [36]:
from pyspark.sql.functions import year, to_date

# Converter a coluna "AnoNascimento" para o tipo de data
df_nomes = df_nomes.withColumn("AnoNascimento", to_date(df_nomes["AnoNascimento"].cast("string"), "yyyy"))

# Filtrar as pessoas da geração Millennials
df_millennials = df_nomes.select("Nomes").filter(year("AnoNascimento").between(1980, 1994))

# Contar o número de pessoas na geração Millennials
count_millennials = df_millennials.count()

# Exibir o número de pessoas na geração Millennials
print("Número de pessoas na geração Millennials:", count_millennials)


Número de pessoas na geração Millennials: 2273005


In [37]:
# Registrar o DataFrame como uma tabela temporária
df_nomes.createOrReplaceTempView("nomes_table")

# Executar a consulta SQL para contar o número de pessoas da geração Millennials
query = """
    SELECT COUNT(*) AS count_millennials
    FROM nomes_table
    WHERE YEAR(AnoNascimento) BETWEEN 1980 AND 1994
"""

# Executar a consulta SQL e obter o resultado
result = spark.sql(query)

# Obter o número de pessoas na geração Millennials a partir do resultado
count_millennials = result.first()[0]

# Exibir o número de pessoas na geração Millennials
print("Número de pessoas na geração Millennials:", count_millennials)


Número de pessoas na geração Millennials: 2273005


In [38]:
# Registrar o DataFrame como uma tabela temporária
df_nomes.createOrReplaceTempView("nomes_table")

# Executar a consulta SQL para obter a contagem de pessoas por país e geração
query = """
    SELECT Pais,
           CASE
               WHEN YEAR(AnoNascimento) BETWEEN 1944 AND 1964 THEN 'Baby Boomers'
               WHEN YEAR(AnoNascimento) BETWEEN 1965 AND 1979 THEN 'Geracao X'
               WHEN YEAR(AnoNascimento) BETWEEN 1980 AND 1994 THEN 'Millennials'
               WHEN YEAR(AnoNascimento) BETWEEN 1995 AND 2015 THEN 'Geracao Z'
           END AS Geracao,
           COUNT(*) AS Quantidade
    FROM nomes_table
    GROUP BY Pais, Geracao
    ORDER BY Pais, Geracao
"""

# Executar a consulta SQL e armazenar o resultado em um novo DataFrame
df_result = spark.sql(query)

# Exibir todas as linhas do DataFrame df_result
df_result.show(df_result.count(), truncate=False)


+---------------+------------+----------+
|Pais           |Geracao     |Quantidade|
+---------------+------------+----------+
|Argentina      |Baby Boomers|430491    |
|Argentina      |Geracao X   |322605    |
|Argentina      |Geracao Z   |343737    |
|Argentina      |Millennials |322352    |
|Bolívia        |Baby Boomers|118439    |
|Bolívia        |Geracao X   |88751     |
|Bolívia        |Geracao Z   |94709     |
|Bolívia        |Millennials |88568     |
|Brasil         |Baby Boomers|232813    |
|Brasil         |Geracao X   |175564    |
|Brasil         |Geracao Z   |186227    |
|Brasil         |Millennials |174811    |
|Chile          |Baby Boomers|357895    |
|Chile          |Geracao X   |269472    |
|Chile          |Geracao Z   |286107    |
|Chile          |Millennials |269075    |
|Colômbia       |Baby Boomers|546328    |
|Colômbia       |Geracao X   |410658    |
|Colômbia       |Geracao Z   |436165    |
|Colômbia       |Millennials |409398    |
|Equador        |Baby Boomers|2244