### Exercício Geração de Dados Em Massa

#### Etapa 1

In [4]:
import random

inteiros = [random.randint(1, 1000) for _n in range(250)]
print("10 primeiros números da lista:", inteiros[:10])


10 primeiros números da lista: [101, 854, 170, 913, 327, 725, 336, 843, 851, 190]


#### Etapa 2

In [7]:
import os

animais = [
    "Leão", "Elefante", "Tigre", "Girafa", "Cachorro",
    "Gato", "Cavalo", "Papagaio", "Jacaré", "Tartaruga",
    "Águia", "Urso", "Lobo", "Camelo", "Macaco",
    "Pinguim", "Golfinho", "Tubarão", "Rinoceronte", "Cervo"
]

animais_ordenados = sorted(animais)

print("Animais em ordem alfabética:")
for animal in animais_ordenados:
    print(f"- {animal}")


nome_arquivo = "animais.csv"
with open(nome_arquivo, "w", encoding="utf-8") as arquivo:

    for animal in animais_ordenados:
        arquivo.write(animal + "\n")


Animais em ordem alfabética:
- Cachorro
- Camelo
- Cavalo
- Cervo
- Elefante
- Gato
- Girafa
- Golfinho
- Jacaré
- Leão
- Lobo
- Macaco
- Papagaio
- Pinguim
- Rinoceronte
- Tartaruga
- Tigre
- Tubarão
- Urso
- Águia


#### Etapa 3

In [22]:
import random
import names  
import time

random.seed(40)


qtd_nomes_unicos = 3000
qtd_nomes_aleatorios = 10000000


print("Gerando lista de nomes únicos...")
nomes_unicos = set()
while len(nomes_unicos) < qtd_nomes_unicos:
    nomes_unicos.add(names.get_full_name())

nomes_unicos = sorted(list(nomes_unicos))
print(f"Quantidade de nomes únicos gerados: {len(nomes_unicos)}")

print(f"Gerando {qtd_nomes_aleatorios} nomes aleatórios...")
nomes_aleatorios = [random.choice(nomes_unicos) for _ in range(qtd_nomes_aleatorios)]

nome_arquivo = "nomes_aleatorios.txt"
print(f"Salvando os nomes aleatórios no arquivo '{nome_arquivo}'...")
with open(nome_arquivo, "w", encoding="utf-8") as arquivo:
    for nome in nomes_aleatorios:
        arquivo.write(nome + "\n")

print(f"Arquivo '{nome_arquivo}' gerado com sucesso!")


Gerando lista de nomes únicos...
Quantidade de nomes únicos gerados: 3000
Gerando 10000000 nomes aleatórios...
Salvando os nomes aleatórios no arquivo 'nomes_aleatorios.txt'...
Arquivo 'nomes_aleatorios.txt' gerado com sucesso!


### Exercício PySpark

#### Códigos iniciais

In [8]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# Configuração do Spark
spark = SparkSession.builder.master("local[*]").appName("Exercicio Intro").getOrCreate()

# Ler o arquivo CSV no DataFrame
arquivo_nomes = "nomes_aleatorios.txt" 
df_nomes = spark.read.csv(arquivo_nomes, header=False, inferSchema=True)

# Renomear a coluna para "Nomes"
df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")

# Adicionar a coluna 'AnoNascimento' com valores aleatórios entre 1945 e 2010
df_nomes = df_nomes.withColumn(
    "AnoNascimento", 
    (F.floor(F.rand() * (2010 - 1945 + 1)) + 1945)
)


#### Etapa 1: Mostrar as primeiras 5 linhas do DataFrame

In [23]:
# Etapa 1: Mostrar as primeiras 5 linhas do DataFrame
df_nomes.show(5)

+----------------+-------------+------------+--------+---------+
|           Nomes|AnoNascimento|Escolaridade|    Pais|  Geracao|
+----------------+-------------+------------+--------+---------+
|Harrison Spencer|         1974|    Superior|  Brasil|Geração X|
|  Melissa Sobers|         2002| Fundamental|    Peru|Geração Z|
|   Werner Arnold|         1995|       Medio| Uruguai|Geração Z|
|     Terry Scott|         2004| Fundamental|   Chile|Geração Z|
|    Anna Leblanc|         1973|    Superior|Colômbia|Geração X|
+----------------+-------------+------------+--------+---------+
only showing top 5 rows



#### Etapa 2: Imprimir o schema do DataFrame e renomear a coluna

In [24]:
df_nomes.printSchema()

root
 |-- Nomes: string (nullable = true)
 |-- AnoNascimento: long (nullable = true)
 |-- Escolaridade: string (nullable = false)
 |-- Pais: string (nullable = false)
 |-- Geracao: string (nullable = false)



#### Etapa 3: Adicionar coluna 'Escolaridade' com valores aleatórios

In [None]:
escolaridades = ["Fundamental", "Medio", "Superior"]
df_nomes = df_nomes.withColumn(
    "Escolaridade", 
    F.when(F.rand() < 0.33, "Fundamental")
    .when((F.rand() >= 0.33) & (F.rand() < 0.66), "Medio")
    .otherwise("Superior")
)

#### Etapa 4: Adicionar coluna 'Pais' com valores aleatórios de países da América do Sul

In [26]:
paises_sul_america = ["Argentina", "Brasil", "Chile", "Colômbia", "Peru", "Paraguai", "Uruguai", "Equador", "Bolívia", "Venezuela", "Suriname", "Guiana", "Guiana Francesa"]
df_nomes = df_nomes.withColumn(
    "Pais", 
    F.when(F.rand() < 0.077, "Argentina")
    .when((F.rand() >= 0.077) & (F.rand() < 0.154), "Brasil")
    .when((F.rand() >= 0.154) & (F.rand() < 0.231), "Chile")
    .when((F.rand() >= 0.231) & (F.rand() < 0.308), "Colômbia")
    .when((F.rand() >= 0.308) & (F.rand() < 0.385), "Peru")
    .when((F.rand() >= 0.385) & (F.rand() < 0.462), "Paraguai")
    .when((F.rand() >= 0.462) & (F.rand() < 0.539), "Uruguai")
    .when((F.rand() >= 0.539) & (F.rand() < 0.616), "Equador")
    .when((F.rand() >= 0.616) & (F.rand() < 0.693), "Bolívia")
    .when((F.rand() >= 0.693) & (F.rand() < 0.77), "Venezuela")
    .when((F.rand() >= 0.77) & (F.rand() < 0.847), "Suriname")
    .when((F.rand() >= 0.847) & (F.rand() < 0.924), "Guiana")
    .otherwise("Guiana Francesa")
)

#### Etapa 5: Adicionar coluna 'AnoNascimento' com valores aleatórios entre 1945 e 2010

In [27]:
df_nomes = df_nomes.withColumn(
    "AnoNascimento", 
    (F.floor(F.rand() * (2010 - 1945 + 1)) + 1945)
)

#### Etapa 6: Filtrar pessoas que nasceram neste século (2001 - 2100)

In [28]:
df_select = df_nomes.filter(df_nomes.AnoNascimento >= 2001)
df_select.show(10)

+-----------------+-------------+------------+---------------+------------+
|            Nomes|AnoNascimento|Escolaridade|           Pais|     Geracao|
+-----------------+-------------+------------+---------------+------------+
|     Mary Salazar|         2003|       Medio|       Paraguai|   Geração X|
|    Cletus Hilton|         2009|       Medio|          Chile| Millennials|
|    Robert Venkus|         2006| Fundamental|        Equador|   Geração Z|
|     Aaron Gering|         2006|    Superior|       Paraguai|Baby Boomers|
|  Kathy Hillhouse|         2007|       Medio|        Uruguai| Millennials|
|    Timothy Wolfe|         2009|       Medio|       Paraguai|   Geração Z|
|Salvador Medovich|         2005| Fundamental|           Peru|   Geração Z|
|    Linda Menzies|         2002|    Superior|Guiana Francesa| Millennials|
|    Ashley Howery|         2009| Fundamental|           Peru| Millennials|
|     Joan Huseman|         2001| Fundamental|       Colômbia|Baby Boomers|
+-----------

#### Etapa 7: Usar Spark SQL para obter as pessoas que nasceram neste século

In [29]:
df_nomes.createOrReplaceTempView("pessoas")
resultado_sql_seculo = spark.sql("""
    SELECT * 
    FROM pessoas 
    WHERE AnoNascimento >= 2001
""")
resultado_sql_seculo.show(10)

+-----------------+-------------+------------+---------------+------------+
|            Nomes|AnoNascimento|Escolaridade|           Pais|     Geracao|
+-----------------+-------------+------------+---------------+------------+
|     Mary Salazar|         2003|       Medio|       Paraguai|   Geração X|
|    Cletus Hilton|         2009|       Medio|          Chile| Millennials|
|    Robert Venkus|         2006| Fundamental|        Equador|   Geração Z|
|     Aaron Gering|         2006|    Superior|       Paraguai|Baby Boomers|
|  Kathy Hillhouse|         2007|       Medio|        Uruguai| Millennials|
|    Timothy Wolfe|         2009|       Medio|       Paraguai|   Geração Z|
|Salvador Medovich|         2005| Fundamental|           Peru|   Geração Z|
|    Linda Menzies|         2002|    Superior|Guiana Francesa| Millennials|
|    Ashley Howery|         2009| Fundamental|           Peru| Millennials|
|     Joan Huseman|         2001| Fundamental|       Colômbia|Baby Boomers|
+-----------

##### Etapa 8: Contar o número de pessoas da geração Millennials (1980 - 1994) utilizando filter


In [30]:
millennials = df_nomes.filter((df_nomes.AnoNascimento >= 1980) & (df_nomes.AnoNascimento <= 1994))
print(f"Número de pessoas da geração Millennials: {millennials.count()}")

Número de pessoas da geração Millennials: 2272239


#### Etapa 9: Usar Spark SQL para contar pessoas da geração Millennials


In [31]:
resultado_sql_millennials = spark.sql("""
    SELECT COUNT(*) AS num_millennials 
    FROM pessoas 
    WHERE AnoNascimento >= 1980 AND AnoNascimento <= 1994
""")
resultado_sql_millennials.show()

+---------------+
|num_millennials|
+---------------+
|        2272239|
+---------------+



#### Etapa 10: Adicionar a coluna 'Geracao' e contar as pessoas de cada país por geração


In [32]:

df_nomes = df_nomes.withColumn(
    "Geracao",
    F.when((df_nomes.AnoNascimento >= 1944) & (df_nomes.AnoNascimento <= 1964), "Baby Boomers")
    .when((df_nomes.AnoNascimento >= 1965) & (df_nomes.AnoNascimento <= 1979), "Geração X")
    .when((df_nomes.AnoNascimento >= 1980) & (df_nomes.AnoNascimento <= 1994), "Millennials")
    .when((df_nomes.AnoNascimento >= 1995) & (df_nomes.AnoNascimento <= 2015), "Geração Z")
    .otherwise("Desconhecido")
)

df_nomes.createOrReplaceTempView("pessoas_com_geracao")

resultado_geracoes = spark.sql("""
    SELECT Pais, Geracao, COUNT(*) AS Quantidade
    FROM pessoas_com_geracao
    GROUP BY Pais, Geracao
    ORDER BY Pais, Geracao, Quantidade
""")
resultado_geracoes.show()

+---------+------------+----------+
|     Pais|     Geracao|Quantidade|
+---------+------------+----------+
|Argentina|Baby Boomers|    233570|
|Argentina|   Geração X|    175774|
|Argentina|   Geração Z|    186436|
|Argentina| Millennials|    174560|
|  Bolívia|Baby Boomers|    104491|
|  Bolívia|   Geração X|     78216|
|  Bolívia|   Geração Z|     83629|
|  Bolívia| Millennials|     77552|
|   Brasil|Baby Boomers|    396992|
|   Brasil|   Geração X|    296972|
|   Brasil|   Geração Z|    318083|
|   Brasil| Millennials|    298964|
|    Chile|Baby Boomers|    468994|
|    Chile|   Geração X|    351033|
|    Chile|   Geração Z|    374208|
|    Chile| Millennials|    351619|
| Colômbia|Baby Boomers|    458283|
| Colômbia|   Geração X|    343120|
| Colômbia|   Geração Z|    366742|
| Colômbia| Millennials|    343018|
+---------+------------+----------+
only showing top 20 rows

