In [2]:
import pandas as pd
import os
import random

In [3]:
# CRIA O ARQUIVO 'CSV'

nomes = [
    "Ana", "Bruno", "Carlos", "Daniela", "Eduardo", "Fernanda", "Gabriel", "Helena",
    "Igor", "Juliana", "Kleber", "Laura", "Marcos", "Natália", "Otávio", "Patrícia",
    "Rafael", "Sabrina", "Thiago", "Vanessa"
]

idades = [
    18, 19, 20, 21, 22, 23, 24, 25, 26, 27,
    28, 29, 30, 22, 24, 26, 28, 20, 19, 21
]


cidades = [
    "São Paulo", "Rio de Janeiro", "Curitiba", "Belo Horizonte", "Salvador"
] * 4 


random.shuffle(cidades)

# CRIA UM DATAFRAME

dados = {
    "nome": nomes,
    "idade": idades,
    "cidade": cidades
}

df = pd.DataFrame(dados)

# SALVA O ARQUIVO

df.to_csv("../csv/pessoas.csv", index=False)

print("Arquivo 'pessoas.csv' criado!")

Arquivo 'pessoas.csv' criado!


In [4]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# CRIANDO A SESSÃO DO SPARK COM UM NOME PARA O APLICATIVO

spark = SparkSession.builder.appName("ExercicioSpark").getOrCreate()

# LENDO O ARQUIVO CSV E TRANSFORMANDO EM UM DATAFRAME

df = spark.read.csv("../csv/pessoas.csv", header=True, inferSchema=True)

# EXIBINDO O ESQUEMA DAS COLUNAS PARA VERIFICAR OS TIPOS DE DADOS

df.printSchema()


root
 |-- nome: string (nullable = true)
 |-- idade: integer (nullable = true)
 |-- cidade: string (nullable = true)



In [5]:
# EXIBE AS PRIMEIRAS 5 LINHAS DO DATAFRAME

print("Primeiras 5 linhas do DataFrame:")
df.show(5)

Primeiras 5 linhas do DataFrame:
+-------+-----+--------------+
|   nome|idade|        cidade|
+-------+-----+--------------+
|    Ana|   18|Belo Horizonte|
|  Bruno|   19|      Curitiba|
| Carlos|   20|Rio de Janeiro|
|Daniela|   21|      Salvador|
|Eduardo|   22|      Curitiba|
+-------+-----+--------------+
only showing top 5 rows



In [6]:
# FILTRA PESSOAS COM MAIS DE 25 ANOS

print("Pessoas com idade acima de 25:")
df.filter(col("idade") > 25).show()

Pessoas com idade acima de 25:
+--------+-----+--------------+
|    nome|idade|        cidade|
+--------+-----+--------------+
|    Igor|   26|      Salvador|
| Juliana|   27|     São Paulo|
|  Kleber|   28|     São Paulo|
|   Laura|   29|Rio de Janeiro|
|  Marcos|   30|Rio de Janeiro|
|Patrícia|   26|     São Paulo|
|  Rafael|   28|      Curitiba|
+--------+-----+--------------+



In [7]:
from pyspark.sql.functions import upper

# SELECIONA APENAS AS COLUNAS NOME E CIDADE

df_selecionado = df.select("nome", "cidade")
print("Colunas selecionadas:")
df_selecionado.show()

Colunas selecionadas:
+--------+--------------+
|    nome|        cidade|
+--------+--------------+
|     Ana|Belo Horizonte|
|   Bruno|      Curitiba|
|  Carlos|Rio de Janeiro|
| Daniela|      Salvador|
| Eduardo|      Curitiba|
|Fernanda|Belo Horizonte|
| Gabriel|Rio de Janeiro|
|  Helena|      Salvador|
|    Igor|      Salvador|
| Juliana|     São Paulo|
|  Kleber|     São Paulo|
|   Laura|Rio de Janeiro|
|  Marcos|Rio de Janeiro|
| Natália|Belo Horizonte|
|  Otávio|Belo Horizonte|
|Patrícia|     São Paulo|
|  Rafael|      Curitiba|
| Sabrina|      Curitiba|
|  Thiago|      Salvador|
| Vanessa|     São Paulo|
+--------+--------------+



In [8]:
# ORDENA OS DADOS DA COLUNA IDADE EM ORDEM DECRESCENTE

df_ordenado = df.orderBy(col("idade").desc())
print("Dados ordenados pela idade (decrescente):")
df_ordenado.show()

Dados ordenados pela idade (decrescente):
+--------+-----+--------------+
|    nome|idade|        cidade|
+--------+-----+--------------+
|  Marcos|   30|Rio de Janeiro|
|   Laura|   29|Rio de Janeiro|
|  Kleber|   28|     São Paulo|
|  Rafael|   28|      Curitiba|
| Juliana|   27|     São Paulo|
|    Igor|   26|      Salvador|
|Patrícia|   26|     São Paulo|
|  Helena|   25|      Salvador|
| Gabriel|   24|Rio de Janeiro|
|  Otávio|   24|Belo Horizonte|
|Fernanda|   23|Belo Horizonte|
| Eduardo|   22|      Curitiba|
| Natália|   22|Belo Horizonte|
| Daniela|   21|      Salvador|
| Vanessa|   21|     São Paulo|
|  Carlos|   20|Rio de Janeiro|
| Sabrina|   20|      Curitiba|
|   Bruno|   19|      Curitiba|
|  Thiago|   19|      Salvador|
|     Ana|   18|Belo Horizonte|
+--------+-----+--------------+



In [9]:
# CONVERTE OS NOMES PARA LETRAS MAIÚSCULAS

df_maiusculo = df.withColumn("nome", upper(col("nome")))
print("Nomes em letras maiúsculas:")
df_maiusculo.show()

Nomes em letras maiúsculas:
+--------+-----+--------------+
|    nome|idade|        cidade|
+--------+-----+--------------+
|     ANA|   18|Belo Horizonte|
|   BRUNO|   19|      Curitiba|
|  CARLOS|   20|Rio de Janeiro|
| DANIELA|   21|      Salvador|
| EDUARDO|   22|      Curitiba|
|FERNANDA|   23|Belo Horizonte|
| GABRIEL|   24|Rio de Janeiro|
|  HELENA|   25|      Salvador|
|    IGOR|   26|      Salvador|
| JULIANA|   27|     São Paulo|
|  KLEBER|   28|     São Paulo|
|   LAURA|   29|Rio de Janeiro|
|  MARCOS|   30|Rio de Janeiro|
| NATÁLIA|   22|Belo Horizonte|
|  OTÁVIO|   24|Belo Horizonte|
|PATRÍCIA|   26|     São Paulo|
|  RAFAEL|   28|      Curitiba|
| SABRINA|   20|      Curitiba|
|  THIAGO|   19|      Salvador|
| VANESSA|   21|     São Paulo|
+--------+-----+--------------+



In [10]:
from pyspark.sql.functions import avg

# CALCULA A IDADE MÉDIA DAS PESSOAS

idade_media = df.agg(avg("idade").alias("idade_media")) 
print("Idade média das pessoas:")
idade_media.show()

Idade média das pessoas:
+-----------+
|idade_media|
+-----------+
|       23.6|
+-----------+



In [11]:
# CONTA O NÚMERO DE PESSOAS POR CIDADE

pessoas_por_cidade = df.groupBy("cidade").count().alias("numero_pessoas")
print("Número de pessoas por cidade:")
pessoas_por_cidade.show()


Número de pessoas por cidade:
+--------------+-----+
|        cidade|count|
+--------------+-----+
|      Curitiba|    4|
|Belo Horizonte|    4|
|      Salvador|    4|
|     São Paulo|    4|
|Rio de Janeiro|    4|
+--------------+-----+



In [12]:
# REGISTRA O DATAFRAME COMO UM TABELA TEMPORARIA

df.createOrReplaceTempView("tabela_pessoas")

In [13]:
# CONSULTA SQL PARA PESSOAS DE UMA CIDADE ESPECIFICA

cidade_especifica = "São Paulo" 
consulta_cidade = f""" SELECT * FROM tabela_pessoas WHERE cidade = '{cidade_especifica}' """ 
pessoas_na_cidade = spark.sql(consulta_cidade) 
print(f"Pessoas que moram na cidade '{cidade_especifica}':") 
pessoas_na_cidade.show()

Pessoas que moram na cidade 'São Paulo':
+--------+-----+---------+
|    nome|idade|   cidade|
+--------+-----+---------+
| Juliana|   27|São Paulo|
|  Kleber|   28|São Paulo|
|Patrícia|   26|São Paulo|
| Vanessa|   21|São Paulo|
+--------+-----+---------+



In [14]:
# CONSULTA SQL SOMANDO AS IDADES

consulta_soma_idades = """ SELECT SUM(idade) AS soma_das_idades FROM tabela_pessoas """ 
soma_idades = spark.sql(consulta_soma_idades) 
print("Soma das idades:") 
soma_idades.show()

Soma das idades:
+---------------+
|soma_das_idades|
+---------------+
|            472|
+---------------+

