In [13]:
!pip install pyspark



In [14]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Criar uma SparkSession
spark = SparkSession.builder.appName("ExercicioSpark").getOrCreate()

# Ler o arquivo CSV e criar um DataFrame
df = spark.read.csv("dados.csv", header=True, inferSchema=True)

# Exibir as primeiras 5 linhas do DataFrame
print("Primeiras 5 linhas do DataFrame:")
df.show(5)

# Filtrar as pessoas com idade acima de 25
print("Pessoas com idade acima de 25:")
df.filter(col("idade") > 25).show()

from pyspark.sql.functions import col, upper

# Selecionar apenas as colunas "nome" e "cidade"
df_selecionado = df.select("nome", "cidade")
print("Colunas selecionadas:")
df_selecionado.show()

# Ordenar os dados pela coluna "idade" em ordem decrescente
df_ordenado = df.orderBy(col("idade").desc())
print("Dados ordenados pela idade (decrescente):")
df_ordenado.show()

# Converter os nomes para letras maiúsculas
df_maiusculo = df.withColumn("nome", upper(col("nome")))
print("Nomes em letras maiúsculas:")
df_maiusculo.show()

from pyspark.sql.functions import avg, year

# Calcular a idade média das pessoas no DataFrame
idade_media = df.agg(avg("idade").alias("idade_media"))
print("Idade média das pessoas:")
idade_media.show()

# Contar o número de pessoas por cidade
pessoas_por_cidade = df.groupBy("cidade").count()
print("Número de pessoas por cidade:")
pessoas_por_cidade.show()

# Registrar o DataFrame como uma tabela temporária
df.createOrReplaceTempView("tabela_pessoas")

# Consulta SQL para selecionar pessoas de uma cidade específica
cidade_especifica = "São Paulo"
consulta_cidade = f"SELECT * FROM tabela_pessoas WHERE cidade = '{cidade_especifica}'"
pessoas_na_cidade = spark.sql(consulta_cidade)
print(f"Pessoas que moram na cidade '{cidade_especifica}':")
pessoas_na_cidade.show()

# Consulta SQL para calcular a soma das idades
consulta_soma_idades = "SELECT SUM(idade) AS soma_das_idades FROM tabela_pessoas"
soma_idades = spark.sql(consulta_soma_idades)
print("Soma das idades:")
soma_idades.show()






Primeiras 5 linhas do DataFrame:
+-----+-----+--------------+
| nome|idade|        cidade|
+-----+-----+--------------+
| João|   30|     São Paulo|
|Maria|   25|Rio de Janeiro|
|Pedro|   35|Belo Horizonte|
|  Ana|   28|      Salvador|
|Lucas|   40|      Curitiba|
+-----+-----+--------------+

Pessoas com idade acima de 25:
+-----+-----+--------------+
| nome|idade|        cidade|
+-----+-----+--------------+
| João|   30|     São Paulo|
|Pedro|   35|Belo Horizonte|
|  Ana|   28|      Salvador|
|Lucas|   40|      Curitiba|
+-----+-----+--------------+

Colunas selecionadas:
+-----+--------------+
| nome|        cidade|
+-----+--------------+
| João|     São Paulo|
|Maria|Rio de Janeiro|
|Pedro|Belo Horizonte|
|  Ana|      Salvador|
|Lucas|      Curitiba|
+-----+--------------+

Dados ordenados pela idade (decrescente):
+-----+-----+--------------+
| nome|idade|        cidade|
+-----+-----+--------------+
|Lucas|   40|      Curitiba|
|Pedro|   35|Belo Horizonte|
| João|   30|     São Pa

In [19]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, year

# 1. Create SparkSession
spark = SparkSession.builder.appName("ExercicioSpark").getOrCreate()

# 2. Read from the CSV file
df_vendas = spark.read.csv("vendas.csv", header=True, inferSchema=True)

# 3. Extrair o ano da data
df_vendas_anuais = df_vendas.withColumn("ano", year(col("data")))
print("Dados de vendas com ano extraído:")
df_vendas_anuais.show()

# 4. Calcular total de vendas por ano
total_vendas_anuais = df_vendas_anuais.groupBy("ano").agg({"valor": "sum"})
print("Total de vendas anuais:")
total_vendas_anuais.show()

Dados de vendas com ano extraído:
+-------+-----+----------+----+
|produto|valor|      data| ano|
+-------+-----+----------+----+
| Venda1|  100|2022-01-15|2022|
| Venda2|  200|2022-06-20|2022|
| Venda3|  150|2023-03-10|2023|
| Venda4|  300|2023-11-05|2023|
+-------+-----+----------+----+

Total de vendas anuais:
+----+----------+
| ano|sum(valor)|
+----+----------+
|2023|       450|
|2022|       300|
+----+----------+

