## Instalação das bibliotecas necessárias

In [None]:
!pip install pyspark pandas

In [None]:
# Import SparkSession
from pyspark.sql import SparkSession

# Create SparkSession
spark = SparkSession.builder \
      .master("local[1]") \
      .appName("Aula de Pyspark") \
      .getOrCreate()

In [None]:
spark

# Criar dataframe a partir de um arquivo CSV

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.types import (
    StructType, StructField,
    IntegerType, StringType, DoubleType, DateType
)

# Iniciar sessão Spark
spark = SparkSession.builder \
    .appName("LoadEmployeeCSV") \
    .getOrCreate()

# Definir schema explícito (recomendado para evitar erros)
schema = StructType([
    StructField("employee_id", IntegerType(), True),
    StructField("first_name", StringType(), True),
    StructField("last_name", StringType(), True),
    StructField("email", StringType(), True),
    StructField("phone_number", StringType(), True),
    StructField("hire_date", DateType(), True),
    StructField("job_id", StringType(), True),
    StructField("salary", DoubleType(), True),
    StructField("manager_id", IntegerType(), True),
    StructField("department_id", IntegerType(), True)
])

# Carregar CSV
df = spark.read \
    .option("header", "true") \
    .option("inferSchema", "false") \
    .schema(schema) \
    .option("nullValue", "") \
    .csv("employees.csv")

df.show(truncate=False)
df.printSchema()


## Criar uma view para trabalhar com a API SQL do PySpark

In [None]:
df.createOrReplaceTempView("employees")

In [None]:

spark.sql("""
    SELECT *
    FROM employees
""").show()

In [None]:

spark.sql("""
SELECT
  employee_id,
  first_name,
  last_name,
  hire_date
FROM
  employees;
""").show()

In [None]:
spark.sql("""
    SELECT count(*)
    FROM employees
""").show()

In [None]:

spark.sql("""
SELECT
  employee_id,
  first_name,
  last_name,
  COUNT(hire_date) AS total_hire_date
FROM
  employees
GROUP BY
  employee_id,
  first_name,
  last_name
ORDER BY
  COUNT(hire_date)
""").show(100)

## Conversão PySpark → Pandas

In [None]:
# Executar query e converter para pandas
df_pandas = spark.sql("""
    SELECT *
    FROM employees
""").toPandas()

# Agora é um DataFrame pandas normal
print(df_pandas.head())
print(type(df_pandas))  # <class 'pandas.core.frame.DataFrame'>

### Atenção com grandes volumes de dados

In [None]:
# Para datasets grandes, use limit ou filtros
df_sample = spark.sql("""
    SELECT *
    FROM employees
    LIMIT 10000
""").toPandas()

# Ou filtre antes de converter
df_filtered = spark.sql("""
    SELECT *
    FROM employees
    WHERE hire_date > '2020-01-01'
""").toPandas()

## Conversão Pandas → PySpark

In [None]:
import pandas as pd

df_vendas = pd.DataFrame({
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset'],
    'quantidade': [15, 45, 30, 20, 25, 18],
    'preco_unitario': [3500.00, 85.00, 250.00, 1200.00, 320.00, 180.00],
    'categoria': ['Eletrônicos', 'Acessórios', 'Acessórios', 'Eletrônicos', 'Eletrônicos', 'Acessórios'],
    'em_estoque': [True, True, False, True, True, False]
})

# Pandas → PySpark
df_spark = spark.createDataFrame(df_pandas)

# Registrar como tabela temporária
df_spark.createOrReplaceTempView("vendas")


In [None]:
df_spark.printSchema()

## Tarefa: Dataframe employees

1. Liste todos os funcionários cadastrados no DataFrame.

2. Mostre o nome completo e o salário de cada funcionário.

3. Quais funcionários foram contratados após o ano de 1988?

4. Quais funcionários possuem um gerente definido?

5. Qual é o salário médio dos funcionários?

6. Quantos funcionários existem em cada departamento?

7. Qual é o maior salário existente na tabela?

8. Qual funcionário possui o maior salário?

9. Liste os funcionários ordenados pela data de contratação.

10. Quantos funcionários ganham mais de 20.000?

11. Mostre os e-mails dos funcionários em letras maiúsculas.

12. Mostre o nome completo de cada funcionário concatenando nome e sobrenome.

13. Quantos funcionários não possuem gerente cadastrado?

14. Qual é a média salarial de cada departamento?

15. Quais funcionários possuem sobrenome iniciando com a letra 'K'?

16. Quais funcionários foram contratados na década de 1980?

17. Qual é o salário anual (salário × 12) de cada funcionário?

18. Quantos cargos diferentes existem na tabela?

19. Quais funcionários possuem '123' no número de telefone?

20. Liste os funcionários ordenados por departamento e por salário em ordem decrescente.