### Criando meu primeiro dataframe spark

In [1]:
from pyspark.sql import SparkSession

# Criar uma sessão Spark
spark = SparkSession.builder.appName("ExemploDataFrame").getOrCreate()

# Dados fictícios
data = [
    ('Alice', 50000, 25, 'Engenheiro'),
    ('Bob', 60000, 30, 'Medico'),
    ('Carlos', 55000, 28, 'Advogado'),
    ('Diana', 65000, 35, 'Arquiteto'),
    ('Samuel', 700, 40, 'Engenheiro de Dados')
]

# Definir os nomes das colunas
columns = ['nome', 'salario', 'idade', 'prof']

# Criar DataFrame
df = spark.createDataFrame(data, schema=columns)

# Exibir DataFrame
df.show()

VBox()

Starting Spark application


ID,YARN Application ID,Kind,State,Spark UI,Driver log,User,Current session?
6,application_1730479023085_0007,pyspark,idle,Link,Link,,✔


FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

SparkSession available as 'spark'.


FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+-----+-------------------+
|  nome|salario|idade|               prof|
+------+-------+-----+-------------------+
| Alice|  50000|   25|         Engenheiro|
|   Bob|  60000|   30|             Medico|
|Carlos|  55000|   28|           Advogado|
| Diana|  65000|   35|          Arquiteto|
|Samuel|    700|   40|Engenheiro de Dados|
+------+-------+-----+-------------------+

#### Rename de colunas, quero renomear prof para profissao

In [2]:
df = df.withColumnRenamed("prof","profissao")

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [3]:
df.show()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+-----+-------------------+
|  nome|salario|idade|          profissao|
+------+-------+-----+-------------------+
| Alice|  50000|   25|         Engenheiro|
|   Bob|  60000|   30|             Medico|
|Carlos|  55000|   28|           Advogado|
| Diana|  65000|   35|          Arquiteto|
|Samuel|    700|   40|Engenheiro de Dados|
+------+-------+-----+-------------------+

#### Como eu acesso a tipagem dos dados dentro do pyspark?

In [4]:
df.printSchema()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

root
 |-- nome: string (nullable = true)
 |-- salario: long (nullable = true)
 |-- idade: long (nullable = true)
 |-- profissao: string (nullable = true)

#### E se eu quiser pegar uma lista com os nomes das colunas do meu dataframe?

In [5]:
df.columns

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

['nome', 'salario', 'idade', 'profissao']

#### Têm como eu contar as linhas do meu dataframe?? 

In [6]:
df.count()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

5

#### Têm como eu contar a quantidade de colunas do DataFrame?

In [7]:
len(df.columns)

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

4

# Quais os tipos de dados disponíveis?

### Tipos de Dados Básicos:

- StringType()
- IntegerType()
- LongType()
- FloatType()
- DoubleType()
- BooleanType()
- DateType()
- TimestampType()
- BynaryType()

### Tipos de Dados Complexos:

- ArrayType(elementType)
- MapType(keyType, valueType)
- StructType(fields)

### Tipos de Dados Numéricos:

- ByteType()
- ShortType()
- DecimalType(precision, scale)

In [8]:
from pyspark.sql.types import (
    StructType, StructField, StringType, IntegerType, LongType, FloatType, DoubleType,
    BooleanType, DateType, TimestampType, BinaryType, ArrayType, MapType, DecimalType
)
import datetime
import decimal

# Definir o esquema com todas as tipagens possíveis
schema = StructType([
    StructField("Nome", StringType(), True),
    StructField("Salario", FloatType(), True),
    StructField("Idade", IntegerType(), True),
    StructField("Profissao", StringType(), True),
    StructField("Ativo", BooleanType(), True),
    StructField("Data_Contratacao", DateType(), True),
    StructField("Ultima_Atualizacao", TimestampType(), True),
    StructField("Identificador", LongType(), True),
    StructField("Notas", DoubleType(), True),
    StructField("Foto", BinaryType(), True),
    StructField("Habilidades", ArrayType(StringType()), True),
    StructField("Atributos", MapType(StringType(), StringType()), True),
    StructField("Endereco", StructType([
        StructField("Rua", StringType(), True),
        StructField("Cidade", StringType(), True),
        StructField("CEP", StringType(), True)
    ]), True),
    StructField("Salario_Decimal", DecimalType(10, 2), True)
])

# Dados fictícios
data = [
    (
        'Alice', 50000.0, 25, 'Engenheiro', True, datetime.date(2020, 1, 15), datetime.datetime(2023, 10, 1, 12, 0, 0), 123456789012345,
        4.5, bytearray(b'\x00\x01'), ['Python', 'Spark'], {'Chave1': 'Valor1', 'Chave2': 'Valor2'},
        {'Rua': 'Rua A', 'Cidade': 'Cidade X', 'CEP': '12345-678'}, decimal.Decimal('50000.00')
    ),
    (
        'Samuel', 10.25, 30, 'Engenheiro de Dados', False, datetime.date(2019, 3, 22), datetime.datetime(2023, 10, 1, 12, 0, 0), 123456789012346,
        3.8, bytearray(b'\x00\x02'), ['Java', 'Hadoop'], {'Chave1': 'Valor3', 'Chave2': 'Valor4'},
        {'Rua': 'Rua B', 'Cidade': 'Cidade Y', 'CEP': '23456-789'}, decimal.Decimal('10.25')
    )
]

# Criar DataFrame
df = spark.createDataFrame(data, schema=schema)

# Exibir DataFrame
df.show(truncate=False)

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+-----+-------------------+-----+----------------+-------------------+---------------+-----+-------+---------------+------------------------------------+----------------------------+---------------+
|Nome  |Salario|Idade|Profissao          |Ativo|Data_Contratacao|Ultima_Atualizacao |Identificador  |Notas|Foto   |Habilidades    |Atributos                           |Endereco                    |Salario_Decimal|
+------+-------+-----+-------------------+-----+----------------+-------------------+---------------+-----+-------+---------------+------------------------------------+----------------------------+---------------+
|Alice |50000.0|25   |Engenheiro         |true |2020-01-15      |2023-10-01 12:00:00|123456789012345|4.5  |[00 01]|[Python, Spark]|{Chave1 -> Valor1, Chave2 -> Valor2}|{Rua A, Cidade X, 12345-678}|50000.00       |
|Samuel|10.25  |30   |Engenheiro de Dados|false|2019-03-22      |2023-10-01 12:00:00|123456789012346|3.8  |[00 02]|[Java, Hadoop] |{Chave1 -> Va

In [9]:
df.printSchema()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

root
 |-- Nome: string (nullable = true)
 |-- Salario: float (nullable = true)
 |-- Idade: integer (nullable = true)
 |-- Profissao: string (nullable = true)
 |-- Ativo: boolean (nullable = true)
 |-- Data_Contratacao: date (nullable = true)
 |-- Ultima_Atualizacao: timestamp (nullable = true)
 |-- Identificador: long (nullable = true)
 |-- Notas: double (nullable = true)
 |-- Foto: binary (nullable = true)
 |-- Habilidades: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- Atributos: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- Endereco: struct (nullable = true)
 |    |-- Rua: string (nullable = true)
 |    |-- Cidade: string (nullable = true)
 |    |-- CEP: string (nullable = true)
 |-- Salario_Decimal: decimal(10,2) (nullable = true)

### Como eu dou cast em uma variável?


In [10]:
from pyspark.sql.functions import *

df = df.withColumn("Salario",col("Salario").cast("Integer"))
df.select("Nome","Salario").show()


VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+
|  Nome|Salario|
+------+-------+
| Alice|  50000|
|Samuel|     10|
+------+-------+

In [11]:
df.select("Salario").printSchema()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

root
 |-- Salario: integer (nullable = true)

### Como eu crio uma coluna com um valor literal?

In [12]:
df = df.withColumn("Empresa", lit("Serasa"))
df.select("Nome","Empresa").show()


VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+
|  Nome|Empresa|
+------+-------+
| Alice| Serasa|
|Samuel| Serasa|
+------+-------+

### Como eu aumento o salário do Samuk?

In [13]:
df = df.withColumn("Salario_novo", col("Salario") * 1.25)
df.select("Nome","Salario_novo").show()


VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+------------+
|  Nome|Salario_novo|
+------+------------+
| Alice|     62500.0|
|Samuel|        12.5|
+------+------------+

#### Como eu dropo uma coluna do Dataframe?

In [14]:
df = df.drop("Salario_novo")

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [15]:
df.show()

VBox()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+------+-------+-----+-------------------+-----+----------------+-------------------+---------------+-----+-------+---------------+--------------------+--------------------+---------------+-------+
|  Nome|Salario|Idade|          Profissao|Ativo|Data_Contratacao| Ultima_Atualizacao|  Identificador|Notas|   Foto|    Habilidades|           Atributos|            Endereco|Salario_Decimal|Empresa|
+------+-------+-----+-------------------+-----+----------------+-------------------+---------------+-----+-------+---------------+--------------------+--------------------+---------------+-------+
| Alice|  50000|   25|         Engenheiro| true|      2020-01-15|2023-10-01 12:00:00|123456789012345|  4.5|[00 01]|[Python, Spark]|{Chave1 -> Valor1...|{Rua A, Cidade X,...|       50000.00| Serasa|
|Samuel|     10|   30|Engenheiro de Dados|false|      2019-03-22|2023-10-01 12:00:00|123456789012346|  3.8|[00 02]| [Java, Hadoop]|{Chave1 -> Valor3...|{Rua B, Cidade Y,...|          10.25| Serasa|
+------+--