# Terceiro Exemplo - Básico

In [None]:
from pyspark.sql import SparkSession

In [None]:
spark = SparkSession.\
        builder.\
        appName("pyspark-notebook").\
        master("spark://spark-master:7077").\
        config("spark.executor.memory", "512m").\
        getOrCreate()

### Criar um DataFrame

In [None]:
# Criar o Dataframe
df_pyspark = spark.read.csv('dados.csv')
print(type(df_pyspark))

In [None]:
# Mostrar o Dataframe
df_pyspark.show()

In [None]:
# Ler o Dataframe com os cabeçalhos
df_pyspark = spark.read.option('header', 'true').csv('dados.csv')
df_pyspark.show()

In [None]:
# Verificar o esquema criado
df_pyspark.printSchema()

In [None]:
# Modificar os tipos de Idade e Experiencia
df_pyspark = spark.read.option('header', 'true').csv('dados.csv', inferSchema=True)
df_pyspark.show()

In [None]:
# Verificar o novo esquema criado
df_pyspark.printSchema()

In [None]:
# Outra forma
df_pyspark = spark.read.csv('dados.csv', header=True, inferSchema=True)
df_pyspark.show()

In [None]:
# Verificar os tipos de dados
df_pyspark.dtypes

In [None]:
# Descrever os valores estatísticos
df_pyspark.describe().show()

### Trabalhar com Colunas

In [None]:
# Nome das colunas (em uma Lista)
df_pyspark.columns

In [None]:
# Pegando todos os primeiros 3 elementos em forma de lista
df_pyspark.head(3)

In [None]:
# Selecionar uma coluna
df_pyspark.select('Idade').show()

In [None]:
# Selecionar mais de uma coluna
df_pyspark.select(['Nome', 'Idade']).show()

In [None]:
from pyspark.sql import functions as F

In [None]:
# Selecionando a idade como tipo Float
df_pyspark.select(F.col("Idade").cast('float').alias("Idade em Float")).show()

In [None]:
# Adicionar coluna
df_pyspark = df_pyspark.withColumn('Experiencia_Anos', df_pyspark['Experiencia']/12)
df_pyspark.show()

In [None]:
# Mudar o tipo de uma coluna
df_pyspark = df_pyspark.withColumn("Experiencia_Anos", df_pyspark.Experiencia_Anos.cast('int'))
df_pyspark.show()

In [None]:
# Eliminar coluna
df_pyspark = df_pyspark.drop('Experiencia')
df_pyspark.show()

In [None]:
# Renomear colunas
df_pyspark = df_pyspark.withColumnRenamed('Idade', 'Idade_Anos')
df_pyspark.show()

In [None]:
# Concatenar
df_pyspark = df_pyspark.withColumn('Login',F.concat('Nome','Idade_Anos'))
df_pyspark.show()

### Criação dinâmica

In [None]:
# Criando um DataFrame de listas de dados
simpleData = [
    ("Fernando",34,"2006-01-03","True","M",3000.60),
    ("Soraia",33,"1980-01-10","True","F",3300.80),
    ("João",37,"1992-06-01","False","M",5000.50)
  ]

# Nome das colunas
columns = ["Nome","Idade","Inicio","Graduacao","Genero","Salario"]

# Criar o DataFrame
df = spark.createDataFrame(data = simpleData, schema = columns)
df.show(truncate=False)

In [None]:
df.printSchema()

In [None]:
# Mudando para os tipos corretos
df = df.withColumn("Idade", df.Idade.cast('int'))
df = df.withColumn("Inicio", df.Inicio.cast('date'))
df = df.withColumn("Graduacao", df.Graduacao.cast('boolean'))

In [None]:
df.printSchema()

In [None]:
df.show()

In [None]:
# Finalizar a Seção
spark.sparkContext.stop()