### # Recebendo e lendo dados externos no Databricks para leitura e manipulação

In [None]:
# Primeiro importei um CSV de uma URL somente para mostrar como manipular os dados

import pandas as pd

url = "https://raw.githubusercontent.com/databricks/spark-csv/master/src/test/resources/cars.csv"
pdf = pd.read_csv(url)   # pandas lê direto da URL

# converte para Spark
df = spark.createDataFrame(pdf)
display(df)

### # Alterando o nome das colunas da tabela

In [None]:
df = df.withColumnRenamed("year", "Ano")\
       .withColumnRenamed("make", "Fabricante")\
       .withColumnRenamed("model", "Modelo")\
       .withColumnRenamed("comment", "Comentário")\
       .drop("blank") # Remove a coluna 'blank'

display(df)


### # Preenchendo celula com valor Null na coluna

In [None]:
df = df.fillna({"Comentário": "Sem comentário"}) # Utilizar nomeDoDataFrame.fillna({"nomeDaColuna": "valorQueIraReceber"})

display(df)

### # Substituir valor de uma célula NÃO 'NULL' em uma coluna


In [None]:
from pyspark.sql.functions import when, col # Importa o when do SQL functions

df = df.withColumn(
    "Modelo", # Nome da coluna
    when(col("Modelo") == "S", "Séries S").otherwise(col("Modelo")) # Quando o modelo for "S", substitui por "Séries S", se não for 'S' mantém o modelo que já estava
)

display(df)

### # Para substituir qualquer valor existente na coluna inteira (independente do que seja), basta usar lit (literal):


In [None]:
from pyspark.sql.functions import lit

df = df.withColumn("Comentário", lit("Sem comentários dos usuários."))

display(df)

### # Filtrando colunas (selecionando apenas as que desejo no Data Frame)

In [None]:
df_filtrado = df.select("Fabricante", "Modelo", "Ano")

display(df_filtrado)

### # Selecionar apenas os fabricantes com nomes diferentes um dos outros (distintos)

In [None]:
display(df.select("Fabricante").distinct()) # Nesse exemplo o resultado trouxe os mesmos 3 fabricantes porque já são distintos. Porém em casos de mais fabricantes em que alguns se repetem, a select retornaria apenas os que não distintos entre sí.


### # Informar o número de fabricantes distintos


In [None]:
display(df.select("Fabricante").distinct().count()) # Retorna o número de fabricantes distintos (neste exemplo são 3)