## Referenciando colunas em um Spark Dataframe
Neste notebook vamos aprender a referenciar colunas de um Spark Dataframe. <br>
Você verá que existem várias formas para se fazer isso. Veja qual deles parece mais simples pra você e siga em frente ;)

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, column, expr, lit

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
# Cria uma sparkSession
spark = SparkSession.builder.appName('Referenciando colunas').getOrCreate()

### Carregando os dados
Nesta etapa estamos carregando os dados que utilizaremos neste notebook

In [7]:
# importa os dados
dados = spark \
    .read.option("header","true") \
    .option("inferSchema","true") \
    .option("delimiter",";") \
    .format("csv") \
    .load("/FileStore/tables/bank_additional_full-3fd09.csv")

### Referenciando uma coluna do Dataframe
Como já dito na introdução deste notebook, existem várias formas de referenciar uma coluna em um dataframe. <br> Todas elas são válidas e tudo que você precisa fazer é escolher a que parece mais simples para você.

In [9]:
dados.select(dados['age']).show(5)
dados.select('age').show(5)
dados.select(col('age')).show(5)
dados.select(column('age')).show(5)
dados.select(expr('age')).show(5)

**Quando você precisar referenciar várias colunas, também pode fazer:**

In [11]:
dados.select(['age', 'job', 'marital']).show(5)

### Criando novas colunas no Dataframe
Em geral, utilizamos o comando withColumn para criar uma nova coluna do Dataframe

**Define uma nova coluna com um valor constante**

In [14]:
dados1 = dados.withColumn("nova_coluna", lit(1))

**Adiciona uma coluna com expressions**

In [16]:
teste = expr("age < 40")
dados.select("age", "y").withColumn("teste", teste).show(5)

### Renomeando colunas
Caso queira renomear uma coluna, você pode usar qualquer uma das formas abaixo

In [18]:
dados.select(expr("age as idade")).show(5)
dados.select(dados['age'].alias('idade')).show(5)
dados.select('age').withColumnRenamed('age', 'idade').show(5)

### Removendo colunas
Por fim, use o comando abaixo para remover uma coluna do dataframe

In [20]:
dados1 = dados.drop("age")
dados1.columns

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/