## Verifique o que é **ação** e o que é **transformação**

Você pode acessar a Spark UI para conferir também. Em geral, basta acessar o endereço `localhost:4040` em seu browser favorito, caso esteja executando o Spark localmente.

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame([('amarelo', 1), ('vermelho', 2), ('amarelo', 3)], columns=['cor', 'id'])

In [3]:
df

Unnamed: 0,cor,id
0,amarelo,1
1,vermelho,2
2,amarelo,3


In [4]:
spark_df = spark.createDataFrame(df).repartition(1)

## Ação ou Transformação?

Se tiver dúvidas sobre o que cada função está fazendo, você pode consultar a [documentação](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html).

In [5]:
spark_df.show()

+--------+---+
|     cor| id|
+--------+---+
| amarelo|  1|
|vermelho|  2|
| amarelo|  3|
+--------+---+



`show`

Resposta: Ação

In [6]:
spark_df.filter('cor = "amarelo"')

DataFrame[cor: string, id: bigint]

`filter`

Resposta: Transformação

In [7]:
spark_df.filter('cor = "amarelo"').collect()

[Row(cor='amarelo', id=1), Row(cor='amarelo', id=3)]

`collect`

Resposta: Ação

In [8]:
spark_df.groupBy('cor').count()

DataFrame[cor: string, count: bigint]

`groupBy` + `count` (função de agregação)

Resposta: Transformação

In [9]:
spark_df.count()

3

`count`

Resposta: Ação

In [10]:
spark_df.select('cor')

DataFrame[cor: string]

`select`

Resposta: Transformação

In [11]:
spark_df.select('cor').take(2)

[Row(cor='amarelo'), Row(cor='vermelho')]

`take`

Resposta: Ação

In [12]:
spark_df.withColumnRenamed('cor', 'color')

DataFrame[color: string, id: bigint]

`withColumnRenamed`

Resposta: Transformação

In [13]:
spark_df.withColumnRenamed('cor', 'color').first()

Row(color='amarelo', id=1)

`first`

Resposta: Ação

In [14]:
english_colors_pandas_df = pd.DataFrame([
    {'color': 'amarelo', 'english_color': 'yellow'},
    {'color': 'vermelho', 'english_color': 'red'}])
display(english_colors_pandas_df)

english_colors_df = spark.createDataFrame(english_colors_pandas_df)

Unnamed: 0,color,english_color
0,amarelo,yellow
1,vermelho,red


In [15]:
spark_df.withColumnRenamed('cor', 'color') \
    .join(english_colors_df, on='color', how='inner')

DataFrame[color: string, id: bigint, english_color: string]

`join`

Resposta: Transformação

In [16]:
spark_df.withColumnRenamed('cor', 'color') \
    .join(english_colors_df, on='color', how='inner') \
    .write.mode('overwrite').csv('data/minha_tabela_de_cores', header=True)

`write`

Resposta: Ação

In [17]:
spark.read.csv('data/minha_tabela_de_cores', header=True).show()

+--------+---+-------------+
|   color| id|english_color|
+--------+---+-------------+
| amarelo|  1|       yellow|
| amarelo|  3|       yellow|
|vermelho|  2|          red|
+--------+---+-------------+



In [None]:
## caso deseje, apague o arquivo csv gerado anteriormente
#!rm -rf data/minha_tabela_de_cores

**Desafio:** Encontre mais algum exemplo de ação e um de transformação

### Finalmente

O uso no dia-a-dia vai te trazer a noção de quais métodos são ações e quais são transformações.

Leia um pouco mais sobre ações e transformações [aqui](https://training.databricks.com/visualapi.pdf). Na página 7, há um slide com vários métodos divididos em ações e transformações. 