# PySpark #02

Link da Aula: [PySpark - Aula 02 - Window Functions - Português - Hands On](https://www.youtube.com/watch?v=MG-QBpEXvjg&t=1851s)

**Indice:**

- [Importacão bibliotecas/funcões](#importacão-bibliotecasfuncões)
- [Iniciando sessão PySpark](#iniciando-sessão-pyspark)
- [Criar DF/ler arquivo](#criar-dfler-arquivo)
- [Renomeando colunas](#renomeando-colunas)
- [Drop de colunas](#drop-de-colunas)

##### Importacão bibliotecas/funcões

In [1]:
import os
import sys
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.window import Window

os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

##### Iniciando sessão PySpark

In [2]:
spark = (
    SparkSession.builder
    .master('local')
    .appName('PySpark_02')
    .getOrCreate()
)

##### Criar DF/ler arquivo

In [3]:
df = spark.read.csv('wc2018-players.csv', header=True, inferSchema=True)
df.show(5)

+---------+---+----+------------------+----------+----------+--------------------+------+------+
|     Team|  #|Pos.| FIFA Popular Name|Birth Date|Shirt Name|                Club|Height|Weight|
+---------+---+----+------------------+----------+----------+--------------------+------+------+
|Argentina|  3|  DF|TAGLIAFICO Nicolas|31.08.1992|TAGLIAFICO|      AFC Ajax (NED)|   169|    65|
|Argentina| 22|  MF|    PAVON Cristian|21.01.1996|     PAVÓN|CA Boca Juniors (...|   169|    65|
|Argentina| 15|  MF|    LANZINI Manuel|15.02.1993|   LANZINI|West Ham United F...|   167|    66|
|Argentina| 18|  DF|    SALVIO Eduardo|13.07.1990|    SALVIO|    SL Benfica (POR)|   167|    69|
|Argentina| 10|  FW|      MESSI Lionel|24.06.1987|     MESSI|  FC Barcelona (ESP)|   170|    72|
+---------+---+----+------------------+----------+----------+--------------------+------+------+
only showing top 5 rows



##### Renomeando colunas

>"Diferente do Pandas, o Spark é imutável. Ou Seja, se voce subistituir o nome da coluna de um DF no Spark, nao dá pra usar o parametro inplace=True! Para resolver isso, voce deve fazer o código abaixo. "

```python:
df = df.withColumnRenamed('Nome Antigo','Novo Nome')

In [4]:
#Renomeando todas colunas
df = df.withColumnRenamed('Team','Selecao').withColumnRenamed('#','Numero')\
.withColumnRenamed('Pos.','Posicao').withColumnRenamed('FIFA Popular Name','Nome_FIFA')\
.withColumnRenamed('Birth Date','Nascimento')\
.withColumnRenamed('Shirt Name','Nome Camiseta').withColumnRenamed('Club','Time')\
.withColumnRenamed('Height','Altura').withColumnRenamed('Weight','Peso')

#Verificando alteracões
df.printSchema()

root
 |-- Selecao: string (nullable = true)
 |-- Numero: integer (nullable = true)
 |-- Posicao: string (nullable = true)
 |-- Nome_FIFA: string (nullable = true)
 |-- Nascimento: string (nullable = true)
 |-- Nome Camiseta: string (nullable = true)
 |-- Time: string (nullable = true)
 |-- Altura: integer (nullable = true)
 |-- Peso: integer (nullable = true)



##### Drop de colunas

In [5]:
#Removendo a coluna
df = df.drop('Nascimento')

#Verificando se a coluna foi removida
df.printSchema()

root
 |-- Selecao: string (nullable = true)
 |-- Numero: integer (nullable = true)
 |-- Posicao: string (nullable = true)
 |-- Nome_FIFA: string (nullable = true)
 |-- Nome Camiseta: string (nullable = true)
 |-- Time: string (nullable = true)
 |-- Altura: integer (nullable = true)
 |-- Peso: integer (nullable = true)

