<a href="https://colab.research.google.com/github/Morinian/PySpark/blob/main/PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Iniciando Estudos com PySpark

# Inicio instalando pyspark


In [None]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=d71a7fe9f28c03c5202066bbefeb77b705516944669ffe57398f199d16b1259e
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


# Importação de bibliotecas/funções



In [None]:
import os
import sys

os.environ["PYSPARK_PYTHON"] = sys.executable
os.environ["PYSPARK_DRIVER_PYTHON"] = sys.executable

In [None]:
from pyspark.sql import SparkSession

from pyspark.sql.functions import *

from pyspark.sql.types import *

# Iniciar Sessão PySpark

In [None]:
spark = (
    SparkSession.builder
    .master("local") #Trabalha com cluster
    .appName("Estudo") #nome da nossa seção
    .getOrCreate() #Puxa sessão recente, se não ele cria
)

# Criar dataframe

In [None]:
df = spark.read.csv('Dados/wc2018-players.csv', header=True, inferSchema=True)
#ler aquivo csv
#heade = true cabeçalho normalmente existe
#inferSchema define o tipo se não deixar true ele deixa tudo como String

# Exibir DF

In [None]:
df.show(5)
#pode definir quantas linhas ver aqui coloquei 5

+---------+---+----+------------------+----------+----------+--------------------+------+------+
|     Team|  #|Pos.| FIFA Popular Name|Birth Date|Shirt Name|                Club|Height|Weight|
+---------+---+----+------------------+----------+----------+--------------------+------+------+
|Argentina|  3|  DF|TAGLIAFICO Nicolas|31.08.1992|TAGLIAFICO|      AFC Ajax (NED)|   169|    65|
|Argentina| 22|  MF|    PAVON Cristian|21.01.1996|     PAVÓN|CA Boca Juniors (...|   169|    65|
|Argentina| 15|  MF|    LANZINI Manuel|15.02.1993|   LANZINI|West Ham United F...|   167|    66|
|Argentina| 18|  DF|    SALVIO Eduardo|13.07.1990|    SALVIO|    SL Benfica (POR)|   167|    69|
|Argentina| 10|  FW|      MESSI Lionel|24.06.1987|     MESSI|  FC Barcelona (ESP)|   170|    72|
+---------+---+----+------------------+----------+----------+--------------------+------+------+
only showing top 5 rows



Tipo de colunas

In [None]:
df.printSchema()
#o tipo de cada coluna

root
 |-- Team: string (nullable = true)
 |-- #: integer (nullable = true)
 |-- Pos.: string (nullable = true)
 |-- FIFA Popular Name: string (nullable = true)
 |-- Birth Date: string (nullable = true)
 |-- Shirt Name: string (nullable = true)
 |-- Club: string (nullable = true)
 |-- Height: integer (nullable = true)
 |-- Weight: integer (nullable = true)



Renomear coluna

In [None]:
#Renomeando parar tirar conflito de verificação de nulos

df = df.withColumnRenamed('Pos.','Posicao').withColumnRenamed('Team','Selecao').withColumnRenamed('#','Numero')\
.withColumnRenamed('FIFA Popular Name','nomeFifa').withColumnRenamed('Birth Date','Nascimento')\
.withColumnRenamed('Shirt Name','nomeCamiseta').withColumnRenamed('Club','Time')\
.withColumnRenamed('Height','Altura').withColumnRenamed('Weight','Peso')

df.show(5)

+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+
only showing top 5 rows



Verificando dados nulos

In [None]:
for column in df.columns:
    print(column, df.filter(df[column].isNull()).count())

    #verifica se tem nulos
    #O titulo/cabeçalho pode dar erro/conflito então renomei de forma coerente antes de verificar

Selecao 0
Numero 0
Posicao 0
nomeFifa 0
Nascimento 0
nomeCamiseta 0
Time 0
Altura 0
Peso 0


Selecionando colunas

In [None]:
df.select('Selecao','nomeFifa').show(5)
#forma rapida
#trata como string não funcionando com alias

+---------+------------------+
|  Selecao|          nomeFifa|
+---------+------------------+
|Argentina|TAGLIAFICO Nicolas|
|Argentina|    PAVON Cristian|
|Argentina|    LANZINI Manuel|
|Argentina|    SALVIO Eduardo|
|Argentina|      MESSI Lionel|
+---------+------------------+
only showing top 5 rows



In [None]:
df.select(col('Selecao'),col('nomeFifa')).show(5)

+---------+------------------+
|  Selecao|          nomeFifa|
+---------+------------------+
|Argentina|TAGLIAFICO Nicolas|
|Argentina|    PAVON Cristian|
|Argentina|    LANZINI Manuel|
|Argentina|    SALVIO Eduardo|
|Argentina|      MESSI Lionel|
+---------+------------------+
only showing top 5 rows



In [None]:
df.select(df['Selecao'],df['nomeFifa']).show(5)

+---------+------------------+
|  Selecao|          nomeFifa|
+---------+------------------+
|Argentina|TAGLIAFICO Nicolas|
|Argentina|    PAVON Cristian|
|Argentina|    LANZINI Manuel|
|Argentina|    SALVIO Eduardo|
|Argentina|      MESSI Lionel|
+---------+------------------+
only showing top 5 rows



Selecionando columas com alias

In [None]:
df.select(col('Selecao').alias('Timão')).show(5)

+---------+
|    Timão|
+---------+
|Argentina|
|Argentina|
|Argentina|
|Argentina|
|Argentina|
+---------+
only showing top 5 rows



Organizar Select

In [None]:
df.select('nomeFifa','Peso','Altura').show(5)

+------------------+----+------+
|          nomeFifa|Peso|Altura|
+------------------+----+------+
|TAGLIAFICO Nicolas|  65|   169|
|    PAVON Cristian|  65|   169|
|    LANZINI Manuel|  66|   167|
|    SALVIO Eduardo|  69|   167|
|      MESSI Lionel|  72|   170|
+------------------+----+------+
only showing top 5 rows



# Filtrando

Filter simples

In [None]:
df.filter('Selecao = "Brazil"').show()
#nomes de tabela com espaço acaba dando erro
#funcionaria apenas com função col

#df.filter(col('nome Fifa') == "Fred")

+-------+------+-------+-----------------+----------+------------+--------------------+------+----+
|Selecao|Numero|Posicao|         nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+-------+------+-------+-----------------+----------+------------+--------------------+------+----+
| Brazil|    18|     MF|             FRED|05.03.1993|        FRED|FC Shakhtar Donet...|   169|  64|
| Brazil|    21|     FW|           TAISON|13.01.1988|      TAISON|FC Shakhtar Donet...|   172|  64|
| Brazil|    17|     MF|      FERNANDINHO|04.05.1985| FERNANDINHO|Manchester City F...|   179|  67|
| Brazil|    22|     DF|           FAGNER|11.06.1989|      FAGNER|SC Corinthians (BRA)|   168|  67|
| Brazil|    10|     FW|           NEYMAR|05.02.1992|   NEYMAR JR|Paris Saint-Germa...|   175|  68|
| Brazil|    11|     MF|PHILIPPE COUTINHO|12.06.1992| P. COUTINHO|  FC Barcelona (ESP)|   172|  68|
| Brazil|     7|     FW|    DOUGLAS COSTA|14.09.1990|    D. COSTA|   Juventus FC (ITA)|   182|  70|


Filter com 2 condições AND

In [None]:
df.filter((col('Selecao') == "Argentina") & (col('Altura') > 180)).show()

+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANSALDI|     Torino FC (ITA)|   181|  73|
|Argentina|     9|     FW|   HIGUAIN Gonzalo|10.12.1987|     HIGUAÍN|   Juventus FC (ITA)|   184|  75|
|Argentina|    23|     GK|CABALLERO Wilfredo|28.09.1981|   CABALLERO|    Chelsea FC (ENG)|   186|  80|
|Argentina|     2|     DF|   MERCADO Gabriel|18.03.1987|     MERCADO|    Sevilla FC (ESP)|   181|  81|
|Argentina|    17|     DF|  OTAMENDI Nicolas|12.02.1988|    OTAMENDI|Manchester City F...|   181|  81|
|Argentina|    16|     DF|       ROJO Marcos|20.03.1990|        ROJO|Manchester United...|   189|  82|
|Argentina|     6|     DF|    FAZIO Federico|17.03.1987|       FAZIO|    

In [None]:
df.filter('Selecao = "Brazil"').filter(col('Numero') > 20 ).show()
#Depois que ele faz a seleção ele vai para o proximo filtro do numero > 20

+-------+------+-------+--------+----------+------------+--------------------+------+----+
|Selecao|Numero|Posicao|nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+-------+------+-------+--------+----------+------------+--------------------+------+----+
| Brazil|    21|     FW|  TAISON|13.01.1988|      TAISON|FC Shakhtar Donet...|   172|  64|
| Brazil|    22|     DF|  FAGNER|11.06.1989|      FAGNER|SC Corinthians (BRA)|   168|  67|
| Brazil|    23|     GK| EDERSON|17.08.1993|     EDERSON|Manchester City F...|   188|  86|
+-------+------+-------+--------+----------+------------+--------------------+------+----+



Filtro OR/|

In [None]:
df.filter((col('Selecao') == "Argentina") | (col('nomeCamiseta') == "TAISON")).show()

+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANSALDI|     Torino FC (ITA)|   181|  73|
|Argentina|     5|     MF|      BIGLIA Lucas|30.01.1986|      BIGLIA|    

Filtro & e |

In [None]:
df.filter((col('Selecao') == "Brazil") & (col('Posicao') == "DF") | (col('nomeFifa') == 'MESSI Lionel')).show()


+---------+------+-------+-------------+----------+------------+--------------------+------+----+
|  Selecao|Numero|Posicao|     nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|
+---------+------+-------+-------------+----------+------------+--------------------+------+----+
|Argentina|    10|     FW| MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|
|   Brazil|    22|     DF|       FAGNER|11.06.1989|      FAGNER|SC Corinthians (BRA)|   168|  67|
|   Brazil|     6|     DF|  FILIPE LUIS|09.08.1985| FILIPE LUIS|Atletico Madrid (...|   182|  73|
|   Brazil|    13|     DF|   MARQUINHOS|14.05.1994|  MARQUINHOS|Paris Saint-Germa...|   183|  75|
|   Brazil|     3|     DF|      MIRANDA|07.09.1984|     MIRANDA|FC Internazionale...|   186|  78|
|   Brazil|    14|     DF|       DANILO|15.07.1991|      DANILO|Manchester City F...|   184|  78|
|   Brazil|     2|     DF| THIAGO SILVA|22.09.1984|    T. SILVA|Paris Saint-Germa...|   183|  79|
|   Brazil|    12|  

# Criação de Colunas (lit)

In [None]:
df.withColumn('WordlCup', lit(2018)).show() #lit = literal , permite criar função

+---------+------+-------+------------------+----------+------------+--------------------+------+----+--------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|WordlCup|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+--------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|    2018|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|    2018|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|    2018|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|    2018|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|    2018|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANSALDI|     Torino FC (ITA)|   181|  73|  

In [None]:
df.withColumn('WordlCup', lit(col('Altura')-col('Peso'))).show() #função

+---------+------+-------+------------------+----------+------------+--------------------+------+----+--------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|WordlCup|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+--------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|     104|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|     104|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|     101|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|      98|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|      98|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANSALDI|     Torino FC (ITA)|   181|  73|  

Criar coluna condicional

In [None]:
df.withColumn('AnoNascimento', substring('Nascimento', 7,10)).show()

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|         1993|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|         1987|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANS

In [None]:
df.withColumn('AnoNascimento', substring('Nascimento', -4,4)).show()  #Começa pelo fim

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|         1993|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|         1987|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANS

Para deixar a tabela criada anteriormente no DF necessita sobrescreve-lo

In [None]:
df = df.withColumn('AnoNascimento', substring('Nascimento', -4,4))

In [None]:
df.show();

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|         1993|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|
|Argentina|    10|     FW|      MESSI Lionel|24.06.1987|       MESSI|  FC Barcelona (ESP)|   170|  72|         1987|
|Argentina|     4|     DF|  ANSALDI Cristian|20.09.1986|     ANS

Criar coluna condicional (concat/concat_WS)

In [None]:
df.withColumn('Concat',concat('Selecao','nomeFifa')).show(5)
#gruda os dois valores

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+--------------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|              Concat|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+--------------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|ArgentinaTAGLIAFI...|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|ArgentinaPAVON Cr...|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|         1993|ArgentinaLANZINI ...|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|ArgentinaSALVIO E...|
|Argentina|    10|     FW|      ME

In [None]:
df.withColumn('Separador', concat_ws('-','Selecao','nomeFifa')).show(5)
#separador

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+--------------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|           Separador|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+--------------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|31.08.1992|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|Argentina-TAGLIAF...|
|Argentina|    22|     MF|    PAVON Cristian|21.01.1996|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|Argentina-PAVON C...|
|Argentina|    15|     MF|    LANZINI Manuel|15.02.1993|     LANZINI|West Ham United F...|   167|  66|         1993|Argentina-LANZINI...|
|Argentina|    18|     DF|    SALVIO Eduardo|13.07.1990|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|Argentina-SALVIO ...|
|Argentina|    10|     FW|      ME

# Editar Coluna Tipo

In [None]:
df.printSchema()

root
 |-- Selecao: string (nullable = true)
 |-- Numero: integer (nullable = true)
 |-- Posicao: string (nullable = true)
 |-- nomeFifa: string (nullable = true)
 |-- Nascimento: string (nullable = true)
 |-- nomeCamiseta: string (nullable = true)
 |-- Time: string (nullable = true)
 |-- Altura: integer (nullable = true)
 |-- Peso: integer (nullable = true)
 |-- AnoNascimento: string (nullable = true)



In [None]:
df.withColumn('AnoNascimento', col('AnoNascimento').cast(IntegerType()))

DataFrame[Selecao: string, Numero: int, Posicao: string, nomeFifa: string, Nascimento: string, nomeCamiseta: string, Time: string, Altura: int, Peso: int, AnoNascimento: int]

# Desafio datetype

In [None]:
dia = udf(lambda data: data.split('.')[0])
mes = udf(lambda data: data.split('.')[1])
ano = udf(lambda data: data.split('.')[2])

df = df.withColumn('Nascimento', concat_ws('-',ano('Nascimento'),mes('Nascimento'),dia('Nascimento')).cast(DateType()))

df.printSchema()

root
 |-- Selecao: string (nullable = true)
 |-- Numero: integer (nullable = true)
 |-- Posicao: string (nullable = true)
 |-- nomeFifa: string (nullable = true)
 |-- Nascimento: date (nullable = true)
 |-- nomeCamiseta: string (nullable = true)
 |-- Time: string (nullable = true)
 |-- Altura: integer (nullable = true)
 |-- Peso: integer (nullable = true)
 |-- AnoNascimento: string (nullable = true)



In [None]:
df.show()
df.printSchema()

+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|  Selecao|Numero|Posicao|          nomeFifa|Nascimento|nomeCamiseta|                Time|Altura|Peso|AnoNascimento|
+---------+------+-------+------------------+----------+------------+--------------------+------+----+-------------+
|Argentina|     3|     DF|TAGLIAFICO Nicolas|1992-08-31|  TAGLIAFICO|      AFC Ajax (NED)|   169|  65|         1992|
|Argentina|    22|     MF|    PAVON Cristian|1996-01-21|       PAVÓN|CA Boca Juniors (...|   169|  65|         1996|
|Argentina|    15|     MF|    LANZINI Manuel|1993-02-15|     LANZINI|West Ham United F...|   167|  66|         1993|
|Argentina|    18|     DF|    SALVIO Eduardo|1990-07-13|      SALVIO|    SL Benfica (POR)|   167|  69|         1990|
|Argentina|    10|     FW|      MESSI Lionel|1987-06-24|       MESSI|  FC Barcelona (ESP)|   170|  72|         1987|
|Argentina|     4|     DF|  ANSALDI Cristian|1986-09-20|     ANS