# Criando Dataframes 

Nesse documento serão demonstradas as formas corretas e incorretas de se criar um DataFrame Spark


In [1]:
import findspark
findspark.init()

# Criando uma Session

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').getOrCreate()
spark

Nesta situação são passados dois argumentos para o método createDataFrame. O primeiro é o dado e o segundo é uma lista com os nomes das colunas.

In [2]:
data = [('Hello','35'), ('Word', '29')]
colNames = ['Nome', 'Idade']
df = spark.createDataFrame(data, colNames)
df.toPandas()

Unnamed: 0,Nome,Idade
0,Hello,35
1,Word,29


No código deste item passamos como argumento apenas os dados (uma lista de dicionários). Perceba que desta vez não passamos o segundo argumento pois neste caso as chaves dos dicionários dão os nomes das colunas.

In [3]:
data = [{'Nome': 'Hello', 'Idade': '35'}, {'Nome': 'Word', 'Idade': '29'}]
df = spark.createDataFrame(data)
df.toPandas()

Unnamed: 0,Idade,Nome
0,35,Hello
1,29,Word


Também podemos criar DataFrames do Spark a partir de DataFrames do pandas.

In [4]:
import pandas as pd

data = [{'Nome': 'Zeca', 'Idade': '35'}, {'Nome': 'Eva', 'Idade': '29'}]
pandas_df = pd.DataFrame(data)
df = spark.createDataFrame(pandas_df)
df.toPandas()

Unnamed: 0,Nome,Idade
0,Zeca,35
1,Eva,29


Aqui o problema está em não passarmos este dicionário dentro de um iterável, como uma lista por exemplo. Isso faz com que o método não consiga inferir o esquema dos dados. Experimente passar o dicionário dentro de uma lista e observe o resultado obtido. Note que o DataFrame é criado, mas não conforme o esperado.

In [5]:
data = {'Nome': ['Zeca', 'Eva'], 'Idade': ['35', '29']}
df = spark.createDataFrame(data)
df

PySparkTypeError: [CANNOT_INFER_SCHEMA_FOR_TYPE] Can not infer schema for type: `str`.