## Criando um DataFrame 

#### Importar a classe SparkSession do módulo pyspark.sql.

O SparkSession é uma entrada única para a funcionalidade do Spark SQL, permitindo que você interaja com os dados em estruturas de dados distribuídas e manipule grandes conjuntos de dados de forma eficiente usando o Apache Spark.

Quando você cria uma instância de SparkSession, ela oferece métodos para ler dados de fontes diversas, como arquivos CSV, JSON, Parquet, bancos de dados JDBC, entre outros. Além disso, você pode executar operações de transformação, agregação e análise de dados usando a API do Spark SQL. Em resumo, o SparkSession é essencial para iniciar e gerenciar operações de processamento de dados em um ambiente distribuído com o Apache Spark.

In [1]:
from pyspark.sql import SparkSession

#### Criar uma instância do SparkSession

A linha de código **spark = SparkSession.builder.appName('Aula 1').getOrCreate()** é usada para criar uma instância do SparkSession no Apache Spark usando a API PySpark. Vamos quebrar a linha para entender o que cada parte faz:

**SparkSession.builder:** Aqui, você está chamando o método builder do SparkSession, que é responsável por criar um construtor para a sessão do Spark.

**.appName('Aula 1'):** Este é um método do construtor que define o nome da sua aplicação Spark. No exemplo dado, o nome da aplicação é definido como 'Aula 1'. Esse nome pode ser usado para monitoramento e rastreamento de jobs do Spark no cluster.

**.getOrCreate():** Este método é usado para obter uma instância existente do SparkSession se ela já existir, ou criar uma nova se não existir. Ele é útil quando você está executando seu código em ambientes diferentes, como em um notebook ou em um script, garantindo que apenas uma instância do SparkSession seja criada e utilizada.

Em resumo, essa linha de código cria uma instância do SparkSession chamada spark com o nome da aplicação definido como 'Aula 1' e garante que apenas uma instância seja criada durante a execução do código. Isso é fundamental para iniciar e gerenciar operações de processamento de dados usando o Apache Spark com PySpark.

In [2]:
spark = (
    SparkSession.builder.appName('Aula 1 -  Criando um DataFrame')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate())
    

In [3]:
spark

In [4]:
local_file = r'C:\Users\mluiz\Documents\05_Python\PySpark\datasets\LOGINS.csv'

In [5]:
df = spark.read.csv(local_file)
df.show(3)

+--------------------+
|                 _c0|
+--------------------+
|cpf;email;senha;d...|
|981.507.362-12;pe...|
|493.705.168-75;re...|
+--------------------+
only showing top 3 rows



In [6]:
df = spark.read.csv(local_file, sep=';')
df.show(3)

+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|           _c0|                 _c1|       _c2|               _c3|   _c4|          _c5|           _c6|         _c7|                 _c8|            _c9|
+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|           cpf|               email|     senha|data_de_nascimento|estado|data_cadastro|          ipv4|cor_favorita|           profissao|       telefone|
|981.507.362-12|pedro-lucas53@gma...|+7^7E%xFBc|        2006-12-18|    RR|   2023-02-26|99.107.250.210|        Roxo|    Jogador De Golfe|   31 7785-4046|
|493.705.168-75|rezendeisaac@hotm...|_O_2GRnGOe|        1992-06-17|    GO|   2023-02-16| 197.11.26.213|       Ciano|Atleta De Arremes...|(031) 0803-6753|
+--------------+--------------------+----------+------------------+------+--

In [7]:
df = spark.read.csv(local_file, sep=';', header=True)
df.show(3)

+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|           cpf|               email|     senha|data_de_nascimento|estado|data_cadastro|          ipv4|cor_favorita|           profissao|       telefone|
+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|981.507.362-12|pedro-lucas53@gma...|+7^7E%xFBc|        2006-12-18|    RR|   2023-02-26|99.107.250.210|        Roxo|    Jogador De Golfe|   31 7785-4046|
|493.705.168-75|rezendeisaac@hotm...|_O_2GRnGOe|        1992-06-17|    GO|   2023-02-16| 197.11.26.213|       Ciano|Atleta De Arremes...|(031) 0803-6753|
|398.471.625-73|felipepires@uol.c...|*Aw5EOAvy9|        1921-11-11|    MG|   2023-01-02|  181.90.63.58|        Azul|      Papiloscopista|   11 9674-0553|
+--------------+--------------------+----------+------------------+------+--

In [8]:
df

DataFrame[cpf: string, email: string, senha: string, data_de_nascimento: string, estado: string, data_cadastro: string, ipv4: string, cor_favorita: string, profissao: string, telefone: string]

In [9]:
local_file2 = r'C:\Users\mluiz\Documents\05_Python\PySpark\datasets\LOGINS.txt'

In [13]:
df2 = spark.read.csv(local_file2, header=True)
df2.show(3)

+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|           cpf|               email|     senha|data_de_nascimento|estado|data_cadastro|          ipv4|cor_favorita|           profissao|       telefone|
+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|981.507.362-12|pedro-lucas53@gma...|+7^7E%xFBc|        2006-12-18|    RR|   2023-02-26|99.107.250.210|        Roxo|    Jogador De Golfe|   31 7785-4046|
|493.705.168-75|rezendeisaac@hotm...|_O_2GRnGOe|        1992-06-17|    GO|   2023-02-16| 197.11.26.213|       Ciano|Atleta De Arremes...|(031) 0803-6753|
|398.471.625-73|felipepires@uol.c...|*Aw5EOAvy9|        1921-11-11|    MG|   2023-01-02|  181.90.63.58|        Azul|      Papiloscopista|   11 9674-0553|
+--------------+--------------------+----------+------------------+------+--

In [15]:
local_file3 = r'C:\Users\mluiz\Documents\05_Python\PySpark\datasets\LOGINS.parquet'

In [16]:
df3 = spark.read.parquet(local_file3)
df3.show(3)

+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|           cpf|               email|     senha|data_de_nascimento|estado|data_cadastro|          ipv4|cor_favorita|           profissao|       telefone|
+--------------+--------------------+----------+------------------+------+-------------+--------------+------------+--------------------+---------------+
|981.507.362-12|pedro-lucas53@gma...|+7^7E%xFBc|        2006-12-18|    RR|   2023-02-26|99.107.250.210|        Roxo|    Jogador De Golfe|   31 7785-4046|
|493.705.168-75|rezendeisaac@hotm...|_O_2GRnGOe|        1992-06-17|    GO|   2023-02-16| 197.11.26.213|       Ciano|Atleta De Arremes...|(031) 0803-6753|
|398.471.625-73|felipepires@uol.c...|*Aw5EOAvy9|        1921-11-11|    MG|   2023-01-02|  181.90.63.58|        Azul|      Papiloscopista|   11 9674-0553|
+--------------+--------------------+----------+------------------+------+--

In [18]:
df.printSchema()

root
 |-- cpf: string (nullable = true)
 |-- email: string (nullable = true)
 |-- senha: string (nullable = true)
 |-- data_de_nascimento: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data_cadastro: string (nullable = true)
 |-- ipv4: string (nullable = true)
 |-- cor_favorita: string (nullable = true)
 |-- profissao: string (nullable = true)
 |-- telefone: string (nullable = true)



In [20]:
df3.printSchema()

root
 |-- cpf: string (nullable = true)
 |-- email: string (nullable = true)
 |-- senha: string (nullable = true)
 |-- data_de_nascimento: date (nullable = true)
 |-- estado: string (nullable = true)
 |-- data_cadastro: date (nullable = true)
 |-- ipv4: string (nullable = true)
 |-- cor_favorita: string (nullable = true)
 |-- profissao: string (nullable = true)
 |-- telefone: string (nullable = true)



In [23]:
df.count()

1000

In [25]:
df.describe().show()

+-------+--------------+-------------------+----------+------------------+------+-------------+-------------+------------+------------------+---------------+
|summary|           cpf|              email|     senha|data_de_nascimento|estado|data_cadastro|         ipv4|cor_favorita|         profissao|       telefone|
+-------+--------------+-------------------+----------+------------------+------+-------------+-------------+------------+------------------+---------------+
|  count|          1000|               1000|      1000|              1000|  1000|         1000|         1000|        1000|              1000|           1000|
|   mean|          null|               null|      null|              null|  null|         null|         null|        null|              null|           null|
| stddev|          null|               null|      null|              null|  null|         null|         null|        null|              null|           null|
|    min|012.469.857-30|aaragao@hotmail.com|!$A)4EAx

In [26]:
df.describe().show(vertical=True)

-RECORD 0---------------------------------
 summary            | count               
 cpf                | 1000                
 email              | 1000                
 senha              | 1000                
 data_de_nascimento | 1000                
 estado             | 1000                
 data_cadastro      | 1000                
 ipv4               | 1000                
 cor_favorita       | 1000                
 profissao          | 1000                
 telefone           | 1000                
-RECORD 1---------------------------------
 summary            | mean                
 cpf                | null                
 email              | null                
 senha              | null                
 data_de_nascimento | null                
 estado             | null                
 data_cadastro      | null                
 ipv4               | null                
 cor_favorita       | null                
 profissao          | null                
 telefone  

In [28]:
df.dtypes

[('cpf', 'string'),
 ('email', 'string'),
 ('senha', 'string'),
 ('data_de_nascimento', 'string'),
 ('estado', 'string'),
 ('data_cadastro', 'string'),
 ('ipv4', 'string'),
 ('cor_favorita', 'string'),
 ('profissao', 'string'),
 ('telefone', 'string')]

In [29]:
df3.dtypes

[('cpf', 'string'),
 ('email', 'string'),
 ('senha', 'string'),
 ('data_de_nascimento', 'date'),
 ('estado', 'string'),
 ('data_cadastro', 'date'),
 ('ipv4', 'string'),
 ('cor_favorita', 'string'),
 ('profissao', 'string'),
 ('telefone', 'string')]