In [1]:
from pyspark.sql import SparkSession, functions as f
from pyspark.sql.types import *

In [2]:
spark = SparkSession.builder.appName("transformando_dados").getOrCreate()

In [3]:
schema_produto = StructType([
    StructField("CPF", StringType()),
    StructField("Nome", StringType()),
    StructField("Nascimento", StringType()),
    StructField("Sexo", StringType()),
    StructField("Est_civil", StringType()),
    StructField("Email", StringType()),
    StructField("Telefone", StringType()),
    StructField("CEP", StringType()),

])

cadastro_produtos = spark.read.csv("C:/Users/User/Documents/Enrico Lopes/Enrico_0711/cadastro_clientes.csv", sep= ";", header=True, schema=schema_produto)

In [4]:
cadastro_produtos.show()

+--------------+------------------+----------+----+---------+--------------------+---------------+---------+
|           CPF|              Nome|Nascimento|Sexo|Est_civil|               Email|       Telefone|      CEP|
+--------------+------------------+----------+----+---------+--------------------+---------------+---------+
|520.017.343-01|   Reginald Peters|1991-03-06|   M| Solteiro| rpeters0@drupal.org|(78) 78861-9709|64117-975|
|437.566.711-51|         Ana Silby|1996-10-02|   M| Solteiro| asilby1@webnode.com|(46) 69258-7627|95573-951|
|629.681.648-43|    Adda MacKenzie|1991-01-09|   M| Solteiro|amackenzie2@webs.com|(77) 90403-5009|05071-530|
|881.223.868-21|      Stacia Deerr|1997-12-25|   F|   Casado|     sdeerr3@loc.gov|(27) 95626-8792|08501-183|
|161.145.928-70|    Samuele Seager|1981-06-15|   F| Solteiro| sseager4@github.com|(88) 09083-6272|04302-305|
|439.045.671-48|   Wilow Simonitto|1990-12-05|   F|   Casado| wsimonitto5@who.int|(11) 69257-2081|78118-242|
|549.960.571-32|   

In [5]:
cadastro_produtos.printSchema()

root
 |-- CPF: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Nascimento: string (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Est_civil: string (nullable = true)
 |-- Email: string (nullable = true)
 |-- Telefone: string (nullable = true)
 |-- CEP: string (nullable = true)



In [6]:
cadastro_produtos_transform = cadastro_produtos.select("*",f.regexp_replace("Telefone", "[^0-9]","").cast(IntegerType())\
                                             .alias("Telefone_Consolidada"),f.regexp_replace("CPF","[.-]","").cast(IntegerType())\
                                             .alias("CPF_Consolidada"),f.regexp_replace("CEP","[-]","").alias("CEP_Consolidada"),
                                            f.regexp_replace("Nascimento","[-]","").alias("Nascimento_Consolidada"))\
                                                .drop("Telefone","CPF", "CEP","Nascimento")

In [10]:
cadastro_produtos_transform.show()

+------------------+----+---------+--------------------+--------------------+---------------+---------------+----------------------+
|              Nome|Sexo|Est_civil|               Email|Telefone_Consolidada|CPF_Consolidada|CEP_Consolidada|Nascimento_Consolidada|
+------------------+----+---------+--------------------+--------------------+---------------+---------------+----------------------+
|   Reginald Peters|   M| Solteiro| rpeters0@drupal.org|                NULL|           NULL|       64117975|              19910306|
|         Ana Silby|   M| Solteiro| asilby1@webnode.com|                NULL|           NULL|       95573951|              19961002|
|    Adda MacKenzie|   M| Solteiro|amackenzie2@webs.com|                NULL|           NULL|       05071530|              19910109|
|      Stacia Deerr|   F|   Casado|     sdeerr3@loc.gov|                NULL|           NULL|       08501183|              19971225|
|    Samuele Seager|   F| Solteiro| sseager4@github.com|             

In [11]:
cadastro_produtos_transform.printSchema()

root
 |-- Nome: string (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Est_civil: string (nullable = true)
 |-- Email: string (nullable = true)
 |-- Telefone_Consolidada: integer (nullable = true)
 |-- CPF_Consolidada: integer (nullable = true)
 |-- CEP_Consolidada: string (nullable = true)
 |-- Nascimento_Consolidada: string (nullable = true)



In [9]:
cadastro_produtos = cadastro_produtos.select("*",
                                              f.trim(f.regexp_replace("Telefone", "[^0-9]","")).cast(IntegerType())\
                                              .alias("Telefone_Consolidada"),
                                              f.trim(f.regexp_replace("CPF", "[.-]","")).cast(IntegerType())\
                                              .alias("CPF_Consolidada"),
                                              f.trim(f.regexp_replace("CEP", "[-]","")).cast(IntegerType()).alias("CEP_Consolidada"),
                                              f.trim(f.regexp_replace("Nascimento", "[-]","")).cast(IntegerType()).alias("Nascimento_Consolidada"))\
                                                .drop("Telefone","CPF", "CEP","Nascimento")
