In [1]:
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.master('local[*]').appName("Classificação com Spark").getOrCreate()

In [3]:
spark

# Carregando os dados

In [4]:
dados = spark.read.csv('./base de dados/dados_clientes.csv', sep = ',', header = True, inferSchema=True)

In [None]:
dados.show()

In [9]:
dados.count()

10348

In [10]:
dados.groupBy('Churn').count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|  Sim| 5174|
|  Nao| 5174|
+-----+-----+



In [11]:
dados.printSchema()

root
 |-- id: integer (nullable = true)
 |-- Churn: string (nullable = true)
 |-- Mais65anos: integer (nullable = true)
 |-- Conjuge: string (nullable = true)
 |-- Dependentes: string (nullable = true)
 |-- MesesDeContrato: integer (nullable = true)
 |-- TelefoneFixo: string (nullable = true)
 |-- MaisDeUmaLinhaTelefonica: string (nullable = true)
 |-- Internet: string (nullable = true)
 |-- SegurancaOnline: string (nullable = true)
 |-- BackupOnline: string (nullable = true)
 |-- SeguroDispositivo: string (nullable = true)
 |-- SuporteTecnico: string (nullable = true)
 |-- TVaCabo: string (nullable = true)
 |-- StreamingFilmes: string (nullable = true)
 |-- TipoContrato: string (nullable = true)
 |-- ContaCorreio: string (nullable = true)
 |-- MetodoPagamento: string (nullable = true)
 |-- MesesCobrados: double (nullable = true)



# Transformação de dados

In [13]:
## colunas binárias para vivarem 0 ou 1

colunasBinarias = [
                 'Churn',
                 'Conjuge',
                 'Dependentes',
                 'TelefoneFixo',
                 'MaisDeUmaLinhaTelefonica',
                 'SegurancaOnline',
                 'BackupOnline',
                 'SeguroDispositivo',
                 'SuporteTecnico',
                 'TVaCabo',
                 'StreamingFilmes',
                 'ContaCorreio']


In [14]:
from pyspark.sql import functions as f

In [17]:
todasColunas = [f.when(f.col(c) == 'Sim', 1).otherwise(0).alias(c) for c in colunasBinarias]

In [18]:
todasColunas

[Column<b'CASE WHEN (Churn = Sim) THEN 1 ELSE 0 END AS `Churn`'>,
 Column<b'CASE WHEN (Conjuge = Sim) THEN 1 ELSE 0 END AS `Conjuge`'>,
 Column<b'CASE WHEN (Dependentes = Sim) THEN 1 ELSE 0 END AS `Dependentes`'>,
 Column<b'CASE WHEN (TelefoneFixo = Sim) THEN 1 ELSE 0 END AS `TelefoneFixo`'>,
 Column<b'CASE WHEN (MaisDeUmaLinhaTelefonica = Sim) THEN 1 ELSE 0 END AS `MaisDeUmaLinhaTelefonica`'>,
 Column<b'CASE WHEN (SegurancaOnline = Sim) THEN 1 ELSE 0 END AS `SegurancaOnline`'>,
 Column<b'CASE WHEN (BackupOnline = Sim) THEN 1 ELSE 0 END AS `BackupOnline`'>,
 Column<b'CASE WHEN (SeguroDispositivo = Sim) THEN 1 ELSE 0 END AS `SeguroDispositivo`'>,
 Column<b'CASE WHEN (SuporteTecnico = Sim) THEN 1 ELSE 0 END AS `SuporteTecnico`'>,
 Column<b'CASE WHEN (TVaCabo = Sim) THEN 1 ELSE 0 END AS `TVaCabo`'>,
 Column<b'CASE WHEN (StreamingFilmes = Sim) THEN 1 ELSE 0 END AS `StreamingFilmes`'>,
 Column<b'CASE WHEN (ContaCorreio = Sim) THEN 1 ELSE 0 END AS `ContaCorreio`'>]

In [16]:
todasColunas

[Column<b'CASE WHEN (Churn = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (Conjuge = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (Dependentes = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (TelefoneFixo = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (MaisDeUmaLinhaTelefonica = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (SegurancaOnline = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (BackupOnline = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (SeguroDispositivo = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (SuporteTecnico = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (TVaCabo = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (StreamingFilmes = Sim) THEN 1 ELSE 0 END'>,
 Column<b'CASE WHEN (ContaCorreio = Sim) THEN 1 ELSE 0 END'>]