In [15]:
import os
import findspark
findspark.init(os.environ['SPARK_HOME'])

from pyspark.sql import SparkSession

# Inicializando a sessão do Spark
spark = SparkSession.builder.appName("Exemplo").getOrCreate()

## Text Cleaning and NLP
---

- **Remoção de Caracteres Especiais e Pontuação:** Eliminar caracteres especiais e pontuações desnecessárias que não contribuem para a análise.


In [16]:
from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType

In [17]:
# Criando um DataFrame de exemplo com uma coluna de texto
data = [("Documento1", "Este é um exemplo de texto com caracteres especiais: @# $%!"),
        ("Documento2", "Outro texto com pontuação e números: 1234, 5678!")]

columns = ["Documento", "Texto"]

df = spark.createDataFrame(data, columns)

# Exibindo o DataFrame original
print("DataFrame Original:")
df.show(truncate=False)

DataFrame Original:
+----------+-----------------------------------------------------------+
|Documento |Texto                                                      |
+----------+-----------------------------------------------------------+
|Documento1|Este é um exemplo de texto com caracteres especiais: @# $%!|
|Documento2|Outro texto com pontuação e números: 1234, 5678!           |
+----------+-----------------------------------------------------------+



In [18]:
# Definindo uma função de remoção de caracteres especiais e pontuações
def remover_caracteres_especiais(texto):
    return ''.join(c for c in texto if c.isalpha() or c.isspace())

In [19]:
# Registrando a função como uma UDF (User Defined Function)
udf_remover_caracteres_especiais = udf(remover_caracteres_especiais, StringType())

In [20]:
# Aplicando a função para remover caracteres especiais
df_limpo = df.withColumn("TextoLimpo", udf_remover_caracteres_especiais(col("Texto")))

In [21]:
# Exibindo o DataFrame resultante
print("\nDataFrame Após Remoção de Caracteres Especiais:")
df_limpo.show(truncate=False)


DataFrame Após Remoção de Caracteres Especiais:
+----------+-----------------------------------------------------------+-----------------------------------------------------+
|Documento |Texto                                                      |TextoLimpo                                           |
+----------+-----------------------------------------------------------+-----------------------------------------------------+
|Documento1|Este é um exemplo de texto com caracteres especiais: @# $%!|Este é um exemplo de texto com caracteres especiais  |
|Documento2|Outro texto com pontuação e números: 1234, 5678!           |Outro texto com pontuação e números                  |
+----------+-----------------------------------------------------------+-----------------------------------------------------+



In [14]:
spark.stop()