In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("test_session").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")

In [2]:
import sys, os, time, getpass

sys.path.append("/home/tatiane/lib/")

import pessoal
from pessoal import *
#print('AppID: ', sc.applicationId)

# Pedir ao spark para exibir só erros, escondendo avisos (WARN) e infos
# O correto é resolver a causa como, por exemplo: ordenados = Window.partitionBy().orderBy(dfs[i].columns[0])
spark.sparkContext.setLogLevel("ERROR")

Tempo inicial da execucao: 2025-10-14 21:37:17.637274
User: tatiane
Node: tatiane-Inspiron-3583


## Dataframe

In [4]:
padronizado_path = '/home/tatiane/Documentos/tratamento_dados/processing/data/processing.csv'
padronizado = spark.read.csv(padronizado_path, header=True, inferSchema=True)
pessoal.completudeSchema(padronizado)

Qtd. registros: 100 | Quantidade de colunas:  5
root
 |-- municipio_nascimento: string (nullable = true)
 |-- sexo: string (nullable = true)
 |-- id_unico: integer (nullable = true)
 |-- data_nascimento: string (nullable = true)
 |-- nome: string (nullable = true)



## Validação de variáveis

In [5]:
def validar_colunas(df):
    """
    Retorna um DataFrame com métricas de validação para cada coluna:
    - tipo da variável
    - nulos
    - preenchidos
    - únicos
    - duplicados
    - valor mínimo (para numéricos e datas)
    - valor máximo (para numéricos e datas)
    - média (para numéricos)
    """
    total = df.count()
    resultado = []

    for col in df.columns:
        nulos = df.filter(F.col(col).isNull()).count()
        preenchidos = total - nulos
        unicos = df.select(col).distinct().count()
        duplicados = total - unicos

        # Inicializa métricas opcionais
        minimo, maximo, media = (None, None, None)

        # Verifica se a coluna é numérica
        if df.schema[col].dataType.simpleString() in ["int", "bigint", "double", "float", "decimal"]:
            stats = df.select(
                F.min(F.col(col)).alias("minimo"),
                F.max(F.col(col)).alias("maximo"),
                F.mean(F.col(col)).alias("media")
            ).collect()[0]
            minimo, maximo, media = stats["minimo"], stats["maximo"], stats["media"]

        # Verifica se é uma coluna de data
        elif "date" in df.schema[col].dataType.simpleString():
            stats = df.select(
                F.min(F.col(col)).alias("minimo"),
                F.max(F.col(col)).alias("maximo")
            ).collect()[0]
            minimo, maximo = stats["minimo"], stats["maximo"]

        resultado.append((col, nulos, preenchidos, unicos, duplicados, minimo, maximo, media))
    
    # Criar DataFrame PySpark com resultados
    schema = ["coluna", "nulos", "preenchidos", "unicos", "duplicados", "minimo", "maximo", "media"]
    return spark.createDataFrame(resultado, schema)

In [6]:
def detectar_outliers(df):
    """
    Retorna um DataFrame com contagem de outliers para cada variável numérica.
    Método: IQR (Interquartile Range)
    """
    resultado = []
    num_cols = [f.name for f in df.schema.fields if f.dataType.simpleString() in ['int', 'double', 'float', 'bigint']]

    for col in num_cols:
        q1, q3 = df.approxQuantile(col, [0.25, 0.75], 0.05)
        iqr = q3 - q1
        limite_inf = q1 - 1.5 * iqr
        limite_sup = q3 + 1.5 * iqr

        total = df.count()
        outliers = df.filter((F.col(col) < limite_inf) | (F.col(col) > limite_sup)).count()
        perc_outliers = round((outliers / total) * 100, 2)

        resultado.append((col, total, outliers, perc_outliers, limite_inf, limite_sup))

    schema = ["coluna", "total_registros", "qtd_outliers", "perc_outliers", "limite_inferior", "limite_superior"]
    return df.sparkSession.createDataFrame(resultado, schema)

In [7]:
df_valid = validar_colunas(padronizado)
df_out = detectar_outliers(padronizado)

df_final = df_valid.join(df_out, on="coluna", how="left")
df_final.toPandas()

                                                                                

Unnamed: 0,coluna,nulos,preenchidos,unicos,duplicados,minimo,maximo,media,total_registros,qtd_outliers,perc_outliers,limite_inferior,limite_superior
0,municipio_nascimento,0,100,10,90,,,,,,,,
1,sexo,0,100,2,98,,,,,,,,
2,id_unico,0,100,100,0,1.0,100.0,50.5,100.0,0.0,0.0,-56.5,147.5
3,data_nascimento,0,100,100,0,,,,,,,,
4,nome,0,100,20,80,,,,,,,,


### Distribuição das varáveis categóricas

In [11]:
padronizado = padronizado.withColumn("sexo", F.col("sexo").cast(ByteType()))

In [15]:
byte_ls = [x[0] for x in padronizado.dtypes if x[1] == 'tinyint']
dates_ls = [x[0] for x in padronizado.dtypes if x[1] == 'date']
string_ls = [x[0] for x in padronizado.dtypes if x[1] == 'string']
integer_ls = [x[0] for x in padronizado.dtypes if x[1] == 'int']
long_ls = [x[0] for x in padronizado.dtypes if x[1] == 'bigint']
double_ls = [x[0] for x in padronizado.dtypes if x[1] == 'double']

In [19]:
l = byte_ls[:]
count_base = padronizado.count()
for i, var in enumerate(l):
    print(f'{i + 1}/{len(l)}')
    print(f'Distribuição geral da variável `{var}`:')
    padronizado.groupBy(var).count().orderBy(F.col(var)).withColumn('%', F.round(F.col('count')/count_base * 100, 2)).show(100)

In [20]:
count_base = padronizado.count()
print(f'Distribuição geral da variável sexo:')
padronizado.groupBy('sexo').count().orderBy(F.col('sexo')).withColumn('%', F.round(F.col('count')/count_base * 100, 2)).show(100)

Distribuição geral da variável sexo:
+----+-----+----+
|sexo|count|   %|
+----+-----+----+
|   F|   50|50.0|
|   M|   50|50.0|
+----+-----+----+



In [23]:
#download HTML
!jupyter nbconvert --to html --no-input descriptive.ipynb

[NbConvertApp] Converting notebook descriptive.ipynb to html
[NbConvertApp] Writing 277441 bytes to descriptive.html
