In [1]:
from pyspark.sql import SparkSession

# Inicializando a sessão Spark
spark = SparkSession.builder \
    .appName("PredictDropout") \
    .getOrCreate()

# Verificando se a sessão foi criada
print(spark)

<pyspark.sql.session.SparkSession object at 0x0000018D3E46F290>


In [2]:
# Lista de tabelas
tables = [
    "alunos", "curriculum", "disciplinas_1979", "disciplinas_1990", "disciplinas_1999", "disciplinas_2017", "disciplinas_2023",
    "matriculas", "tabela_alunos", "tabela_cursos", "tabela_dados_ingresso", "tabela_dados_pessoais", "tabela_disciplinas", "tabela_motivo_evasao"
]

# Carregando as tabelas
dataframes = {table: spark.read.csv(f"E:/Mestrado UFCG/Semestre 2024.2/Dados/Tabelas_0/{table}.csv", header=True, inferSchema=True) for table in tables}

In [5]:
print (tables)

['alunos', 'curriculum', 'disciplinas_1979', 'disciplinas_1990', 'disciplinas_1999', 'disciplinas_2017', 'disciplinas_2023', 'matriculas', 'tabela_alunos', 'tabela_cursos', 'tabela_dados_ingresso', 'tabela_dados_pessoais', 'tabela_disciplinas', 'tabela_motivo_evasao']


In [10]:
print(dataframes)

{'alunos': DataFrame[MATRICULA;ID_CIDADAO;NOME;IDADE;E-MAIL;GENERO;ESTADO_CIVIL_ALUNOS;NACIONALIDADE;LOCAL_NASCIMENTO;ESTADO;TERMO_ESTADO;RAZAO_INATIVIDADE;TIPO_ADMISSAO;TERMO_ADMISSAO;POLITICA_AFIRMATIVA;TIPO_ENSINO_MEDIO;ANO_FORMATURA_ENSINO_MEDIO;CODIGO_CURSO;CODIGO_CURRICULAR; ALUNOS_ATIVOS;EX_ALUNOS;ALUNOS_INATIVOS: string], 'curriculum': DataFrame[CODIGO_CURSO;CODIGO_CURRICULAR;TERMO_NUMERO_MINIMO;TERMO_NUMERO_MAXIMO;NUMERO_MINIMO_CREDITO_INSCRITO;NUMERO_MAXIMO_CREDITOS_INSCRITOS;MINIMO_CREDITO_OBRIGATORIOS_NECESSARIO;MINIMO_CREDITO_OPCIONAIS_NECESSARIOS;MINIMO_CREDITOS_COMPLEMENTARES_NECESSARIOS;MINIMO_ATIVIDADES_EXTENSAO_ACADEMICA: string], 'disciplinas_1979': DataFrame[CODIGO_CURSO;CODIGO_CURRICULAR;CODIGO_DISCIPLINA;NOME_DISCIPLINA;CREDITOS_DISCIPLINA;HORAS_DISCIPLINA;TIPO;SEMESTRE_IDEAL: string], 'disciplinas_1990': DataFrame[CODIGO_CURSO;CODIGO_CURRICULAR;CODIGO_DISCIPLINA;NOME_DISCIPLINA;CREDITOS;HORAS_DISCIPLINA;TIPO;SEMESTRE_IDEAL: string], 'disciplinas_1999': DataFrame[

### Trocar delimitador ###

In [11]:
# Carregando as tabelas com o delimitador correto
dataframes = {
    table: spark.read.csv(
        f"E:/Mestrado UFCG/Semestre 2024.2/Dados/Tabelas_0/{table}.csv",
        header=True,
        sep=";",  # Especifica o delimitador como ;
        inferSchema=True
    )
    for table in tables
}

In [12]:
for table, df in dataframes.items():
    print(f"Tabela: {table}")
    print("Schema:")
    df.printSchema()
    print("Primeiras linhas:")
    df.show(5, truncate=False)
    print("\n")

Tabela: alunos
Schema:
root
 |-- MATRICULA: integer (nullable = true)
 |-- ID_CIDADAO: long (nullable = true)
 |-- NOME: string (nullable = true)
 |-- IDADE: integer (nullable = true)
 |-- E-MAIL: string (nullable = true)
 |-- GENERO: string (nullable = true)
 |-- ESTADO_CIVIL_ALUNOS: string (nullable = true)
 |-- NACIONALIDADE: string (nullable = true)
 |-- LOCAL_NASCIMENTO: string (nullable = true)
 |-- ESTADO: string (nullable = true)
 |-- TERMO_ESTADO: double (nullable = true)
 |-- RAZAO_INATIVIDADE: string (nullable = true)
 |-- TIPO_ADMISSAO: string (nullable = true)
 |-- TERMO_ADMISSAO: double (nullable = true)
 |-- POLITICA_AFIRMATIVA: string (nullable = true)
 |-- TIPO_ENSINO_MEDIO: string (nullable = true)
 |-- ANO_FORMATURA_ENSINO_MEDIO: integer (nullable = true)
 |-- CODIGO_CURSO: integer (nullable = true)
 |-- CODIGO_CURRICULAR: integer (nullable = true)
 |--  ALUNOS_ATIVOS: boolean (nullable = true)
 |-- EX_ALUNOS: boolean (nullable = true)
 |-- ALUNOS_INATIVOS: boolean (

### Visualizar a base como ficou ###

In [13]:
print(dataframes)

{'alunos': DataFrame[MATRICULA: int, ID_CIDADAO: bigint, NOME: string, IDADE: int, E-MAIL: string, GENERO: string, ESTADO_CIVIL_ALUNOS: string, NACIONALIDADE: string, LOCAL_NASCIMENTO: string, ESTADO: string, TERMO_ESTADO: double, RAZAO_INATIVIDADE: string, TIPO_ADMISSAO: string, TERMO_ADMISSAO: double, POLITICA_AFIRMATIVA: string, TIPO_ENSINO_MEDIO: string, ANO_FORMATURA_ENSINO_MEDIO: int, CODIGO_CURSO: int, CODIGO_CURRICULAR: int,  ALUNOS_ATIVOS: boolean, EX_ALUNOS: boolean, ALUNOS_INATIVOS: boolean], 'curriculum': DataFrame[CODIGO_CURSO: int, CODIGO_CURRICULAR: int, TERMO_NUMERO_MINIMO: int, TERMO_NUMERO_MAXIMO: int, NUMERO_MINIMO_CREDITO_INSCRITO: int, NUMERO_MAXIMO_CREDITOS_INSCRITOS: int, MINIMO_CREDITO_OBRIGATORIOS_NECESSARIO: int, MINIMO_CREDITO_OPCIONAIS_NECESSARIOS: int, MINIMO_CREDITOS_COMPLEMENTARES_NECESSARIOS: int, MINIMO_ATIVIDADES_EXTENSAO_ACADEMICA: int], 'disciplinas_1979': DataFrame[CODIGO_CURSO: int, CODIGO_CURRICULAR: int, CODIGO_DISCIPLINA: int, NOME_DISCIPLINA: s

### Funções de Limpeza ###

In [15]:
from pyspark.sql.functions import col, mean, when, trim, lower, min, max

# Função para tratamento de valores ausentes
def handle_missing_values(df, strategy="mean"):
    for column in df.columns:
        if df.select(column).distinct().count() > 1:  # Evita erro com colunas únicas
            if strategy == "mean" and df.schema[column].dataType in ['int', 'double', 'float']:
                mean_value = df.select(mean(col(column))).collect()[0][0]
                df = df.withColumn(column, when(col(column).isNull(), mean_value).otherwise(col(column)))
            elif strategy == "median" and df.schema[column].dataType in ['int', 'double', 'float']:
                median_value = df.approxQuantile(column, [0.5], 0.01)[0]
                df = df.withColumn(column, when(col(column).isNull(), median_value).otherwise(col(column)))
            elif strategy == "mode":
                mode_value = df.groupBy(column).count().orderBy(col("count").desc()).first()[0]
                df = df.withColumn(column, when(col(column).isNull(), mode_value).otherwise(col(column)))
            elif strategy == "drop":
                df = df.na.drop()
    return df

# Função para remoção de outliers
def remove_outliers(df, column):
    if df.schema[column].dataType in ['int', 'double', 'float']:
        quantiles = df.approxQuantile(column, [0.25, 0.75], 0.01)
        q1, q3 = quantiles[0], quantiles[1]
        iqr = q3 - q1
        lower_bound = q1 - 1.5 * iqr
        upper_bound = q3 + 1.5 * iqr
        df = df.filter((col(column) >= lower_bound) & (col(column) <= upper_bound))
    return df

# Função para padronização de categorias
def standardize_categories(df, column):
    df = df.withColumn(column, col(column).cast("string"))
    df = df.withColumn(column, trim(lower(col(column))))  # Remove espaços e converte para minúsculas
    return df

### Aplicação das Transformações ###

In [17]:
# Aplicando as transformações nas tabelas
for table, df in dataframes.items():
    print(f"Processando tabela: {table}")
    
    # Tratamento de valores ausentes
    df = handle_missing_values(df, strategy="mean")
    
    # Remoção de outliers e padronização de categorias
    for col_name in df.columns:
        if df.schema[col_name].dataType in ['int', 'double', 'float']:
            df = remove_outliers(df, col_name)  # Remoção de outliers
        else:
            df = standardize_categories(df, col_name)  # Padronização de categorias
    
    # Remoção de duplicatas
    df = df.dropDuplicates()
    
    # Salvando a tabela limpa no novo local
    try:
        df.write.mode("overwrite").csv(f"file:///C:/Users/Big Data/Documents/databrikcs/tabelas_tratadas/cleaned_{table}", header=True)
        print(f"Tabela {table} processada e salva com sucesso!\n")
    except Exception as e:
        print(f"Erro ao salvar a tabela {table}: {e}\n")

print("Processamento concluído! As tabelas limpas foram salvas com o prefixo 'cleaned_'.")

Processando tabela: alunos
Erro ao salvar a tabela alunos: An error occurred while calling o904.csv.
: java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
	at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:735)
	at org.apache.hadoop.util.Shell.getSetPermissionCommand(Shell.java:270)
	at org.apache.hadoop.util.Shell.getSetPermissionCommand(Shell.java:286)
	at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:978)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkOneDirWithMode(RawLocalFileSystem.java:660)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:700)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:672)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:699)
	at org.apache.hadoop.fs.RawLocalFileSys

In [6]:
# Aplicando as transformações nas tabelas
for table, df in dataframes.items():
    print(f"Processando tabela: {table}")
    df = handle_missing_values(df, strategy="mean")  # Tratamento de valores ausentes
    for col_name in df.columns:
        if df.schema[col_name].dataType in ['int', 'double', 'float']:
            df = remove_outliers(df, col_name)  # Remoção de outliers
        else:
            df = standardize_categories(df, col_name)  # Normalização de categorias
    
    df = df.dropDuplicates()  # Remoção de duplicatas

    # Verificações antes de salvar
    print(f"Verificando DataFrame: {table}")
    df.printSchema()
    df.show(5)
    print(f"Número de linhas: {df.count()}")

    # Salvando o DataFrame
    try:
        df.write.mode("overwrite").csv(f"file:///E:/Mestrado UFCG/Semestre 2024.2/Dados/Tabelas_0/cleaned_{table}", header=True)
        print(f"Tabela {table} salva com sucesso!")
    except Exception as e:
        print(f"Erro ao salvar a tabela {table}: {e}")

Processando tabela: alunos
Verificando DataFrame: alunos
root
 |-- MATRICULA;ID_CIDADAO;NOME;IDADE;E-MAIL;GENERO;ESTADO_CIVIL_ALUNOS;NACIONALIDADE;LOCAL_NASCIMENTO;ESTADO;TERMO_ESTADO;RAZAO_INATIVIDADE;TIPO_ADMISSAO;TERMO_ADMISSAO;POLITICA_AFIRMATIVA;TIPO_ENSINO_MEDIO;ANO_FORMATURA_ENSINO_MEDIO;CODIGO_CURSO;CODIGO_CURRICULAR; ALUNOS_ATIVOS;EX_ALUNOS;ALUNOS_INATIVOS: string (nullable = true)

+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|MATRICULA;ID_CIDADAO;NOME;IDADE;E-MAIL;GENERO;ESTADO_CIVIL_ALUNOS;NACIONALIDADE;LOCAL_NASCIMENTO;ESTADO;TERMO_ESTADO;RAZAO_INATIVIDADE;TIPO_ADMISSAO;TERMO_ADMISSAO;POLITICA_AFIRMATIVA;TIPO_ENSINO_MEDIO;ANO_FORMATURA_ENSINO_MEDIO;CODIGO_CURSO;CODIGO_CURRICULAR; ALUNOS_ATIVOS;EX_ALUNOS;ALUNOS_INATIVOS|

### Visualizar tabelas pós limpeza ###

### Visualização com PySpark ###


In [7]:
# Exibir as primeiras 10 linhas de um DataFrame
df.show(10)

# Exibir o schema do DataFrame
df.printSchema()

# Exibir estatísticas descritivas
df.describe().show()

+---------------------------------------+
|MATRICULA;RAZAO_DE_INATIVIDADE_DE_ALUNO|
+---------------------------------------+
|                   107210010;desconh...|
|                     109210017;abandono|
|                     112150428;expulsao|
|                   112210115;desconh...|
|                   112210439;desconh...|
|                     113111428;abandono|
|                     113111803;expulsao|
|                   113210893;desconh...|
|                   114110469;desconh...|
|                   114111357;desconh...|
+---------------------------------------+
only showing top 10 rows

root
 |-- MATRICULA;RAZAO_DE_INATIVIDADE_DE_ALUNO: string (nullable = true)

+-------+---------------------------------------+
|summary|MATRICULA;RAZAO_DE_INATIVIDADE_DE_ALUNO|
+-------+---------------------------------------+
|  count|                                   3761|
|   mean|                                   NULL|
| stddev|                                   NULL|
|    min|

### Converter DataFrame do PySpark para Pandas ###

In [11]:
print(pandas_df.columns)

Index(['MATRICULA;RAZAO_DE_INATIVIDADE_DE_ALUNO'], dtype='object')


In [8]:
# Converter DataFrame do PySpark para Pandas
pandas_df = df.toPandas()

# Exibir as primeiras linhas no Pandas
print(pandas_df.head())

  MATRICULA;RAZAO_DE_INATIVIDADE_DE_ALUNO
0                  107210010;desconhecido
1                      109210017;abandono
2                      112150428;expulsao
3                  112210115;desconhecido
4                  112210439;desconhecido


In [9]:
pip install matplotlib seaborn

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip
