In [10]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import IsolationForest
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar dados
data = pd.read_csv('escolas.mod.csv')

# Função para codificação de variáveis categóricas
def encode_categorical(data, columns):
    encoder = OneHotEncoder(sparse_output=False, drop='first')
    encoded_data = encoder.fit_transform(data[columns])
    encoded_df = pd.DataFrame(
        encoded_data, 
        columns=encoder.get_feature_names_out(columns)
    )
    return encoded_df

# Listas de variáveis quantitativas e qualitativas
quantitativas = [
    "prop_aprovados_anos_inciais_ef", "prop_reprovados_anos_iniciais_ef", "prop_abandono_anos_iniciais_ef", 
    "prop_aprovados_anos_finais_ef", "prop_reprovados_anos_finais_ef", "prop_abandono_anos_finais_ef", 
    "prop_aprovados_em", "prop_reprovados_em", "prop_abandono_em"
]

qualitativas = ["ano", "sigla_uf", "rede", "diretoria", "id_municipio", "codigo_tipo_escola"]

from sklearn.impute import SimpleImputer

def preencher_quantitativas(data, column):
    # Separar linhas com e sem valores faltantes
    train = data[data[column].notnull()]
    test = data[data[column].isnull()]

    # Verificar se o conjunto de teste está vazio
    if test.empty:
        print(f"Não há valores faltantes para a coluna '{column}'.")
        return

    # Separar variáveis preditoras e alvo
    X_train = train.drop(columns=quantitativas + [column])
    y_train = train[column]

    # Codificar variáveis categóricas para treino
    X_train_encoded = encode_categorical(X_train, qualitativas)
    X_train = pd.concat([X_train.reset_index(drop=True), X_train_encoded.reset_index(drop=True)], axis=1)
    X_train = X_train.select_dtypes(include=[np.number])  # Garantir que todas as colunas são numéricas

    # Verificar e imputar valores ausentes em X_train
    imputer = SimpleImputer(strategy='mean')
    X_train = imputer.fit_transform(X_train)

    # Preparar conjunto de teste
    X_test = test.drop(columns=quantitativas + [column])
    X_test_encoded = encode_categorical(X_test, qualitativas)
    X_test = pd.concat([X_test.reset_index(drop=True), X_test_encoded.reset_index(drop=True)], axis=1)
    X_test = X_test.select_dtypes(include=[np.number])  # Garantir que todas as colunas são numéricas

    # Verificar e imputar valores ausentes em X_test
    X_test = imputer.transform(X_test)

    # Modelo de regressão linear
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Prever valores faltantes
    data.loc[data[column].isnull(), column] = model.predict(X_test)

# Preenchimento de valores faltantes qualitativos
def preencher_qualitativas(data, column):
    imputer = SimpleImputer(strategy="most_frequent")
    data[column] = imputer.fit_transform(data[[column]])

# Preencher variáveis quantitativas
for col in quantitativas:
    preencher_quantitativas(data, col)

# Preencher variáveis qualitativas
for col in qualitativas:
    preencher_qualitativas(data, col)

# Análise de outliers
isolation_forest = IsolationForest(contamination=0.01, random_state=42)
data['outlier'] = isolation_forest.fit_predict(data[quantitativas])

# Remover outliers
data = data[data['outlier'] == 1]
data = data.drop(columns=['outlier'])

# Salvar os dados limpos
data.to_csv('escolas_cleaned.csv', index=False)

print("Dados processados e salvos em 'escolas_cleaned.csv'.")


Não há valores faltantes para a coluna 'prop_aprovados_anos_inciais_ef'.
Não há valores faltantes para a coluna 'prop_reprovados_anos_iniciais_ef'.
Não há valores faltantes para a coluna 'prop_abandono_anos_iniciais_ef'.
Não há valores faltantes para a coluna 'prop_aprovados_anos_finais_ef'.
Não há valores faltantes para a coluna 'prop_reprovados_anos_finais_ef'.
Não há valores faltantes para a coluna 'prop_abandono_anos_finais_ef'.


ValueError: The feature names should match those that were passed during fit.
Feature names unseen at fit time:
- diretoria_FERNANDOPOLIS
- diretoria_SAO VICENTE
- id_municipio_3515509.0
- id_municipio_3551009.0
Feature names seen at fit time, yet now missing:
- ano_2012
- codigo_tipo_escola_34.0
- diretoria_ARARAQUARA
- diretoria_BAURU
- diretoria_BOTUCATU
- ...
