In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
# Load the datasets
df_pessoas_final = pd.read_csv('../Data/df_pessoas_final.csv')

In [None]:
df_pessoas_final.head()

In [None]:
df_pessoas_final.info()

In [None]:
# Tentar converter todas as colunas de float64 para int64
for col in df_pessoas_final.select_dtypes(include=['float64']).columns:
    df_pessoas_final[col] = df_pessoas_final[col].apply(lambda x: int(x) if x != -1 else -1)

In [None]:
df_pessoas_final.info()

In [None]:
df_pessoas_final.head()

In [None]:
df_pessoas_final.columns

In [None]:
#Checando os valores únicos das colunas
# Definindo as colunas a serem analisadas
columns_to_check = ['cod_sexo_pessoa', 'idade',
       'cod_parentesco_rf_pessoa', 'cod_raca_cor_pessoa',
       'cod_local_nascimento_pessoa', 'cod_certidao_registrada_pessoa',
       'cod_deficiencia_memb', 'cod_sabe_ler_escrever_memb',
       'ind_frequenta_escola_memb', 'cod_escola_local_memb',
       'cod_curso_frequenta_memb', 'cod_ano_serie_frequenta_memb',
       'cod_curso_frequentou_pessoa_memb', 'cod_ano_serie_frequentou_memb',
       'cod_concluiu_frequentou_memb', 'cod_trabalhou_memb',
       'cod_afastado_trab_memb', 'cod_agricultura_trab_memb',
       'cod_principal_trab_memb', 'cod_trabalho_12_meses_memb',
       'qtd_meses_12_meses_memb', 'classe_renda'
]

# Criando um dicionário para armazenar os tipos de resposta
response_types = {}

# Iterando sobre as colunas e coletando os valores únicos
for column in columns_to_check:
    response_types[column] = df_pessoas_final[column].unique()

# Exibindo os tipos de resposta de cada coluna
for column, unique_values in response_types.items():
    print(f"Coluna: {column}\nValores únicos: {unique_values}\n")

In [None]:
# Gráfico de barras para verificar balanceamento das classes considerando as pessoas
df_pessoas_final['classe_renda'].value_counts().plot(kind='bar')
plt.xlabel('classe_renda')
plt.ylabel('Count')
plt.title('Balanceamento das Classes')
plt.show()

In [None]:
# Verificar a contagem de valores únicos na coluna 'cod_parentesco_rf_pessoa'
print(df_pessoas_final['cod_parentesco_rf_pessoa'].value_counts())

In [None]:
# Filtrar o dataframe por Responsável Familiar
df_pessoas_final_rf = df_pessoas_final[df_pessoas_final['cod_parentesco_rf_pessoa'] == 1]

# Visualizar as primeiras linhas do dataframe filtrado
df_pessoas_final_rf.head()


In [None]:
# Cria mask para não mostrar valores acima da diagonal
df_features = df_pessoas_final_rf[['cod_sexo_pessoa', 'idade',
      'cod_raca_cor_pessoa', 'cod_local_nascimento_pessoa', 'cod_certidao_registrada_pessoa',
       'cod_deficiencia_memb', 'cod_sabe_ler_escrever_memb',
       'ind_frequenta_escola_memb', 'cod_escola_local_memb',
       'cod_curso_frequenta_memb', 'cod_ano_serie_frequenta_memb',
       'cod_curso_frequentou_pessoa_memb', 'cod_ano_serie_frequentou_memb',
       'cod_concluiu_frequentou_memb', 'cod_trabalhou_memb',
       'cod_afastado_trab_memb', 'cod_agricultura_trab_memb',
       'cod_principal_trab_memb', 'cod_trabalho_12_meses_memb',
       'qtd_meses_12_meses_memb']]

mask = np.triu(np.ones_like(df_features.corr(), dtype=bool), k=1)

plt.figure(figsize=(12,8))
sns.heatmap(df_features.corr().round(1), annot=True, cmap='coolwarm', mask=mask)
plt.show()

In [None]:
#Retirando features com correlação > 8
df_pessoas_final_rf = df_pessoas_final_rf.drop(columns=['cod_afastado_trab_memb', 'qtd_meses_12_meses_memb'])
                                               
df_pessoas_final_rf.head()

In [None]:
# Cria mask para não mostrar valores acima da diagonal
df_features = df_pessoas_final_rf[['cod_sexo_pessoa', 'idade',
      'cod_raca_cor_pessoa', 'cod_local_nascimento_pessoa', 'cod_certidao_registrada_pessoa',
       'cod_deficiencia_memb', 'cod_sabe_ler_escrever_memb',
       'ind_frequenta_escola_memb', 'cod_escola_local_memb',
       'cod_curso_frequenta_memb', 'cod_ano_serie_frequenta_memb',
       'cod_curso_frequentou_pessoa_memb', 'cod_ano_serie_frequentou_memb',
       'cod_concluiu_frequentou_memb', 'cod_trabalhou_memb',
       'cod_agricultura_trab_memb',
       'cod_principal_trab_memb', 'cod_trabalho_12_meses_memb']]

mask = np.triu(np.ones_like(df_features.corr(), dtype=bool), k=1)

plt.figure(figsize=(12,8))
sns.heatmap(df_features.corr().round(1), annot=True, cmap='coolwarm', mask=mask)
plt.show()

In [None]:
#Retirando features com correlação > 8
df_pessoas_final_rf = df_pessoas_final_rf.drop(columns=['cod_trabalho_12_meses_memb'])
                                               
df_pessoas_final_rf.head()

In [None]:
# Cria mask para não mostrar valores acima da diagonal
df_features = df_pessoas_final_rf[['cod_sexo_pessoa', 'idade',
      'cod_raca_cor_pessoa', 'cod_local_nascimento_pessoa', 'cod_certidao_registrada_pessoa',
       'cod_deficiencia_memb', 'cod_sabe_ler_escrever_memb',
       'ind_frequenta_escola_memb', 'cod_escola_local_memb',
       'cod_curso_frequenta_memb', 'cod_ano_serie_frequenta_memb',
       'cod_curso_frequentou_pessoa_memb', 'cod_ano_serie_frequentou_memb',
       'cod_concluiu_frequentou_memb', 'cod_trabalhou_memb',
       'cod_agricultura_trab_memb',
       'cod_principal_trab_memb']]

mask = np.triu(np.ones_like(df_features.corr(), dtype=bool), k=1)

plt.figure(figsize=(12,8))
sns.heatmap(df_features.corr().round(1), annot=True, cmap='coolwarm', mask=mask)
plt.show()

# Seleção das variáveis independentes (Features)

In [None]:
 df_pessoas_final_rf.columns

In [None]:
# Selecionando as variáveis que serão utilizadas para o modelo
X = df_pessoas_final_rf[['cod_sexo_pessoa', 'idade',
       'cod_raca_cor_pessoa',
       'cod_local_nascimento_pessoa', 'cod_certidao_registrada_pessoa',
       'cod_deficiencia_memb', 'cod_sabe_ler_escrever_memb',
       'ind_frequenta_escola_memb', 'cod_escola_local_memb',
       'cod_curso_frequenta_memb', 'cod_ano_serie_frequenta_memb',
       'cod_curso_frequentou_pessoa_memb', 'cod_ano_serie_frequentou_memb',
       'cod_concluiu_frequentou_memb', 'cod_trabalhou_memb',
       'cod_agricultura_trab_memb', 'cod_principal_trab_memb']]
y = df_pessoas_final_rf['classe_renda']

# Exibindo as informações de X
print('X =', X.shape)
X.head()

In [None]:
y.head()

In [None]:
X.columns

In [None]:
#import pandas as pd
#from sklearn.compose import make_column_transformer
#from sklearn.preprocessing import OneHotEncoder

In [None]:
#col_transf = make_column_transformer((OneHotEncoder(), ['regiao_ibge', 'estrato', 'classf', 'cod_local_domic_fam', 'cod_especie_domic_fam', 'cod_agua_canalizada_fam',
 #   'cod_abaste_agua_domic_fam', 'cod_banheiro_domic_fam', 'cod_escoa_sanitario_domic_fam', 'cod_destino_lixo_domic_fam', 'cod_iluminacao_domic_fam', 'cod_calcamento_domic_fam',
#  'cod_familia_indigena_fam', 'ind_familia_quilombola_fam']),
  #                                   remainder='passthrough')

In [None]:
#col_transf.fit_transform(X)

In [None]:
#col_transf.get_feature_names_out()

In [None]:
# Realizar a transformação e criar um DataFrame temporário com as colunas transformadas
#transformed_data = col_transf.fit_transform(X)
#transformed_columns = col_transf.get_feature_names_out()
#df_transformed = pd.DataFrame(transformed_data, columns=transformed_columns, index=X.index)

# Substituir as colunas de X pelas colunas transformadas
#X = df_transformed

In [None]:
# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Testando o modelo do tipo XGBClassifier

In [None]:
!pip install xgboost -q

In [None]:
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score

# Mapeando as classes do target
y_train_mapped = y_train  

# Criar pipeline com normalização e modelo XGBoost
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('xgb', XGBClassifier(objective='multi:softmax', num_class=3, random_state=42))
])

# Definir hiperparâmetros para o Grid Search
param_grid = {
    'xgb__n_estimators': [250, 300, 350],
    'xgb__max_depth': [2, 3, 4],
    'xgb__learning_rate': [0.1]
}

# Grid Search com validação cruzada
grid_search = GridSearchCV(pipeline, param_grid, cv=3, scoring='f1_macro', n_jobs=-1)
grid_search.fit(X_train, y_train_mapped)  # Usando y_train_mapped

# Melhor modelo encontrado
gb_best = grid_search.best_estimator_
print(f"Melhores hiperparâmetros: {grid_search.best_params_}")

# F1 score no conjunto de teste
y_test_mapped = y_test 
y_pred = gb_best.predict(X_test)
f1 = f1_score(y_test_mapped, y_pred, average='macro')  # Calcular F1 score para multiclasse
print(f"F1 Score: {f1:.2f}")

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Gerar e exibir a matriz de confusão diretamente a partir do estimador
ConfusionMatrixDisplay.from_estimator(grid_search.best_estimator_, X_test, y_test, cmap='Blues')
# Personalizar o gráfico
plt.title('Matriz de Confusão')
plt.show()

In [None]:
from sklearn.inspection import permutation_importance

In [None]:
# 7- Importância das features por permutação
# Obter o melhor modelo treinado do GridSearchCV
best_model = grid_search.best_estimator_

In [None]:
# Calcular a importância das features por permutação
perm_importance = permutation_importance(best_model, X_test, y_test, n_repeats=10, random_state=42)

In [None]:
# Obter as importâncias médias e o desvio padrão das importâncias
importances_mean = perm_importance.importances_mean
importances_std = perm_importance.importances_std
features = X_test.columns

In [None]:
# Obter as importâncias médias e o desvio padrão das importâncias
importance_vals = perm_importance.importances_mean
importance_std = perm_importance.importances_std
features = X_test.columns

In [None]:
# Ordenar as importâncias em ordem decrescente
indices = np.argsort(importance_vals)[::-1]

In [None]:
# Plotar a importância das features na horizontal com desvio padrão
plt.figure(figsize=(10, 6))
plt.title("Importância das Features por Permutação")
plt.barh(range(len(importance_vals)), importance_vals[indices], xerr=importance_std[indices], align="center", color='skyblue')
plt.yticks(range(len(importance_vals)), features[indices])
plt.gca().invert_yaxis()  # Inverter o eixo Y para que a feature mais importante fique no topo
plt.xlabel('Importância (por permutação)')
plt.ylabel('Features')
plt.tight_layout()
plt.show()

In [None]:
# Criar uma lista de tuplas com a importância, desvio padrão e o nome da feature
feature_importance = list(zip(features, importance_vals, importance_std))

# Ordenar pela importância de forma decrescente
feature_importance.sort(key=lambda x: x[1], reverse=True)

# Exibir a lista de importância das features
print("Importância das Features por Permutação:")
for feature, importance, std in feature_importance:
    print(f"Feature: {feature}, Importância: {importance:.4f}, Desvio Padrão: {std:.4f}")

In [None]:
# 7. Criar um DataFrame com as importâncias
importance_df = pd.DataFrame({
    'Feature': X_test.columns,
    'Importance': perm_importance.importances_mean
})

# 8. Filtrar as features com importância maior que zero
important_features = importance_df[importance_df['Importance'] > 0.001]

print("Features com importância maior que zero:")
print(important_features)

# 9. Selecionar apenas as colunas importantes no conjunto de dados
X_train_filtered = X_train[important_features['Feature']]
X_test_filtered = X_test[important_features['Feature']]

# Grid Search com validação cruzada
grid_search = GridSearchCV(pipeline, param_grid, cv=3, scoring='f1', n_jobs=-1)
grid_search.fit(X_train_filtered, y_train)

# Melhor modelo encontrado
gb_best = grid_search.best_estimator_
print(f"Melhores hiperparâmetros: {grid_search.best_params_}")
# F1 score
y_pred = gb_best.predict(X_test_filtered)
f1 = f1_score(y_test, y_pred, average='macro')
print(f"F1 Score: {f1:.2f}")

# Testando o modelo Árvore de decisão

In [None]:
# Importando as bibliotecas
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Filtrar as features com importância maior que 0.001
important_features = importance_df[importance_df['Importance'] > 0.001]['Feature'].tolist()


In [None]:
# Selecionar apenas as important_features do df_pessoas_final_rf
X = df_pessoas_final_rf[important_features]
y = df_pessoas_final_rf['classe_renda']  # Variável target (supõe-se que seja 'classe_renda')

In [None]:
# Dividir os dados em treino e teste (70% treino e 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Criar e treinar o modelo de Árvore de Decisão
decision_tree = DecisionTreeClassifier(random_state=42, max_depth=3)
decision_tree.fit(X_train, y_train)

In [None]:
# Fazer previsões nos dados de teste
y_pred = decision_tree.predict(X_test)

In [None]:
# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.4f}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

In [None]:
# Importância das features utilizadas pelo modelo
feature_importances = pd.DataFrame({
    'Feature': X.columns,
    'Importance': decision_tree.feature_importances_
}).sort_values(by='Importance', ascending=False)

In [None]:
print("\nImportância das Features no Modelo de Árvore de Decisão:")
print(feature_importances)

In [None]:
# Plotar a Árvore de Decisão
plt.figure(figsize=(20, 10))
plot_tree(
    decision_tree, 
    feature_names=X.columns, 
    class_names=['Classe 0', 'Classe 1', 'Classe 2'],  # Substitua pelos nomes das classes reais, se necessário
    filled=True, 
    rounded=True, 
    fontsize=10
)
plt.title("Árvore de Decisão - Importância das Features")
plt.show()

# Testando o modelo RandomForest

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Filtrar as features com importância maior que 0.001
important_features = importance_df[importance_df['Importance'] > 0.001]['Feature'].tolist()


In [None]:
# Selecionar apenas as important_features do df_pessoas_final_rf
X = df_pessoas_final_rf[important_features]
y = df_pessoas_final_rf['classe_renda']  # Variável target (supõe-se que seja 'classe_renda')

In [None]:
# Dividir os dados em treino e teste (70% treino e 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Criar e treinar o modelo Random Forest
random_forest = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10, n_jobs=-1)
random_forest.fit(X_train, y_train)

In [None]:
# Fazer previsões nos dados de teste
y_pred = random_forest.predict(X_test)

In [None]:
# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.4f}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

In [None]:
# Matriz de Confusão
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1', 'Classe 2'], 
            yticklabels=['Classe 0', 'Classe 1', 'Classe 2'])
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix - Random Forest')
plt.show()

In [None]:
# Importância das features utilizadas pelo modelo
feature_importances = pd.DataFrame({
    'Feature': X.columns,
    'Importance': random_forest.feature_importances_
}).sort_values(by='Importance', ascending=False)

In [None]:
print("\nImportância das Features no Modelo Random Forest:")
print(feature_importances)

# Testando o modelo CatBoost

In [None]:
!pip install catboost -q

In [None]:
# Importar bibliotecas necessárias
import pandas as pd
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

In [None]:
# Filtrar as features com importância maior que 0.001
important_features = importance_df[importance_df['Importance'] > 0.001]['Feature'].tolist()

In [None]:
# Selecionar apenas as important_features do df_pessoas_final_rf
X = df_pessoas_final_rf[important_features]
y = df_pessoas_final_rf['classe_renda']  # Variável target (supõe-se que seja 'classe_renda')

In [None]:
X.info()

In [None]:
# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Certifique-se de que important_features seja uma lista ou um objeto Index
cat_features_list = list(important_features)  # Converte important_features para uma lista de strings

In [None]:
# Criar o Pool do CatBoost para lidar com as colunas categóricas
train_pool = Pool(data=X_train, label=y_train, cat_features=cat_features_list)
test_pool = Pool(data=X_test, label=y_test, cat_features=cat_features_list)

In [None]:
# Instanciar o modelo CatBoostClassifier
model = CatBoostClassifier(
    iterations=1000,
    learning_rate=0.1,
    depth=6,
    loss_function='MultiClass',
    eval_metric='Accuracy',
    verbose=100,
    random_seed=42
)

In [None]:
# Treinar o modelo
model.fit(train_pool, eval_set=test_pool, early_stopping_rounds=50)

In [None]:
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o modelo
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

In [None]:
# Criar a matriz de confusão
cm = confusion_matrix(y_test, y_pred)

# Plotar a matriz de confusão
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Classe 0', 'Classe 1', 'Classe 2'],  # Ajuste os rótulos conforme necessário
            yticklabels=['Classe 0', 'Classe 1', 'Classe 2'])  # Ajuste os rótulos conforme necessário
plt.title('Matriz de Confusão')
plt.xlabel('Classe Prevista')
plt.ylabel('Classe Real')
plt.show()

In [None]:
# Exibir a importância das features
feature_importances = model.get_feature_importance(prettified=True)
print("Feature Importances:\n", feature_importances)

# Resumindo o resultado de todos os modelos

In [None]:
import pandas as pd
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [None]:
# Modelos treinados e os respectivos conjuntos de teste e predições

models = {'XGBoost with Grid Search': gb_best, 
          'RandomForestClassifier': random_forest, 
          'DecisionTreeClassifier': decision_tree,
           'CatBoostClassifier': model}
#y_test: Variável de target de teste
predictions = {'XGBoost with Grid Search': y_pred, 'RandomForestClassifier': y_pred, 'DecisionTreeClassifier': y_pred, 'CatBoostClassifier': y_pred}

In [None]:
# Dicionário para armazenar as métricas dos modelos
model_scores = {
    'Model': [],
    'Accuracy': [],
    'Precision': [],
    'Recall': [],
    'F1 Score': []
}

In [None]:
# Avaliar cada modelo e armazenar as métricas
for model_name, model in models.items():
    y_pred = model.predict(X_test)
    
    # Adicionar o nome do modelo e as respectivas métricas
    model_scores['Model'].append(model_name)
    model_scores['Accuracy'].append(accuracy_score(y_test, y_pred))
    model_scores['Precision'].append(precision_score(y_test, y_pred, average='weighted'))
    model_scores['Recall'].append(recall_score(y_test, y_pred, average='weighted'))
    model_scores['F1 Score'].append(f1_score(y_test, y_pred, average='weighted'))


# Criar um DataFrame para organizar os resultados
scores_df = pd.DataFrame(model_scores)

# Mostrar o resumo dos scores
print("Resumo dos Scores dos Modelos:")
print(scores_df)

In [None]:
# Avaliando as features mais importantes para cada modelo

# Dicionário para armazenar as importâncias das features
feature_importances_dict = {}

# Avaliar a importância das features para cada modelo
for model_name, model in models.items():
    print(f"\nAvaliação do modelo: {model_name}")

    if model_name == "CatBoostClassifier":
        # Avaliação de importância usando CatBoost
        feature_importances = model.get_feature_importance(prettified=True)
        
        # Criar um DataFrame com as importâncias
        importance_df = pd.DataFrame(feature_importances)

        # Renomear colunas para 'Feature' e 'Importance'
        importance_df.columns = ['Feature', 'Importance']
        importance_df['Std'] = None  # Adiciona uma coluna Std como None para manter a estrutura

        # Ordenar pela importância de forma decrescente
        importance_df = importance_df.sort_values(by='Importance', ascending=False)

    else:
        # Avaliar a importância das features usando permutação para outros modelos
        result = permutation_importance(model, X_test, y_test, n_repeats=10, random_state=42)

        # Criar um DataFrame com as importâncias
        importance_df = pd.DataFrame({
            'Feature': X_test.columns,
            'Importance': result.importances_mean,
            'Std': result.importances_std
        })

        # Ordenar pela importância de forma decrescente
        importance_df = importance_df.sort_values(by='Importance', ascending=False)

    # Exibir as 5 principais features
    top_features = importance_df.head(5)
    print("\nImportância das Features por Permutação:" if model_name != "CatBoostClassifier" else "\nImportância das Features do CatBoost:")
    for index, row in top_features.iterrows():
        print(f"Feature: {row['Feature']}, Importância: {row['Importance']:.4f}, Desvio Padrão: {row['Std']:.4f}" if row['Std'] is not None else f"Feature: {row['Feature']}, Importância: {row['Importance']:.4f}")

    # Armazenar as importâncias no dicionário
    feature_importances_dict[model_name] = top_features


# Avaliando o balanceamento das classes

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Verificar a distribuição da variável target
target_distribution = df_pessoas_final_rf['classe_renda'].value_counts(normalize=True)

In [None]:
print("Distribuição da variável target 'classe_renda':")
print(target_distribution)

In [None]:
# Plotar a distribuição da variável target
plt.figure(figsize=(8, 5))
sns.barplot(x=target_distribution.index, y=target_distribution.values)
plt.title('Distribuição da Variável Target (classe_renda)')
plt.xlabel('Classe de Renda')
plt.ylabel('Proporção')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:
# Exibir o número absoluto de ocorrências por classe
absolute_distribution = df_pessoas_final_rf['classe_renda'].value_counts()

print("\nNúmero absoluto de ocorrências por classe:")
print(absolute_distribution)

In [None]:
pip install imbalanced-learn


In [None]:
import pandas as pd
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import Pipeline
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Separar as features (X) e a variável target (y)
X = df_pessoas_final_rf.drop(columns=['classe_renda'])
y = df_pessoas_final_rf['classe_renda']

In [None]:
# Primeiro, aplica-se o SMOTE para criar amostras sintéticas das classes minoritárias
# Depois, faz-se undersampling para reduzir a classe majoritária a um tamanho mais equilibrado
over = SMOTE(sampling_strategy={1.0: 35000, 2.0: 35000})  # Aumenta as classes 1 e 2 para 35k cada
under = RandomUnderSampler(sampling_strategy={0.0: 40000})  # Reduz a classe 0 para 40k

In [None]:
# Criar um pipeline que aplica SMOTE e depois o undersampling
pipeline = Pipeline(steps=[('o', over), ('u', under)])

In [None]:
# Aplicar o balanceamento ao conjunto de dados
X_balanced, y_balanced = pipeline.fit_resample(X, y)

In [None]:
# Verificar a nova distribuição das classes
balanced_distribution = pd.Series(y_balanced).value_counts()

print("Distribuição da variável target 'classe_renda' após o balanceamento:")
print(balanced_distribution)

In [None]:
# Visualizar a distribuição das classes após o balanceamento
plt.figure(figsize=(8, 5))
sns.barplot(x=balanced_distribution.index, y=balanced_distribution.values)
plt.title('Distribuição da Variável Target (classe_renda) Após o Balanceamento')
plt.xlabel('Classe de Renda')
plt.ylabel('Número de Amostras')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()