# Reticulate

### Pacote que permite a integração do R e do Python no mesmo ambiente, oference uma interface entre os dois.

In [None]:
# Instala o Reticulate em uma localização específica
install.packages("reticulate")

# Carrega o pacote para o ambiente, considerando que ele já foi instalado acima
library(reticulate)

Installing package into ‘/home/davirnas/R/x86_64-pc-linux-gnu-library/4.5’
(as ‘lib’ is unspecified)



In [None]:
# Exibe informações sobre a configuração atual do Python no ambiente R
py_config()

In [None]:
# garante que o pacote pandas esteja disponível no ambiente Python que está sendo utilizado pelo reticulate
py_require("pandas")

In [None]:
pd <- import("pandas")

In [None]:
df_original <- pd$read_csv("Placement_Data_Full_Class.csv")

In [None]:
# Criar Cópia
df_no_salary <- df_original

In [None]:
# Remoção da ColunaSalary no dataframe
# 1- Verificar se coluna existe no dataframe

# Definindo o nome da coluna em uma variável
coluna <- "salary"

# Verificar se a coluna existe no DataFrame
if (coluna %in% colnames(df_no_salary)) {
    # Usando paste para concatenar e imprimir a mensagem
    print(paste("A coluna", coluna, "existe."))
    
    # Remover a coluna do DataFrame
    df_no_salary <- df_no_salary[, !colnames(df_no_salary) %in% coluna]
    print(paste("A coluna", coluna, "foi removida."))
} else {
    # Usando paste para concatenar e imprimir a mensagem
    print(paste("A coluna", coluna, "não existe."))
}

### Análise Exploratória de Dados (EDA)

#### Converter Dataframe de Python para R

In [None]:
df_original_r <- py_to_r(df_original)

#### Mostra as 6 primeiras linhas (Primeiras Linhas)

In [None]:
head(df_original_r)

#### Ver Estrtutura do Dataframe | Mostra os tipos de variáveis, nomes das colunas e alguns valores iniciais.


In [None]:
str(df_original_r)

#### Sumário Estatístico

In [None]:
summary(df_original_r)

#### Verificar valores ausentes (NA) | Conta quantos NAs tem em cada coluna

In [None]:
colSums(is.na(df_original_r))

####  Verificar classes de cada coluna

In [None]:
sapply(df_original_r, class)

#### Contagem de valores únicos (para variáveis categóricas)

In [None]:
lapply(df_original_r, function(col) length(unique(col)))

#### Visualizações rápidas com ggplot2 (se for usar gráficos)

In [None]:
install.packages("ggplot2")
library(ggplot2)

# Histograma de uma variável numérica (ex: 'a')
ggplot(df_original_r, aes(x = gender)) +
  geom_bar(fill = "steelblue") +
  theme_minimal()

# geom_bar() : Cria um gráfico de barras para variáveis categóricas no eixo X
# theme_minimal : Aplica um tema visual limpo e simples ao gráfico.

### Aplicar Label Encoder : Técnica de Codificação de Atributos Categóricos

In [None]:
py_require("scikit-learn")

In [None]:
sklearn <- import("sklearn.preprocessing")

In [None]:
le <- sklearn$LabelEncoder()

#### Colunas Categóricas

In [None]:
categorical_columns <- c("gender", "ssc_b", "hsc_b", "hsc_s", "degree_t", "workex", "specialisation", "status")

#### Aplicar LabelEncoder em cada coluna

In [None]:
for (col in categorical_columns) {
  df_no_salary[[col]] <- le$fit_transform(df_no_salary[[col]])
}

In [None]:
head(df_no_salary)

#### Selecione um dos modelos de classificação aprendidos até agora na disciplina (Naive Bayes ou Regressão Logística) e treine-o com df_no_salary. Seu objetivo é prever a recolocação (status = [Placed/Recolocado, Not Placed/Não Recolocado]) de cada indivíduo

In [None]:
# Converte para um dataframe
df_no_salary_r <- as.data.frame(df_no_salary)

In [None]:
# Dividindo em treino e teste (80% treino, 20% teste) de forma correta
set.seed(42)
index <- sample(1:nrow(df_no_salary_r), size = 0.8 * nrow(df_no_salary_r))
train_data <- df_no_salary_r[index, ]
test_data <- df_no_salary_r[-index, ]

In [None]:
# Treinando o modelo de Regressão Logística
logistic_model <- glm(status ~ ., data = train_data, family = "binomial")

In [None]:
# Fazendo previsões
test_data$pred_prob <- predict(logistic_model, newdata = test_data[, -which(names(test_data) == "status")], type = "response")
test_data$pred_class <- ifelse(test_data$pred_prob > 0.5, 1, 0)

In [None]:
# Convertendo os rótulos em fator
test_data$status <- as.factor(test_data$status)
test_data$pred_class <- as.factor(test_data$pred_class)

In [None]:
# Avaliando o Modelo - Métricas
library(caret)
metrics <- confusionMatrix(test_data$pred_class, test_data$status)
print(metrics)

In [None]:
df_no_status <- df_original

In [None]:
df_no_status

### 10 - A partir de df_original, crie o Data Frame df_no_status agora removendo a coluna status

In [None]:
df_no_status <- df_original

In [None]:
# Remoção da Coluna Status no dataframe
# 1- Verificar se coluna existe no dataframe

# Definindo o nome da coluna em uma variável
coluna <- "status"

# Verificar se a coluna existe no DataFrame
if (coluna %in% colnames(df_no_status)) {
    # Usando paste para concatenar e imprimir a mensagem
    print(paste("A coluna", coluna, "existe."))
    
    # Remover a coluna do DataFrame
    df_no_status <- df_no_status[, !colnames(df_no_status) %in% coluna]
    print(paste("A coluna", coluna, "foi removida."))
} else {
    # Usando paste para concatenar e imprimir a mensagem
    print(paste("A coluna", coluna, "não existe."))
}

In [None]:
head(df_no_status)

In [None]:
categorical_columns2 <- c("gender", "ssc_b", "hsc_b", "hsc_s", "degree_t", "workex", "specialisation")

In [None]:
for (col in categorical_columns2) {
  df_no_status[[col]] <- le$fit_transform(df_no_status[[col]])
}

In [None]:
head(df_no_status)

### 11 - Treine um modelo de regressão linear múltipla e preveja os salários (salary) das amostras que não possuem essa informação em df_no_status

In [None]:
preprocessing <- import("sklearn.preprocessing")
linear_model <- import("sklearn.linear_model")

df_no_status <- df_original[, !(names(df_original) %in% "status")]

# Etapa 1: Separar os dados com e sem salário
df_train <- df_no_status[!is.na(df_no_status$salary), ]
df_test  <- df_no_status[is.na(df_no_status$salary), ]

In [None]:
head(df_test)

In [None]:
# Etapa 2: Remover a coluna status, se necessário
# df_train <- df_train[, !colnames(df_train) %in% "status"]
# df_test  <- df_test[, !colnames(df_test) %in% "status"]
# Colunas categóricas
categorical_columns3 <- c("gender", "ssc_b", "hsc_b", "hsc_s", "degree_t", "workex", "specialisation")

# Aplicar LabelEncoder a cada coluna, guardando os encoders
encoders <- list()
for (col in categorical_columns3) {
  le <- preprocessing$LabelEncoder()
  df_train[[col]] <- le$fit_transform(df_train[[col]])
  df_test[[col]] <- le$transform(df_test[[col]])  # aplicar mesma codificação no teste
  encoders[[col]] <- le  # salvar o encoder, caso queira usar depois
}

In [None]:
# Remover colunas não numéricas ou desnecessárias
# (ex: "nome" se existir — aqui assumimos que todas as colunas fora 'salary' são preditoras)
feature_columns <- setdiff(colnames(df_train), "salary")

In [None]:
# Colunas categóricas
categorical_columns3 <- c("gender", "ssc_b", "hsc_b", "hsc_s", "degree_t", "workex", "specialisation")

# Aplicar LabelEncoder a cada coluna, guardando os encoders
for (col in categorical_columns3) {
  le <- preprocessing$LabelEncoder()
  df_train[[col]] <- as.numeric(le$fit_transform(df_train[[col]]))
  df_test[[col]]  <- as.numeric(le$transform(df_test[[col]]))
  encoders[[col]] <- le
}


In [None]:
# Treinar modelo de regressão linear
model <- linear_model$LinearRegression()
model$fit(df_train[, feature_columns], df_train$salary)

In [None]:
# Prever salários para o conjunto de teste
predicted_salaries <- model$predict(df_test[, feature_columns])

# Adicionar a previsão ao df_test
df_test$salary <- predicted_salaries

# Agora df_test contém os salários previstos
head(df_test)

### 12 - Para as amostras que não possuem o atributo salary preenchidos em df_no_status, inclua o valor previsto pelo modelo de regressão linear múltipla

In [None]:
missing_salary_idx <- which(is.na(df_no_status$salary))

if (length(missing_salary_idx) == length(predicted_salaries)) {
  df_no_status$salary[missing_salary_idx] <- predicted_salaries
} else {
  print("Erro: número de salários previstos não bate com o número de salários ausentes.")
}

In [None]:
head(df_no_status)

### 13 - Copiar Salary de df_no_status para df_original

In [None]:
df_original$salary <- df_no_status$salary

In [None]:
head(df_original)

### 14 - Treinar o modelo do nº 8 com df_original

In [None]:
# Dividindo em treino e teste (80% treino, 20% teste) de forma correta
set.seed(42)
index <- sample(1:nrow(df_original), size = 0.8 * nrow(df_original))
train_data <- df_original[index, ]
test_data <- df_original[-index, ]

In [None]:
train_data$status <- as.factor(train_data$status)

In [None]:
logistic_model <- glm(status ~ ., data = train_data, family = "binomial")