# Projeto de Mineração de dados

# Indrodução

# Objetivos
## Objetivos Gerais

## Objetivos Específicos

# Materiais e Métodos

## 2. Carregando e explorando os dados
Primeiro, vamos carregar os dados e dar uma olhada na sua estrutura. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar os dados da URL
url = 'https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv'
df = pd.read_csv(url)

# Exibir as primeiras linhas do dataset
print(df.head())



### 2.1 Visualizando a Estrutura dos Dados
Rodamos o código abaixo para entender a estrutura:

In [None]:
# Informações gerais do dataset
print(df.info())

# Estatísticas descritivas
print(df.describe())


### 2.2 Distribuição das Notas
Agora, vamos visualizar a distribuição das notas dos alunos nas disciplinas:

In [None]:
# Configuração dos gráficos
plt.figure(figsize=(15,5))

# Criando histogramas para cada nota
for i, subject in enumerate(['math score', 'reading score', 'writing score']):
    plt.subplot(1, 3, i+1)
    sns.histplot(df[subject], bins=20, kde=True)
    plt.title(f'Distribuição das Notas - {subject}')
    plt.xlabel('Nota')
    plt.ylabel('Frequência')

plt.tight_layout()
plt.show()


 O que isso nos mostra?

Como as notas estão distribuídas.
Se há algum padrão, como notas mais concentradas em determinada faixa.


### 2.3 Analisando Relações Entre Notas
Vamos agora ver se há correlação entre as notas das diferentes disciplinas:

In [None]:
# Matriz de correlação
plt.figure(figsize=(8, 6))
sns.heatmap(df.select_dtypes(include=['number']).corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlação Entre as Notas')
plt.show()

## 3. Pré-processamento dos Dados
Agora, seguimos para a limpeza e transformação dos dados para preparar para a modelagem.

### 3.1 Lidando com Valores Nulos

In [None]:
# Verificando valores nulos
print(df.isnull().sum())


### 3.2 Convertendo Variáveis Categóricas
Se houver colunas categóricas (exemplo: gênero, nível de educação dos pais), precisamos convertê-las para valores numéricos antes da modelagem.

In [None]:
# Verificando colunas categóricas
print(df.select_dtypes(include=['object']).head())

# Convertendo variáveis categóricas para numéricas
df = pd.get_dummies(df, drop_first=True)


### 3.3 Remoção de Outliers
Usamos o IQR (Interquartile Range) para detectar e remover outliers.

In [None]:
# Função para remoção de outliers com IQR
def remove_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Aplicando remoção de outliers nas notas
for col in ['math score', 'reading score', 'writing score']:
    df = remove_outliers(df, col)

print("Dados após remoção de outliers:", df.shape)


## 4. Modelagem Preditiva
Agora, vamos testar um modelo para prever o desempenho dos alunos. Podemos tentar prever, por exemplo, a nota de matemática com base nas outras informações.

### 4.1 Separando os Dados em Treino e Teste

In [None]:
from sklearn.model_selection import train_test_split

# Definindo a variável alvo e as features
X = df.drop(columns=['math score'])
y = df['math score']

# Dividindo os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamanho dos conjuntos: ", X_train.shape, X_test.shape)


### 4.2 Treinando um Modelo de Regressão
Vamos usar uma Regressão Linear para prever as notas de matemática.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Criando e treinando o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliação do modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"R²: {r2:.2f}")


O MAE mostra o erro médio absoluto das previsões.
O MSE dá o erro quadrático médio (mais sensível a outliers).
O R² indica o quanto o modelo explica a variação dos dados.
Se o desempenho não for bom, podemos testar outros modelos como Random Forest ou Redes Neurais.

# Resultados e Discusões

# Conclusão
