# Primeiro projeto de MachineLearning

Autor: Marcos Santana
Curso: Ciência de Dados e I.A.

Objetivo: Construir um modelo simples de machine learning para prever
a aprovação de alunos com base em dados acadêmicos.

In [12]:
# Importações de bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report


In [13]:
# Criação dos dados
dados = {
    "idade": [20, 17, 22, 19, 16],
    "nota": [8.5, 5.0, 6.8, 9.2, 4.5],
    "faltas": [2, 5, 1, 0, 6]
}

df = pd.DataFrame(dados)

# Criação da coluna de classificação
df["aprovado"] = df.apply(
    lambda linha: True if linha["nota"] >= 6 and linha["faltas"] <= 3 else False,
    axis=1
)

df


Unnamed: 0,idade,nota,faltas,aprovado
0,20,8.5,2,True
1,17,5.0,5,False
2,22,6.8,1,True
3,19,9.2,0,True
4,16,4.5,6,False


In [14]:
# Separando features(dados de entrada para gerar uma previsão) e target(dados determinados de acordo com a previsão)
FEATURES = df[["idade", "nota", "faltas"]]
target = df["aprovado"]

In [19]:
# Separando os dados que serão usados para treino(1 - test_size = 70%) e os usados para teste(test_size = 30%)
FEATURES_treino, FEATURES_teste, target_treino, target_teste = train_test_split(
    FEATURES, target, test_size=0.3, random_state=30
)
# Random_state é de que forma os dados devem ser escolhidos, para que haja repetitibilidade caso rode o programa novamente

In [20]:
modelo = LogisticRegression()
# Define o modelo que será usado: no caso uma lógica de classificação em que invés de resultados continuos é retornado um rótulo
modelo.fit(FEATURES_treino, target_treino)
# Comando fit() ajusta os valores, escalando-os e aprende a relação entre eles (aprende)


In [21]:
previsoes = modelo.predict(FEATURES_teste)
# Modelo recebe dados novos e tenta fazer a previsão do resultado

print("Acurácia:", accuracy_score(target_teste, previsoes))
# Mostra a acurácia de acertos entre o target e as previsoes

print(classification_report(target_teste, previsoes))
# Retorna: Precisão(quantos acertos, confiabilidade), 
# Sensibilidade(de todos os "sim", quantos ele deu "sim", o quanto encontra casos),
# F1-Score(média harmonica entre precisão e sensibilidade)

Acurácia: 1.0
              precision    recall  f1-score   support

       False       1.00      1.00      1.00         1
        True       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



In [22]:
# Teste com novo dado para teste:
novo_aluno = pd.DataFrame([[18, 7.0, 2]], columns=["idade", "nota", "faltas"])
modelo.predict(novo_aluno)

array([ True])

## Interpretação dos Resultados

O modelo foi capaz de aprender padrões simples a partir dos dados disponíveis.
Apesar do conjunto de dados ser pequeno, o pipeline demonstra todas as etapas
básicas de um projeto de machine learning.
