#DECISION TREES (ARVORE DE DECISÃO)

In [2]:
import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import random

In [3]:
random.seed(42)
nota_anterior = [random.randint(0,10) for _ in range(100)]
horas_estudo = [random.randint(0,10) for _ in range(100)] 
passou = [1 if nota >= 5 else 0 for nota in nota_anterior]
dados = pd.DataFrame({'nota_anterior': nota_anterior, 'horas_estudo': horas_estudo, 'passou': passou})

In [4]:
dados

Unnamed: 0,nota_anterior,horas_estudo,passou
0,10,4,1
1,1,1,0
2,0,3,0
3,4,9,0
4,3,5,0
...,...,...,...
95,0,8,0
96,3,2,0
97,0,4,0
98,5,8,1


In [5]:
X = dados [['nota_anterior', 'horas_estudo']]
y = dados['passou']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)

In [7]:
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(X_train, y_train)

In [8]:
exatidao = clf.score(X_test,y_test)
print(f'A exatidao do modelo é de {exatidao:.2f}')

A exatidao do modelo é de 1.00


In [9]:
novos_dados = pd.DataFrame({'nota_anterior':[4], 'horas_estudo':[1]})
previsao = clf.predict(novos_dados)

In [10]:
if previsao[0] == 1:
    print('O aluno passará na prova!')
else: 
    print('O aluno não passará na prova :(')

O aluno não passará na prova :(


In [11]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np

In [12]:
num_alunos = 1000
faixa_idade = (16,30)
faixa_nota = (2.0,4.0)
faixa_horas_estudo = (1,20)
areas_formacao = ['Ciencia da Computacao', 'Engenharia','Matematica','Fisica']

In [13]:
alunos = []
for i in range(num_alunos):
    idade = np.random.randint(faixa_idade[0], faixa_idade[1]+1)
    nota = np.random.uniform(faixa_nota[0], faixa_nota[1])
    horas_estudo = np.random.randint(faixa_horas_estudo[0], faixa_horas_estudo[1]+1)
    area_formacao = np.random.choice(areas_formacao)
    alunos.append({'idade':idade, 'nota':nota, 'horas_estudo':horas_estudo, 'areas_formacao':area_formacao})

In [14]:
df_alunos = pd.DataFrame(alunos)

In [15]:
df_alunos

Unnamed: 0,idade,nota,horas_estudo,areas_formacao
0,28,3.394596,14,Engenharia
1,21,2.757093,13,Ciencia da Computacao
2,24,2.055266,17,Ciencia da Computacao
3,29,3.471332,2,Fisica
4,28,2.101556,19,Ciencia da Computacao
...,...,...,...,...
995,24,2.317106,6,Matematica
996,23,2.719569,5,Engenharia
997,29,3.312675,12,Matematica
998,16,3.427847,16,Fisica


In [16]:
df_alunos.to_csv('dados_alunos.csv', index=False)

In [17]:
df_alunos['desempenho'] = ['alto' if x >= 70 else 'baixo' for x in df_alunos['nota']]

In [18]:
df_alunos

Unnamed: 0,idade,nota,horas_estudo,areas_formacao,desempenho
0,28,3.394596,14,Engenharia,baixo
1,21,2.757093,13,Ciencia da Computacao,baixo
2,24,2.055266,17,Ciencia da Computacao,baixo
3,29,3.471332,2,Fisica,baixo
4,28,2.101556,19,Ciencia da Computacao,baixo
...,...,...,...,...,...
995,24,2.317106,6,Matematica,baixo
996,23,2.719569,5,Engenharia,baixo
997,29,3.312675,12,Matematica,baixo
998,16,3.427847,16,Fisica,baixo


In [19]:
X = df_alunos[['idade','nota','horas_estudo']]
y = df_alunos['desempenho']

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=420)

In [21]:
modelo_rf = RandomForestClassifier(n_estimators=100)

In [22]:
modelo_rf.fit(X_train, y_train)

In [23]:
exatidao = modelo_rf.score(X_test, y_test)
print('A exatidão do modelo é:', exatidao)

A exatidão do modelo é: 1.0


In [24]:
novos_dados = pd.DataFrame({'nota_anterior':[4], 'horas_estudo':[1]})
previsao = clf.predict(novos_dados)

In [25]:
if previsao[0] == 1:
    print('O aluno passará na prova!')
else: 
    print('O aluno não passará na prova :(')

O aluno não passará na prova :(


# RANDOM FOREST

In [26]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np

In [27]:
num_alunos = 1000
faixa_idade = (16,30)
faixa_nota = (2.0,4.0)
faixa_horas_estudo = (1,20)
areas_formacao = ['Ciencia da Computacao', 'Engenharia','Matematica','Fisica']

In [28]:
alunos = []
for i in range(num_alunos):
    idade = np.random.randint(faixa_idade[0], faixa_idade[1]+1)
    nota = np.random.uniform(faixa_nota[0], faixa_nota[1])
    horas_estudo = np.random.randint(faixa_horas_estudo[0], faixa_horas_estudo[1]+1)
    area_formacao = np.random.choice(areas_formacao)
    alunos.append({'idade':idade, 'nota':nota, 'horas_estudo':horas_estudo, 'areas_formacao':area_formacao})

In [29]:
df_alunos = pd.DataFrame(alunos)

In [30]:
df_alunos

Unnamed: 0,idade,nota,horas_estudo,areas_formacao
0,23,2.076142,1,Fisica
1,23,2.402701,1,Ciencia da Computacao
2,23,3.862989,1,Ciencia da Computacao
3,27,3.108273,1,Engenharia
4,27,3.837729,2,Ciencia da Computacao
...,...,...,...,...
995,19,3.172552,16,Ciencia da Computacao
996,21,2.052870,14,Engenharia
997,22,2.360359,15,Ciencia da Computacao
998,21,3.623791,5,Ciencia da Computacao


In [31]:
df_alunos.to_csv('dados_alunos.csv', index=False)

In [32]:
df_alunos['desempenho'] = ['alto' if x >= 70 else 'baixo' for x in df_alunos['nota']]

In [33]:
df_alunos

Unnamed: 0,idade,nota,horas_estudo,areas_formacao,desempenho
0,23,2.076142,1,Fisica,baixo
1,23,2.402701,1,Ciencia da Computacao,baixo
2,23,3.862989,1,Ciencia da Computacao,baixo
3,27,3.108273,1,Engenharia,baixo
4,27,3.837729,2,Ciencia da Computacao,baixo
...,...,...,...,...,...
995,19,3.172552,16,Ciencia da Computacao,baixo
996,21,2.052870,14,Engenharia,baixo
997,22,2.360359,15,Ciencia da Computacao,baixo
998,21,3.623791,5,Ciencia da Computacao,baixo


In [34]:
X = df_alunos[['idade','nota','horas_estudo']]
y = df_alunos['desempenho']

In [35]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=420)

In [36]:
modelo_rf = RandomForestClassifier(n_estimators=100)

In [37]:
modelo_rf.fit(X_train, y_train)

In [38]:
exatidao = modelo_rf.score(X_test, y_test)
print('A exatidão do modelo é:', exatidao)

A exatidão do modelo é: 1.0
