Exercício Inteligência Artificial

In [None]:
# Parte 1: Pré-processamento dos Dados

# ----- 1. Carregar a Base de Dados no Google Colab -----
import pandas as pd # Utilize a biblioteca pandas para carregar o arquivo CSV.

genderSubmissionFile = pd.read_csv('gender_submission.csv')
testFile = pd.read_csv('test.csv')
trainFile = pd.read_csv('train.csv')

# Explore os dados usando comandos como df.head(), df.info() e df.describe().
print('----- Gender Submission File data -----\n')
print(genderSubmissionFile.head())
print(genderSubmissionFile.info())
print(genderSubmissionFile.describe())

print('\n----- Test File data -----\n')
print(testFile.head())
print(testFile.info())
print(testFile.describe())

print('\n----- Train File data -----\n')
print(trainFile.head())
print(trainFile.info())
print(trainFile.describe())

# ----- 2. Limpeza de Dados -----
# Identificar valores ausentes
print('\nIdentificando valores ausentes em arquivo gender_submission.csv... ')
print(genderSubmissionFile.isnull().sum())

print('\nIdentificando valores ausentes em arquivo test.csv... ')
print(testFile.isnull().sum())

print('\nIdentificando valores ausentes em arquivo train.csv... ')
print(trainFile.isnull().sum())

# Preencher valores ausentes na coluna 'Age' com a mediana
testFile['Age'] = testFile['Age'].fillna(testFile['Age'].median())
testFile['Fare'] = testFile['Fare'].fillna(testFile['Fare'].median())
testFile.dropna(subset=['Cabin'], inplace=True)

trainFile['Age'] = trainFile['Age'].fillna(trainFile['Age'].median())
trainFile.dropna(subset=['Cabin'], inplace=True)
trainFile.dropna(subset=['Embarked'], inplace=True)

print('\nSegue os valores que se encontram ausentes durante o tratamento do arquivo:')
print(trainFile.isnull().sum())

# ----- 3. Seleção de Variáveis -----

# Converter 'Sex' para variáveis numéricas
testFile = pd.get_dummies(testFile, columns=['Sex'], drop_first=True)
trainFile = pd.get_dummies(trainFile, columns=['Sex'], drop_first=True)

# ----- 4. Divisão dos Dados -----

# Selecionar as variáveis de entrada (X) e saída (y)

X = trainFile[['Pclass', 'Sex_male', 'Age', 'Fare']]
y = trainFile['Survived']

X_test = testFile[['Pclass', 'Sex_male', 'Age', 'Fare']]

# Parte 2: Implementação Simples de um Algoritmo de Classificação (k-NN)

# ----- 1. Importar e Treinar o Modelo: -----
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# Dividir os dados de treino em treino e validação (70/30)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar o modelo com k=3
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# ----- 2. Fazer Previsões: -----
y_pred = knn.predict(X_test)
print('Previsão:', y_pred)

# Parte 3: Avaliação de Desempenho

from sklearn.metrics import accuracy_score, confusion_matrix

# Avaliar desempenho
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.2f}')

cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(cm)

: 