In [None]:
# Montar o Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Importar bibliotecas
import pandas as pd

# Exemplo de caminho no Google Drive
file_path = '/content/drive/MyDrive/Aula-IA/train.csv'

# Carregar o arquivo CSV em um DataFrame
df = pd.read_csv(file_path)

# Mostrar as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df.head())

# Informações sobre o DataFrame
print("\nInformações sobre o DataFrame:")
print(df.info())

# Estatísticas descritivas das colunas numéricas
print("\nEstatísticas descritivas das colunas numéricas:")
print(df.describe())

# Parte 2: Limpeza de Dados

# Identificar valores ausentes
print("\nValores nulos por coluna:")
print(df.isnull().sum())

# Verificar se a coluna 'Age' existe no DataFrame
if 'Age' in df.columns:
    # Verificar se a coluna 'Age' é numérica
    if pd.api.types.is_numeric_dtype(df['Age']):
        # Preencher valores nulos na coluna 'Age' com a média
        df['Age'] = df['Age'].fillna(df['Age'].mean())
        print("\nValores nulos na coluna 'Age' após preenchimento com a média:")
        print(df['Age'].isnull().sum())
    else:
        # Converter a coluna 'Age' para numérica se necessário
        df['Age'] = pd.to_numeric(df['Age'], errors='coerce')
        df['Age'] = df['Age'].fillna(df['Age'].mean())
        print("\nValores nulos na coluna 'Age' após conversão e preenchimento com a média:")
        print(df['Age'].isnull().sum())
else:
    print("\nA coluna 'Age' não existe no DataFrame.")

# Preencher valores nulos apenas nas colunas numéricas
numeric_cols = df.select_dtypes(include=['number']).columns
df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].mean())

# Verificar se todos os valores nulos foram tratados
print("\nValores nulos após tratamento:")
print(df.isnull().sum())

# Parte 3

# Seleção das colunas para análise
cols_selecionadas = ['Pclass', 'Sex', 'Age', 'Fare', 'Survived']

# Criar um DataFrame apenas com as colunas selecionadas
df_selecionado = df[cols_selecionadas]

# Exibir as primeiras linhas das colunas selecionadas
print("\nDados das colunas selecionadas:")
print(df_selecionado.head())

# Verificar se há valores nulos nas colunas selecionadas
print("\nValores nulos nas colunas selecionadas:")
print(df_selecionado.isnull().sum())

# Preencher valores nulos em 'Age' com a média (caso existam) usando .loc
df_selecionado.loc[:, 'Age'] = df_selecionado['Age'].fillna(df_selecionado['Age'].mean())

# Converter a coluna 'Sex' (categórica) em variáveis numéricas usando pd.get_dummies()
df_selecionado = pd.get_dummies(df_selecionado, columns=['Sex'], drop_first=True)

# Exibir as primeiras linhas após a conversão
print("\nDados após conversão da coluna 'Sex':")
print(df_selecionado.head())

# Verificar novamente se restam valores nulos após os ajustes
print("\nValores nulos após ajustes:")
print(df_selecionado.isnull().sum())

# Parte 4

# Definir X (variáveis de entrada) e y (variável de saída)
X = df_selecionado[['Pclass', 'Sex_male', 'Age', 'Fare']]  # Colunas de entrada
y = df_selecionado['Survived']  # Coluna alvo

# Exibir as primeiras linhas de X e y
print("\nVariáveis de entrada (X):")
print(X.head())

print("\nVariável de saída (y):")
print(y.head())

# Parte 2 - Implementação simples de um algoritmo de Classificação (k-NN)

# 1 - Importar e Treinar o Modelo:
# Importar o modelo k-NN e a função de divisão de dados
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# Dividir os dados entre treino e teste (70% para treino, 30% para teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Criar e treinar o modelo k-NN com k=3
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 2 - Fazer previsão

# Fazer previsões no conjunto de teste
y_pred = knn.predict(X_test)

# Exibir as primeiras previsões
print("\nPrevisões das classes no conjunto de teste:")
print(y_pred)

# Parte 3 : Avaliação de Desempenho

# 1 - Avaliar Acuracia
# Importar a função para calcular a acurácia
from sklearn.metrics import accuracy_score

# Calcular a acurácia
accuracy = accuracy_score(y_test, y_pred)

# Exibir a acurácia
print(f'Acurácia: {accuracy:.2f}')

# 2 - Matriz Confusão
# Importar a função para calcular a matriz de confusão
from sklearn.metrics import confusion_matrix

# Calcular a matriz de confusão
cm = confusion_matrix(y_test, y_pred)

# Exibir a matriz de confusão
print("\nMatriz de Confusão:")
print(cm)



Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Primeiras linhas do DataFrame:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2

'\n# Análise do Modelo k-NN\n\n## Desempenho do Modelo\n\nNeste projeto, implementamos um algoritmo de classificação k-Nearest Neighbors (k-NN) para prever a sobrevivência de passageiros de acordo com diferentes características (classe, sexo, idade e tarifa).\n\n### Acurácia\n\nA acurácia do modelo foi calculada e o resultado foi de **{accuracy:.2f}**. Isso significa que aproximadamente **{accuracy * 100:.2f}%** das previsões do modelo estavam corretas.\n\n### Matriz de Confusão\n\nA matriz de confusão gerada foi:\n'