In [9]:
# Importação das bibliotecas

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Carregar o conjunto de dados
df = pd.read_csv('/content/abalone.data')

# Imprimir as primeiras linhas do DataFrame para uma visualização inicial dos dados
print(df.head())

# Imprimir o número de variáveis (colunas) e instâncias (linhas) no DataFrame
print(f'Number of variables: {df.shape[1]}')
print(f'Number of instances: {df.shape[0]}')

# Imprimir os nomes das colunas do DataFrame
print(df.columns)

# Verificar a quantidade de valores ausentes em cada coluna
print(df.isnull().sum())

# Redefinindo o DataFrame com os nomes das colunas
# Foi verificado que o arquivo CSV não tinha cabeçalho, por isso a adição dos nomes das colunas
df = pd.read_csv('/content/abalone.data', names=['Sex', 'Length', 'Diameter', 'Height', 'Whole weight', 'Shucked weight', 'Viscera weight', 'Shell weight', 'Rings'])

# Estatísticas descritivas básicas do DataFrame
print(df.describe())

# Informações sobre os tipos de dados de cada coluna e quantidade de valores não nulos
print(df.info())


# Histograma para cada variável numérica
df.hist(figsize=(15, 15))
plt.show()

# Matriz de dispersão para visualizar a relação entre pares de variáveis
# Usando 'Sex' para colorir os pontos e diag_kind='kde' para visualizar a densidade das distribuições
sns.pairplot(df, hue='Sex', diag_kind='kde')
plt.show()

# Boxplots para cada variável numérica, separados pelo sexo
for col in ['Length', 'Diameter', 'Height', 'Whole weight', 'Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']:
    plt.figure(figsize=(8, 6))
    sns.boxplot(x='Sex', y=col, data=df)
    plt.title(f'Boxplot of {col} by Sex')
    plt.show()

# Matriz de correlação entre as variáveis numéricas (excluindo a variável categórica 'Sex')
correlation_matrix = df.drop(columns=['Sex']).corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

# Gráfico de contagem da variável 'Sex'
plt.figure(figsize=(6, 4))
sns.countplot(x='Sex', data=df)
plt.title('Count of each Sex Category')
plt.show()

# Converter a coluna 'Sex' em variáveis numéricas usando one-hot encoding
# 'drop_first=True' remove uma das colunas criadas para evitar multicolinearidade
df = pd.get_dummies(df, columns=['Sex'], drop_first=True)

# Definir as variáveis independentes (X) e a variável dependente (y)
X = df.drop('Rings', axis=1)  # Variáveis preditoras
y = df['Rings']  # Variável alvo

# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o modelo usando MSE e R-squared
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R-squared: {r2}')

# Considerações sobre o modelo
# O modelo de regressão linear pode não ser o mais adequado para este conjunto de dados,
# devido à possível não linearidade entre as variáveis e possíveis problemas de multicolinearidade.
# O R² e o MSE sugerem que o modelo pode não descrever bem a variabilidade dos dados.
# São necessários outros modelos e/ou transformações dos dados para ter um bom resultado.


Output hidden; open in https://colab.research.google.com to view.