<a href="https://colab.research.google.com/github/nathalylorena/Data-mining/blob/main/DATAMINING_10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Importando o conjunto de dados Titanic
url_titanic = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
df_titanic = pd.read_csv(url_titanic)

# Exibindo as primeiras linhas do conjunto de dados
print(df_titanic.head())

# Informações básicas sobre o conjunto de dados
print(df_titanic.info())

# Estatísticas descritivas
print(df_titanic.describe())

# Visualização da distribuição dos sobreviventes (Survived)
sns.countplot(x='Survived', data=df_titanic)
plt.title('Distribuição de Sobrevivência')
plt.xlabel('Sobreviveu (0 = Não, 1 = Sim)')
plt.ylabel('Contagem')
plt.show()

# Pairplot para visualizar relações entre algumas características
sns.pairplot(df_titanic, hue='Survived', vars=['Pclass', 'Age', 'Fare'])
plt.show()

# Heatmap da matriz de correlação
corr_matrix = df_titanic.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()

# Boxplot para visualizar a distribuição de idade por sobrevivência
plt.figure(figsize=(12, 8))
sns.boxplot(x='Survived', y='Age', data=df_titanic)
plt.title('Idade por Sobrevivência')
plt.xlabel('Sobreviveu (0 = Não, 1 = Sim)')
plt.ylabel('Idade')
plt.show()

# Preenchendo valores ausentes na coluna Age
df_titanic['Age'].fillna(df_titanic['Age'].median(), inplace=True)

# Transformação de variáveis categóricas em dummies
df_titanic = pd.get_dummies(df_titanic, columns=['Sex', 'Embarked'], drop_first=True)

# Seleção de variáveis independentes (X) e dependente (y)
X = df_titanic.drop(['Survived', 'Name', 'Ticket', 'Cabin'], axis=1)
y = df_titanic['Survived']

# Divisão dos dados em conjuntos de treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo de regressão logística
modelo = LogisticRegression(max_iter=200)
modelo.fit(X_treino, y_treino)

# Previsões no conjunto de teste
y_pred = modelo.predict(X_teste)

# Avaliação do modelo
acuracia = accuracy_score(y_teste, y_pred)
print(f'Acurácia: {acuracia}')

# Matriz de confusão
matriz_confusao = confusion_matrix(y_teste, y_pred)
print('Matriz de Confusão:')
print(matriz_confusao)

# Relatório de classificação
relatorio_classificacao = classification_report(y_teste, y_pred)
print('Relatório de Classificação:')
print(relatorio_classificacao)
Exemplo 4: Conjunto de Dados "Diabetes"
Passo 1: Instalação de Bibliotecas (se necessário)
python
Copiar código
# Instalação de bibliotecas (se necessário)
!pip install pandas matplotlib seaborn scikit-learn
Passo 2: Análise Completa do Conjunto de Dados Diabetes
python
Copiar código
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Importando o conjunto de dados Diabetes
url_diabetes = 'https://raw.githubusercontent.com/plotly/datasets/master/diabetes.csv'
df_diabetes = pd.read_csv(url_diabetes)

# Exibindo as primeiras linhas do conjunto de dados
print(df_diabetes.head())

# Informações básicas sobre o conjunto de dados
print(df_diabetes.info())

# Estatísticas descritivas
print(df_diabetes.describe())

# Distribuição dos valores de Outcome (0 = Não-Diabetes, 1 = Diabetes)
sns.countplot(x='Outcome', data=df_diabetes)
plt.title('Distribuição de Diabetes')
plt.xlabel('Diabetes (0 = Não, 1 = Sim)')
plt.ylabel('Contagem')
plt.show()

# Pairplot para visualizar relações entre algumas características
sns.pairplot(df_diabetes, hue='Outcome', vars=['Glucose', 'BloodPressure', 'SkinThickness', 'BMI'])
plt.show()

# Heatmap da matriz de correlação
corr_matrix = df_diabetes.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()

# Boxplot para visualizar a distribuição de Glucose por Outcome
plt.figure(figsize=(12, 8))
sns.boxplot(x='Outcome', y='Glucose', data=df_diabetes)
plt.title('Glicose por Presença de Diabetes')
plt.xlabel('Diabetes (0 = Não, 1 = Sim)')
plt.ylabel('Glicose')
plt.show()

# Seleção de variáveis independentes (X) e dependente (y)
X = df_diabetes.drop('Outcome', axis=1)
y = df_diabetes['Outcome']

# Divisão dos dados em conjuntos de treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo de regressão logística
modelo = LogisticRegression(max_iter=200)
modelo.fit(X_treino, y_treino)

# Previsões no conjunto de teste
y_pred = modelo.predict(X_teste)

# Avaliação do modelo
acuracia = accuracy_score(y_teste, y_pred)
print(f'Acurácia: {acuracia}')

# Matriz de confusão
matriz_confusao = confusion_matrix(y_teste, y_pred)
print('Matriz de Confusão:')
print(matriz_confusao)

# Relatório de classificação
relatorio_classificacao = classification_report(y_teste, y_pred)
print('Relatório de Classificação:')
print(relatorio_classificacao)
