## 📚 Importação das Bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import arules as ar
from arules.utils import top_5_variant_variables


## 🔄 Carregamento dos Dados

In [None]:
df = pd.read_csv('diabetes.csv')

## 🔍 Análise Descritiva

### 📄 Informação Geral dos Dados
- Número de colunas (variáveis)
- Nomes de linhas (registos)
- Contagem de valores nulos
- Tipo de dados

In [None]:
print(df.info())

###  ❓Verificação de Valores Nulos

In [None]:
df.isnull().sum()

### ❗️Verificação de Valores Únicos

In [None]:
# quantidade de valores únicos em cada coluna
unique_values = df.nunique()
print(unique_values)

### 🔣 Descrição Estatística das Variáveis

In [None]:
df.describe().T


### 🟰 Verificação de Linhas Duplicadas

In [None]:
# linhas duplicadas
duplicadas = df[df.duplicated()]
print(f"Linhas duplicadas:\n{duplicadas}")

# número de linhas duplicadas
num_duplicadas = df.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicadas}")

## 🔍 Análise Exploratória

### 📊  Histogramas


In [None]:
# histogramas das variáveis
df.hist(bins=25, figsize=(20, 20))
plt.show()

### 📊 Matriz de Correlação

In [1]:
# correlação
corr = df.corr()

# matriz de correlação
plt.figure(figsize=(25, 25))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Heat Map')
plt.show()

NameError: name 'df' is not defined

### 📊 Correlação das Variáveis com Diabetes_012

In [None]:
# correlação com a variável Diabetes_012
df.drop('Diabetes_012', axis=1).corrwith(df.Diabetes_012).plot(kind='bar', grid=True, figsize=(20, 8)
, title="Correlação das variáveis com a variável Diabetes_012",color="Orange")

### 📊 Análise da Variável Diabetes_012

In [None]:
# ver quantos registos tem cada categoria em 'Diabetes_012' (0 - não tem diabetes, 1 - pré-diabetes, 2 - diabetes)
diabetes_counts_absolute = df['Diabetes_012'].value_counts()

# ver contagens normalizadas (percentagens) para cada categoria em 'Diabetes_012'
diabetes_counts_normalized = df['Diabetes_012'].value_counts(normalize=True) * 100

# ver os resultados
print("Contagens Absolutas:")
print(diabetes_counts_absolute)
print("\nPercentagens:")
print(diabetes_counts_normalized)

# renomear as categorias para colocar em gráficos
diabetes_counts_absolute.index = diabetes_counts_absolute.index.map({0: 'Sem Diabetes', 1: 'Pré-Diabetes', 2: 'Com Diabetes'})
diabetes_counts_normalized.index = diabetes_counts_normalized.index.map({0: 'Sem Diabetes', 1: 'Pré-Diabetes', 2: 'Com Diabetes'})

colors = ['#1f77b4', '#ff7f0e', '#2ca02c'] 
plt.figure(figsize=(14, 6))

# gráfico de contagens absolutas
plt.subplot(1, 2, 1)
bars = plt.bar(diabetes_counts_absolute.index, diabetes_counts_absolute, color=colors)
plt.title('Contagens Absolutas por Categoria', fontsize=14)
plt.ylabel('Número de Registos', fontsize=12)
plt.xticks(rotation=45, fontsize=11)

for bar in bars:
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(),
             f'{int(bar.get_height())}', ha='center', va='bottom', fontsize=10)


# gráfico de percentagens
plt.figure(figsize=(4, 4))
plt.pie(diabetes_counts_normalized, labels=diabetes_counts_normalized.index, autopct='%1.1f%%', startangle=90)
plt.title('Percentagem de Registos em Cada Categoria de Diabetes')

# ver os gráficos
plt.show()

### 📊 Saúde Geral em Função de Diabetes

In [None]:
# Criar o countplot
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='GenHlth', hue='Diabetes_012', palette=['#1f77b4','#2ca02c', '#ff7f0e'])


# Adicionar as contagens no topo de cada barra
for container in ax.containers:
    ax.bar_label(container, label_type='edge', fontsize=10, padding=3)

# Configurar os rótulos e título
plt.title("Saúde Geral em Função da Diabetes", fontsize=16)
plt.xlabel("Saúde Geral", fontsize=14)
plt.ylabel("Contagem", fontsize=14)
plt.legend(title="Diabetes_012", labels=["Sem Diabetes", "Pré-Diabetes", "Diabetes"])
plt.xticks( fontsize=12)
plt.tight_layout()
plt.show()

### 📊 Pressão Arterial em Função de Diabetes


In [None]:
# Criar o countplot
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='HighBP', hue='Diabetes_012', palette=['#1f77b4','#2ca02c', '#ff7f0e'])


# Adicionar as contagens no topo de cada barra
for container in ax.containers:
    ax.bar_label(container, label_type='edge', fontsize=10, padding=3)

# Configurar os rótulos e título
plt.title("Pressão Arterial em Função da Diabetes", fontsize=16)
plt.xlabel("Pressão Arterial", fontsize=14)
plt.ylabel("Contagem", fontsize=14)
plt.legend(title="Diabetes_012", labels=["Sem Diabetes", "Pré-Diabetes", "Diabetes"])
plt.xticks(ticks=[0, 1], labels=["Sem pressão Alta", "Com pressão alta"], fontsize=12)
plt.tight_layout()
plt.show()

### 📊 Proporção de Diabetes na Pressão Arterial


In [None]:
# Contar indivíduos com e sem pressão alta por categoria de diabetes
highbp_diabetes_counts = df.groupby(['Diabetes_012', 'HighBP']).size().unstack(fill_value=0)

# Converter para proporções dentro de cada categoria de diabetes
highbp_diabetes_percentages = highbp_diabetes_counts.div(highbp_diabetes_counts.sum(axis=1), axis=0) * 100

# Criar gráfico 
highbp_diabetes_percentages.plot(kind='bar', stacked=True, figsize=(10, 6), color=['#1f77b4', '#ff7f0e'], alpha=0.8)

plt.title('Distribuição de Pressão Alta por Categoria de Diabetes')
plt.xlabel('Categoria de Diabetes')
plt.ylabel('Proporção (%)')
plt.xticks(ticks=[0, 1, 2], labels=['Sem Diabets', 'Pré-Diabetes', 'Diabetes'], rotation=0)
plt.legend(['Sem Pressão Alta', 'Com Pressão Alta'], title='HighBP')
plt.tight_layout()
plt.show()


### 📊 Análise de Distribuição de Idades
 **Categorização da Idade em Grupos Etários:**
- 1 (18 a 24 anos)
- 2 (25 a 29 anos)
- 3 (30 a 34 anos)
- 4 (35 a 39 anos)
- 5 (40 a 44 anos)
- 6 (45 a 49 anos)
- 7 (50 a 54 anos)
- 8 (55 a 59 anos)
- 9 (60 a 64 anos)
- 10 (65 a 69 anos)
- 11 (70 a 74 anos)
- 12 (75 a 80 anos)
- 13 (mais de 80 anos)

In [None]:
# definir as faixas etárias
age_labels = ['18-24', '25-29', '30-34', '35-39', '40-44', '45-49',
              '50-54', '55-59', '60-64', '65-69', '70-74', '75-79', '80+']

# mapeamento dea "Age" para as faixas etárias
df['Age_Group'] = df['Age'].map(lambda x: age_labels[int(x) - 1])

# contagem de sem diabetes, pré-diabetes e diabetes por faixa etária
age_diabetes_counts = df.groupby(['Age_Group', 'Diabetes_012']).size().unstack(fill_value=0)

# criar o gráfico 
age_groups = age_diabetes_counts.index
categories = ['Healthy', 'Pré-Diabetes', 'Diabetes']
values = [age_diabetes_counts[0], age_diabetes_counts[1], age_diabetes_counts[2]]

x = np.arange(len(age_groups))  
width = 0.25 

fig, ax = plt.subplots(figsize=(14, 7))


bars1 = ax.bar(x - width, values[0], width, label='Saudável', color='#1f77b4')
bars2 = ax.bar(x, values[1], width, label='Pré-Diabetes', color='#2ca02c')
bars3 = ax.bar(x + width, values[2], width, label='Diabetes', color='#ff7f0e')

# legendas e título
ax.set_xlabel('Faixa Etária', fontsize=12)
ax.set_ylabel('Frequência', fontsize=12)
ax.set_title('Distribuição de Diabetes por Faixa Etária', fontsize=14)
ax.set_xticks(x)
ax.set_xticklabels(age_groups, rotation=45, ha='right')
ax.legend(title='Categoria', fontsize=10)

# valores no topo das barras
for bars in [bars1, bars2, bars3]:
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height}', 
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  # Deslocamento para cima
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()


### 📊 Análise de Géneros

In [None]:
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='Sex', hue='Diabetes_012', palette=['#1f77b4', '#2ca02c','#ff7f0e' ])

# contagens no topo de cada barra
for container in ax.containers:
    ax.bar_label(container, label_type='edge', fontsize=10, padding=3)

# legendas e título
plt.title("Género em função da Diabetes", fontsize=16)
plt.xlabel("Género", fontsize=14)
plt.ylabel("Contagem", fontsize=14)
plt.legend(title="Diabetes_012", labels=["Sem Diabetes", "Pré-Diabetes", "Diabetes"])
plt.xticks(ticks=[0, 1], labels=["Feminino", "Masculino"], fontsize=12)

# mostrar o gráfico
plt.tight_layout()
plt.show()

### 📊 Análise da Variável Rendimentos

In [None]:
# contagem de sem diabetes, pré-diabetes e diabetes por rendimentos
income_diabetes_counts = df.groupby(['Income', 'Diabetes_012']).size().unstack(fill_value=0)

# criar o gráfico de barras 
income_groups = income_diabetes_counts.index
categories = ['Sem Diabetes', 'Pré-Diabetes', 'Diabetes']
values = [income_diabetes_counts[0], income_diabetes_counts[1], income_diabetes_counts[2]]

x = np.arange(len(income_groups))
width = 0.25

fig, ax = plt.subplots(figsize=(14, 7))

bars1 = ax.bar(x - width, values[0], width, label='Sem Diabetes', color='#1f77b4')
bars2 = ax.bar(x, values[1], width, label='Pré-Diabetes', color='#2ca02c')
bars3 = ax.bar(x + width, values[2], width, label='Diabetes', color='#ff7f0e')

# legendas e título
ax.set_xlabel('Rendimentos', fontsize=12)
ax.set_ylabel('Frequência', fontsize=12)
ax.set_title('Distribuição de Diabetes por Rendimentos', fontsize=14)
ax.set_xticks(x)
ax.set_xticklabels(income_groups, rotation=45, ha='right')
ax.legend(title='Categoria', fontsize=10)

# valores no topo das barras
for bars in [bars1, bars2, bars3]:
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height}', 
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=9)

# mostrar o gráfico
plt.tight_layout()
plt.show()


# 📋 Regras de Associação

In [None]:
# mining das regras de associação
rules, supp_dict = ar.create_association_rules(df, max_cols=2)

# listar as regras
rules

# regras com consequente Diabetes_012 = 2.0 (tem diabetes)
# mostrar as 5 variáveis que mais influenciam a presença de diabetes
ar.present_rules_per_consequent(rules, consequent={'Diabetes_012': '2.0'}, 
                                selection_function=top_5_variant_variables, 
                                drop_dups=True, 
                                plot=True)