In [1]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

In [2]:
# Carregar o dataset já limpo e preparado
df = pd.read_csv('data/titanic_preparado.csv')

In [6]:

# Certificar-se de que as colunas estão devidamente codificadas para variáveis binárias
df_encoded = pd.get_dummies(df.drop(columns=['Survived']))  # Excluir 'Survived' para não codificar a coluna de destino

# Certificar-se de que a coluna Survived está em formato binário (0 ou 1)
df_encoded['Survived'] = (df['Survived'] == 1).astype(int)

# Verificar os valores únicos de cada coluna
for column in df_encoded.columns:
    print(f"Valores únicos na coluna {column}: {df_encoded[column].unique()}")

# Certificar-se de que todas as colunas têm apenas valores 0 ou 1
df_encoded = df_encoded.applymap(lambda x: 1 if x > 0 else 0)

# Gerar conjuntos frequentes com suporte mínimo de 0.1
frequent_itemsets = apriori(df_encoded, min_support=0.1, use_colnames=True)

# Gerar regras de associação com confiança mínima de 0.6
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.6)

# Filtrar regras que preveem 'Survived=1'
rules = rules[rules['consequents'] == {'Survived'}]

# Ordenar as regras por lift e confiança
rules = rules.sort_values(['lift', 'confidence'], ascending=False)

# Mostrar as regras
print("\nRegras de Associação que preveem 'Survived=1':")
print(rules[['antecedents', 'support', 'confidence', 'lift']])


Valores únicos na coluna Pclass: [3 1 2]
Valores únicos na coluna Age: [22.   38.   26.   35.   28.   54.    2.   27.   14.    4.   58.   20.
 39.   55.   31.   34.   15.    8.   19.   40.   66.   42.   21.   18.
  3.    7.   49.   29.   65.   28.5   5.   11.   45.   17.   32.   16.
 25.    0.83 30.   33.   23.   24.   46.   59.   71.   37.   47.   14.5
 70.5  32.5  12.    9.   36.5  51.   55.5  40.5  44.    1.   61.   56.
 50.   36.   45.5  20.5  62.   41.   52.   63.   23.5   0.92 43.   60.
 10.   64.   13.   48.    0.75 53.   57.   80.   70.   24.5   6.    0.67
 30.5   0.42 34.5  74.  ]
Valores únicos na coluna SibSp: [1 0 3 4 2 5 8]
Valores únicos na coluna Parch: [0 1 2 5 3 4 6]
Valores únicos na coluna Fare: [  7.25    71.2833   7.925   53.1      8.05     8.4583  51.8625  21.075
  11.1333  30.0708  16.7     26.55    31.275    7.8542  16.      29.125
  13.      18.       7.225   26.       8.0292  35.5     31.3875 263.
   7.8792   7.8958  27.7208 146.5208   7.75    10.5     82.1708

  df_encoded = df_encoded.applymap(lambda x: 1 if x > 0 else 0)
