# IESB - Miner II - Aula 10 - KMeans

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list the files in the input directory

import os
print(os.listdir("../input"))

# Any results you write to the current directory are saved as output.

In [None]:
# Carregando o arquivo
df = pd.read_csv('../input/insurance.csv')

df.head()

In [None]:
# Verificando o dataframe
df.info()

In [None]:
# Analisando os dados
df['charges'].plot.hist(bins=50)

In [None]:
df['bmi'].plot.hist(bins=50)

In [None]:
df['smoker'].value_counts()

In [None]:
df['smoker'].value_counts().plot.bar()

In [None]:
# Verificando os valores mínimos e máximos de idade
df['age'].min(), df['age'].max()

## Feature Engineering

In [None]:
# Criando categorias
# Por idade
def age_to_cat(age):
    if (age >= 18) & (age <= 35):
        return 'Adult'
    elif (age > 35) & (age <= 55):
        return 'Senior'
    else:
        return 'Elder'
    
df['age_cat'] = df['age'].apply(age_to_cat)

df.head()

In [None]:
# Criando categorias
# Por imc e peso
def bmi_to_weight(bmi):
    if (bmi < 18.5):
        return 'Underweight'
    elif (bmi >= 18.5) & (bmi < 25):
        return 'Normal Weight'
    elif (bmi >= 25) & (bmi < 30):
        return 'Overweight'
    else:
        return 'Obese'
    
df['weight'] = df['bmi'].apply(bmi_to_weight)

df.head()

In [None]:
# Visualizando os dados
import seaborn as sns

# Relação Idade x Gastos
sns.stripplot(x="age_cat", y="charges", data=df, linewidth=1)

In [None]:
# Relação Fumo x Gastos
sns.stripplot(x="smoker", y="charges", data=df, linewidth=1)

In [None]:
# Relação Idade x Gastos x Peso
sns.stripplot(x="age_cat", y="charges", hue='weight', data=df, linewidth=1)

In [None]:
# Relação Fumo x Gastos x Peso
sns.stripplot(x="smoker", y="charges", hue='weight', data=df, linewidth=1)

In [None]:
# Relação Idade x Gastos x Fumo
sns.stripplot(x="age_cat", y="charges", hue='smoker', data=df, linewidth=1)

In [None]:
# Clusterização
from sklearn.cluster import KMeans

# Antes de começar vamos selecionar as variáveis que iremos usar para criar os clusters
X = df[["bmi", "charges"]]

In [None]:
# Precisamos determinar a quantidade de clusters

# Método Elbow
# A ideia por trás do método é rodar a própria clusterização k-means no dataset
# variando o valor de k (de 1 a 15 por exemplo), e para cada valor de k
# vamos calcular a soma quadrática dos erros (sum of squared errors - SSE)
sse = []
for k in range(1, 15):
    kmeans = KMeans(n_clusters=k, random_state=42).fit(X)
    sse.append(kmeans.inertia_)

In [None]:
# Verificando o resultado
sse

In [None]:
# Plotando o gráfico
import matplotlib.pyplot as plt

plt.plot(range(1, 15), sse, 'bx-')
plt.title('Método Elbow')
plt.xlabel('Número de clusters')
plt.ylabel('SSE')
plt.show()

In [None]:
# Vamos executar a clusterização com 3 clusters
kmeans = KMeans(n_clusters=3, init='k-means++', random_state=42)
cluster_id = kmeans.fit_predict(X)

cluster_id

In [None]:
# Agora vamos guardar os resultados no dataframe
X['cluster_id'] = cluster_id

X.head()

In [None]:
# Plotando os agrupamentos e os centroídes
fig = plt.figure(figsize=(12,8))

plt.scatter(X.values[:,0], X.values[:,1], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='red', marker="x", s=200)
plt.show()

In [None]:
plt.scatter(X.values[:,0], X.values[:,1])

In [None]:
# Vamos executar a clusterização com 4 clusters
kmeans = KMeans(n_clusters=4, init='k-means++', random_state=42)
cluster_id = kmeans.fit_predict(X)

# Agora vamos guardar os resultados no dataframe
X['cluster_id'] = cluster_id

# Plotando os agrupamentos e os centroídes
fig = plt.figure(figsize=(12,8))

plt.scatter(X.values[:,0], X.values[:,1], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='red', marker="x", s=200)
plt.show()

In [None]:
# Vamos clusterizar usando outras variáveis
X2 = df[["age", "charges"]]

# Método Elbow
sse = []
for k in range(1, 15):
    kmeans = KMeans(n_clusters=k, random_state=42).fit(X2)
    sse.append(kmeans.inertia_)
    
plt.plot(range(1, 15), sse, 'bx-')
plt.title('Método Elbow')
plt.xlabel('Número de clusters')
plt.ylabel('SSE')
plt.show()

In [None]:
# Vamos executar a clusterização com 3 clusters
kmeans = KMeans(n_clusters=3, init='k-means++', random_state=42)
cluster_id = kmeans.fit_predict(X2)

# Agora vamos guardar os resultados no dataframe
X2['cluster_id'] = cluster_id

# Plotando os agrupamentos e os centroídes
fig = plt.figure(figsize=(12,8))

plt.scatter(X2.values[:,0], X2.values[:,1], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='red', marker="x", s=200)
plt.show()

In [None]:
# Valores normalizados
df['log_charges'] = np.log(df['charges'])

df.head()

In [None]:
# Vamos clusterizar usando outras variáveis
X3 = df[["bmi", "log_charges"]]

# Método Elbow
sse = []
for k in range(1, 15):
    kmeans = KMeans(n_clusters=k, random_state=42).fit(X3)
    sse.append(kmeans.inertia_)
    
plt.plot(range(1, 15), sse, 'bx-')
plt.title('Método Elbow')
plt.xlabel('Número de clusters')
plt.ylabel('SSE')
plt.show()

In [None]:
# Vamos executar a clusterização com 3 clusters
kmeans = KMeans(n_clusters=3, init='k-means++', random_state=42)
cluster_id = kmeans.fit_predict(X3)

# Agora vamos guardar os resultados no dataframe
X3['cluster_id'] = cluster_id

# Plotando os agrupamentos e os centroídes
fig = plt.figure(figsize=(12,8))

plt.scatter(X3.values[:,0], X3.values[:,1], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='red', marker="x", s=200)
plt.show()