In [1]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as srn
import statistics as sts
import datetime


In [2]:
df = pd.read_csv('pns-reduzido-2019.csv')

In [3]:
# Substitua os valores nulos na coluna 'Diagnóstico de TOC (Transtorno obsessivo compulsivo)' por zero
df['Diagnóstico de TOC (Transtorno obsessivo compulsivo) '].fillna(3, inplace=True)


In [4]:
df.isnull().sum()

Unnamed: 0                                                                                                                                                                                                                                                                0
Unidade da Federação                                                                                                                                                                                                                                                      0
Algum médico ou profissional de saúde (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de outra doença mental, como transtorno de ansiedade, síndrome do pânico, esquizofrenia, transtorno bipolar, psicose ou TOC (Transtorno Obsessivo Compulsivo) etc?     288821
Em geral, em que grau essa doença mental limita as suas atividades habituais (tais como trabalhar, realizar afazeres domésticos etc.)?                                                              

In [5]:
now = datetime.datetime.now()
# Defina os limites de idade desejados
limite_inferior = 7
limite_superior = 130

# Filtrar linhas com idade dentro do intervalo desejado
df = df[(df['Ano de nascimento'] <= (now.year - limite_inferior)) & (df['Ano de nascimento'] >= (now.year - limite_superior))]

# Agora, df contém apenas as linhas com idade dentro do intervalo especificado (7 a 130 anos)

In [6]:
df.isnull().sum()

Unnamed: 0                                                                                                                                                                                                                                                                0
Unidade da Federação                                                                                                                                                                                                                                                      0
Algum médico ou profissional de saúde (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de outra doença mental, como transtorno de ansiedade, síndrome do pânico, esquizofrenia, transtorno bipolar, psicose ou TOC (Transtorno Obsessivo Compulsivo) etc?     249552
Em geral, em que grau essa doença mental limita as suas atividades habituais (tais como trabalhar, realizar afazeres domésticos etc.)?                                                              

In [7]:
df = df.drop(columns=['Faixa de rendimento domiciliar per capita (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)'])
df = df.drop(columns=['Qual é o curso que frequenta'])
df = df.drop(columns=['E no passado, o(a) Sr(a) fumou algum produto do tabaco diariamente? '])
df = df.drop(columns=['Alguma dessas doenças limita de alguma forma suas atividades habituais (trabalhar, ir à escola, brincar, afazeres domésticos, etc.)'])
df = df.drop(columns=[' Qual foi o principal motivo de saúde que impediu ___ de realizar suas atividades habituais nas duas últimas semanas '])
df = df.drop(columns=['Unnamed: 0'])

In [8]:
df.fillna(0, inplace=True)

In [9]:
df.isnull().sum()

Unidade da Federação                                                                                                                                                                                                                                                 0
Algum médico ou profissional de saúde (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de outra doença mental, como transtorno de ansiedade, síndrome do pânico, esquizofrenia, transtorno bipolar, psicose ou TOC (Transtorno Obsessivo Compulsivo) etc?     0
Em geral, em que grau essa doença mental limita as suas atividades habituais (tais como trabalhar, realizar afazeres domésticos etc.)?                                                                                                                               0
Sexo                                                                                                                                                                                                               

In [10]:
agrupado = df.groupby(['Diagnóstico de TOC (Transtorno obsessivo compulsivo) ']).size()
agrupado

Diagnóstico de TOC (Transtorno obsessivo compulsivo) 
1.0      3661
2.0      1119
3.0    249552
dtype: int64

In [11]:
X = df

In [12]:
valores_k = []
inercias = []

for i in range(1, 10):
    kmeans = KMeans(n_clusters=i, random_state=0).fit(X)
    valores_k.append(i)
    inercias.append(kmeans.inertia_)

# Visualizar a relação entre inércia e K
plt.plot(valores_k, inercias)
plt.xlabel('Número de clusters (K)')
plt.ylabel('Inércia')
plt.title('Método do Cotovelo')
plt.show()






KeyboardInterrupt: 

Exception ignored in: 'sklearn.cluster._k_means_common._relocate_empty_clusters_dense'
Traceback (most recent call last):
  File "<__array_function__ internals>", line 177, in where
KeyboardInterrupt: 


In [None]:
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10).fit(X)

In [None]:
labels = kmeans.labels_

In [None]:
# Suponha que você já ajustou o modelo K-Means e tem as previsões em 'labels'
# e que seu DataFrame original seja 'df'

toc_count = {}  # Dicionário para armazenar as contagens de diagnóstico de TOC

for cluster_num in range(10):
    # Filtra as amostras no cluster atual
    cluster_samples = df[labels == cluster_num]
    
    # Conta quantos diagnósticos de TOC igual a 2.0 estão presentes no cluster
    toc_count[cluster_num] = (cluster_samples['Diagnóstico de TOC (Transtorno obsessivo compulsivo) '] == 2.0).sum()

# 'toc_count' agora contém o número de diagnósticos de TOC igual a 2.0 em cada cluster
print(toc_count)

{0: 423, 1: 696, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 0, 8: 0, 9: 0}


In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

In [None]:
k_values = range(2, 11)  # Defina a faixa de valores de k que deseja testar

silhouette_scores = []

for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)  # Substitua X pelos seus dados
    labels = kmeans.labels_
    silhouette_avg = silhouette_score(X, labels)
    silhouette_scores.append(silhouette_avg)



KeyboardInterrupt: 