<a href="https://colab.research.google.com/github/eddieHerman-lab/Analise_DE_Diamantes/blob/main/AnaliseDe_Student_addiction_Dataset_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

An√°lise de Dados sobre V√≠cios em Estudantes

Introdu√ß√£o
Este projeto visa analisar os padr√µes de comportamento relacionados a v√≠cios em estudantes utilizando t√©cnicas de clustering, an√°lise de componentes principais (PCA) e regress√£o linear. O objetivo √© identificar grupos distintos de estudantes com base em seus comportamentos e caracter√≠sticas.

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import silhouette_score
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Importar bibiotecas necessarias

Preparacao de dados,tratamento e limpeza
Descri√ß√£o dos Dados O dataset cont√©m informa√ß√µes sobre comportamentos relacionados a v√≠cios em estudantes, incluindo experimenta√ß√£o, desempenho acad√™mico, isolamento social, problemas financeiros e de sa√∫de mental. Dados exportados do Kaggle.

In [3]:
df = pd.read_csv('/student_addiction_dataset_test.csv') #Exportando os dados
# Visualizar as primeiras linhas do DataFrame
pd.set_option('display.max_columns', None)
# Mapear 'N√ÉO' para False e 'SIM' para True em todas as colunas
df = df.replace({'No': False, 'Yes': True})
df.fillna(0, inplace=True)

FileNotFoundError: [Errno 2] No such file or directory: '/student_addiction_dataset_test.csv'

Analise exploratoria dos dados;
Estatisticas descritivas e visualizacoes iniciais;
Descricao de medias por grupos;
Descricao de desvio padrao por grupos;
Realizacao de tabela cruzada entre as colunas Experimentation e Addiction Class

In [4]:
grouped = df.groupby('Addiction_Class')
mean_values = grouped.mean()
std_values = grouped.std()
print(mean_values, 'Mean values for each group')
print(std_values, 'Standard deviation for each group')

differences = []
for column in df.columns:
    counts = df[column].value_counts()
    Sim_counts = counts.get(True, 0)
    Nao_counts = counts.get(False, 0)
    diff = Sim_counts - Nao_counts
    differences.append((column, diff))

cross_tab = pd.crosstab(df['Experimentation'], df['Addiction_Class'])
print(cross_tab, 'Cross tabs Experimentation and Addiction')
print(cross_tab.corr())

NameError: name 'df' is not defined

Normalizacao dos dados


In [None]:
# Normalizando os dados
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

An√°lise de Clustering com K-Means e PCA
MODELAGEM

### Por que se ultiliza K-Means?
O algoritmo de K-Means √© uma t√©cnica de aprendizado n√£o supervisionado usada para particionar um conjunto de dados em um n√∫mero pr√©-definido de clusters. Cada ponto de dado pertence ao cluster cujo centro est√° mais pr√≥ximo, resultando em uma divis√£o dos dados em grupos distintos. Esta abordagem √© √∫til quando queremos identificar subgrupos em nossos dados que possuem caracter√≠sticas similares, o que pode fornecer insights valiosos sobre padr√µes de comportamento ou caracter√≠sticas comuns entre diferentes grupos.

### Processo de Clustering
1. Normaliza√ß√£o dos Dados:
   Antes de aplicar o K-Means, foi normalizado  os dados para garantir que todas as vari√°veis estejam na mesma escala. Isso √© feito utilizando `StandardScaler`, que transforma os dados para que tenham m√©dia zero e desvio padr√£o um.

In [None]:
# Encontrando o melhor n√∫mero de clusters com o m√©todo do cotovelo
sse = []
k_range = range(1, 11)
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(df_scaled)
    sse.append(kmeans.inertia_)

Visualicacao com Matplotlib para melhor entendimento


In [None]:
plt.figure(figsize=(10, 6))
plt.plot(k_range, sse, marker='o')
plt.xlabel('N√∫mber of Clusters')
plt.ylabel('SSE (Sum of square errors)')
plt.title('Elbow method')
plt.show()

Aplica√ß√£o do K-Means:
Ap√≥s determinar o n√∫mero apropriado de clusters , aplicamos o K-Means para particionar os dados em clusters.

In [None]:
# A partir do gr√°fico, escolha o n√∫mero apropriado de clusters (por exemplo, 3)
num_clusters = 3
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(df_scaled)
df['Cluster'] = kmeans.labels_

An√°lise de Componentes Principais (PCA)
A PCA √© uma t√©cnica de redu√ß√£o de dimensionalidade que transforma um conjunto de vari√°veis correlacionadas em um conjunto menor de vari√°veis n√£o correlacionadas chamadas componentes principais. Esta abordagem √© √∫til para visualizar dados de alta dimens√£o em gr√°ficos de duas ou tr√™s dimens√µes, mantendo a maior parte da vari√¢ncia original dos dados.

Aplica√ß√£o da PCA:
Aplicamos a PCA para reduzir os dados a cinco componentes principais, o que facilita a visualiza√ß√£o e a an√°lise dos clusters.

In [None]:
# PCA com mais componentes
pca = PCA(n_components=5)  # Aumentando o n√∫mero de componentes para 5
principalComponents = pca.fit_transform(df_scaled)
explained_variance = pca.explained_variance_ratio_
print("Explained variance by component:")
print(explained_variance)
num_columns = df.shape[1]
# DataFrame dos componentes principais
principal_df = pd.DataFrame(data=principalComponents, columns=[f'PC{i+1}' for i in range(5)])
print("Principal components:")
components = pd.DataFrame(pca.components_, columns=df.columns[:-1], index=[f'PC{i+1}' for i in range(5)])
print(components)

Visualizacao dos clusters

In [None]:
# Visualizar os clusters nas primeiras duas componentes principais
plt.scatter(principalComponents[:, 0], principalComponents[:, 1], c=df['Cluster'])
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('Clusters visualized on first two principal components')
plt.show()

Ajustando o Modelo de K-Means com Mais Componentes Principais
Ap√≥s a normaliza√ß√£o dos dados e a aplica√ß√£o do K-Means inicialmente, foi utilizado a An√°lise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados. A PCA transforma os dados originais em componentes principais que explicam a maior parte da varia√ß√£o nos dados. Usar mais componentes principais significa capturar mais variabilidade dos dados, o que pode levar a uma melhor separa√ß√£o entre os clusters.

Isso permite que o modelo K-Means trabalhe com uma representa√ß√£o mais rica dos dados, que pode melhorar a qualidade do clustering.

Motiva√ß√£o

A principal motiva√ß√£o para ajustar o K-Means com mais componentes principais √© melhorar a qualidade do clustering. Componentes principais adicionais podem capturar mais vari√¢ncia nos dados, o que pode ajudar o K-Means a identificar padr√µes mais claros e formar clusters mais coesos. Al√©m disso, a utiliza√ß√£o de componentes principais reduzidos pode facilitar a visualiza√ß√£o e interpreta√ß√£o dos clusters.Como um melhor vizualizacao,e grupos mais distintos com menor dimensionalidade  e possivel inferir fatores de causalidade relacionados a eles




In [None]:
# Ajustar o modelo de KMeans com mais componentes principais
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
df['Cluster'] = kmeans.fit_predict(principalComponents)

Interpreta√ß√£o das Distribui√ß√µes
A partir dessas visualiza√ß√µes, voc√™ pode observar como cada vari√°vel se comporta dentro de cada cluster. Por exemplo:

Experimentation: Pode-se observar que o n√≠vel de experimenta√ß√£o varia significativamente entre os clusters, indicando que alguns grupos de estudantes s√£o mais propensos a experimentar subst√¢ncias do que outros.
Academic Performance Decline: A queda no desempenho acad√™mico pode ser mais pronunciada em alguns clusters, sugerindo uma correla√ß√£o entre certos tipos de v√≠cios e o impacto negativo no desempenho acad√™mico.
Social Isolation: A an√°lise pode revelar que determinados clusters t√™m uma maior incid√™ncia de isolamento social, o que pode estar associado a comportamentos de v√≠cio.

In [None]:
# Analisando os clusters
colunas = ['Experimentation', 'Academic_Performance_Decline', 'Social_Isolation', 'Financial_Issues', 'Physical_Mental_Health_Problems']
for coluna in colunas:
    plt.figure(figsize=(10, 6))
    sns.countplot(data=df, x=coluna, hue='Cluster', palette='viridis')
    plt.title(f'Distribui√ß√£o de {coluna} por Cluster')
    plt.xlabel(coluna)
    plt.ylabel('Contagem')
    plt.legend(title='Cluster')
    plt.show()


Silhouette Score
O Silhouette Score √© uma m√©trica usada para avaliar a qualidade do clustering. Ele mede o qu√£o semelhante um ponto √© ao seu pr√≥prio cluster em compara√ß√£o com outros clusters.

In [None]:
# Silhouette Score com mais componentes principais
score = silhouette_score(principalComponents, df['Cluster'])
print(f'Silhouette Score with more components: {score}')

Regress√£o Linear com Componentes Principais e Valida√ß√£o Cruzada
Objetivo
O objetivo desta parte da an√°lise √© ajustar um modelo de regress√£o linear para prever a classe de v√≠cio (Addiction_Class) com base nas componentes principais obtidas a partir da PCA. Al√©m disso, usamos valida√ß√£o cruzada (cross-validation) para avaliar a performance do modelo.

In [None]:
# Regress√£o Linear com mais componentes principais
#Prepara√ß√£o dos Dados para Regress√£o:
#X s√£o as componentes principais obtidas da PCA.
#y √© a vari√°vel alvo, Addiction_Class.
model = LinearRegression()
X = principalComponents
y = df['Addiction_Class']
model.fit(X, y)

Valida√ß√£o Cruzada (Cross-Validation):
Utilizamos a t√©cnica de valida√ß√£o cruzada com 5 folds (cv=5) para avaliar a performance do modelo de regress√£o linear.
A valida√ß√£o cruzada divide os dados em 5 partes. Em cada itera√ß√£o, uma parte √© usada como conjunto de teste e as outras quatro como conjunto de treinamento. Este processo √© repetido 5 vezes, com cada parte sendo usada uma vez como conjunto de teste.
cross_val_score √© utilizado para calcular as m√©tricas de avalia√ß√£o (neste caso, o coeficiente de determina√ß√£o
ùëÖ
2
R
2
 ) para cada itera√ß√£o.

In [None]:

# Cross Validation com mais componentes principais
scores = cross_val_score(model, X, y, cv=5)
print(f'Cross-validation scores with more components: {scores}')
print(f'Average cross-validation score with more components: {np.mean(scores)}')

In [None]:
# Agrupando por cluster e calculando a m√©dia para cada caracter√≠stica
cluster_means = df.groupby('Cluster').mean()
print(cluster_means)

Correla√ß√£o entre Vari√°veis para cada Cluster e Visualiza√ß√µes
Objetivo
O objetivo dessa parte da an√°lise √© entender a rela√ß√£o entre diferentes vari√°veis dentro de cada cluster. A correla√ß√£o entre vari√°veis pode fornecer insights sobre como os fatores se relacionam entre si dentro dos clusters identificados pelo KMeans.

Passos Detalhados
Agrupamento por Cluster:

Os dados s√£o agrupados por cluster para realizar a an√°lise de correla√ß√£o dentro de cada grupo.
Matriz de Correla√ß√£o:

A matriz de correla√ß√£o √© calculada para cada cluster usando o m√©todo corr() do pandas. Esta matriz mostra a correla√ß√£o entre cada par de vari√°veis.
Uma correla√ß√£o alta (perto de 1 ou -1) indica uma forte rela√ß√£o linear entre duas vari√°veis, enquanto uma correla√ß√£o baixa (perto de 0) indica pouca ou nenhuma rela√ß√£o linear.
Visualiza√ß√£o com Heatmap:

Usamos sns.heatmap do Seaborn para visualizar a matriz de correla√ß√£o. O heatmap √© uma representa√ß√£o gr√°fica onde cores mais escuras indicam correla√ß√µes mais fortes (positivas ou negativas).

In [None]:
# Para cada cluster, calcular as correla√ß√µes entre as vari√°veis
for cluster in df['Cluster'].unique():
    df_cluster = df[df['Cluster'] == cluster]
    correlation_matrix = df_cluster.corr()
    print(correlation_matrix)
    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title(f'Heatmap de Correla√ß√£o - Cluster {cluster}')
    plt.show()



Conclus√µes
Predomin√¢ncia de N√£o Experimenta√ß√£o (0): Em todos os clusters, a maioria dos estudantes n√£o experimentou a subst√¢ncia (0). Isso pode sugerir que a experimenta√ß√£o n√£o √© o comportamento dominante na maioria dos estudantes analisados.
Cluster 2 Tem a Maior Popula√ß√£o de N√£o Experimentadores: O cluster 2 destaca-se por ter o maior n√∫mero de estudantes que n√£o experimentaram, indicando que esse cluster pode estar mais associado a comportamentos mais conservadores ou menos propensos √† experimenta√ß√£o.
Menor Varia√ß√£o Entre Clusters Para Experimenta√ß√£o (1): Embora todos os clusters tenham uma quantidade menor de estudantes que experimentaram (1), as propor√ß√µes parecem relativamente similares, sugerindo que a experimenta√ß√£o √© um comportamento menos comum e, portanto, menos discriminativo entre os clusters.