# 10 Agrupamento Semi-Supervisionado

Objetivo: Investigar a aplicação do algoritmo SDAC (Semi-supervised Discriminative Analysis
Clustering) para o agrupamento de dados de expressão gênica, utilizando rótulos parciais
como forma de orientação na formação de grupos biologicamente coerentes.

Atividades sugeridas:
- Estudar o algoritmo SDAC e entender como ele combina aprendizado supervisionado e
não supervisionado.
- Obter e preparar um conjunto de dados de expressão gênica (por exemplo, datasets de
câncer disponíveis no repositório GEO ou TCGA).
- Separar uma fração pequena dos exemplos com rótulo para uso como supervisão parcial.
- Aplicar o algoritmo SDAC ao conjunto de dados e comparar os resultados com métodos
tradicionais de agrupamento (e.g., K-Means, Spectral Clustering).
- Avaliar os agrupamentos com métricas como ARI (Adjusted Rand Index) e NMI (Normalized
Mutual Information), além de discutir a coerência biológica dos grupos formados.


Sugestão de dados:
- GEO: GSE2034 (dados de câncer de mama)
- TCGA-BRCA (via TCGAbiolinks ou UCSC Xena)

In [None]:
import pandas as pd

# Data from breast cancer
file_path = "GSE2034-22071.txt"

# Skip the first 287 lines and load the rest as a pd.DataFrame
df = pd.read_csv(file_path, delimiter="\t", skiprows=287)

df.index.name = 'ID_REF'

for i, column in enumerate(df.columns):
    


# Show the first few rows
print(f"Shape: {df.shape}\n")
print(df.head()) # está imprimindo errado

# We can see that the data has HIGH dimensionality by its shape (286 columns)


Shape: (22283, 287)

           ID_REF  GSM36777  GSM36778  GSM36779  GSM36780  GSM36781  GSM36782  \
1007_s_at  3848.1    6520.9    5285.7    4043.7    4263.6    2949.8    5498.9   
1053_at     228.9     112.5     178.4     398.7     417.7     221.2     280.4   
117_at      213.1     189.8     269.7     312.4     327.1     225.0     243.5   
121_at     1009.4    2083.3    1203.4    1104.4    1043.3    1117.6    1085.4   
1255_g_at    31.8     145.8      42.5     108.2      69.2      47.4      84.3   

           GSM36783  GSM36784  GSM36785  ...  GSM37053  GSM37054  GSM37055  \
1007_s_at    3863.1    3370.4    3991.9  ...    4017.6    2841.0    2914.2   
1053_at       198.2     304.7     198.2  ...     356.1     234.6     169.4   
117_at        244.4     348.5     185.3  ...     234.9     369.6     149.5   
121_at       1423.1    1196.4     993.3  ...    1195.6     751.5    1117.8   
1255_g_at     102.0      22.8      86.3  ...      32.7      62.6      43.0   

           GSM37056  GS

In [None]:
sample_map = {}
with open(file_path, 'r') as f:
    for _ in range(287):
        line = f.readline().strip()
        if line.startswith("#GSM"):
            gsm, sample = line[1:].split(" = ")
            sample_map[gsm] = sample
