# Análisis de Datos Proteómicos Públicos

## Introducción

En esta práctica analizamos datos reales de proteómica obtenidos mediante **espectrometría de masas (MS)** y depositados en el repositorio público **PRIDE Archive**.  
El objetivo general es comprender cómo se identifican y cuantifican péptidos y proteínas, y cómo podemos interpretar estos datos para extraer información biológica.

---

## Regulación epigenética y estructura de la cromatina

<p align="center">
  <img src="images/image.png" alt="Chromatin Image" width="300">
</p>

**Esta imagen muestra cómo la cromatina puede estar abierta o cerrada según las modificaciones de las histonas.  
La acetilación abre la cromatina y permite la transcripción, mientras que la desacetilación la compacta y reduce la expresión génica.  
Es una representación básica de la regulación epigenética, relacionada con los cambios en la estructura de la cromatina estudiados en el proyecto PXD070354.**

---

## Estudio utilizado: PXD070354 — *Chromatin architecture reprogramming in breast cancer*

El archivo elegido para esta práctica proviene del proyecto **PXD070354**, disponible en la ruta oficial del repositorio PRIDE:

-> **https://www.ebi.ac.uk/pride/archive/projects/PXD070354**

El análisis combina diferentes tecnologías ómicas, entre ellas **proteómica tipo bottom-up**, para identificar y cuantificar proteínas implicadas en procesos epigenéticos.

Para los ejercicios de esta práctica utilizamos el archivo:

- **`Liliana-July2025_report.pr_matrix.tsv`**

Este archivo contiene la información necesaria para trabajar a nivel de **péptidos**: secuencias, proteínas asociadas, genes, valores de confianza (PEP) e intensidades en distintas muestras.

---

## Indicaciones importantes para hacer los ejercicios

> En casos ambiguos, **no se puede determinar con certeza** a qué grupo pertenece un péptido o proteína.  
> Si la concentración es **anormalmente alta**, debe **justificarse** claramente (si se argumenta bien, **sí se valora positivamente**).  
> La ausencia de señal **no implica necesariamente** que la proteína esté presente o ausente.  
> Se deben **explicar correctamente los p-values**:  
> - Qué significan,  
> - Cómo interpretarlos,  
> - Por qué apoyan (o no) una diferencia entre grupos.  
> Las justificaciones deben ser **breves**, preferiblemente **en una sola línea**, salvo casos muy excepcionales.
---

## Ejercicios

### **Ejercicio 1 — Identificando péptidos**

**Tarea:**  
Selecciona un péptido de la tabla y responde:

- ¿Cuál es su secuencia (**Sequence**)?
- ¿A qué proteína(s) se asocia (**Proteins**)?
- ¿Cuál es el nombre del gen asociado (**Gene names**)?

**Objetivo:**  

Comprender que en proteómica **no se identifican proteínas directamente**, sino **péptidos**, que luego se asignan a las proteínas.

---



### **Ejercicio 2 — Evaluando la confianza en la identificación**

**Tarea:**  
Observa el valor **PEP** del péptido seleccionado.

Interpretación:

- **PEP < 0.01** → identificación **confiable**  
- **PEP > 0.05** → identificación **poco confiable**

**Objetivo:**  

Comprender que la identificación de péptidos se basa en **probabilidades**, no en certezas absolutas.  
PEP indica la probabilidad de que la identificación sea incorrecta.

---

### **Ejercicio 3 — Explorando la cuantificación entre muestras**

**Tarea:**  
Compara las intensidades del mismo péptido entre dos muestras (por ejemplo, **A1** y **A10**).

Preguntas guía:

- ¿Dónde es más abundante?
- ¿Está ausente (0 o vacío) en alguna muestra?

**Objetivo:**  
Interpretar la cuantificación experimental y comprender que puede variar por **factores biológicos o técnicos**.

---

### **Ejercicio 4 — Identificando valores faltantes**

**Tarea:**  
Selecciona uno o dos péptidos que presenten valores faltantes (**0** o vacío) en alguna muestra.

Reflexiona:

- ¿Se debe a una verdadera ausencia biológica?
- ¿O a límites de detección del instrumento?

**Objetivo:**  
Comprender el concepto de valores faltantes **MNAR** (Missing Not At Random), típico en proteómica.

---

### **Ejercicio 5 — Comparación basada en proteínas**

**Tarea:**

1. Elige un gen o proteína (desde **Gene names**).  
2. Identifica todos los péptidos asociados a esa proteína.  
3. Compara las intensidades entre dos grupos de muestras (A vs B).

**Objetivo:**  
Comprender que la cuantificación proteica se basa en **varios péptidos**, no en uno solo.

---

### **Ejercicio 6 — Pregunta de razonamiento**

**Tarea:**  
Explica por qué es importante **identificar más de un péptido por proteína**.

---

### **Ejercicio 7 — Comparación estadística entre dos grupos (en R)**

**Tarea:**  
Determina si existe una diferencia significativa en la **abundancia media** de los péptidos entre dos grupos, por ejemplo:

- Grupo A1–A5  
- Grupo A6–A10

**Objetivo:**  
Aplicar una prueba estadística para evaluar si existe una diferencia real entre grupos experimentales o biológicos.

---