# Análisis de Datos Proteómicos Públicos

## Introducción

En esta práctica analizamos datos reales de proteómica obtenidos mediante **espectrometría de masas (MS)** y depositados en el repositorio público **PRIDE Archive**.  
El objetivo general es comprender cómo se identifican y cuantifican péptidos y proteínas, y cómo podemos interpretar estos datos para extraer información biológica.

---

## Proyecto utilizado: PXD061144 — *In-depth plasma proteomics of patients with suspected lung cancer (lung adenocarcinoma and non-cancer controls) with HiRIEF LC-MS/MS*

El archivo elegido para esta práctica proviene del proyecto **PXD061144**, disponible en la ruta oficial del repositorio PRIDE:

-> **https://www.ebi.ac.uk/pride/archive/projects/PXD061144**

En este proyecto se 

Para los ejercicios de esta práctica utilizamos el archivo:

- **`peptides_table.txt`**

Este archivo contiene la información necesaria para trabajar a nivel de **péptidos**: secuencias, proteínas asociadas, genes, valores de confianza (PEP) e intensidades en distintas muestras.

En los ejercicios eliminamos aquella información que no nos resulta útil para que sea más sencillo trabajar con él.

---

## Indicaciones importantes para hacer los ejercicios dadas por la profesora

> En casos ambiguos, **no se puede determinar con certeza** a qué grupo pertenece un péptido o proteína.  
> Si la concentración es **anormalmente alta**, debe **justificarse** claramente (si se argumenta bien, **sí se valora positivamente**).  
> La ausencia de señal **no implica necesariamente** que la proteína esté presente o ausente.  
> Se deben **explicar correctamente los p-values**:  
> - Qué significan,  
> - Cómo interpretarlos,  
> - Por qué apoyan (o no) una diferencia entre grupos.  
> Las justificaciones deben ser **breves**, preferiblemente **en una sola línea**, salvo casos muy excepcionales.
---

#### **VAMOS A QUEDARNOS CON AQUELLA INFORMACIÓN RELEVANTE Y NECESARIA PARA LOS EJERCICIOS ÚNICAMENTE:**

## Ejercicios

### **Ejercicio 1 — Identificando péptidos**

**Tarea:**  
Selecciona un péptido de la tabla y responde:

- ¿Cuál es su secuencia (**Sequence**)?
- ¿A qué proteína(s) se asocia (**Proteins**)?
- ¿Cuál es el nombre del gen asociado (**Gene names**)?

**Objetivo:**  

Comprender que en proteómica **no se identifican proteínas directamente**, sino **péptidos**, que luego se asignan a las proteínas.

---



In [16]:
import pandas as pd 

peptides = pd.read_csv("peptides_table.txt", sep="\t")

print(peptides.head())
print(peptides.columns)


                                    Peptide.sequence             Protein.s.  \
0  +304.207NVQFNYPHTSVTDVTQNNFHNYFGGSEIVVAGK+304.207  sp|P19823|ITIH2_HUMAN   
1        +304.207LTYAYFAGGDAGDAFDGFDFGDDPSDK+304.207   sp|P02679|FIBG_HUMAN   
2  +304.207PGDFGYC+57.021DLNYC+57.021EEAVEEETGDGL...   sp|P00734|THRB_HUMAN   
3  +304.207EVVTSEDGSDC+57.021PEAM+15.995DLGTLSGIG...   sp|P02671|FIBA_HUMAN   
4  +304.207DNC+57.021PTVPNSAQEDSDHDGQGDAC+57.021D...   sp|P49747|COMP_HUMAN   

  Total.number.proteins.in.group  \
0                            601   
1                            122   
2                             35   
3                             72   
4                             26   

                                 Description.s.         Coverage.s.  \
0  Inter-alpha-trypsin inhibitor heavy chain H2  0.7748414376321353   
1                        Fibrinogen gamma chain  0.8211920529801324   
2                                   Prothrombin   0.842443729903537   
3                       

### Filtrado de los datos para solo tomar las columnas necesarias:

In [17]:
columnas_necesarias = [
    "Peptide.sequence",
    "Protein.s.",
    "Gene.name.s.",
    "Gene.ID.s.",
    "Description.s.",

    "setA_PEP", "setB_PEP", "setC_PEP", "setD_PEP",
    "setE_setErerun_PEP", "setF_PEP", "setG_PEP", "setH_PEP",

    "setA_MS1.area..highest.of.all.PSMs.",
    "setB_MS1.area..highest.of.all.PSMs.",
    "setC_MS1.area..highest.of.all.PSMs.",
    "setD_MS1.area..highest.of.all.PSMs.",
    "setE_setErerun_MS1.area..highest.of.all.PSMs.",
    "setF_MS1.area..highest.of.all.PSMs.",
    "setG_MS1.area..highest.of.all.PSMs.",
    "setH_MS1.area..highest.of.all.PSMs."
]

peptides_filtered = peptides[columnas_necesarias]


In [18]:
print("\nColumnas después del filtrado:\n")
print(peptides_filtered.columns)


Columnas después del filtrado:

Index(['Peptide.sequence', 'Protein.s.', 'Gene.name.s.', 'Gene.ID.s.',
       'Description.s.', 'setA_PEP', 'setB_PEP', 'setC_PEP', 'setD_PEP',
       'setE_setErerun_PEP', 'setF_PEP', 'setG_PEP', 'setH_PEP',
       'setA_MS1.area..highest.of.all.PSMs.',
       'setB_MS1.area..highest.of.all.PSMs.',
       'setC_MS1.area..highest.of.all.PSMs.',
       'setD_MS1.area..highest.of.all.PSMs.',
       'setE_setErerun_MS1.area..highest.of.all.PSMs.',
       'setF_MS1.area..highest.of.all.PSMs.',
       'setG_MS1.area..highest.of.all.PSMs.',
       'setH_MS1.area..highest.of.all.PSMs.'],
      dtype='object')


In [19]:
print("\nPrimeras filas del dataset filtrado:\n")
print(peptides_filtered.head())


Primeras filas del dataset filtrado:

                                    Peptide.sequence             Protein.s.  \
0  +304.207NVQFNYPHTSVTDVTQNNFHNYFGGSEIVVAGK+304.207  sp|P19823|ITIH2_HUMAN   
1        +304.207LTYAYFAGGDAGDAFDGFDFGDDPSDK+304.207   sp|P02679|FIBG_HUMAN   
2  +304.207PGDFGYC+57.021DLNYC+57.021EEAVEEETGDGL...   sp|P00734|THRB_HUMAN   
3  +304.207EVVTSEDGSDC+57.021PEAM+15.995DLGTLSGIG...   sp|P02671|FIBA_HUMAN   
4  +304.207DNC+57.021PTVPNSAQEDSDHDGQGDAC+57.021D...   sp|P49747|COMP_HUMAN   

  Gene.name.s.  Gene.ID.s.                                Description.s.  \
0        ITIH2         NaN  Inter-alpha-trypsin inhibitor heavy chain H2   
1          FGG         NaN                        Fibrinogen gamma chain   
2           F2         NaN                                   Prothrombin   
3          FGA         NaN                        Fibrinogen alpha chain   
4         COMP         NaN           Cartilage oligomeric matrix protein   

       setA_PEP      setB_PEP

#### Para mayor comidad, lo pasamos a formato .csv para hacer uso e funciones que facilitan el trabajo.

In [20]:
peptides_filtered.to_csv("peptides_filtered.csv", index=False)

#### ***Ya que nos interesa una secuencia, tomamos, por ejemplo la primera cadena de péptidos que se encuentra en el .tsv:***

In [21]:
seq = peptides_filtered.iloc[0, 0]
print(seq)

+304.207NVQFNYPHTSVTDVTQNNFHNYFGGSEIVVAGK+304.207


In [22]:
print(peptides_filtered.colums())

AttributeError: 'DataFrame' object has no attribute 'colums'

### **Ejercicio 2 — Evaluando la confianza en la identificación**

**Tarea:**  
Observa el valor **PEP** del péptido seleccionado.

Interpretación:

- **PEP < 0.01** → identificación **confiable**  
- **PEP > 0.05** → identificación **poco confiable**

**Objetivo:**  

Comprender que la identificación de péptidos se basa en **probabilidades**, no en certezas absolutas.  
PEP indica la probabilidad de que la identificación sea incorrecta.

---

### **Ejercicio 3 — Explorando la cuantificación entre muestras**

**Tarea:**  
Compara las intensidades del mismo péptido entre dos muestras (por ejemplo, **A1** y **A10**).

Preguntas guía:

- ¿Dónde es más abundante?
- ¿Está ausente (0 o vacío) en alguna muestra?

**Objetivo:**  
Interpretar la cuantificación experimental y comprender que puede variar por **factores biológicos o técnicos**.

---

### **Ejercicio 4 — Identificando valores faltantes**

**Tarea:**  
Selecciona uno o dos péptidos que presenten valores faltantes (**0** o vacío) en alguna muestra.

Reflexiona:

- ¿Se debe a una verdadera ausencia biológica?
- ¿O a límites de detección del instrumento?

**Objetivo:**  
Comprender el concepto de valores faltantes **MNAR** (Missing Not At Random), típico en proteómica.

---

### **Ejercicio 5 — Comparación basada en proteínas**

**Tarea:**

1. Elige un gen o proteína (desde **Gene names**).  
2. Identifica todos los péptidos asociados a esa proteína.  
3. Compara las intensidades entre dos grupos de muestras (A vs B).

**Objetivo:**  
Comprender que la cuantificación proteica se basa en **varios péptidos**, no en uno solo.

---

### **Ejercicio 6 — Pregunta de razonamiento**

**Tarea:**  
Explica por qué es importante **identificar más de un péptido por proteína**.

---

### **Ejercicio 7 — Comparación estadística entre dos grupos (en R)**

**Tarea:**  
Determina si existe una diferencia significativa en la **abundancia media** de los péptidos entre dos grupos, por ejemplo:

- Grupo A1–A5  
- Grupo A6–A10

**Objetivo:**  
Aplicar una prueba estadística para evaluar si existe una diferencia real entre grupos experimentales o biológicos.

---