# Zadanie - ekspresja genów

* Krzysztof Molenda, 2025-05-03

## Temat

:::{pull-quote}
Analiza wpływu ekspresji genów i liczby mutacji na odporność komórek nowotworowych na leczenie, z uwzględnieniem typu tkanki.
:::

## Dane

Dane reprezentują poglądowe, hipotetyczne wyniki badań laboratoryjnych nad komórkami nowotworowymi:

::::{admonition} Przykładowe dane laboratoryjne
:class: dropdown

| **ID próbki** | **Ekspresja genu** | **Liczba mutacji** | **Odporność na leczenie** | **Typ tkanki** |
| ------------- | ------------------ | ------------------ | ------------------------- | -------------- |
| 1             | 2.51               | 5                  | 0.32                      | Płuca          |
| 2             | 3.12               | 12                 | 0.89                      | Płuca          |
| 3             | 1.89               | 8                  | 0.56                      | Jelito grube   |
| 4             | 4.02               | 20                 | 0.95                      | Jelito grube   |
| 5             | 0.98               | 2                  | 0.12                      | Mózg           |
| ...           | ...                | ...                | ...                       | ...            |
| 999           | 3.45               | 15                 | 0.67                      | Płuca          |
| 1000          | 1.23               | 3                  | 0.21                      | Mózg           |


::::

**Opis zmiennych:**

- `Ekspresja genu` - poziom ekspresji danego genu, mierzony jako wartość ciągła (np. transkrypcja RNA).
- `Liczba mutacji` - liczba mutacji zidentyfikowanych w DNA komórek nowotworowych.
- `Typ tkanki` - rodzaj tkanki, z której pochodzą komórki nowotworowe (np. "Płuca", "Jelito grube", "Mózg").
- `Odporność na leczenie` - procent przeżywalności komórek, odsetek komórek nowotworowych, które przeżyły po poddaniu ich działaniu leku

:::{seealso} Dane do obliczeń
Dane do analizy zamieszczone są w pliku `dane_komorki_nowotworowe.csv`. Dane te są hipotetyczne.
:::

:::{seealso} Dodatkowe wyjaśnienia
:class: dropdown

`Ekspresja genu` - poziom ekspresji danego genu, mierzony jako wartość ciągła (np. transkrypcja RNA).

- Wartości takie jak 2.51, 3.12, 1.89 itd. nie oznaczają bezpośrednio "ilości" genu w sensie fizycznym. To względne miary obfitości transkryptów (kopii RNA). Nie możemy powiedzieć, że 3.12 to "dużo", a 1.89 to "mało" bez odniesienia. 	

* Porównanie między próbkami:
	- Jeśli komórki nowotworowe z płuca mają średnią ekspresję genu 3.5, a komórki z mózgu 1.5, sugeruje to, że gen jest bardziej aktywny w komórkach płuc.
	- Jeśli ekspresja genu w komórkach opornych na lek wynosi 5.0, a w komórkach wrażliwych 1.0, gen może odgrywać rolę w oporności.

* Znaczenie biologiczne:
	- Wysoka ekspresja (w porównaniu):
	    - Gen może być "włączony" i odgrywać aktywną rolę w komórce nowotworowej.
	    - Może to oznaczać zwiększoną produkcję białka, które wpływa na wzrost, przeżycie lub oporność na lek.
	- Niska ekspresja (w porównaniu):
	    - Gen może być "wyłączony" lub mało aktywny.
	    - Może to prowadzić do niedoboru białka, które normalnie hamuje wzrost nowotworu.

* Korelacje i modelowanie:
	- W analizie danych będziemy szukać korelacji między ekspresją genu a odpornością na leczenie, biorąc pod uwagę typ tkanki.
	- Modelowanie statystyczne pomoże nam ocenić, czy ekspresja genu jest niezależnym predyktorem oporności, czy też jej wpływ zależy od innych czynników.
:::

:::{hint} Podpowiedzi
Dane zawierają błędy. Musisz je wykryć i usunąć. Nie musisz dbać o każdy wpis - po prostu usuń przypadki z błędami lub zastąp uśrednionymi wartościami. Skorzystaj z funkcji `dropna()` oraz `fillna()`.

Referencje: 
* [Working with missing data - Pandas User Guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data)
* [Data Cleaning and Preparation, at Python for Data Analysis](https://wesmckinney.com/book/data-cleaning)
:::

## Cel

Przeprowadź analizę danych.

Rozważ

* Określenie korelacji między ekspresją genu a odpornością na leczenie.
* Zbadanie wpływu liczby mutacji na odporność komórek.
* Analiza różnic w odporności na leczenie w zależności od typu tkanki.
* Modelowanie odporności na leczenie na podstawie ekspresji genu i liczby mutacji, z uwzględnieniem typu tkanki.
* Identyfikacja genów, których ekspresja ma największy wpływ na odpowiedź na leczenie.


## Forma

Zadanie wykonaj w Jupyter Notebook, z wykorzystaniem biblioteki Pandas. Możesz skorzystać z niniejszego notatnika.

Możesz, a nawet powinieneś korzystać z pomocy asystenta AI (Copilot, OpenAI, Gemini, ...)

Zadając pytanie dla AI musisz być precyzyjny. Zacznij od zbudowania kontekstu. Na przykład:

> Analizuję dane w Jupyter Notebook. Wykorzystuję Pandas, SciPy. Do tworzenia wykresów korzystam z Seaborn. Mam zmienną `dane` typu `DataFrame`. Zmienne: "lista i opis zmiennych". "Teraz właściwa część pytania"

Oczywiście wyniki wygenerowane przez AI mogą nie być poprawne, ale najczęściej wymagają tylko pewnych korekt, aby mogły być uruchomione w Twoim notatniku.

## Obliczenia

In [None]:
# importowanie być może potrzebnych bibliotek
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import piplite
await piplite.install('seaborn')
import seaborn as sns
from scipy import stats

In [None]:
# wykonaj obliczenia i wizualizacje