# 5-дәріс. Деректерді визуализациялау. Matplotlib және Seaborn кітапханаларын қолдану

**Дәрістің мақсаты:** `Matplotlib` және `Seaborn` кітапханаларын қолдана отырып, деректерді талдауға арналған негізгі графиктерді құруды үйрену. Бұл дағдылар машиналық оқытудың кез келген жобасының негізін құрайтын барлау деректер талдауын (EDA - Exploratory Data Analysis) жүргізу үшін маңызды болып табылады.

## Кіріспе: Визуализация не үшін қажет?

Деректерді талдау сирек жағдайда графиксіз өтеді. Визуализация келесіге көмектеседі:

1.  **Паттерндер мен тәуелділіктерді жылдам табу:** Адам көзі суреттердегі заңдылықтарды оңай табады, ал мыңдаған жолдары бар кестеде бұл заңдылықтар байқалмауы мүмкін.
2.  **Аномалиялар мен шығарындыларды анықтау:** Графиктердегі ерекше мәндер бірден көзге түседі.
3.  **Деректердің таралуын түсіну:** Таралу қалыпты ма? Бірнеше шың (мода) бар ма? Шашырау қаншалықты үлкен?
4.  **Нәтижелерді тиімді ұсыну:** График кестеге немесе мәтінге қарағанда сенімдірек және түсініктірек болады.

Python экожүйесінде визуализация үшін көптеген құралдар бар, бірақ олардың екеуі де-факто стандарт болып табылады: **Matplotlib** және **Seaborn**.

### Matplotlib vs Seaborn

*   **`Matplotlib`** — бұл Python-дағы визуализацияның "атасы". Бұл графиктің әрбір элементін толық бақылауға мүмкіндік беретін іргелі, төмен деңгейлі кітапхана. Көптеген басқа кітапханалар, соның ішінде Seaborn да осының негізінде құрылған.

*   **`Seaborn`** — бұл Matplotlib негізінде жасалған жоғары деңгейлі кітапхана. Ол статистикалық визуализация үшін арнайы әзірленген және `Pandas`-пен тамаша интеграцияланады. Seaborn күрделі және әдемі графиктерді бірнеше жол кодпен жасауға мүмкіндік береді, бұл күнделікті баптаулардан құтқарады. 

**Біздің тәсіліміз:** Біз графиктерді құрудың негізгі принциптерін түсіну үшін Matplotlib-ке қысқаша шолудан бастаймыз. Содан кейін деректерді жылдам және тиімді талдаудың негізгі құралы ретінде Seaborn-ға көшеміз. Есте сақтау маңызды: **Seaborn графигінің кез келген баптауын Matplotlib командалары арқылы орындауға болады.**

## 1-бөлім: Matplotlib негіздері — Іргетас

Seaborn қалай жұмыс істейтінін түсіну үшін, кез келген графиктің негізінде `Figure` (кенеп) нысаны және бір немесе бірнеше `Axes` (осьтер/салу аймағы) нысандары жатқанын білу керек. Matplotlib олармен тікелей жұмыс істеуге мүмкіндік береді.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
# Jupyter Notebook-та графиктердің дұрыс көрсетілуіне арналған команда
%matplotlib inline

### 1.1 Негізгі график және оның негізгі атрибуттары

Қарапайым график құрып, оның сыртқы түрін Matplotlib-тің негізгі атрибуттары арқылы баптайық.

In [None]:
x = np.arange(0,10)
y = 2*x

Осьтердің жазулары мен тақырыбы бар график құрайық.

In [None]:
plt.plot(x, y)
plt.xlabel('X осінің атауы')
plt.ylabel('Y осінің атауы')
plt.title('Графиктің атауы');

#### `xlim` және `ylim`
Бұл атрибуттар X және Y осьтері үшін шектерді (шекараларды) белгілейді. Бұл графиктің белгілі бір бөлігіне назар аудару үшін пайдалы.

In [None]:
plt.plot(x, y)
plt.xlabel('X осі')
plt.ylabel('Y осі')
plt.title('Өзгертілген осьтері бар график')

# Шектерді орнату: (төменгі_шек, жоғарғы_шек)
plt.xlim(0, 6)
plt.ylim(0, 12);

#### `label` және `legend`
Бір графикте бірнеше сызық болғанда, легенда қажет. `label` атрибуты сызықтың атауын белгілейді, ал `plt.legend()` функциясы легенданы көрсетеді.

In [None]:
plt.plot(x, x**2, label="x^2")
plt.plot(x, x**3, label="x^3")
plt.legend();

Легенданы әртүрлі жерлерде орналастыруға болады. `loc` стандартты позициялар үшін 0-ден 10-ға дейінгі мәндерді қабылдайды, немесе координаттарды қолмен көрсетуге болады. Легенданы графиктен тыс жерге шығару әсіресе пайдалы.

In [None]:
plt.plot(x, x**2, label="x^2")
plt.plot(x, x**3, label="x^3")

# loc='best' (немесе 0) - Matplotlib ең жақсы орынды өзі таңдайды
# bbox_to_anchor легенданы тысқары шығаруға мүмкіндік береді. (1.05, 1) - графиктен оңға және жоғары.
plt.legend(loc='best', bbox_to_anchor=(1.25, 1));

#### `figsize` және `linewidth`
Бұл атрибуттар графиктің физикалық өлшемдерін және сызықтардың қалыңдығын басқарады. Олар `Figure` нысанын құру кезінде көрсетіледі. Бұл **графиктерді құрудың объектіге-бағытталған тәсілі (ООП)**: біз Figure және Axes нысандарын нақты құрып, олардың әдістерімен жұмыс істейміз. **Дәл осы тәсіл Seaborn негізінде жатыр.** Бұған дейін біз **функционалды тәсілді (MATLAB-тағы сияқты)** қолдандық: біз `plt`-дан функцияларды шақырамыз, олар ағымдағы белсенді графикке қолданылады.

In [None]:
# Белгілі бір өлшемдегі кенеп құру
fig = plt.figure(figsize=(8, 5)) # (ені, биіктігі) дюйммен
ax = fig.add_axes([0, 0, 1, 1])

# Сызықтардың қалыңдығын linewidth немесе lw арқылы белгілеу
ax.plot(x, x, label='x', linewidth=1)
ax.plot(x, x*2, label='2x', lw=3)
ax.plot(x, x*3, label='3x', lw=5)
ax.legend();

## 2-бөлім: Seaborn — Деректерді талдауға арналған визуализация

Seaborn DataFrame-ді және көрсетілуі керек бағандардың атауларын кіріс ретінде қабылдап, жұмысты жеңілдетеді.

In [None]:
# Мысалдар үшін деректерді жүктеу
df = pd.read_csv('dm_office_sales.csv')
perf_df = pd.read_csv('StudentsPerformance.csv')

### 2.1 Өзара байланыстарды зерттеу: `scatterplot` (шашырау диаграммасы)

**Теория:** Шашырау диаграммасы — екі **үздіксіз (сандық)** айнымалы арасындағы байланысты визуализациялаудың негізгі құралы. Ол тәуелділіктің түрін (сызықтық, сызықтық емес), оның бағытын (оң, теріс) және шығарындылардың болуын көруге мүмкіндік береді.

In [None]:
sns.scatterplot(x='salary', y='sales', data=df);

**Атрибуттар:** `scatterplot` әртүрлі атрибуттардың көмегімен графикке қосымша өлшемдер қосуға мүмкіндік береді.

#### `hue`
`hue` (реңк) атрибуты нүктелерді **категориялық** айнымалының мәніне байланысты бояуға мүмкіндік береді. Бұл графикке үшінші өлшем қосады.

In [None]:
# Нүктелерді бөлімге (division) байланысты бояйық
sns.scatterplot(x='salary', y='sales', data=df, hue='division');

#### `size` және `s`
`size` нүктелердің өлшемін **сандық** айнымалыға байланысты өзгертеді. `s` барлық нүктелер үшін **бірдей** өлшемді белгілейді.

In [None]:
# Нүктелердің өлшемі жұмыс тәжірибесіне (work experience) байланысты
sns.scatterplot(x='salary', y='sales', data=df, size='work experience');

In [None]:
# Барлық нүктелерді ірірек етейік
sns.scatterplot(x='salary', y='sales', data=df, s=100);

#### `alpha`
Нүктелердің мөлдірлігін (0-ден 1-ге дейін) белгілейді. Нүктелер көп болып, бір-бірінің үстіне шыққанда өте пайдалы.

In [None]:
# Жиынтықтарды көру үшін нүктелерді жартылай мөлдір етейік
sns.scatterplot(x='salary', y='sales', data=df, s=100, alpha=0.3);

#### `style` және `palette`
`style` маркер стилін категориялық айнымалыға байланысты өзгертеді. `palette` түс палитрасын таңдауға мүмкіндік береді.

Палитралардың толық тізімін [Matplotlib құжаттамасынан](https://matplotlib.org/stable/tutorials/colors/colormaps.html) табуға болады.

In [None]:
# Атрибуттарды біріктіру
sns.scatterplot(x='salary', y='sales', data=df, hue='level of education', style='level of education', palette='viridis');

### 2.2 Таралуларды зерттеу

Бір **сандық** айнымалының сипатын түсіну үшін гистограммалар, тығыздық графиктері және "кілем" диаграммалары қолданылады.

#### `rugplot`
**Теория:** `rugplot` (кілем диаграммасы) — таралуды визуализациялаудың ең қарапайым әдісі. Ол әрбір дерек нүктесі үшін оське кішкентай тік сызықтар салады. Бұл жеке бақылаулардың қайда орналасқанын көруге көмектеседі, бірақ деректер көп болғанда сызықтар бірігіп кетеді.

In [None]:
sns.rugplot(data=df, x='salary');

#### `histplot` және `kdeplot`

**Теория:** 
- **Гистограмма (`histplot`)** деректерді интервалдарға (bins) топтайды және әр интервалға қанша мән түскенін көрсетеді.
- **Ядролық тығыздықты бағалау графигі (`kdeplot`)** — бұл гистограмманың тегістелген нұсқасы, ол әрбір мән үшін ықтималдық тығыздығын көрсетеді. Ол таралудың пішінін айқынырақ көруге көмектеседі.

In [None]:
# Жалақы үшін гистограмма құру
sns.histplot(data=df, x='salary');

**Атрибуттар:**
#### `bins` және `kde`
`bins` — интервалдардың саны. `kde=True` гистограммаға тығыздықты бағалау графигін қосады.

In [None]:
sns.histplot(data=df, x='salary', bins=20, kde=True);

Тек тығыздық графигін (`kdeplot`) құруға болады.

In [None]:
sns.kdeplot(data=df, x='salary');

#### `bw_adjust` және `shade`/`fill` `kdeplot` үшін
`bw_adjust` (bandwidth adjustment) қисықтың тегістік дәрежесін бақылайды. Мән неғұрлым аз болса, қисық деректерге соғұрлым "өткір" сәйкес келеді; неғұрлым көп болса, соғұрлым тегіс болады.
`shade=True` (ескірген) немесе `fill=True` (заманауи) қисықтың астындағы аймақты бояйды.

In [None]:
# Азырақ тегістелген график
sns.kdeplot(data=df, x='salary', bw_adjust=0.2);

In [None]:
# Көбірек тегістелген және боялған график
sns.kdeplot(data=df, x='salary', bw_adjust=2, fill=True);

### 2.3 Категориялық деректер

**Теория:** Категориялық визуализация әртүрлі топтар (категориялар) арасындағы сандық көрсеткіштерді салыстыру үшін қолданылады. Мысалы, бөлімдер бойынша орташа жалақы қалай ерекшеленеді немесе әртүрлі этникалық топтардағы студенттердің бағалары қалай таралады. Бұл Seaborn-ның ең мықты жақтарының бірі.

#### `countplot`
**Теория:** Әрбір категория үшін жазбалар санын санайды.

In [None]:
sns.countplot(x='division', data=df);

#### `barplot`
**Теория:** Әрбір категория үшін сандық айнымалының орташа мәнін көрсетеді. Егер `x` және `hue` үшін әртүрлі бағандарды көрсетсе, **топталған бағанды диаграмма** пайда болады.

In [None]:
# Білім деңгейі бойынша орташа жалақыны салыстыру
plt.figure(figsize=(10,6))
sns.barplot(x='level of education', y='salary', data=df);

In [None]:
# Білім деңгейі бойынша орташа жалақыны бөлімдерге бөліп салыстыру
plt.figure(figsize=(10,6))
sns.barplot(x='level of education', y='salary', data=df, hue='division');

#### `boxplot` (қорапты диаграмма)

**Теория: Перцентильдер мен квартильдер деген не?**
- **Перцентиль** — бұл бақылаулардың белгілі бір пайызынан төмен жатқан мән. Мысалы, 25-ші перцентиль — бұл барлық деректердің 25%-ынан төмен жатқан мән.
- **Квартильдер** — бұл барлық деректерді төрт тең бөлікке бөлетін перцентильдердің жеке жағдайы:
  - **Q1 (бірінші квартиль)** = 25-ші перцентиль.
  - **Q2 (екінші квартиль)** = 50-ші перцентиль, бұл **медиана**.
  - **Q3 (үшінші квартиль)** = 75-ші перцентиль.
- **Квартильаралық ауқым (IQR)** = Q3 - Q1. Бұл деректердің орталық 50%-ы жатқан диапазон.

**Boxplot-ты қалай оқу керек:**
1.  **Қораптың ортасындағы сызық** — бұл медиана (Q2).
2.  **Қораптың шекаралары** — бұл Q1 және Q3. Қораптың биіктігі — IQR.
3.  **"Мұртшалар"** — әдетте қорап шекарасынан 1.5 * IQR қашықтыққа дейін созылады. Олар деректердің негізгі шашырауын көрсетеді.
4.  **Мұртшалардан тыс нүктелер** — бұл шығарындылар, яғни аномальды жоғары немесе төмен мәндер.

`boxplot` әртүрлі категориялардағы таралуларды салыстыру және шығарындыларды табу үшін өте қолайлы.

In [None]:
# Ата-ананың білім деңгейіне байланысты математика пәнінен бағалардың таралуын салыстыру
plt.figure(figsize=(10, 6))
sns.boxplot(x='parental level of education', y='math score', data=perf_df);

**Бағыты:** Графикті `x` және `y` осьтері үшін айнымалыларды ауыстырып, көлденең жасауға болады. Категориялық айнымалы әрқашан топтары бар осьтерді, ал сандық айнымалы — мәндері бар осьтерді анықтайды.

In [None]:
# Көлденең boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(y='parental level of education', x='math score', data=perf_df);

#### `violinplot`

**Теория:** Скрипкалы диаграмма `boxplot` пен `kdeplot`-ты біріктіреді, тек статистикалық жиынтықтарды ғана емес, сонымен қатар деректердің таралу пішінін де көрсетеді.

In [None]:
plt.figure(figsize=(12, 7))
sns.violinplot(x='parental level of education', y='math score', data=perf_df, hue='gender', split=True);

### 2.4 Кешенді визуализация: `pairplot`

**Теория:** `pairplot` сандық белгілердің әрбір жұбы үшін шашырау диаграммаларын, ал диагональда — олардың таралу гистограммаларын құрады. Бұл бір қарағанда барлық жұптық тәуелділіктер мен таралуларды бағалауға мүмкіндік береді.


In [None]:
# Нүктелерді жынысына (gender) байланысты бояу
sns.pairplot(data=perf_df, hue='gender', palette='viridis');

#### `diag_kind`
Бұл атрибут диагональдағы графиктің түрін өзгертуге мүмкіндік береді. Әдепкі бойынша `'auto'` тұрады, бірақ `'hist'` (гистограмма) немесе `'kde'` (тығыздық графигі) деп нақты көрсетуге болады.

In [None]:
# Диагональда тығыздық графиктері болады
sns.pairplot(data=perf_df, hue='gender', diag_kind='kde');

## 3-бөлім: Seaborn графиктерiн Matplotlib көмегімен баптау

Жоғарыда айтқанымыздай, Seaborn графиктерді Matplotlib-тің "кенебінде" құрады. Бұл Seaborn-да график құрғаннан кейін оны баптау үшін `plt` функцияларын қолдана аламыз дегенді білдіреді.

**Жұмыс процесі:**
1.  Кенептің өлшемін белгілеу үшін Seaborn функциясын шақырар **алдында** `plt.figure(figsize=(...))` қолданамыз.
2.  График құру үшін Seaborn функциясын шақырамыз.
3.  Қосымша баптаулар үшін Seaborn-ды шақырғаннан **кейін** `plt.title()`, `plt.xlabel()`, `plt.grid()` және т.б. функцияларды қолданамыз.
4.  Нәтижені файлға сақтау үшін `plt.savefig()` қолданамыз.

In [None]:
# 1. Фигураның өлшемін белгілеу
plt.figure(figsize=(12, 8), dpi=100) # dpi - dots per inch, ажыратымдылық

# 2. Seaborn графигін құру
sns.scatterplot(x='reading score', y='writing score', data=perf_df, hue='test preparation course')

# 3. Matplotlib баптауларын қосу
plt.title('Жазу және оқу бағаларының тәуелділігі', fontsize=16)
plt.xlabel('Оқу бағасы', fontsize=12)
plt.ylabel('Жазу бағасы', fontsize=12)
plt.grid(True) # Торды қосу
plt.legend(title='Тестке дайындық')

# 4. Графикті файлға сақтау (сол ұяшықта!)
plt.savefig('reading_vs_writing_scores.png');

## Қорытынды

Бұл дәрісте біз деректерді талдауға қажетті негізгі график түрлерін қарастырдық:
- **Шашырау диаграммалары (`scatterplot`, `pairplot`)** — сандық айнымалылар арасындағы өзара байланыстарды іздеу үшін.
- **Гистограммалар мен тығыздық графиктері (`histplot`, `kdeplot`)** — бір айнымалының таралуын зерттеу үшін.
- **Категориялық графиктер (`countplot`, `barplot`, `boxplot`, `violinplot`)** — топтар арасындағы көрсеткіштерді салыстыру үшін.

Сондай-ақ, біз ақпараттық графиктерді жылдам құру үшін `Seaborn`-ды және оларды кейіннен егжей-тегжейлі баптау үшін `Matplotlib`-ті қолдануды үйрендік. Бұл құралдар — кез келген барлау деректер талдауының негізі және машиналық оқыту модельдері үшін деректерді дайындаудағы маңызды қадам.