# 3-дәріс: Pandas негіздері. Кестелік деректермен жұмыс

**Курс:** Машиналық оқытуға кіріспе

---

### Дәріс мақсаттары

1.  **Түсіну**, `Pandas` деген не және оның Машиналық оқыту міндеттеріндегі рөлі қандай.
2.  **Зерттеу**, екі негізгі деректер құрылымын: `Series` және `DataFrame`.
3.  **Үйрену**, деректерді сақтаудың ең танымал форматы — `CSV` файлдарынан деректерді жүктеу.
4.  **Меңгеру**, деректерді бастапқы талдаудың негізгі әдістерін: деректерді қалай қарау керек, олардың өлшемін, түрлерін және негізгі статистикалық көрсеткіштерін білу.
5.  **Игеру**, деректермен жұмыс істеудің іргелі дағдыларын: бағандарды таңдау, құру және жою; индекстер мен шарттар бойынша жолдарды таңдау.

Бұл дәріс — деректермен тиімді жұмыс істеудің кілті. Нақты ML-жобаларда уақыттың 90%-ы деректерді дайындау мен тазалауға кетеді, ал Pandas — бұл міндет үшін біздің басты құралымыз.

## 1. Pandas деген не және ол не үшін қажет?

Машиналық оқытудағы жобаның өмірлік циклін еске түсірейік:

```mermaid
graph TD;
    A[Нақты әлем] --> B(Деректерді жинау);
    subgraph "Pandas таптырмайтын кезеңдер"
      B --> C(Деректерді тазалау және ұйымдастыру);
      C --> D(Деректерді зерттеушілік талдау, EDA);
    end
    D --> E(ML модельдерін құру);
    E --> F[Өнім];
    F --> A;
```

**Pandas** — бұл деректерді талдау және өңдеу үшін жасалған жоғары деңгейлі Python кітапханасы. Ол NumPy негізінде құрылған және Data Science саласында іс жүзінде стандарт болып табылады.

**Pandas неліктен маңызды?**
- **Жылдамдық пен тиімділік:** Pandas Python тілінде жазылғанымен, оның маңызды бөліктері C тілінде жүзеге асырылған, бұл жоғары өнімділікті қамтамасыз етеді.
- **Ыңғайлылық:** Pandas кестелермен (Excel немесе SQL кестелеріне ұқсас) жұмыс істеуге арналған қуатты және қолдануға оңай деректер құрылымдарын ұсынады.
- **Икемділік:** Көптеген форматтардан деректерді оқуға және жазуға мүмкіндік береді: CSV, Excel, SQL, JSON және т.б.

> **Қарапайым тілмен айтқанда:** егер NumPy матрицалар үшін "арифметика" болса, онда Pandas — бұл машиналық оқытуға деректерді дайындау үшін арнайы жасалған, Python кодының ішіндегі "қуаттандырылған Excel".

### Кітапхананы импорттау

Жалпы қабылданған келісім бойынша, Pandas `pd` бүркеншік атымен импортталады.

In [None]:
import pandas as pd
import numpy as np

## 2. Деректер құрылымдары: Series және DataFrame

Pandas-та оның "әліппесі" болып табылатын екі негізгі деректер құрылымы бар.

### 2.1. Series

**`Series`** — бұл белгілері (индексі) бар бірөлшемді массив. Оны кестедегі бір баған ретінде елестетуге болады.

NumPy массивінен негізгі айырмашылығы — **атаулы индекстің** болуы. Бұл элементтерге тек сандық позициясы бойынша ғана емес, сонымен қатар Python сөздігіндегідей белгісі бойынша да қол жеткізуге мүмкіндік береді.

In [None]:
my_data = [1776, 1867, 1821]
my_index = ['USA', 'Canada', 'Mexico']

my_series = pd.Series(data=my_data, index=my_index)
print(my_series)

USA       1776
Canada    1867
Mexico    1821
dtype: int64


Деректерге сандық индекс (NumPy-дағы сияқты) арқылы да, белгі арқылы да қол жеткізуге болады.

In [None]:
print(f"'Canada' белгісі бойынша қол жеткізу: {my_series['Canada']}")
print(f"0 индексі бойынша қол жеткізу: {my_series[0]}")

'Canada' белгісі бойынша қол жеткізу: 1867
0 индексі бойынша қол жеткізу: 1776


### 2.2. DataFrame

**`DataFrame`** — Pandas-тағы негізгі деректер құрылымы. Бұл жолдар мен бағандардан тұратын екіөлшемді кесте.

> **Қарапайым аналогия:** `DataFrame` — бұл Excel немесе SQL кестесі. Осы `DataFrame`-дегі әрбір баған `Series` объектісі болып табылады және барлық осы `Series` бағандарының ортақ индексі бар.

In [None]:
# NumPy кездейсоқ сандарынан DataFrame құру
np.random.seed(101) # нәтижелердің қайталануы үшін
data = np.random.randn(3,4) # 3 жол, 4 баған
index = ['A', 'B', 'C']
columns = ['W', 'X', 'Y', 'Z']

df = pd.DataFrame(data=data, index=index, columns=columns)
df

## 3. Деректерді жүктеу: `pd.read_csv()`

Көбінесе сіз DataFrame-ді қолмен жасамайсыз. Оның орнына сыртқы дереккөзден деректерді жүктейсіз. Ең көп таралған формат — CSV (Comma-Separated Values, үтірмен бөлінген мәндер).

Ол үшін `pd.read_csv()` функциясы қолданылады.

In [None]:
# Мейрамханадағы шайпұл туралы ақпаратты қамтитын деректер жиынтығын жүктейміз
# 'Stores.csv' файлы осы блокнотпен бір қалтада орналасуы керек
stores_df = pd.read_csv('Stores.csv')

## 4. Деректерді бастапқы қарау

Деректерді жүктегеннен кейін бірінші істейтін нәрсе — "пациентті тексеру". Ол үшін бірнеше маңызды әдіс бар.

### `.head()` — алғашқы жолдарды қарау
Бұл әдіс кестенің "басын" көруге және деректердің қалай көрінетіні туралы алғашқы түсінік алуға мүмкіндік береді.

In [None]:
# Әдепкі бойынша .head() алғашқы 5 жолды көрсетеді
stores_df.head()

### `.info()` — құрылымы және деректер түрлері

Бұл әдіс DataFrame туралы қысқаша мәлімет береді: жолдар саны, бағандардың саны мен атаулары, бос емес мәндердің саны және әр бағандағы деректер түрлері.

In [None]:
stores_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 896 entries, 0 to 895
Data columns (total 5 columns):
 #   Column                Non-None Count  Dtype 
---  ------                --------------  ----- 
 0   Store ID              896 non-None    int64 
 1   Store_Area            896 non-None    int64 
 2   Items_Available       896 non-None    int64 
 3   Daily_Customer_Count  896 non-None    int64 
 4   Store_Sales           896 non-None    int64 
dtypes: int64(5)
memory usage: 35.1 KB


### `.describe()` — негізгі статистикалық көрсеткіштер

Бұл әдіс **тек сандық бағандар** үшін сипаттамалық статистиканы есептейді: саны, орташа мәні, стандартты ауытқу, минимум, максимум және перцентильдер.

In [None]:
stores_df.describe()

### `.shape` — DataFrame өлшемділігі

`.shape` атрибуты жолдар мен бағандар саны бар кортеж (tuple) қайтарады.

In [None]:
stores_df.shape

(896, 5)

## 5. Бағандармен жұмыс

Бағандармен манипуляция жасау — ең жиі орындалатын операциялардың бірі.

### Бағандарды таңдау

Бір бағанды таңдау үшін сөздік элементіне жүгінуге ұқсас синтаксис қолданылады.

In [None]:
# Бір бағанды таңдау Series объектісін қайтарады
sales_series = stores_df['Store_Sales']
sales_series.head()

...

Бірнеше бағанды таңдау үшін тік жақшаға олардың атауларының тізімі беріледі.

In [1]:
# Бірнеше бағанды таңдау жаңа DataFrame қайтарады
my_cols = ['Store_Area', 'Items_Available', 'Store_Sales']
sub_df = stores_df[my_cols]
sub_df.head()

NameError: name 'stores_df' is not defined

### Жаңа бағандарды құру

Жаңа бағандар мәндерді меншіктеу арқылы жасалады. Көбінесе бұл бұрыннан бар бағандар негізіндегі есептеулердің нәтижесі болады. `sales_per_sq_area` (бір шаршы ауданға шаққандағы сатылым) бағанын құрайық.

In [None]:
stores_df['sales_per_sq_area'] = stores_df['Store_Sales'] / stores_df['Store_Area']
stores_df.head()

### Бағандарды жою

Жою үшін `.drop()` әдісі қолданылады. Pandas-тың бағанды жойып жатқанымызды түсінуі үшін `axis=1` осін көрсету маңызды.

In [None]:
# 'Store ID' бағанын жоямыз
# .drop() әдісі бастапқы DataFrame-ді өзгертпей, жаңа DataFrame қайтарады
stores_df_cleaned = stores_df.drop('Store ID ', axis=1)
stores_df_cleaned.head()

## 6. Жолдармен жұмыс: `.loc` және `.iloc`

Бұл деректерді алу үшін ең маңызды дағды. Pandas-та жолдарды индекстеудің екі негізгі әдісі бар:
- `.loc[]` — **label-based** indexing (белгілер бойынша индекстеу).
- `.iloc[]` — **integer-location** based indexing (сандық позиция бойынша индекстеу).

Алдымен `.set_index()` көмегімен бағандардың бірін индекс ретінде орнатайық.

In [None]:
# 'Store ID ' бағанын индекс ретінде орнатайық, сонда жолдардың бірегей белгілері болады
stores_df_indexed = stores_df.set_index('Store ID ')
stores_df_indexed.head()

### Жолдарды таңдау
Енді біз жолдарды олардың жаңа белгісі бойынша `.loc[]` көмегімен таңдай аламыз.

In [None]:
# Индекс белгісі бойынша бір жолды таңдау
stores_df_indexed.loc[3]

...

Немесе `.iloc[]` (индекстеу 0-ден басталады) көмегімен сандық позиция бойынша.

In [None]:
# Бір жолды оның реттік нөмірі бойынша таңдау
stores_df_indexed.iloc[2]

...

Екі әдіс те бірнеше жолды таңдауды және кесінділерді (slicing) қолдайды.

## 7. Шарт бойынша деректерді сүзу

Бұл, бәлкім, Pandas-тағы ең маңызды дағды. Ол белгілі бір шарттарға сәйкес келетін деректердің ішкі жиынын таңдауға мүмкіндік береді.

Процесс екі қадамнан тұрады:
1. Бульдік маска (boolean mask) құру — бұл `True` және `False` мәндерінен тұратын `Series` объектісі.
2. Осы масканы `DataFrame`-ге беру.

### Бір шарт
`Daily_Customer_Count` 1000-нан асатын барлық дүкендерді табайық.

In [None]:
# 1-қадам: Бульдік маска құру
mask = stores_df['Daily_Customer_Count'] > 1000
mask.head()

...

In [None]:
# 2-қадам: Масканы DataFrame-ге қолдану
stores_df[mask].head()

### Бірнеше шарт

Шарттарды біріктіру үшін `&` (ЖӘНЕ), `|` (НЕМЕСЕ) және `~` (ЕМЕС) операторлары қолданылады.

> **Маңызды:** Python-дағы операторлардың орындалу тәртібіне байланысты әрбір жеке шартты дөңгелек жақшаға `()` алу керек.

Ауданы 1500-ден үлкен (`Store_Area > 1500`) ЖӘНЕ сатылымы 60000-нан жоғары (`Store_Sales > 60000`) дүкендерді табайық.

In [None]:
stores_df[(stores_df['Store_Area'] > 1500) & (stores_df['Store_Sales'] > 60000)].head()

### `.isin()` әдісі

Егер бірнеше мәннен тұратын тізімге кіруін тексеру қажет болса, көптеген `|` (НЕМЕСЕ) орнына `.isin()` әдісін қолданған ыңғайлы.

In [None]:
# ID-лері 10, 20, 30 болатын дүкендерді табайық
id_options = [10, 20, 30]
stores_df[stores_df['Store ID '].isin(id_options)]

## 8. Басқа пайдалы әдістер

Зерттеушілік талдауда жиі қолданылатын бірнеше әдісті қарастырайық.

### `.sort_values()` — деректерді сұрыптау

In [None]:
# 'Store_Sales' бағаны бойынша кему ретімен сұрыптау
stores_df.sort_values('Store_Sales', ascending=False).head()

### `.value_counts()` — бірегей мәндерді санау

In [None]:
# `Daily_Customer_Count` бағанындағы мәндердің жиілігін санайық (алғашқы 10)
stores_df['Daily_Customer_Count'].value_counts().head(10)

...

### `.unique()` және `.nunique()`

- `.unique()` бірегей мәндердің массивін қайтарады.
- `.nunique()` бірегей мәндердің санын қайтарады.

In [None]:
print(f"Бірегей аудандар саны: {stores_df['Store_Area'].nunique()}")

Бірегей аудандар саны: 585


## Резюме және келесі қадамдар

*   **Бүгін не үйрендік:**
    *   Pandas — Python-дағы кестелік деректермен жұмыс істеуге арналған негізгі құрал.
    *   Негізгі деректер құрылымдары — `Series` (баған) және `DataFrame` (кесте).
    *   Деректерді CSV файлдарынан `pd.read_csv()` көмегімен оңай жүктеуге болады.
    *   Бастапқы талдауға `.head()`, `.info()`, `.describe()` әдістері кіреді.
    *   Біз бағандарды таңдауды, құруды және жоюды үйрендік.
    *   Жолдарды белгілер (`.loc`) және позициялар (`.iloc`) бойынша таңдауды меңгердік.
    *   Деректерді бір және бірнеше шарттар бойынша сүзуді үйрендік.

*   **Ары қарай не болады?**
    *   **Бүгінгі семинарда** біз осы дағдыларды іс жүзінде бекітеміз.
    *   **Зертханалық жұмыста** сіз деректерді жүктеу, қарау және сүзу бойынша бірқатар тапсырмаларды өз бетіңізше орындайсыз.
    *   **Келесі дәрісте** біз күрделірек тақырыптарға көшеміз: жоқ деректерді өңдеу және деректерді агрегаттау (Group By).