# №10 Дәріс: Pandas негіздері және озық әдістері

### Дәріс мақсаттары

1.  **Pandas негіздерін меңгеру:** `Series` және `DataFrame` құрылымдарын зерттеу, CSV-ден деректерді жүктеуді және бастапқы талдау жүргізуді үйрену (`.head()`, `.info()`, `.describe()`).
2.  **Деректерді басқаруды үйрену:** Бағандар мен жолдарды таңдау, құру, жоюды (`.loc`, `.iloc`), сондай-ақ шарттар бойынша сүзуді меңгеру.
3.  **Жетіспейтін деректермен жұмыс істеуді үйрену:** Оларды анықтау (`.isNone()`), жою (`.dropna()`) және толтыру (`.fillna()`) әдістерін меңгеру.
4.  **Озық техникалармен танысу:** `.groupby()` арқылы деректерді агрегаттау және `.apply()` арқылы пайдаланушы функцияларын қолдану туралы түсінік алу.

## 1. Pandas деген не және ол не үшін қажет?

**Pandas** — бұл деректерді талдауға және басқаруға арналған Python-ның жоғары деңгейлі кітапханасы. Ол NumPy негізінде құрылған және Data Science-те де-факто стандарт болып табылады.

**Неліктен Pandas соншалықты маңызды?**
- **Жылдамдық пен тиімділік:** Pandas Python-да жазылғанымен, оның маңызды бөліктері C тілінде іске асырылған, бұл жоғары өнімділікті қамтамасыз етеді.
- **Ыңғайлылық:** Pandas кестелермен (Excel немесе SQL кестелеріне ұқсас) жұмыс істеу үшін қуатты және қолдануға оңай деректер құрылымдарын ұсынады.
- **Икемділік:** Көптеген форматтардан деректерді оқуға және жазуға мүмкіндік береді: CSV, Excel, SQL, JSON және басқалар.

> **Қарапайым тілмен айтқанда:** егер NumPy матрицалар үшін "арифметика" болса, Pandas — бұл машиналық оқытуға деректерді дайындау үшін арнайы жасалған, Python кодындағы "стероидтардағы Excel".

### Кітапханаларды импорттау

Жалпы қабылданған келісім бойынша, Pandas `pd` бүркеншік атымен импортталады.

In [None]:
import pandas as pd
import numpy as np

## 2. Деректер құрылымдары: Series және DataFrame

Pandas-та оның "әліппесі" болып табылатын екі негізгі деректер құрылымы бар.

### 2.1. Series

**`Series`** — бұл белгілері (индексі) бар бірөлшемді массив. Оны кестедегі бір баған ретінде елестетуге болады.

NumPy массивінен негізгі айырмашылығы — **атаулы индексінің** болуы. Бұл элементтерге тек сандық позициясы бойынша ғана емес, сонымен қатар Python сөздігіндегідей белгісі бойынша да қол жеткізуге мүмкіндік береді.

In [None]:
my_data = [1776, 1867, 1821]
my_index = ['USA', 'Canada', 'Mexico']

my_series = pd.Series(data=my_data, index=my_index)
print(my_series)

### 2.2. DataFrame

**`DataFrame`** — бұл Pandas-тағы негізгі деректер құрылымы. Бұл жолдар мен бағандардан тұратын екіөлшемді кесте.

> **Қарапайым аналогия:** `DataFrame` — бұл Excel немесе SQL кестесі. Бұл `DataFrame`-дегі әрбір баған `Series` объектісі болып табылады, және осы баған-`Series`-тердің барлығында ортақ индекс бар.

In [None]:
# NumPy кездейсоқ сандарынан DataFrame құрамыз
np.random.seed(101) # нәтижелердің қайталануы үшін
data = np.random.randn(3,4) # 3 жол, 4 баған
index = ['A', 'B', 'C']
columns = ['W', 'X', 'Y', 'Z']

df = pd.DataFrame(data=data, index=index, columns=columns)
df

## 3. Деректерді жүктеу: `pd.read_csv()`

Көбінесе сіз DataFrame-ді қолмен жасамайсыз. Оның орнына сіз деректерді сыртқы көзден жүктейсіз. Ең көп таралған формат — бұл CSV (Comma-Separated Values, үтірмен бөлінген мәндер).

Бұл үшін `pd.read_csv()` функциясы қолданылады.

In [None]:
# Мейрамханадағы шайпұл туралы ақпараты бар деректер жинағын жүктейміз
# 'tips.csv' файлы осы блокнотпен бір қалтада болуы керек
tips_df = pd.read_csv('tips.csv')

## 4. Деректерді бастапқы қарап шығу

Деректерді жүктегеннен кейін бірінші кезекте "пациентті тексеру" керек. Ол үшін бірнеше маңызды әдіс бар.

### `.head()` — алғашқы жолдарды қарау
Бұл әдіс кестенің "басын" көруге және деректердің қалай көрінетіні туралы алғашқы түсінік алуға мүмкіндік береді. Соңғы жолдарды қарауға `.tail()` әдісі мүмкіндік береді.

In [None]:
# Әдепкі бойынша .head() алғашқы 5 жолды көрсетеді
tips_df.head()

### `.info()` — құрылымы және деректер типтері

Бұл әдіс DataFrame туралы қысқаша мәлімет береді: жолдар саны, бағандардың саны мен атаулары, бос емес мәндердің (`non-None`) саны және әр бағандағы деректер типтері. Бұл **деректердегі бос орындарды анықтаудың бірінші және басты әдісі**.

In [None]:
tips_df.info()

### `.describe()` — негізгі статистикалық көрсеткіштер

Бұл әдіс **тек сандық бағандар үшін** сипаттамалық статистиканы есептейді: саны, орташа мәні, стандартты ауытқу, минимум, максимум және перцентильдер.

In [None]:
tips_df.describe()

## 5. Жетіспейтін деректермен жұмыс (Missing Data)

Нақты деректер жинақтарында бос орындар әрдайым кездеседі. Олар деректерді жинау қателері, толық емес жазбалар немесе жай ғана қандай да бір ақпараттың қолжетімсіз болуынан туындауы мүмкін. Машиналық оқыту алгоритмдерінің көпшілігі бос орындармен жұмыс істей алмайды, сондықтан оларды өңдеу қажет.

Pandas-та жіберілген мәндер әдетте `NaN` (Not a Number) ретінде көрсетіледі.

**Бос орындармен жұмыс істеудің негізгі стратегиялары:**
1.  **Жою:** Бос орындары бар жолдарды немесе бағандарды жоюға болады.
2.  **Толтыру:** Бос орындарды белгілі бір мәнмен ауыстыру (мысалы, нөлмен, орташа мәнмен, медианамен немесе модамен).

In [None]:
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, np.nan, 8],
        'C': [9, 10, 11, 12]}
df_missing = pd.DataFrame(data)
df_missing

### 5.1. Бос орындарды анықтау және жою

- `.isNone()`: бос орындардың орнына `True` мәні бар DataFrame қайтарады.
- `.dropna()`: `NaN` бар жолдарды (әдепкі бойынша) немесе бағандарды (`axis=1`) жояды.

In [None]:
# Әр бағандағы бос орындардың санын санау (True = 1, False = 0)
df_missing.isNone().sum()

In [None]:
# Кем дегенде бір бос орны бар кез келген жолды жою
df_missing.dropna()

In [None]:
# Кем дегенде бір бос орны бар кез келген бағанды жою
df_missing.dropna(axis=1)

### 5.2. Бос орындарды толтыру `.fillna()`

Икемдірек тәсіл — бос орындарды толтыру.

In [None]:
# Барлық бос орындарды бір мәнмен, мысалы, нөлмен толтыру
df_missing.fillna(0)

Көбінесе бос орындарды баған бойынша орташа мәнмен толтырады. Бұл деректердің жалпы статистикасын сақтауға мүмкіндік береді.

In [None]:
# 1. 'A' бағаны үшін орташа мәнді есептейміз
mean_A = df_missing['A'].mean()
print(f"'A' бағанының орташа мәні: {mean_A:.2f}")

# 2. 'A'-дағы бос орындарды осы орташа мәнмен толтырамыз
# inplace=True көшірме қайтармай, бастапқы DataFrame-ді өзгертеді
df_missing['A'].fillna(mean_A, inplace=True) 
df_missing

## 6. Бағандармен және жолдармен жұмыс

### 6.1. Бағандарды таңдау, құру және жою

In [None]:
# Бір бағанды таңдау (нәтижесі - Series)
print("--- Бір баған ---")
print(tips_df['total_bill'].head())

# Бірнеше бағанды таңдау (нәтижесі - DataFrame)
print("\n--- Бірнеше баған ---")
print(tips_df[['total_bill', 'sex']].head())

In [None]:
# Бар бағандар негізінде жаңа баған құру
tips_df['tip_percentage'] = 100 * tips_df['tip'] / tips_df['total_bill']
tips_df.head()

In [None]:
# Бағанды жою. axis=1 - міндетті!
# Бастапқы DataFrame-ден бағанды жою үшін inplace=True қосу керек
tips_df.drop('tip_percentage', axis=1, inplace=True)
tips_df.head()

### 6.2. Жолдарды таңдау: `.loc` және `.iloc`
- `.loc[]` — **label-based** indexing (белгілер/атаулар бойынша индекстеу).
- `.iloc[]` — **integer-location** based indexing (сандық позиция бойынша индекстеу).

In [None]:
# Жолды оның реттік нөмірі бойынша таңдау (индекстеу 0-ден басталады)
tips_df.iloc[3]

In [None]:
# Бірнеше жолды және белгілі бір бағандарды таңдау
# Синтаксис: .loc[жолдар, бағандар]
tips_df.loc[0:3, ['total_bill', 'tip']]

## 7. Деректерді шарт бойынша сүзу

Бұл, мүмкін, Pandas-тағы ең маңызды дағды. Ол белгілі бір шарттарға сәйкес келетін деректердің ішкі жиынын таңдауға мүмкіндік береді.

Шарттарды біріктіру үшін `&` (ЖӘНЕ), `|` (НЕМЕСЕ) операторлары қолданылады. **Әрбір шарт дөңгелек жақша ішінде болуы керек.**

In [None]:
# Жексенбіде ('day' == 'Sun') ер адамдар ('sex' == 'Male') жасаған барлық тапсырыстарды табайық
tips_df[(tips_df['sex'] == 'Male') & (tips_df['day'] == 'Sun')].head()

## 8. Агрегаттау және озық манипуляциялар

### 8.1. Деректерді агрегаттау: Group By

`Group By` (топтау) операциясы **Split-Apply-Combine** (Бөлу-Қолдану-Біріктіру) парадигмасын іске асыруға мүмкіндік береді:

1.  **Split:** Деректер санаттар бойынша топтарға бөлінеді.
2.  **Apply:** Әр топқа функция қолданылады (мысалы, `sum`, `mean`).
3.  **Combine:** Нәтижелер жаңа DataFrame-ге біріктіріледі.

In [None]:
df_cars = pd.read_csv('mpg.csv')
# Әрбір цилиндрлер саны ('cylinders') үшін жанармай шығынының ('mpg') орташа мәнін табайық
avg_mpg_by_cyl = df_cars.groupby('cylinders')['mpg'].mean()
avg_mpg_by_cyl

In [None]:
# Топтар бойынша толық статистиканы да алуға болады
df_cars.groupby('origin')['horsepower'].describe()

### 8.2. `.apply()` әдісі

`.apply()` әдісі — бұл Pandas-тың кіріктірілген функциялары жеткіліксіз болған жағдайларға арналған "швейцариялық пышағыңыз". Ол сіздің кез келген функцияңызды бағанның әрбір элементіне қолдануға мүмкіндік береді.

In [None]:
# Автомобиль салмағын жіктеу үшін функция құрайық
def classify_weight(weight):
    if weight < 2000:
        return 'Жеңіл'
    elif 2000 <= weight < 3500:
        return 'Орташа'
    else:
        return 'Ауыр'

# Оны 'weight' бағанына қолданып, жаңа баған құрайық
df_cars['weight_class'] = df_cars['weight'].apply(classify_weight)
df_cars[['name', 'weight', 'weight_class']].head()

## Қорытынды

Pandas — бұл кестелік деректермен жұмыс істеуге арналған негізгі құрал. Жүктеу, қарап шығу, сүзу және бос орындарды өңдеу дағдылары кез келген деректер маманы үшін іргелі болып табылады. `groupby` және `apply` сияқты озық әдістер күрделі және икемді талдауға мүмкіндіктер ашады.