

# Ma'lumotlar tahlili. Pandas kutubxonasi.

### 2.2 Pandas kutubxonasi bilan tanishuv

`pandas` kutubxonasi ma'lumotlar muhandisining eng muhim ish quroli hisoblanadi. Data Science loyihalar ustida ishlar ekanmiz, 90% amallar aynan pandas yordamida amalga oshiriladi. `pandas` o'zining maxsus ma'lumotlar tuzilmalariga ega va bu tuzilmalar ma'lumotlarga ishlov berish, tozalash va boshqa amllarni bir necha barobar osonlashtiradi.

Avvalgi bo'limda ko'rilgan `numpy` kutubxonasidan farqli ravishda, `pandas` kutubxonasi faqatgina sonlardan iborat massivlar bilan emas, balki turli ko'rinishdagi ma'lumotlardan iborat jadvallar bilan ishlashga moslashgan.

### Kutubxonani chaqiramiz

Oson bo'lishi uchun `pandas` kutubxonasini `pd` deb chaqirib olish urf bo'lgan.

In [None]:
import pandas as pd
import numpy as np

## `pandas` tarkibidagi ma'lumotlar tuzilmalari

pandas ikkita juda muhim va deyalri barcha loyihalar uchun mos tushuvchi Series va DataFrame ma'lumotlar tuzilamalariga ega. Keling ular bilan yaqindan tanishamiz.

Boshlanishiga bu ikki tuzilmalarni ham dasturimizga chaqirib olaylik.

In [None]:
from pandas import Series, DataFrame as df # DataFrameni qisqacha qilib df deb chariqib oldik

### 2.2.1 `Series`

`Series` bir o'lchovli massivga o'xshash ma'lumotlar tuzilmasi bo'lib qiymatlar va ularga mos keluvchi indekslardan iborat bo'ladi.

Eng sodda ko'rinishda `Series` ma'lumotlar massividan iborat bo'ladi.

In [None]:
obj = Series([4, 5, -7, 3.2])

In [None]:
obj

0    4.0
1    5.0
2   -7.0
3    3.2
dtype: float64

Konsolga chop etganda ,`Series` yuqoridagi kabi indekslar (chap ustun) va qiymatlar (o'ng ustun) ko'rinishida chiqadi.
`Series` obyektini yaratsihda indekslarni bermaganimiz sababli indekslar `0` dan `N-1` gacha qiymatlarni oladi (`N` ma'lumotlar uzunligi).

`Series` obyekti index va qiymatlarini alohida ajratib ko'rishimiz ham mumkin.

In [None]:
obj.values # qiymatlar

array([ 4. ,  5. , -7. ,  3.2])

In [None]:
obj.index # indekslar

RangeIndex(start=0, stop=4, step=1)

Qiymatlarga indeks orqali murojaat qilish mumkin.

In [None]:
obj[0] # birinchi element

4.0

In [None]:
obj[3]

3.2

`Series` obyektini yaratishda indekslarga o'zimiz ham nom berishimiz mumkin

In [None]:
obj2 = Series([4, 5, -7, 3.2], index=['a','b','c','d']) # bu yerda indekslarga alifbo harflarini berdik.

In [None]:
obj2

a    4.0
b    5.0
c   -7.0
d    3.2
dtype: float64

In [None]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Obyekt ichidagi qiymatlarga esa yana indeks orqali murojaat qilamiz:

In [None]:
obj2['a']

4.0

In [None]:
obj2['a']=4.5

In [None]:
obj2

a    4.5
b    5.0
c   -7.0
d    3.2
dtype: float64

Yangi qiymat qo'shish:

In [None]:
obj2['e']=5

In [None]:
obj2

a    4.5
b    5.0
c   -7.0
d    3.2
e    5.0
dtype: float64

Birdaniga bir nechta qiymatlarni olish:

In [None]:
obj2[['a','c','e']]

a    4.5
c   -7.0
e    5.0
dtype: float64

`Series` obyekti ustida arifmetik amallar bajarishda indekslar saqlanib qoladi

In [None]:
obj2[obj2>0]

a    4.0
b    5.0
d    3.2
dtype: float64

In [None]:
obj2*2

a     8.0
b    10.0
c   -14.0
d     6.4
dtype: float64

In [None]:
np.exp(obj2)

a     54.598150
b    148.413159
c      0.000912
d     24.532530
dtype: float64

`Series` obyektini Pythondagi lug'at (dictionary) ma'lumot turiga ham o'xshatish mumkin. Yodingizda bo'lsa lug'at elementlari ham 2 qismdan, kalit va qiymatdan iborat edi.

O'rni kelganda bu turdagi obyektlardan lug'atdan foydalangandek ham foydalanish mumkin:

In [None]:
'b' in obj2

True

In [None]:
'x' in obj2

False

Lug'atdan `Series` obyektini yaratish ham juda oson:

In [None]:
cars_dict = {'Malibu':40000, 'Lacetti':20000, 'Toyota':45000, 'Mazda':52000, 'Honda':38000} # bu lug'at

In [None]:
salon1 = Series(cars_dict) # lug'atdan Sereis yaratamiz

In [None]:
salon1

Malibu     40000
Lacetti    20000
Toyota     45000
Mazda      52000
Honda      38000
dtype: int64

In [None]:
salon1['Honda']

38000

Lug'atdan `Series` yaratishda yangi elementlar indeksi lug'atda berilgan ketma-ketlikda bo'ladi. Bu ketma-ketlikni biz avvaldan ro'yxat ko'rinishida ham berishimiz mumkin.

In [None]:
models = ['Honda','Mazda','Lacetti','Jaguar','Malibu','Toyota'] # buyerda bitta qo'shimcha model bor

In [None]:
salon2 = Series(cars_dict, index=models)

In [None]:
salon2

Honda      38000.0
Mazda      52000.0
Lacetti    20000.0
Jaguar         NaN
Malibu     40000.0
Toyota     45000.0
dtype: float64

Keyinchalik, ma'lumotlar bilan ishlaganda `NaN` qiymatlarni ajratish muhim ahamiyatga ega. Buning uchun `Series` obyekti bir maxsus metodlarga ega:

In [None]:
salon2.isnull() # qiymat null (mavjud emasligini) tekshirish uchun

Honda      False
Mazda      False
Lacetti    False
Jaguar      True
Malibu     False
Toyota     False
dtype: bool

In [None]:
salon2.notnull() # qiymat null emasligini (mavjudligini) tekshirish uchun

Honda       True
Mazda       True
Lacetti     True
Jaguar     False
Malibu      True
Toyota      True
dtype: bool

`Series` obyektining muhim jihatlaridan biri, ikkita `series` obyektini qo'shishda (ayirishda) qiymatlar indeks bo'yicha qo'shiladi.

In [None]:
salon2

Honda      38000.0
Mazda      52000.0
Lacetti    20000.0
Jaguar         NaN
Malibu     40000.0
Toyota     45000.0
dtype: float64

In [None]:
# 'Honda','Mazda','Lacetti','Jaguar','Malibu','Toyota'
new_prices = Series({"Honda":5000, "Mazda":-3000, "Malibu":4500, "Toyota":5200, 'Lacetti':-1200})

In [None]:
new_prices

Honda      5000
Mazda     -3000
Malibu     4500
Toyota     5200
Lacetti   -1200
dtype: int64

In [None]:
salon2+new_prices

Honda      43000.0
Jaguar         NaN
Lacetti    18800.0
Malibu     44500.0
Mazda      49000.0
Toyota     50200.0
dtype: float64

`Series` obyektining o'zini ham indekslarini ham nomlash mumkin:

In [None]:
salon2.name = 'Avtosalon'

In [None]:
salon2.index.name = 'Car Model'

In [None]:
salon2

Car Model
Honda      38000.0
Mazda      52000.0
Lacetti    20000.0
Jaguar         NaN
Malibu     40000.0
Toyota     45000.0
Name: Avtosalon, dtype: float64

In [None]:
salon2.name

'Avtosalon'

## `Series` obyektiga oid ba'zi parametrlar va metodlar

In [None]:
salon2.index # indekslar

Index(['Honda', 'Mazda', 'Lacetti', 'Jaguar', 'Malibu', 'Toyota'], dtype='object', name='Car Model')

In [None]:
salon2.values # qiymatlar

array([38000., 52000., 20000.,    nan, 40000., 45000.])

In [None]:
salon2.hasnans # NaN qiymatlar bor (True) yo'qligi (False)

True

In [None]:
salon2.dtype # qiymatlarning ma'lumot turi

dtype('float64')

In [None]:
salon2.is_unique # qiymatlar takrorlanmas ekanini tekshirish

True

In [None]:
salon2.shape # Series hajmi

(6,)

In [None]:
salon2.size # Series hajmi

6

In [None]:
salon2.iloc[2] # ma'lumotlarga indeks tartib raqami bo'yicha murojaat qilish

20000.0

In [None]:
salon2.iloc[-1]

45000.0

In [None]:
salon2['Honda'] # ma'lumotlarga indeks bo'yicha murojaat qilish

38000.0

In [None]:
salon2.loc['Toyota'] # ma'lumotlarga indeks bo'yicha murojaat qilish

45000.0

In [None]:
salon2.max() # max qiymat

52000.0

In [None]:
salon2.min() # min qiymat

20000.0

In [None]:
salon2.mean() # o'rtacha qiymat

39000.0

## AMALIYOT