# 2-Dars: Markaziy Tendentsiya va Tarqalish

In [1]:
import pandas as pd
import numpy as np

## 2-Qism: Markaziy Tendentsiya

### Uchta asosiy ko'rsatkich:
1. **O'rtacha (Mean)** - Barcha qiymatlarning o'rtachasi
2. **Mediana (Median)** - Saralangan ma'lumotlardagi o'rta qiymat
3. **Moda (Mode)** - Eng ko'p uchraydigan qiymat

### 2.1 O'rtacha (Mean)

**Ta'rif:** Barcha qiymatlar yig'indisining ularning soniga bo'linmasi

**Formula:** O'rtacha = (x₁ + x₂ + ... + xₙ) / n

**Qachon ishlatiladi:** Ma'lumotlar normal taqsimlangan va haddan tashqari qiymatlar (outlier) yo'q bo'lganda

In [2]:
# Misol: Talaba baholari
grades = [85, 92, 78, 96, 88, 91, 84, 89, 93, 87]

# 1-usul: Python'ning ichki funksiyasidan foydalanish
mean_builtin = sum(grades) / len(grades)
print(f"Oddiy hisoblash: {mean_builtin:.2f}")

# 2-usul: NumPy ishlatish
mean_numpy = np.mean(grades)
print(f"NumPy hisoblashi: {mean_numpy:.2f}")

# 3-usul: Pandas ishlatish
grades_series = pd.Series(grades)
mean_pandas = grades_series.mean()
print(f"Pandas hisoblashi: {mean_pandas:.2f}")

print(f"\nTalabalarning o'rtacha bahosi: {mean_numpy:.2f}")

Oddiy hisoblash: 88.30
NumPy hisoblashi: 88.30
Pandas hisoblashi: 88.30

Talabalarning o'rtacha bahosi: 88.30


### 2.2 Mediana (Median)

**Ta'rif:** Ma'lumotlar tartibga solinganda o'rtada joylashgan qiymat

**Hisoblash usuli:**
- Agar qiymatlar soni toq bo'lsa: o'rtadagi qiymatni olish
- Agar qiymatlar soni juft bo'lsa: o'rtadagi ikki qiymatning o'rtachasini olish

**Qachon ishlatiladi:** Ma'lumotlarda haddan tashqari qiymatlar mavjud yoki ma'lumotlar qiyshiq taqsimlangan bo'lganda

In [3]:
# Toq sonli qiymatlar misoli
ages_odd = [25, 30, 35, 40, 45]
print(f"Yoshlar (toq son): {ages_odd}")
print(f"Saralangan: {sorted(ages_odd)}")
print(f"Mediana: {np.median(ages_odd)}")

# Juft sonli qiymatlar misoli
ages_even = [25, 30, 35, 40, 45, 50]
print(f"\nYoshlar (juft son): {ages_even}")
print(f"Saralangan: {sorted(ages_even)}")
print(f"Mediana: {np.median(ages_even)}")

# Pandas ishlatish
ages_series = pd.Series(ages_even)
print(f"Pandas mediana: {ages_series.median()}")

Yoshlar (toq son): [25, 30, 35, 40, 45]
Saralangan: [25, 30, 35, 40, 45]
Mediana: 35.0

Yoshlar (juft son): [25, 30, 35, 40, 45, 50]
Saralangan: [25, 30, 35, 40, 45, 50]
Mediana: 37.5
Pandas mediana: 37.5


### 2.3 Moda (Mode)

**Ta'rif:** Ma'lumotlar to'plamida eng ko'p uchraydigan qiymat

**Turlari:**
- Bir modal: Bitta moda
- Ikki modal: Ikkita moda
- Ko'p modal: Ikkitadan ko'p moda

**Qachon ishlatiladi:** Kategorik ma'lumotlar uchun yoki eng keng tarqalgan qiymatni topish uchun

In [4]:
# Misol: Sevimli ranglar so'rovi
colors = ['qizil', 'ko\'k', 'qizil', 'yashil', 'ko\'k', 'qizil', 'sariq', 'ko\'k', 'qizil']

# Pandas ishlatish
colors_series = pd.Series(colors)
mode_result = colors_series.mode()
print(f"Ranglar: {colors}")
print(f"Moda: {mode_result.values[0]}")

# Qiymatlar sonini ko'rish
print(f"\nQiymatlar soni:")
print(colors_series.value_counts())

# Raqamli ma'lumotlar misoli
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
numbers_series = pd.Series(numbers)
print(f"\nRaqamlar: {numbers}")
print(f"Moda: {numbers_series.mode().values[0]}")

Ranglar: ['qizil', "ko'k", 'qizil', 'yashil', "ko'k", 'qizil', 'sariq', "ko'k", 'qizil']
Moda: qizil

Qiymatlar soni:
qizil     4
ko'k      3
yashil    1
sariq     1
Name: count, dtype: int64

Raqamlar: [1, 2, 2, 3, 4, 4, 4, 5]
Moda: 4


### O'rtacha, Mediana va Modani Taqqoslash

In [5]:
# Misol: Daromad ma'lumotlari (haddan tashqari qiymat bilan)
incomes = [30000, 32000, 35000, 38000, 40000, 42000, 45000, 180000]  # Oxirgi qiymat haddan tashqari

income_series = pd.Series(incomes)

mean_income = income_series.mean()
median_income = income_series.median()
# Raqamli ma'lumotlarda moda barcha qiymatlar noyob bo'lsa, ma'noga ega bo'lmasligi mumkin
mode_income = income_series.mode()

print(f"Daromad ma'lumotlari: {incomes}")
print(f"O'rtacha: ${mean_income:,.2f}")
print(f"Mediana: ${median_income:,.2f}")
print(f"Moda: {mode_income.values if len(mode_income) > 0 else 'Moda yo\'q (barcha qiymatlar noyob)'}")

print(f"\nQaysi ko'rsatkich eng to'g'ri ifodalaydi?")
print(f"Mediana (${median_income:,.2f}) ko'proq vakillik qiladi, chunki o'rtacha haddan tashqari qiymat ta'sirida.")

Daromad ma'lumotlari: [30000, 32000, 35000, 38000, 40000, 42000, 45000, 180000]
O'rtacha: $55,250.00
Mediana: $39,000.00
Moda: [ 30000  32000  35000  38000  40000  42000  45000 180000]

Qaysi ko'rsatkich eng to'g'ri ifodalaydi?
Mediana ($39,000.00) ko'proq vakillik qiladi, chunki o'rtacha haddan tashqari qiymat ta'sirida.


## 3-Qism: Tarqalish Ko'rsatkichlari

### Tarqalish nima?
Tarqalish ma'lumot nuqtalarining markaziy tendentsiyadan qanchalik tarqalgan yoki sochilganligini o'lchaydi.

Tarqalish ma'lumotlar markaziy qiymatdan qanchalik tarqalganligini ko'rsatadi.

### Asosiy ko'rsatkichlar:
1. **Diapaz (Range)** - Maksimal va minimal qiymatlar farqi
2. **Dispersiya (Variance)** - O'rtachadan kvadratik farqlarning o'rtachasi
3. **Standart og'ish (Standard Deviation)** - Dispersiyaning kvadrat ildizi

### 3.1 (Range)

**Ta'rif:** Maksimal va minimal qiymatlar orasidagi farq

**Formula:** Diapaz = Maksimum - Minimum

**Afzalliklari:** Hisoblash va tushunish oson
**Kamchiliklari:** Haddan tashqari qiymatlarga sezgir

In [6]:
# Misol: Test natijalari
test_scores = [65, 70, 75, 80, 85, 90, 95]

# Diapazni hisoblash
score_min = min(test_scores)
score_max = max(test_scores)
score_range = score_max - score_min

print(f"Test natijalari: {test_scores}")
print(f"Minimum: {score_min}")
print(f"Maksimum: {score_max}")
print(f"Diapaz: {score_range}")

# NumPy ishlatish
range_numpy = np.ptp(test_scores)  # ptp = tepalikdan tepalikka
print(f"Diapaz (numpy): {range_numpy}")

# Pandas ishlatish
scores_series = pd.Series(test_scores)
range_pandas = scores_series.max() - scores_series.min()
print(f"Range (pandas): {range_pandas}")

Test natijalari: [65, 70, 75, 80, 85, 90, 95]
Minimum: 65
Maksimum: 95
Diapaz: 30
Diapaz (numpy): 30
Range (pandas): 30


### 3.2 Dispersiya (Variance)

**Ta'rif:** O'rtachadan kvadratik farqlarning o'rtachasi

**Formula:** 
- Aholi dispersiyasi: σ² = Σ(x - μ)² / N
- Tanlanma dispersiyasi: s² = Σ(x - x̄)² / (n-1)

**Qachon ishlatiladi:** Ma'lumotlarning o'rtacha atrofida qanchalik tarqalganligini tushunish kerak bo'lganda

In [7]:
# Misol: Talabalar bo'yi (sm)
heights = [165, 170, 168, 172, 175, 169, 171, 173, 167, 174]

heights_series = pd.Series(heights)
mean_height = heights_series.mean()

print(f"Bo'ylar: {heights}")
print(f"O'rtacha bo'y: {mean_height:.2f} sm")

# Dispersiyani qo'lda hisoblash (tushunish uchun)
squared_differences = [(x - mean_height)**2 for x in heights]
variance_manual = sum(squared_differences) / (len(heights) - 1)  # Tanlanma dispersiyasi

print(f"\nO'rtachadan kvadratik farqlar:")
for i, (height, sq_diff) in enumerate(zip(heights, squared_differences)):
    print(f"  {height} sm: ({height} - {mean_height:.2f})² = {sq_diff:.2f}")

print(f"\nDispersiya (qo'lda): {variance_manual:.2f}")

# Pandas va numpy ishlatish
variance_pandas = heights_series.var()  # Tanlanma dispersiyasi (ddof=1)
variance_numpy = np.var(heights, ddof=1)  # Tanlanma dispersiyasi

print(f"Dispersiya (pandas): {variance_pandas:.2f}")
print(f"Dispersiya (numpy): {variance_numpy:.2f}")

Bo'ylar: [165, 170, 168, 172, 175, 169, 171, 173, 167, 174]
O'rtacha bo'y: 170.40 sm

O'rtachadan kvadratik farqlar:
  165 sm: (165 - 170.40)² = 29.16
  170 sm: (170 - 170.40)² = 0.16
  168 sm: (168 - 170.40)² = 5.76
  172 sm: (172 - 170.40)² = 2.56
  175 sm: (175 - 170.40)² = 21.16
  169 sm: (169 - 170.40)² = 1.96
  171 sm: (171 - 170.40)² = 0.36
  173 sm: (173 - 170.40)² = 6.76
  167 sm: (167 - 170.40)² = 11.56
  174 sm: (174 - 170.40)² = 12.96

Dispersiya (qo'lda): 10.27
Dispersiya (pandas): 10.27
Dispersiya (numpy): 10.27


### 3.3 Standart Og'ish (Standard Deviation)

**Ta'rif:** Dispersiyaning kvadrat ildizi

**Formula:** σ = √(dispersiya)

**Afzalligi:** Asl ma'lumotlar bilan bir xil o'lchov birligida, talqin qilish osonroq

**Qachon ishlatiladi:** Tarqalishning eng ko'p ishlatiladigan ko'rsatkichi

In [8]:
# Bo'ylar misoli bilan davom etamiz
std_manual = variance_manual ** 0.5
std_pandas = heights_series.std()
std_numpy = np.std(heights, ddof=1)

print(f"Standart og'ish (qo'lda): {std_manual:.2f} sm")
print(f"Standart og'ish (pandas): {std_pandas:.2f} sm")
print(f"Standart og'ish (numpy): {std_numpy:.2f} sm")

print(f"\nTalqin:")
print(f"O'rtacha hisobda, talabalar bo'yi o'rtacha bo'y {mean_height:.2f} sm dan {std_pandas:.2f} sm ga farq qiladi")

# 68-95-99.7 qoidasi (normal taqsimot uchun)
print(f"\n68-95-99.7 Qoidasi (agar ma'lumotlar normal taqsimlangan bo'lsa):")
print(f"68% ma'lumotlar quyidagi oraliqda: {mean_height - std_pandas:.2f} dan {mean_height + std_pandas:.2f} sm gacha")
print(f"95% ma'lumotlar quyidagi oraliqda: {mean_height - 2*std_pandas:.2f} dan {mean_height + 2*std_pandas:.2f} sm gacha")
print(f"99.7% ma'lumotlar quyidagi oraliqda: {mean_height - 3*std_pandas:.2f} dan {mean_height + 3*std_pandas:.2f} sm gacha")

Standart og'ish (qo'lda): 3.20 sm
Standart og'ish (pandas): 3.20 sm
Standart og'ish (numpy): 3.20 sm

Talqin:
O'rtacha hisobda, talabalar bo'yi o'rtacha bo'y 170.40 sm dan 3.20 sm ga farq qiladi

68-95-99.7 Qoidasi (agar ma'lumotlar normal taqsimlangan bo'lsa):
68% ma'lumotlar quyidagi oraliqda: 167.20 dan 173.60 sm gacha
95% ma'lumotlar quyidagi oraliqda: 163.99 dan 176.81 sm gacha
99.7% ma'lumotlar quyidagi oraliqda: 160.79 dan 180.01 sm gacha


## 4-Qism: Amaliyot
### Real Hayot Ma'lumotlar To'plami Tahlili

In [9]:
# Namunaviy ma'lumotlar to'plami yaratish: Oylik sotish ma'lumotlari
monthly_sales = {
    'Oy': ['Yan', 'Fev', 'Mar', 'Apr', 'May', 'Iyun', 'Iyul', 'Avg', 'Sen', 'Okt', 'Noy', 'Dek'],
    'Sotish': [45000, 52000, 48000, 61000, 58000, 67000, 71000, 69000, 63000, 55000, 49000, 73000]
}

df_sales = pd.DataFrame(monthly_sales)
print("Oylik Sotish Ma'lumotlari:")
print(df_sales)

# Barcha ko'rsatkichlarni hisoblash
sales_data = df_sales['Sotish']

print(f"\n=== MARKAZIY TENDENTSIYA ====")
print(f"O'rtacha: ${sales_data.mean():,.2f}")
print(f"Mediana: ${sales_data.median():,.2f}")
print(f"Moda: ${sales_data.mode().values[0]:,.2f}" if len(sales_data.mode()) > 0 else "Moda yo'q")

print(f"\n=== TARQALISH ====")
print(f"Diapaz: ${sales_data.max() - sales_data.min():,.2f}")
print(f"Dispersiya: ${sales_data.var():,.2f}")
print(f"Standart og'ish: ${sales_data.std():,.2f}")

# Pandas yordamida umumiy statistika
print(f"\n=== UMUMIY STATISTIKA ====")
print(sales_data.describe())

Oylik Sotish Ma'lumotlari:
      Oy  Sotish
0    Yan   45000
1    Fev   52000
2    Mar   48000
3    Apr   61000
4    May   58000
5   Iyun   67000
6   Iyul   71000
7    Avg   69000
8    Sen   63000
9    Okt   55000
10   Noy   49000
11   Dek   73000

=== MARKAZIY TENDENTSIYA ====
O'rtacha: $59,250.00
Mediana: $59,500.00
Moda: $45,000.00

=== TARQALISH ====
Diapaz: $28,000.00
Dispersiya: $91,477,272.73
Standart og'ish: $9,564.38

=== UMUMIY STATISTIKA ====
count       12.000000
mean     59250.000000
std       9564.375188
min      45000.000000
25%      51250.000000
50%      59500.000000
75%      67500.000000
max      73000.000000
Name: Sotish, dtype: float64


## 5-Qism: Amaliyot
### Individual Amaliy Vazifa

**Vazifa:** Quyidagi talaba imtihon baholarini tahlil qiling va biz o'rgangan barcha ko'rsatkichlarni hisoblang.

**Ma'lumotlar:** [78, 85, 92, 76, 88, 94, 82, 79, 91, 86, 83, 89, 77, 90, 84]

In [None]:
# Talabalar amaliyot maydoni
exam_scores = [78, 85, 92, 76, 88, 94, 82, 79, 91, 86, 83, 89, 77, 90, 84]

# TODO: Quyidagilarni hisoblang:
# 1. O'rtacha
# 2. Mediana  
# 3. Moda
# 4. Range
# 5. Dispersiya
# 6. Standart og'ish

# Kodingizni shu yerga yozing:
