# সম্ভাবনা এবং পরিসংখ্যানের পরিচিতি
এই নোটবুকে, আমরা পূর্বে আলোচনা করা কিছু ধারণার সাথে খেলাবো। সম্ভাবনা এবং পরিসংখ্যানের অনেক ধারণা পাইথনের ডেটা প্রসেসিংয়ের প্রধান লাইব্রেরিগুলিতে ভালভাবে উপস্থাপিত রয়েছে, যেমন `numpy` এবং `pandas`।


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## র‍্যান্ডম ভেরিয়েবল এবং বণ্টনসমূহ
চলুন 0 থেকে 9 পর্যন্ত একটি সমজাতীয় বণ্টন থেকে ৩০টি মানের একটি নমুনা আঁকি। আমরা গড় এবং বৈচিত্র্যও হিসাব করব।


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

নমুনায় কতগুলি ভিন্ন মান রয়েছে তা بصریভাবে অনুমান করতে, আমরা **হিস্টোগ্রাম** অঙ্কন করতে পারি:


In [None]:
plt.hist(sample)
plt.show()

## বাস্তব ডেটা বিশ্লেষণ

গড় এবং বৈচিত্র্য বাস্তব-জগতের ডেটা বিশ্লেষণে খুবই গুরুত্বপূর্ণ। চলুন [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) থেকে বেসবল খেলোয়াড়দের ডেটা লোড করি।


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> আমরা এখানে ডেটা বিশ্লেষণের জন্য [**Pandas**](https://pandas.pydata.org/) নামক একটি প্যাকেজ ব্যবহার করছি। আমরা এই কোর্সের পরবর্তী অংশে Pandas এবং পাইথনে ডেটার সাথে কাজ করার বিষয়ে আরও আলোচনা করব।

চলুন বয়স, উচ্চতা এবং ওজনের গড় মান গণনা করি:


In [None]:
df[['Age','Height','Weight']].mean()

এখন চলুন উচ্চতার ওপর মনোযোগ দেওয়া যাক, এবং স্ট্যান্ডার্ড ডিভিয়েশন ও বৈচিত্র্য (ভ্যারিয়েন্স) গণনা করা যাক:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

গড়ের পাশাপাশি, মধ্যমমান এবং চতুর্থাংশগুলো দেখা বোধগম্য। সেগুলোকে **বক্স প্লট** ব্যবহার করে দৃশ্যমান করা যায়:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

আমরা আমাদের ডেটাসেটের উপসেটগুলির বক্স প্লটও করতে পারি, উদাহরণস্বরূপ, প্লেয়ারের ভূমিকা অনুযায়ী গোষ্ঠীবদ্ধ করে।


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **নোট**: এই চিত্রটি নির্দেশ করে, যে গড়ে প্রথম বেসম্যানদের উচ্চতা দ্বিতীয় বেসম্যানদের উচ্চতার চেয়ে বেশি। পরে আমরা শিখব কীভাবে এই অনুমানটিকে আরও আনুষ্ঠানিকভাবে পরীক্ষা করা যায়, এবং কীভাবে প্রদর্শন করা যায় যে আমাদের ডেটা পরিসংখ্যানগতভাবে তা প্রদর্শনের জন্য গুরুত্বপূর্ণ।  

বয়স, উচ্চতা এবং ওজন সবই ধারাবাহিক র্যান্ডম ভেরিয়েবল। আপনি কী মনে করেন তাদের বন্টন কী হতে পারে? একটি ভাল উপায় হল মানগুলির হিস্টোগ্রাম আঁকা: 


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## Normal Distribution

চলুন একটি কৃত্রিম ওজন নমুনা তৈরি করি যা আমাদের বাস্তব ডেটার সমান গড় এবং বৈচিত্র্যের সাথে একটি স্বাভাবিক বণ্টন অনুসরণ করে:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

কারণ বাস্তবে অধিকাংশ মান সাধারণত স্বাভাবিক বণ্টিত থাকে, আমরা নমুনা ডেটা তৈরির জন্য ইউনিফর্ম র্যান্ডম নম্বর জেনারেটর ব্যবহার করা উচিত নয়। এখানে কী হয় যখন আমরা ইউনিফর্ম ডিস্ট্রিবিউশন দিয়ে ওজন তৈরি করার চেষ্টা করি (যা `np.random.rand` দ্বারা তৈরি):


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## বিশ্বাসযোগ্যতা অন্তর

এবার চলুন বেসবল খেলোয়াড়দের ওজন এবং উচ্চতার জন্য বিশ্বাসযোগ্যতা অন্তর গণনা করি। আমরা [এই স্ট্যাকওভারফ্লো আলোচনার](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data) কোড ব্যবহার করব:


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} ± {h:.2f}")

## অনুমান পরীক্ষা

চলুন আমাদের বেসবল খেলোয়াড়দের ডেটাসেটে বিভিন্ন ভূমিকা অন্বেষণ করি:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

চলুন এই অনুমানটি পরীক্ষা করি যে প্রথম বেসম্যানরা দ্বিতীয় বেসম্যানদের চেয়ে লম্বা। এটি পরীক্ষা করার সবচেয়ে সহজ উপায় হলো আত্মবিশ্বাসের ইন্টারভাল পরীক্ষা করা:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

আমরা দেখতে পাচ্ছি যে অন্তরগুলি ওভারল্যাপ করছে না।

পরিসংখ্যানগতভাবে আরও সঠিক উপায় হ'ল হাইপোথিসিস প্রমাণ করার জন্য **স্টুডেন্ট টি-টেস্ট** ব্যবহার করা:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

`ttest_ind` ফাংশন দ্বারা ফেরত আসা দুটি মান হল:
* p-মানকে দুইটি বন্টনের একই গড় থাকার সম্ভাবনা হিসেবে বিবেচনা করা যেতে পারে। আমাদের ক্ষেত্রে, এটি খুবই কম, যার অর্থ প্রথম বেসম্যানরা লম্বা হওয়ার পক্ষে শক্তিশালী প্রমাণ পাওয়া গেছে।
* t-মান হলো স্বাভাবিককৃত গড় পার্থক্যের মধ্যবর্তী মান যা t-পরীক্ষায় ব্যবহৃত হয়, এবং এটি নির্দিষ্ট আস্থা মানের জন্য একটি সীমা মানের সাথে তুলনা করা হয়।


## মধ্যবিন্দু সীমা থিওরেম ব্যবহার করে একটি স্বাভাবিক বণ্টনের অনুকরণ

পাইথনে ছদ্ম-যাদৃচ্ছিক জেনারেটরটি আমাদের একটি সমজাতীয় বণ্টন দিতে ডিজাইন করা হয়েছে। যদি আমরা একটি স্বাভাবিক বণ্টনের জন্য একটি জেনারেটর তৈরি করতে চাই, তাহলে আমরা মধ্যবিন্দু সীমা থিওরেম ব্যবহার করতে পারি। একটি স্বাভাবিক বণ্টিত মান পেতে আমরা কেবল সমজাতীয়ভাবে তৈরি একটি নমুনার গড় গণনা করব।


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## সম্পর্ক এবং ইভিল বেসবল কর্পোরেশন

সম্পর্ক আমাদের ডেটা সিকুয়েন্সগুলোর মধ্যে সম্পর্ক খুঁজে পেতে সাহায্য করে। আমাদের খেলনা উদাহরণে, ধরা যাক একটি ইভিল বেসবল কর্পোরেশন রয়েছে যা তার খেলোয়াড়দের তাদের উচ্চতার ওপর ভিত্তি করে বেতন দেয় - খেলোয়াড় যত লম্বা, তিনি তত বেশি টাকা পান। ধরা যাক একটি ভিত্তিক বেতন $১০০০, এবং উচ্চতার ওপর ভিত্তি করে $০ থেকে $১০০ পর্যন্ত অতিরিক্ত বোনাস রয়েছে। আমরা MLB-এর আসল খেলোয়াড়দের নিয়ে তাদের কাল্পনিক বেতন হিসাব করব:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

এখন চলুন ঐ সিকোয়েন্সগুলোর কোভেরিয়েন্স এবং সম্পর্ক হিসাব করি। `np.cov` আমাদের একটি sogenannten **কোভেরিয়েন্স ম্যাট্রিক্স** দেবে, যা একাধিক ভেরিয়েবল এর জন্য কোভেরিয়েন্সের একটি সম্প্রসারণ। কোভেরিয়েন্স ম্যাট্রিক্স $M$ এর উপাদান $M_{ij}$ হলো ইনপুট ভেরিয়েবলের $X_i$ এবং $X_j$ এর মধ্যে সম্পর্ক, এবং ডায়াগোনাল মান $M_{ii}$ হলো $X_i$ এর বৈচিত্র্য। একইভাবে, `np.corrcoef` আমাদের **সম্পর্ক ম্যাট্রিক্স** দেবে।


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

একটি সহসর্মতা সমান ১ অর্থ হলো দুইটি ভেরিয়েবলের মধ্যে একটি শক্তিশালী **রৈখিক সম্পর্ক** রয়েছে। আমরা একটি মানকে অন্য মানের বিপরীত দিকে প্লট করে রৈখিক সম্পর্ক দৃশ্যমানভাবে দেখতে পারি:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

চলুন দেখি কি হয় যদি সম্পর্কটা সরলরেখীয় না হয়। ধরুন আমাদের কর্পোরেশন উচ্চতা এবং বেতরের মধ্যে স্পষ্ট সরলরেখীয় নির্ভরতাকে লুকানোর সিদ্ধান্ত নিয়েছে, এবং সূত্রে কিছু অ-সরলরেখীয়তা যেমন `sin` যোগ করেছে:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

এই ক্ষেত্রে, সম্পর্কটি একটু কম হলেও তা এখনও যথেষ্ট উচ্চ। এবার, সম্পর্কটি আরও কম স্পষ্ট করতে, আমরা বেতন প্রথমে একটি র্যাণ্ডম পরিবর্তক যোগ করে কিছু অতিরিক্ত র‍্যানডমনেস যোগ করতে চাইতে পারি। চলুন দেখি কী হয়:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> আপনি কি অনুমান করতে পারেন কেন ডটগুলো এইভাবে খাড়া লাইনে সারিবদ্ধ হয়?

আমরা একটি কৃত্রিমভাবে নির্মিত ধারণা যেমন বেতন এবং পর্যবেক্ষিত পরিবর্তনশীল *উচ্চতা* এর মধ্যকার সম্পর্ক লক্ষ্য করেছি। এবার আমরা দেখতে চাই দুইটি পর্যবেক্ষিত পরিবর্তনশীল, যেমন উচ্চতা এবং ওজন, তাদের মধ্যেও কি সম্পর্ক আছে কিনা:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

দুর্ভাগ্যবশত, আমরা কোনো ফলাফল পাইনি - শুধুমাত্র কিছু অদ্ভুত `nan` মান। এর কারণ হলো আমাদের সিরিজের কিছু মান অনির্ধারিত, যা `nan` হিসেবে উপস্থাপিত হয়েছে, যা অপারেশনের ফলাফলকেও অনির্ধারিত করে তোলে। ম্যাট্রিক্সটির দিকে নজর দিলে দেখা যায় যে `Weight` হল সমস্যা সৃষ্টিকারী কলাম, কারণ `Height` মানগুলির মধ্যে স্ব-কোরিলেশন গণনা করা হয়েছে।

> এই উদাহরণটি **ডেটা প্রস্তুতি** এবং **পরিষ্কারের** গুরুত্ব দেখায়। সঠিক ডেটা ছাড়া আমরা কিছুই গণনা করতে পারব না।

চলুন হারিয়ে যাওয়া মানগুলি পূরণের জন্য `fillna` পদ্ধতি ব্যবহার করি এবং কোরিলেশন গণনা করি:


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

অবশ্যই একটি সংযোগ বিদ্যমান, তবে আমাদের কৃত্রিম উদাহরণের মত এতটা শক্তিশালী নয়। আসলে, যদি আমরা একটি মানকে অন্যটির বিরুদ্ধে স্থানচিত্রিত করি, সম্পর্ক অনেক কম স্পষ্ট হবে:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## উপসংহার

এই নোটবুকে আমরা শিখেছি কীভাবে ডেটার ওপর মৌলিক অপারেশনগুলো সম্পাদন করে পরিসংখ্যানগত ফাংশনগুলি গণনা করা যায়। এখন আমরা জানি কীভাবে গণিত এবং পরিসংখ্যানের একটি শক্তিশালী যন্ত্রপাতি ব্যবহার করে কিছু অনুমান প্রমাণ করতে হয়, এবং কীভাবে একটি ডেটা নমুনা থেকে ইচ্ছা মতো ভেরিয়েবলের জন্য আত্মবিশ্বাসের অন্তরালা গণনা করতে হয়।


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**অস্বীকারোক্তি**:  
এই নথিটি AI অনুবাদক সেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। যদিও আমরা যথাসম্ভব যথার্থতার চেষ্টা করি, তবুও দয়া করে মাথায় রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসুস্পষ্টতা থাকতে পারে। মূল নথিটি তার নিজ ভাষায় কর্তৃত্বপূর্ণ উৎস হিসাবে বিবেচিত হওয়া উচিত। জরুরি তথ্যের জন্য পেশাদার মানব অনুবাদ পরামর্শ দেওয়া হয়। এই অনুবাদের ব্যবহার থেকে উদ্ভূত কোনো ভ্রান্তিমূলক অর্থ বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
