# संभावना र तथ्यांकमा परिचय
यस नोटबुकमा, हामी पहिले छलफल गरेका केही अवधारणाहरूलाई खेल्नेछौं। सम्भाव्यता र तथ्यांकका धेरै अवधारणाहरू पायथनमा डाटा प्रशोधनका लागि प्रमुख पुस्तकालयहरू जस्तै `numpy` र `pandas` मा राम्रोसँग प्रतिनिधित्व गरिन्छ।


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## र्याण्डम भेरीएबलहरू र वितरणहरू
हामी 0 देखि 9 सम्मको युनिफर्म वितरणबाट 30 मानहरूको नमूना खिच्नेछौं। हामी माध्य र विचलन पनि गणना गर्नेछौं।


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

नमूनामा कति फरक मानहरू छन् भनी दृश्य रूपमा अनुमान लगाउनका लागि, हामी **हिस्टोग्राम** प्लट गर्न सक्छौं:


In [None]:
plt.hist(sample)
plt.show()

## वास्तविक डाटा विश्लेषण

औसत र परिवर्तनशीलता वास्तविक-विश्व डाटा विश्लेषण गर्दा धेरै महत्वपूर्ण हुन्छन्। आउनुहोस् [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) बाट बेसबल खेलाडीहरूको डाटा लोड गरौं।


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> हामी यहाँ डाटा विश्लेषणको लागि [**Pandas**](https://pandas.pydata.org/) नामक प्याकेज प्रयोग गर्दैछौं। हामी यो कोर्समा पछि Pandas र Python मा डाटासँग कसरी काम गर्ने बारे थप कुरा गर्नेछौं।

आयु, उचाइ र तौलको औसत मानहरू गणना गरौं:


In [None]:
df[['Age','Height','Weight']].mean()

अब हाम्रा ध्यान उचाइमा केन्द्रित गरौं, र मानक विचलन र विचरण गणना गरौं:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

औसतसँगै, मध्य मान र क्वारटाइलहरूमा पनि ध्यान दिन उचित हुन्छ। तिनीहरूलाई **बक्स प्लट** प्रयोग गरी दृश्यात्मक रूप दिन सकिन्छ:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

हामी हाम्रो डेटासेटका उपसमूहहरूको बक्स प्लटहरू पनि बनाउन सक्छौं, उदाहरणका लागि, खेलाडीको भूमिकाले समूहबद्ध गरेर।


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **नोट**: यो चित्रले सुझाव दिन्छ कि औसतमा, प्रथम बेसम्यानको उचाइ दोस्रो बेसम्यानको ऊचाइभन्दा बढी हुन्छ। पछि हामी सिक्नेछौं कि कसरी हामी यो परिकल्पनालाई औपचारिक रूपमा परीक्षण गर्न सकिन्छ, र कसरी देखाउन सकिन्छ कि हाम्रो डेटा सांख्यिकीय रूपमा महत्वपूर्ण छ।  

उमेर, उचाइ र वजन सबै निरन्तर यादृच्छिक चरहरू हुन्। तपाईंले के सोच्नुहुन्छ तिनीहरूको वितरण के हो? यसको पत्ता लगाउनको लागि राम्रो तरिका भनेको मानहरूको हिस्टोग्राम प्लट गर्नु हो: 


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## Normal Distribution

हामीसँगको वास्तविक डेटा जस्तै उस्तै औसत र विचलन हुने सामान्य वितरणको पालना गर्ने तौलहरूको कृत्रिम नमूना बनाउँछौं:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

किनभने वास्तविक जीवनका अधिकांश मानहरू सामान्य रूपमा वितरण हुन्छन्, हामीले नमूना डाटा सिर्जना गर्न एकरूप यादृच्छिक संख्या उत्पन्नकर्ता प्रयोग गर्नु हुँदैन। यदि हामी एकरूप वितरण (जसलाई `np.random.rand` द्वारा सिर्जना गरिएको छ) सँग तौलहरू सिर्जना गर्न प्रयास गर्छौं भने के हुन्छ यहाँ छ:


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## विश्वास अन्तरालहरू

अब हामी बेसबल खेलाडीहरूको तौल र उचाइको लागि विश्वास अन्तराल गणना गर्ने छौं। हामी यो कोड प्रयोग गर्नेछौं [यस stackoverflow छलफलबाट](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data):


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} ± {h:.2f}")

## परिकल्पना परीक्षण

आउनुहोस् हाम्रा बेसबल खेलाडीहरूको डेटासेटमा विभिन्न भूमिकाहरू अन्वेषण गरौं:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

चलिए यो परिकल्पनाको परीक्षण गरौं कि पहिलो बेसम्यानहरू दोस्रो बेसम्यानहरू भन्दा अग्ला हुन्छन्। यो गर्नको सबैभन्दा सरल तरिका हो विश्वस्तता अन्तरालहरूको परीक्षण गर्नु:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

हामीले देख्न सक्छौं कि इन्टरवलहरूले ओभरल्याप गर्दैनन्।

एक तथ्याङ्कीय रूपमा अझ सही तरिका हाइपोथेसिस प्रमाणित गर्नको लागि **स्टुडेन्ट t-परीक्षण** प्रयोग गर्नु हो:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

`ttest_ind` फंक्शनले फर्काउने दुई मानहरू हुन्:
* p-value लाई दुई वितरणहरूको एउटै मध्यमान हुने सम्भावना रूपमा मान्न सकिन्छ। हाम्रो अवस्थामा, यो धेरै कम छ, जसको अर्थ पहिलो बेसम्यानहरू उच्च हुने बलियो प्रमाण छ।
* t-value भनेको सामान्यीकृत मध्यमान भिन्नताको मध्यवर्ती मान हो जुन t-test मा प्रयोग हुन्छ, र यो दिइएको आत्मविश्वास मानको लागि एउटा थ्रेसहोल्ड मानसँग तुलना गरिन्छ।


## केन्द्रीय सीमा प्रमेयको साथ सामान्य वितरणको अनुकरण

Python मा छोली-र्यान्डम जेनरेटरलाई सिधा समान वितरण दिनको लागि डिजाइन गरिएको छ। यदि हामी सामान्य वितरणको लागि जेनरेटर बनाउन चाहन्छौं भने हामी केन्द्रीय सीमा प्रमेय प्रयोग गर्न सक्छौं। सामान्य वितरण गरिएको मान प्राप्त गर्न हामी केवल समान-जनरेट गरिएको नमुना को औसत गणना गर्नेछौं।


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## सहसम्बन्ध र दुष्ट बेसबल कर्पोरेशन

सहसम्बन्धले हामीलाई डेटा अनुक्रमहरू बीच सम्बन्ध पत्ता लगाउन अनुमति दिन्छ। हाम्रो खेलौना उदाहरणमा, मानौं त्यहाँ एक दुष्ट बेसबल कर्पोरेशन छ जसले आफ्ना खेलाडीहरूलाई उचाइ अनुसार तलब दिन्छ - खेलाडी जतिसुकै लामा हुन्छ, उसलाई त्यति नै धेरै पैसा मिल्छ। मानौं आधारभूत तलब $1000 छ, र उचाइको आधारमा $0 देखि $100 सम्म अतिरिक्त बोनस दिइन्छ। हामी MLB का वास्तविक खेलाडीहरू लिनेछौं, र उनीहरूको काल्पनिक तलबहरू गणना गर्नेछौं:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

अब ती श्रृंखलाहरूको सहसंबंध र सहसंबंध गणना गरौं। `np.cov` ले हामीलाई तथाकथित **सहसंबंध म्याट्रिक्स** दिनेछ, जुन बहु चरहरूमा सहसंबंधको विस्तार हो। सहसंबंध म्याट्रिक्स $M$ को तत्त्व $M_{ij}$ इनपुट चरहरू $X_i$ र $X_j$ बीचको सहसंबंध हो, र विकर्ण मानहरू $M_{ii}$ $X_i$ को वैरिएन्स हो। त्यसैगरी, `np.corrcoef` ले हामीलाई **सहसंबंध म्याट्रिक्स** दिनेछ।


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

एक सहसंबन्ध १ बराबर हुनुको अर्थ दुई चलहरूमाबीच **रेखीय सम्बन्ध** बलियो छ। हामी एक मानलाई अर्कोको विरुद्ध चित्रण गरेर रेखीय सम्बन्ध देख्न सक्छौं:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

हेरौं के हुन्छ यदि सम्बन्ध रैखिक नहोस्। मानौं हाम्रो कम्पनीले उचाइ र तलबबीचको स्पष्ट रैखिक निर्भरतालाई लुकाउने निर्णय गर्‍यो, र सूत्रमा केहि गैर-रैखिकता परिचय गरायो, जस्तै `sin`:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

यस अवस्थामा, सहसंबन्ध केही कम छ, तर यो अझै पनि धेरै उच्च छ। अब, सम्बन्धलाई अझ कम स्पष्ट बनाउनका लागि, हामीले तलबमा केही अनियमित चर थपेर थप अनिश्चितता जोड्न सक्छौं। हेर्नुहोस् के हुन्छ:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> के तपाईं अनुमान लगाउन सक्नुहुन्छ किन डटहरू यसरी ठाडो रेखामा सँगै मिल्छन्?

हामीले तलब जस्ता कृत्रिम रूपमा बनाइएका अवधारणा र अवलोकन गरिएको चर *उचाइ* बीचको सम्बन्ध देख्यौं। अब हेरौं यदि दुई अवलोकन गरिएका चरहरू, जस्तै उचाइ र वजन, पनि सम्बन्धित छन् कि छैनन्:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

दुर्भाग्यवश, हामीले कुनै परिणाम पाउन सकेनौं - केवल केही अनौठो `nan` मानहरू मात्र पाइयो। यसको कारण हाम्रो सिरिजमा भएका केही मानहरू अनिर्धारित छन्, जसलाई `nan` को रूपमा प्रतिनिधित्व गरिएको छ, जसले गर्दा अपरेसनको परिणाम पनि अनिर्धारित हुन्छ। म्याट्रिक्स हेर्दा हामी देख्न सक्छौं कि `Weight` समस्या भएको स्तम्भ हो, किनभने `Height` मानहरू बीचको आत्म-सहसंबन्ध गणना गरिएको छ।

> यस उदाहरणले **डाटा तयार पार्ने** र **सफा गर्ने** महत्त्व देखाउँछ। उचित डाटा बिना हामी केही पनि गणना गर्न सक्दैनौं।

आउनुहोस् `fillna` विधि प्रयोग गरी अभाव भएका मानहरू भर्न र सहसंबन्ध गणना गरौं: 


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

त्यसमा साँच्चिकै एक सम्बन्ध छ, तर हाम्रो कृत्रिम उदाहरणमा जस्तो बलियो छैन। साँच्चै, यदि हामी एउटालाई अर्कोसँग तुलना गर्ने स्क्याटर प्लटमा हेर्छौं भने, सम्बन्ध धेरै कम स्पष्ट हुनेछ:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## Conclusion

यस नोटबुकमा हामीले तथ्याङ्कीय कार्यहरू गणना गर्न डेटा माथि आधारभूत अपरेसनहरू कसरी गर्न सकिन्छ भन्ने सिक्यौं। अब हामीले केही परिकल्पनाहरू प्रमाणित गर्नका लागि गणित र तथ्यांकको एक बलियो उपकरण कसरी प्रयोग गर्ने, र डेटा नमूना दिईएका मनमाना चरहरूको लागि विश्वास अन्तर्वाल कसरी गणना गर्ने थाहा पाइसकेका छौं।


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:  
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताका लागि प्रयासरत छौं भने पनि, कृपया ज्ञात गर्नुहोस् कि स्वचालित अनुवादमा त्रुटि वा अशुद्धता हुनसक्छ। मूल दस्तावेज जस भाषामा छ, त्यो आधिकारिक स्रोत मान्नुपर्दछ। महत्वपूर्ण जानकारीका लागि, पेशेवर मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार छैनौं।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
