# संभावना और सांख्यिकी का परिचय
इस नोटबुक में, हम कुछ उन अवधारणाओं के साथ प्रयोग करेंगे जिन पर हमने पहले चर्चा की है। संभावना और सांख्यिकी की कई अवधारणाएं पाइथन में डेटा प्रोसेसिंग के लिए प्रमुख लाइब्रेरियों जैसे `numpy` और `pandas` में अच्छी तरह से प्रस्तुत हैं।


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## रैंडम वेरिएबल्स और वितरण
चलो 0 से 9 तक के यूनिफ़ॉर्म वितरण से 30 मानों का एक नमूना बनाते हैं। हम साथ ही माध्य और और मापांक भी गणना करेंगे।


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

नमूने में कितनी विभिन्न मान हैं, यह दृश्य रूप से अनुमान लगाने के लिए, हम **हिस्टोग्राम** बना सकते हैं:


In [None]:
plt.hist(sample)
plt.show()

## वास्तविक डेटा का विश्लेषण करना

मीन और विचरण वास्तविक दुनिया के डेटा का विश्लेषण करते समय बहुत महत्वपूर्ण होते हैं। आइए बेसबॉल खिलाड़ियों के डेटा को [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लोड करें।


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> हम डेटा विश्लेषण के लिए यहाँ [**Pandas**](https://pandas.pydata.org/) नामक एक पैकेज का उपयोग कर रहे हैं। हम इस कोर्स में बाद में Pandas और Python में डेटा के साथ काम करने के बारे में अधिक चर्चा करेंगे।

आइए आयु, ऊंचाई और वजन के औसत मान का गणना करें:


In [None]:
df[['Age','Height','Weight']].mean()

अब चलिए ऊंचाई पर ध्यान केंद्रित करते हैं, और मानक विचलन और परिवर्तन गणना करते हैं:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

औसत के अतिरिक्त, मध्यिका मान और क्वार्टाइल पर भी ध्यान देना समझदारी है। इन्हें **बॉक्स प्लॉट** का उपयोग करके चित्रित किया जा सकता है:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

हम अपने डेटासेट के उपसमूहों के बॉक्स प्लॉट भी बना सकते हैं, उदाहरण के लिए, खिलाड़ी की भूमिका के अनुसार समूहित।


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **ध्यान दें**: यह चित्र सुझाव देता है कि औसतन, पहले बेसमैन की ऊँचाई दूसरे बेसमैन की ऊँचाई से अधिक होती है। बाद में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और कैसे यह दर्शा सकते हैं कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है।  

आयु, ऊंचाई और वजन सभी निरंतर यादृच्छिक चर हैं। आपको क्या लगता है कि उनका वितरण क्या है? यह पता लगाने का एक अच्छा तरीका है मानों का हिस्टोग्राम बनाना: 


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## सामान्य वितरण

आइए एक कृत्रिम वजन नमूना बनाते हैं जो हमारे वास्तविक डेटा के समान माध्य और विचरण के साथ सामान्य वितरण का पालन करता है:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

चूंकि वास्तविक जीवन में अधिकांश मान सामान्य वितरण के होते हैं, हमें नमूना डेटा उत्पन्न करने के लिए एक समान यादृच्छिक संख्या जनरेटर का उपयोग नहीं करना चाहिए। यहां यह है कि अगर हम समान वितरण (जो `np.random.rand` द्वारा उत्पन्न होता है) के साथ वजन उत्पन्न करने की कोशिश करें तो क्या होता है:


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## विश्वास अंतराल

अब आइए बेसबॉल खिलाड़ियों के वजन और कद के लिए विश्वास अंतराल की गणना करते हैं। हम इस कोड का उपयोग करेंगे [इस stackoverflow चर्चा से](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data):


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} ± {h:.2f}")

## परिकल्पना परीक्षण

आइए हमारे बेसबॉल खिलाड़ियों के डेटासेट में विभिन्न भूमिकाओं का पता लगाएं:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

आइए यह परीक्षण करते हैं कि क्या पहला बेसमैन दूसरे बेसमैन से लंबा होता है। इसे जांचने का सबसे सरल तरीका है विश्वास अंतराल का परीक्षण करना:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

हम देख सकते हैं कि इंटरवल ओवरलैप नहीं होते हैं।

सिद्धांत को प्रमाणित करने का एक सांख्यिकीय रूप से अधिक सही तरीका **Student t-test** का उपयोग करना है:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

`ttest_ind` फ़ंक्शन द्वारा लौटाए गए दो मान हैं:
* p-मूल्य को दो वितरणों के समान माध्य होने की संभावना के रूप में माना जा सकता है। हमारे मामले में, यह बहुत कम है, जिसका मतलब है कि पहले बेसमैन लंबे होने का मजबूत साक्ष्य है।
* t-मूल्य सामान्यीकृत माध्य अंतर का मध्यवर्ती मान है जिसका उपयोग t-परीक्षण में किया जाता है, और इसे एक दिए गए विश्वसनीयता मान के लिए एक सीमा मान के खिलाफ तुलना किया जाता है।


## केंद्रीय सीमा प्रमेय के साथ सामान्य वितरण का अनुकरण

Python में छद्म-संयोजक जनरेटर हमें समान वितरण प्रदान करने के लिए डिज़ाइन किया गया है। यदि हम सामान्य वितरण के लिए एक जनरेटर बनाना चाहते हैं, तो हम केंद्रीय सीमा प्रमेय का उपयोग कर सकते हैं। सामान्य वितरण मान प्राप्त करने के लिए हम समान-जनित नमूने का औसत ही गणना करेंगे।


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## सहसंबंध और ईविल बेसबॉल कॉर्प

सहसंबंध हमें डेटा अनुक्रमों के बीच संबंध खोजने की अनुमति देता है। हमारे खिलौने के उदाहरण में, चलिए कल्पना करते हैं कि एक ईविल बेसबॉल कॉर्पोरेशन है जो अपने खिलाड़ियों को उनकी ऊँचाई के अनुसार भुगतान करता है - खिलाड़ी जितना लंबा होगा, उसे उतनी अधिक राशि मिलेगी। मान लीजिए कि एक मूल वेतन $1000 है, और ऊँचाई के आधार पर $0 से $100 तक का अतिरिक्त बोनस है। हम MLB के असली खिलाड़ियों को लेंगे, और उनकी काल्पनिक सैलरी की गणना करेंगे:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

अब आइए उन अनुक्रमों का सह-प्रवणता (covariance) और सहसंबंध (correlation) निकालते हैं। `np.cov` हमें तथाकथित **covariance matrix** देगा, जो कई चरों के लिए सह-प्रवणता का विस्तार है। सह-प्रवणता मैट्रिक्स $M$ का तत्व $M_{ij}$ इनपुट चरों $X_i$ और $X_j$ के बीच सहसंबंध होता है, और मुख्य विकर्ण के मान $M_{ii}$ $X_{i}$ का विचलन (variance) होता है। इसी तरह, `np.corrcoef` हमें **correlation matrix** देगा।


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

संबंध का मान 1 होना यह दर्शाता है कि दो चर के बीच एक मजबूत **रेखीय संबंध** है। हम एक मान को दूसरे के खिलाफ प्लॉट करके रेखीय संबंध को दृश्य रूप से देख सकते हैं:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

आइए देखते हैं कि अगर संबंध रैखिक न हो तो क्या होता है। मान लीजिए कि हमारी कंपनी ने ऊंचाई और वेतन के बीच स्पष्ट रैखिक निर्भरता को छिपाने का निर्णय लिया, और सूत्र में कुछ गैर-रैखिकता शामिल की, जैसे कि `sin`:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

इस मामले में, सहसंबंध थोड़ा कम है, लेकिन यह अभी भी काफी उच्च है। अब, संबंध को और भी कम स्पष्ट बनाने के लिए, हम वेतन में कुछ यादृच्छिक परिवर्तन जोड़ सकते हैं। देखते हैं क्या होता है:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> क्या आप अंदाजा लगा सकते हैं कि डॉट्स इस तरह लंबवत रेखाओं में क्यों सजी हुई हैं?

हमने एक कृत्रिम रूप से निर्मित अवधारणा जैसे वेतन और देखे गए चर *ऊंचाई* के बीच सहसंबंध देखा है। आइए देखें कि क्या दो देखे गए चर, जैसे ऊंचाई और वजन, भी सहसंबंधित हैं:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

दुर्भाग्यवश, हमें कोई परिणाम नहीं मिला - केवल कुछ अजीब `nan` मान। इसका कारण यह है कि हमारी सीरीज के कुछ मान अपरिभाषित हैं, जिन्हें `nan` के रूप में दर्शाया गया है, जो ऑपरेशन के परिणाम को भी अपरिभाषित बना देता है। मैट्रिक्स को देखकर हम देख सकते हैं कि `Weight` समस्या वाला कॉलम है, क्योंकि `Height` मानों के बीच स्वयं सहसंबंध की गणना की गई है।

> यह उदाहरण **डेटा तैयारी** और **सफाई** के महत्व को दर्शाता है। सही डेटा के बिना हम कुछ भी गणना नहीं कर सकते।

आइए `fillna` मेथड का उपयोग करके गायब मानों को भरें, और सहसंबंध की गणना करें:


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

वास्तव में एक सहसंबंध है, लेकिन हमारे कृत्रिम उदाहरण जितना मजबूत नहीं है। वास्तव में, यदि हम एक मान की तुलना दूसरे मान से स्कैटर प्लॉट में देखें, तो संबंध उतना स्पष्ट नहीं होगा:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## निष्कर्ष

इस नोटबुक में हमने सीखा कि आंकड़ों पर आधारभूत क्रियाएं कैसे करें ताकि सांख्यिकीय कार्यों की गणना की जा सके। अब हम जानते हैं कि कुछ अनुमानों को साबित करने के लिए गणित और सांख्यिकी के एक मजबूत उपकरण का उपयोग कैसे करें, और एक डेटा नमूने के आधार पर मनमाने चर के लिए विश्वास अंतराल कैसे गणना करें।


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:  
इस दस्तावेज़ का अनुवाद AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके किया गया है। जबकि हम सटीकता के लिए प्रयासरत हैं, कृपया ध्यान रखें कि स्वचालित अनुवाद में त्रुटियाँ या गलतियाँ हो सकती हैं। मूल भाषा में उपलब्ध दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी भ्रामकता या गलतफहमी के लिए हम जिम्मेदार नहीं हैं।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
