# Probability మరియు Statistics కు పరిచయం
ఈ నోట్బుక్‌లో, మనం మునుపటి చర్చించిన కొన్ని భావాలను అన్వయించుకుంటాము. Probability మరియు Statistics నుండి అనేక భావనలు Python లోని ముఖ్యమైన డేటా ప్రాసెసింగ్ గ్రంధాలయాలలో, ఉదాహరణకు `numpy` మరియు `pandas` లో బాగా సూచించబడ్డాయి.


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## రాండమ్ వేరియబుల్స్ మరియు పంపిణీలు
0 నుండి 9 వరకు ఉన్న యూనిఫారం పంపిణితం నుండి 30 విలువల నమూనాను చూపడం ప్రారంభిద్దాం. మేము సగటు మరియు వ్యత్యాసాన్ని కూడా లెక్కించబోతున్నాం.


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

నమూనాలో ఎంతమేర విలువలు ఉన్నాయో దృష్టిగావ చూడటానికి, మనము **హిస్టోగ్రామ్**ని చిత్రించవచ్చు:


In [None]:
plt.hist(sample)
plt.show()

## నిజమైన డేటాను విశ్లేషించడం

నిజమైన ప్రపంచ డేటాను విశ్లేషించేటప్పుడు సగటు మరియు వ్యత్యాసం చాలా ముఖ్యమైనవి. [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) నుండి బేస్‌బాల్ ప్లేయర్ల సంబంధిత డేటాను లోడ్ చేద్దాం


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> మేము ఇక్కడ డేటా విశ్లేషణ కోసం [**Pandas**](https://pandas.pydata.org/) అనే ప్యాకేజ్‌ని ఉపయోగించుకుంటున్నాము. ఈ కోర్సులో తరువాత Pandas మరియు Pythonలో డేటాతో పని గురించి మరింత చర్చిస్తాము.

వయస్సు, ఎత్తు మరియు బరువు కోసం సగటు విలువలను లెక్కించుదాం:


In [None]:
df[['Age','Height','Weight']].mean()

ఇప్పుడు మనము ఎత్తుపై దృష్టి సారించి, ప్రామాణిక విచలనం మరియు వ్యత్యాసాన్ని లెక్కించుకుందాం:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

సగటు విలువ తప్ప ఇప్పటి మధ్య విలువ మరియు క్వార్టైళ్లను చూసుకోవడం కూడా అర్థవంతమైంది. వాటిని **బాక్స్ ప్లాట్** ఉపయోగించి దృశ్య రూపంలో చూపించవచ్చు:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

మనం మా డేటాసెట్ యొక్క ఉపసమూహాల బాక్స్ ప్లాట్లు కూడా తయారు చేయవచ్చు, ఉదాహరణకు, ప్లేయర్ పాత్ర ఆధారంగా గ్రూప్ చేయబడినవి.


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **గమనిక**: ఈ диаг్రామ్ సూచిస్తోంది, సగటున, ఫస్ట్ బేస్ మ్యాన్‌ల పొడవు సెకండ్ బేస్ మ్యాన్‌ల పొడవు కంటే ఎక్కువ ఉంటుందని. తరువాత మనం ఈ సార్ధకతను మరింత అధికారికంగా ఎలా పరీక్షించాలో, మరియు మన డేటా గణాంకపరంగా సార్ధకమైనదని ఎలా నిరూపించాలో నేర్చుకుంటాము.  

వయసు, పొడవు మరియు బరువు అన్నీ నిరంతర రాండమ్ వేరియబుల్‌లు. అవి ఎలా పంపిణీ అవుతాయనుకుంటున్నారు? వాటి పంపిణీని గమ్యం చేసుకోవడానికి మంచి మార్గం విలువల హిస్టోగ్రామ్‌ను గీయడమటే: 


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## సాధారణ విభజన

మన నిజమైన డేటాతోనే సగటు మరియు వ్యత్యాసం కలిగిన సాధారణ విభజనను అనుసరించే బరువుల искусственном నమూనాను సృష్టించుకుందాం:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

వాస్తవ జీవితంలో ఎక్కువ విలువలు సాధారణంగా పంపిణీ అవుతాయి కనుక, నమూనా డేటాను సృష్టించడానికి ఒక సమాన రాండమ్ సంఖ్య జనరేటర్ ను ఉపయోగించకూడదు. సమాన పంపిణీతో బరువులను సృష్టించాలని ప్రయత్నిస్తే, ( `np.random.rand` ద్వారా సృష్టించబడిన):


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## విశ్వాస మధ్యవర్తిత్వాలు

ఇప్పుడు బేస్‌బాల్ ఆటగాళ్ల బరువులు మరియు ఎత్తుల కోసం విశ్వాస మధ్యవర్తిత్వాలను లెక్కిద్దాం. మేము కింద తెలిపిన కోడ్‌ను [ఈ stackoverflow చర్చ నుండి](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data) ఉపయోగిస్తాము:


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} ± {h:.2f}")

## ఊహ పరీక్ష

మన బేస్‌బాల్ ప్లేయర్ల డేటాసెట్‌లో వివిధ పాత్రలను పరిశీలిద్దాం:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

మొదటి బేస్‌మెన్‌లు రెండవ బేస్‌మెన్‌ల కంటే ఎత్తైనవారంటే ఆ హైపోతీసిస్‌ను పరీక్షిద్దాం. దీనికి సరళమైన పద్ధతి కాంఫిడెన్స్ ఇంటర్వల్స్‌ను పరీక్షించడం:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

మేము ఇంటర్వల్స్ ఒప్పుకోకపోవడం స్పష్టంగా చూడవచ్చు.

సాంఖ్యికంగా మరింత సరైన హైపోథసిస్ నిరూపణ మార్గం **స్టూడెంట్ t-టెస్ట్** ఉపయోగించడమే:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

`ttest_ind` ఫังก్షన్ ఇచ్చే రెండు విలువలు ఏమిటంటే:
* p-విలువను రెండు పంపిణీలకు ఒకే సగటు ఉందని భావించే అంద probability గా చూడవచ్చు. మన సందర్భంలో, ఇది చాలా తక్కువగా ఉంది, అంటే మొదటి బేస్‌మెన్‌లు పొడవైనవారని బలమైన సాక్ష్యం ఉంది.
* t-విలువ అనేది t-పరీక్షలో ఉపయోగించే సాంద్రీకృత సగటు తేడా యొక్క మధ్యస్థ విలువ, మరియు ఇది ఇచ్చిన నమ్మక విలువ కోసం ఒక పరిమితి విలువతో పోల్చబడుతుంది.


## కేంద్రీయ పరిమితి సిద్ధాంతం సహితంగా సాధారణ పంపిణీ అనుకరణ

Pythonలో ఉన్న దుష్టసంఖ్యాత్మక జన్యకము మనకు సమాన పంపిణీని అందించడానికి రూపొంది ఉంటుంది. మనం సాధారణ పంపిణీ కోసం ఒక జన్యకాన్ని సృష్టించాలనుకుంటే, కేంద్రీయ పరిమితి సిద్ధాంతం ఉపయోగించవచ్చు. సాధారణంగా పంపిణీచేసిన విలువను పొందడానికి, మనం సమానంగా ఉత్పత్తి చేసిన నమూనా యొక్క సగటును లెక్కించగలం.


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## అనుబంధం మరియు చెడ్డ బేస్‌బాల్ కార్పొరేషన్

అనుబంధం మాకు డేటా క్రమాల మధ్య సంబంధాలను కనుగొనడానికి సహాయపడుతుంది. మన ఆట వేళ ఉదాహరణలో, ఒక చెడ్డ బేస్‌బాల్ సంస్థ ఉంది అని భావిద్దాం, అది తన ఆటగాళ్లను వారి ఎత్తు ప్రకారం పారితోషకం ఇస్తుంది - ఆటగాడు ఎత్తైనట్లయితే, అతను/ఆమె ఎక్కువ డబ్బు పొందుతాడు/ఉంటుంది. మూల వేతనం $1000 మరియు ఎత్తును ఆధారంగా $0 నుండి $100 వరకు అదనపు బోనస్ ఉంటుందని అనుకోండి. మనము MLB నుండి నిజమైన ఆటగాళ్లను తీసుకొని, వారి కల్పిత జీతాల‌ను లెక్కించబోతున్నాము:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

ఇప్పుడు ఆ సీక్వెన్సుల కోవేరియన్స్ మరియు కోరిలేషన్ లను లెక్కిద్దాం. `np.cov` మాకు కోవేరియన్స్ యొక్క విస్తరణ అయిన ఒక **కోవేరియన్స్ మ్యాట్రిక్స్** ను ఇస్తుంది, ఇది బహు చారాలను ఆక్రమిస్తుంది. కోవేరియన్స్ మ్యాట్రిక్స్ $M$ లోని మూలకం $M_{ij}$ ఇన్‌పుట్ చారాలు $X_i$ మరియు $X_j$ మధ్య కోవేరియన్స్, మరియు డయాగనల్ విలువలు $M_{ii}$ $X_{i}$ యొక్క వ్యత్యాసం. ఇది లాగే, `np.corrcoef` మాకు **కోరిలేషన్ మ్యాట్రిక్స్** ను ఇస్తుంది.


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

సంబంధం 1 కు సమానం అంటే రెండు మేరలు మధ్య బలమైన **సరణి సంబంధం** ఉందని అర్థం. మనం ఒక విలువను మరొకదాన్ని వ్యతిరేకంగా గీసే ద్వారా సరణి సంబంధాన్ని దృశ్యరూపంలో చూడవచ్చు:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

సంబంధం రేఖీయ కాకపోతే ఏమవుతుందో చూద్దాం. మన సంస్థ ఎత్తులు మరియు వేతనాల మధ్య స్పష్టమైన రేఖీయ ఆధారితాన్ని దాచిపెట్టాలని నిర్ణయించుకొని, సూత్రంలో కొంత రేఖీయతలేని భాగాన్ని, ఉదాహరణకు `sin`ని చేర్చిందని అనుకుందాం:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

ఈ సందర్భంలో, సహసంబంధం కొంచెం తక్కువగా ఉంది, కానీ అది ఇంకా చాలా ఎక్కువగా ఉంది. ఇప్పుడు, సంబంధాన్ని మరింత స్పష్టంగా కానివ్వడానికి, జీతానికి కొంత అదనపు రాండమ్ వేరియబుల్ జోడించడం ద్వారా కొన్ని అదనపు యాదృచ్ఛికతను చేర్చవచ్చు. ఏం జరుగుతుందో చూద్దాం:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> మీరు అంగీకరించగలరా ఎందుకు చిదులు ఈరూపంలో నిలబడతాయి?

మనం జీతం వంటి కృత్రిమంగా రూపొందించిన భావన మరియు గమనించిన మార్పిడి *ఎత్తు* మధ్య సంబంధాన్ని గమనించాము.ఇప్పుడు, ఎత్తు మరియు బరువు వంటి రెండు గమనించిన మార్చులు కూడా సంబంధితమయ్యాయో లేదో చూద్దాము:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

దుఃఖంగా, మనకి ఎలాంటి ఫలితాలు లభించలేదు - కేవలం కొన్ని అపరిచితమైన `nan` విలువలు మాత్రమే లభించాయి. ఇది మా సిరీస్‌లోని కొన్ని విలువలు నిర్వచించబడలేదు, వాటిని `nan`తో ప్రదర్శించబడుతుంది, తద్వారా ఆపరేషన్ ఫలితం కూడా నిర్వచించబడదు. మ్యాట్రిక్స్‌ను పరిశీలిస్తూ మనం చూస్తే `Weight` కాలమ్ సమస్యగా ఉంది, ఎందుకంటే `Height` విలువల మధ్య స్వీయ-సంబంధం లెక్కించబడింది.

> ఈ ఉదాహరణ **డేటా తయారీ** మరియు **శుభ్రపరచడంల యొక్క ప్రాముఖ్యతను** చూపిస్తుంది. సరైన డేటా లేకుండా మనం ఎలాంటి లెక్కింపులు జరపలేము.

మిస్ అయ్యిన విలువలను పూరించడానికి `fillna` మెథడ్‌ను ఉపయోగించి, సంబంధాన్ని లెక్కించుకుందాం:


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

వాస్తవానికి ఒక సంబంధం ఉంది, కానీ మా కృత్రిమ ఉదాహరణలో ఉన్నంత కఠినమైనటి కాదు. నిజంగా, ఒక విలువను మరొక విలువకు వ్యతిరేకంగా స్ఫురణ చార్ట్‌లో చూస్తే, సంబంధం చాలా తక్కువ స్పష్టంగా ఉంటుంది:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## ముగింపు

ఈ నోట్బుక్‌లో మేము గణాంక ఫంక్షన్‌లను లెక్కించడానికి డేటాపై ప్రాథమిక కార్యకలాపాలను ఎలా నిర్వహించాలో నేర్చుకున్నాము. కొన్ని ఊహాగానాలను నిరూపించడానికి సబ్బంది గణితం మరియు గణాంకాల పరికరాన్ని ఎలా ఉపయోగించాలో, మరియు డేటా నమూనా ఇచ్చిన అల్ప విస్తరణ విలువలకు విశ్వాస అంతరాలను ఎలా లెక్కించాలో మాకు ఇప్పుడు తెలుసు.


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ముక్తాపత్రం**:  
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ద్వారా అనువదించబడ్డది. మేము అత్యంత ఖచ్చితత్వానికి ప్రాముఖ్యత ఇస్తున్నప్పటికీ, ఆటోమేటెడ్ అనువాదాలలో పிழళ్లు లేదా అసమర్థతలు ఉండవచ్చు. మౌలిక పత్రం స్వదేశి భాషలోనే అధికారిక మూలంగా తీసుకోవాలి. కీలక సమాచారం కోసం, వ్యావసాయిక మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదాన్ని ఉపయోగించడం వల్ల ఏర్పడే ఏవైనా అపార్థాలు లేదా തെറ്റుమాటలకు మేము బాధ్యత వహించటంలేదు.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
