# Utangulizi wa Uwezekano na Takwimu
Katika daftari hili, tutacheza na baadhi ya dhana tulizozijadili awali. Dhana nyingi kutoka kwa uwezekano na takwimu zipo kwa uwakilishi mzuri katika maktaba kuu za usindikaji data katika Python, kama `numpy` na `pandas`.


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## Vigezo vya Nasibu na Mgawanyo
Tuanze kwa kuchora sampuli ya thamani 30 kutoka kwenye mgawanyo wa usawa kutoka 0 hadi 9. Pia tutahesabu wastani na utofauti.


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

Ili kutathmini kitaalamu ni thamani ngapi tofauti zipo katika sampuli, tunaweza kuchora **histogramu**:


In [None]:
plt.hist(sample)
plt.show()

## Kuchambua Takwimu Halisi

Wastani na utofauti ni muhimu sana wakati wa kuchambua data za dunia halisi. Hebu tupakue data kuhusu wachezaji wa baseball kutoka [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights)


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> Tunatumia kifurushi kinachoitwa [**Pandas**](https://pandas.pydata.org/) hapa kwa uchambuzi wa data. Tutazungumzia zaidi kuhusu Pandas na kazi na data katika Python baadaye katika kozi hii.

Hebu tukokotoe wastani wa umri, urefu na uzito:


In [None]:
df[['Age','Height','Weight']].mean()

Sasa tutilie maanani urefu, na kuhesabu utofauti wa kawaida na utofauti wa mwelekeo:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

Mbali na wastani, ni maana pia kuangalia thamani ya kati na robo. Hizi zinaweza kuonyeshwa kwa kutumia **box plot**:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

Tunaweza pia kutengeneza michoro ya sanduku ya vijumuiko vya seti yetu ya data, kwa mfano, imegawanywa kwa nafasi ya mchezaji.


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **Kumbuka**: Mchoro huu unaonyesha, kuwa kwa wastani, urefu wa wachezaji wa msingi wa kwanza ni mrefu zaidi kuliko urefu wa wachezaji wa msingi wa pili. Baadaye tutajifunza jinsi tunavyoweza kupima nadharia hii kwa njia rasmi zaidi, na jinsi ya kuonyesha kwamba data yetu ina umuhimu wa takwimu kuonyesha hivyo.

Umri, urefu na uzito ni vigezo vyote vya nasibu vinavyendelea. Unaonaje mgawanyo wake? Njia nzuri ya kugundua ni kuchora histogramu ya thamani:


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## Mgawanyo wa Kawaida

Tuvumbue sampuli bandia ya uzito inayofuata mgawanyo wa kawaida na wastani na utofauti sawa na data yetu halisi:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

Kwa kuwa thamani nyingi katika maisha halisi husambazwa kawaida, hatupaswi kutumia kizalishaji cha namba za bahati nasibu zenye usambazaji wa sawa kutengeneza data za sampuli. Hapa ni kile kinachotokea ikiwa tutajaribu kuzalisha uzito kwa usambazaji wa sawa (ulizalishwa na `np.random.rand`):


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## Intervalli za Kuwa na Hakika

Sasa hebu tukokotoe intervalli za kuwa na hakika kwa uzito na urefu wa wachezaji baseball. Tutatumia msimbo [kutoka kwenye mjadala huu wa stackoverflow](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data):


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} Â± {h:.2f}")

## Upimaji wa Nadharia

Hebu chunguza majukumu tofauti katika seti yetu ya data ya wachezaji wa baseball:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

Hebu tuchunguze dhana kwamba Wachezaji wa Msingi wa Kwanza ni warefu zaidi kuliko Wachezaji wa Msingi wa Pili. Njia rahisi kabisa ya kufanya hivyo ni kupima tofauti za kujiamini:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

Tunaweza kuona kuwa vipindi havivuki.

Njia ya takwimu sahihi zaidi ya kuthibitisha nadharia ni kutumia **Mtihani wa Student t**:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

Thamani mbili zinazorejeshwa na kazi ya `ttest_ind` ni:
* thamani ya p inaweza kuchukuliwa kuwa uwezekano wa mgawanyo miwili kuwa na wastani mmoja. Katika kesi yetu, ni ndogo sana, ikimaanisha kwamba kuna ushahidi thabiti unaoonyesha kuwa wachezaji wa kwanza wa msingi ni warefu zaidi.
* thamani ya t ni thamani ya wastani wa tofauti iliyosanifiwa inayotumiwa katika jaribio la t, na inalinganishwa na thamani ya kikomo kwa thamani fulani ya kuaminika.


## Kuiga Usambazaji wa Kawaida kwa Kanuni ya Mipaka ya Kati

Kizalishaji cha nasibu kinachotumiwa katika Python kimeundwa kutupatia usambazaji wa usawa. Ikiwa tunataka kuunda kizalishaji cha usambazaji wa kawaida, tunaweza kutumia kanuni ya mipaka ya kati. Ili kupata thamani iliyosambazwa kwa kawaida, tutahesabu tu wastani wa sampuli iliyozalishwa kwa usambazaji wa usawa.


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## Uhusiano na Evil Baseball Corp

Uhusiano unaturuhusu kupata uhusiano kati ya mfululizo wa data. Katika mfano wetu wa toy, nduguudhare kuwa kuna kampuni ya mpira wa kikapu ya uovu ambayo hualipa wachezaji wake kulingana na urefu wao - mchezaji mrefu zaidi, ndivyo anavyopata pesa nyingi zaidi. Fikiria kuwa kuna mshahara wa msingi wa $1000, na bonasi ya ziada kutoka $0 hadi $100, kulingana na urefu. Tutachukua wachezaji halisi kutoka MLB, na kuhesabu mishahara yao ya kufikirika:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

Sasa hebu tuhesabu kovarians na uhusiano wa mfuatano huo. `np.cov` itatupa kile kinachoitwa **matrix ya kovarians**, ambayo ni upanuzi wa kovarians kwa vigezo vingi. Kipengele $M_{ij}$ cha matrix ya kovarians $M$ ni uhusiano kati ya vigezo vya ingizo $X_i$ na $X_j$, na thamani za mwinuko $M_{ii}$ ni variansi ya $X_{i}$. Vivyo hivyo, `np.corrcoef` itatupa **matrix ya uhusiano**.


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

Uhusiano sawa na 1 unamaanisha kwamba kuna **uhusiano wa mstari** imara kati ya vigezo viwili. Tunaweza kuiona kwa macho uhusiano wa mstari kwa kuchora thamani moja dhidi ya nyingine:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

Tuchunguze ni nini kitakachotokea ikiwa uhusiano sio wa mstari. Tuseme kampuni yetu iliamua kuficha utegemezi wa mstari wazi kati ya urefu na mishahara, na kuanzisha aina ya isiyo ya mstari katika fomula, kama vile `sin`:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

Katika kesi hii, uhusiano ni kidogo zaidi, lakini bado uko juu sana. Sasa, ili kufanya uhusiano usiwe wazi sana, tunaweza kutaka kuongeza mzunguko wa ziada kwa kuongeza kigezo chochote kisichotarajiwa kwenye mshahara. Tujaribu kuona kinachotokea:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> Je, unaweza kubahatisha kwa nini nukta zinaungana kwenye mistari wima kama hii?

Tumegundua uhusiano kati ya dhana iliyoundwa kiutengo kama mshahara na kipimo kinachoangaliwa *refu*. Tuwe pia tuone kama vipimo viwili vinavyoonekana, kama vilerefu na uzito, vina uhusiano pia:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

Kwa bahati mbaya, hatukupata matokeo yoyote - tu baadhi ya thamani za ajabu za `nan`. Hii ni kwa sababu baadhi ya thamani katika mfululizo wetu hazijafafanuliwa, zinazoonyeshwa kama `nan`, ambayo husababisha matokeo ya operesheni pia yasifafanuliwe. Kwa kuangalia matriki tunaweza kuona kuwa `Weight` ndiye safu inayosumbua, kwa sababu uhusiano wa ndani kati ya thamani za `Height` umekuwa umehesabiwa.

> Mfano huu unaonyesha umuhimu wa **kuandaa data** na **kusafisha**. Bila data sahihi hata chembechembe haiwezi kuhesabiwa.

Tuchukue njia ya `fillna` kujaza thamani zilizokosekana, na kuhesabu uhusiano:


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

Kuna uhusiano kweli, lakini si ule wenye nguvu kama katika mfano wetu wa bandia. Hakika, tukitazama mchoro wa makusanyo wa thamani moja dhidi ya nyingine, uhusiano huo usingeonekana kwa urahisi sana:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## Hitimisho

Katika daftari hili tumejifunza jinsi ya kufanya shughuli za msingi kwenye data ili kuhesabu kazi za takwimu. Sasa tunajua jinsi ya kutumia vifaa vyenye sauti vya hisabati na takwimu ili kuthibitisha baadhi ya nadharia, na jinsi ya kuhesabu viwango vya kujiamini kwa vigezo mbalimbali ikitolewa sampuli ya data.


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Kiondoa Hukumu**:
Nyaraka hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kwamba tafsiri za moja kwa moja zinaweza kuwa na makosa au upungufu wa usahihi. Nyaraka asilia katika lugha yake ya asili inapaswa kuzingatiwa kama chanzo cha uhakika. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inashauriwa. Hatubeba dhamana kwa kutoelewana au tafsiri potofu zozote zitakazotokea kutokana na matumizi ya tafsiri hii.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
