# Εισαγωγή στην Πιθανότητα και τη Στατιστική
Σε αυτό το σημειωματάριο, θα ασχοληθούμε με μερικές από τις έννοιες που έχουμε συζητήσει προηγουμένως. Πολλές έννοιες από την πιθανότητα και τη στατιστική είναι καλά εκπροσωπημένες σε μεγάλες βιβλιοθήκες για επεξεργασία δεδομένων στην Python, όπως οι `numpy` και `pandas`.


In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

## Τυχαίες Μεταβλητές και Κατανομές
Ας ξεκινήσουμε παίρνοντας ένα δείγμα 30 τιμών από μια ομοιόμορφη κατανομή από 0 έως 9. Θα υπολογίσουμε επίσης μέση τιμή και διακύμανση.


In [None]:
sample = [ random.randint(0,10) for _ in range(30) ]
print(f"Sample: {sample}")
print(f"Mean = {np.mean(sample)}")
print(f"Variance = {np.var(sample)}")

Για να εκτιμήσουμε οπτικά πόσες διαφορετικές τιμές υπάρχουν στο δείγμα, μπορούμε να σχεδιάσουμε το **ιστόγραμμα**:


In [None]:
plt.hist(sample)
plt.show()

## Ανάλυση Πραγματικών Δεδομένων

Ο μέσος όρος και η διασπορά είναι πολύ σημαντικά όταν αναλύουμε δεδομένα από τον πραγματικό κόσμο. Ας φορτώσουμε τα δεδομένα σχετικά με παίκτες του μπέιζμπολ από το [SOCR MLB Height/Weight Data](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights)


In [None]:
df = pd.read_csv("../../data/SOCR_MLB.tsv",sep='\t', header=None, names=['Name','Team','Role','Weight','Height','Age'])
df


> Χρησιμοποιούμε ένα πακέτο που ονομάζεται [**Pandas**](https://pandas.pydata.org/) εδώ για ανάλυση δεδομένων. Θα μιλήσουμε περισσότερα για τα Pandas και τη δουλειά με δεδομένα σε Python αργότερα σε αυτό το μάθημα.

Ας υπολογίσουμε μέσες τιμές για την ηλικία, το ύψος και το βάρος:


In [None]:
df[['Age','Height','Weight']].mean()

Τώρα ας επικεντρωθούμε στο ύψος και να υπολογίσουμε την τυπική απόκλιση και την διασπορά:


In [None]:
print(list(df['Height'])[:20])

In [None]:
mean = df['Height'].mean()
var = df['Height'].var()
std = df['Height'].std()
print(f"Mean = {mean}\nVariance = {var}\nStandard Deviation = {std}")

Εκτός από τον μέσο όρο, έχει νόημα να δούμε την διάμεσο τιμή και τα τεταρτημόρια. Μπορούν να απεικονιστούν χρησιμοποιώντας ένα **διάγραμμα κουτιού**:


In [None]:
plt.figure(figsize=(10,2))
plt.boxplot(df['Height'].ffill(), vert=False, showmeans=True)
plt.grid(color='gray', linestyle='dotted')
plt.tight_layout()
plt.show()

Μπορούμε επίσης να δημιουργήσουμε διαγράμματα κουτιού για υποσύνολα του συνόλου δεδομένων μας, για παράδειγμα, ομαδοποιημένα κατά ρόλο παίκτη.


In [None]:
df.boxplot(column='Height', by='Role', figsize=(10,8))
plt.xticks(rotation='vertical')
plt.tight_layout()
plt.show()

> **Σημείωση**: Αυτό το διάγραμμα υποδηλώνει, ότι κατά μέσο όρο, τα ύψη των πρώτων baseman είναι υψηλότερα από τα ύψη των δευτέρων baseman. Αργότερα θα μάθουμε πώς μπορούμε να δοκιμάσουμε αυτή την υπόθεση πιο επίσημα, και πώς να αποδείξουμε ότι τα δεδομένα μας είναι στατιστικά σημαντικά για να το δείξουν.  

Η ηλικία, το ύψος και το βάρος είναι όλες συνεχείς τυχαίες μεταβλητές. Τι πιστεύετε ότι είναι η κατανομή τους; Ένας καλός τρόπος να το ανακαλύψετε είναι να σχεδιάσετε το ιστόγραμμα των τιμών: 


In [None]:
df['Weight'].hist(bins=15, figsize=(10,6))
plt.suptitle('Weight distribution of MLB Players')
plt.xlabel('Weight')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

## Κανονική Κατανομή

Ας δημιουργήσουμε ένα τεχνητό δείγμα βαρών που ακολουθεί μια κανονική κατανομή με τον ίδιο μέσο όρο και διακύμανση με τα πραγματικά μας δεδομένα:


In [None]:
generated = np.random.normal(mean, std, 1000)
generated[:20]

In [None]:
plt.figure(figsize=(10,6))
plt.hist(generated, bins=15)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.hist(np.random.normal(0,1,50000), bins=300)
plt.tight_layout()
plt.show()

Δεδομένου ότι οι περισσότερες τιμές στην πραγματική ζωή ακολουθούν κανονική κατανομή, δεν θα πρέπει να χρησιμοποιούμε γεννήτρια τυχαίων αριθμών ομοιόμορφης κατανομής για τη δημιουργία δειγματικών δεδομένων. Να τι συμβαίνει αν προσπαθήσουμε να δημιουργήσουμε βάρη με ομοιόμορφη κατανομή (που παράγεται από το `np.random.rand`):


In [None]:
wrong_sample = np.random.rand(1000)*2*std+mean-std
plt.figure(figsize=(10,6))
plt.hist(wrong_sample)
plt.tight_layout()
plt.show()

## Διαστήματα Εμπιστοσύνης

Ας υπολογίσουμε τώρα διαστήματα εμπιστοσύνης για τα βάρη και τα ύψη των παικτών του μπέιζμπολ. Θα χρησιμοποιήσουμε τον κώδικα [από αυτή τη συζήτηση στο stackoverflow](https://stackoverflow.com/questions/15033511/compute-a-confidence-interval-from-sample-data):


In [None]:
import scipy.stats

def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, h

for p in [0.85, 0.9, 0.95]:
    m, h = mean_confidence_interval(df['Weight'].fillna(method='pad'),p)
    print(f"p={p:.2f}, mean = {m:.2f} ± {h:.2f}")

## Δοκιμή Υπόθεσης

Ας εξερευνήσουμε διαφορετικούς ρόλους στο σύνολο δεδομένων παικτών μπέιζμπολ μας:


In [None]:
df.groupby('Role').agg({ 'Weight' : 'mean', 'Height' : 'mean', 'Age' : 'count'}).rename(columns={ 'Age' : 'Count'})

Ας ελέγξουμε την υπόθεση ότι οι παίκτες πρώτης βάσης είναι ψηλότεροι από τους παίκτες δεύτερης βάσης. Ο απλούστερος τρόπος για να το κάνουμε αυτό είναι να ελέγξουμε τα διαστήματα εμπιστοσύνης:


In [None]:
for p in [0.85,0.9,0.95]:
    m1, h1 = mean_confidence_interval(df.loc[df['Role']=='First_Baseman',['Height']],p)
    m2, h2 = mean_confidence_interval(df.loc[df['Role']=='Second_Baseman',['Height']],p)
    print(f'Conf={p:.2f}, 1st basemen height: {m1-h1[0]:.2f}..{m1+h1[0]:.2f}, 2nd basemen height: {m2-h2[0]:.2f}..{m2+h2[0]:.2f}')

Μπορούμε να δούμε ότι τα διαστήματα δεν επικαλύπτονται.

Ένας στατιστικά πιο σωστός τρόπος να αποδείξουμε την υπόθεση είναι να χρησιμοποιήσουμε ένα **Student t-test**:


In [None]:
from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Second_Baseman',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")

Οι δύο τιμές που επιστρέφονται από τη συνάρτηση `ttest_ind` είναι:  
* η τιμή p μπορεί να θεωρηθεί ως η πιθανότητα δύο κατανομών να έχουν τον ίδιο μέσο όρο. Στη δική μας περίπτωση, είναι πολύ χαμηλή, που σημαίνει ότι υπάρχουν ισχυρές αποδείξεις που υποστηρίζουν ότι οι πρώτοι δι baseman είναι πιο ψηλοί.  
* η τιμή t είναι η ενδιάμεση τιμή της ομαλοποιημένης διαφοράς μέσων όρων που χρησιμοποιείται στο t-test, και συγκρίνεται με μια τιμή κατωφλίου για μια δεδομένη τιμή εμπιστοσύνης.


## Προσομοίωση Κανονικής Κατανομής με το Κεντρικό Οριακό Θεώρημα

Ο ψευδοτυχαίος γεννήτορας στην Python έχει σχεδιαστεί για να μας δίνει μια ομοιόμορφη κατανομή. Αν θέλουμε να δημιουργήσουμε έναν γεννήτορα για κανονική κατανομή, μπορούμε να χρησιμοποιήσουμε το κεντρικό οριακό θεώρημα. Για να πάρουμε μια τυπικώς κατανεμημένη τιμή, απλώς θα υπολογίσουμε τον μέσο όρο ενός δείγματος που έχει δημιουργηθεί ομοιόμορφα.


In [None]:
def normal_random(sample_size=100):
    sample = [random.uniform(0,1) for _ in range(sample_size) ]
    return sum(sample)/sample_size

sample = [normal_random() for _ in range(100)]
plt.figure(figsize=(10,6))
plt.hist(sample)
plt.tight_layout()
plt.show()

## Συσχέτιση και η Εταιρεία Κακού Μπέιζμπολ

Η συσχέτιση μας επιτρέπει να βρίσκουμε σχέσεις μεταξύ ακολουθιών δεδομένων. Στο παράδειγμα παιχνιδιού μας, ας υποθέσουμε ότι υπάρχει μια κακή εταιρεία μπέιζμπολ που πληρώνει τους παίκτες της ανάλογα με το ύψος τους - όσο πιο ψηλός είναι ο παίκτης, τόσα περισσότερα χρήματα παίρνει. Ας υποθέσουμε ότι υπάρχει ένας βασικός μισθός των $1000, και ένα επιπλέον μπόνους από $0 έως $100, ανάλογα με το ύψος. Θα πάρουμε τους πραγματικούς παίκτες από το MLB και θα υπολογίσουμε τους φανταστικούς μισθούς τους:


In [None]:
heights = df['Height'].fillna(method='pad')
salaries = 1000+(heights-heights.min())/(heights.max()-heights.mean())*100
print(list(zip(heights, salaries))[:10])

Ας υπολογίσουμε τώρα τη συνδιακύμανση και τη συσχέτιση αυτών των ακολουθιών. Η `np.cov` θα μας δώσει τον λεγόμενο **πίνακα συνδιακύμανσης**, που είναι μια επέκταση της συνδιακύμανσης σε πολλαπλές μεταβλητές. Το στοιχείο $M_{ij}$ του πίνακα συνδιακύμανσης $M$ είναι η συνδιακύμανση μεταξύ των εισερχόμενων μεταβλητών $X_i$ και $X_j$, και οι διαγώνιες τιμές $M_{ii}$ είναι η διακύμανση του $X_{i}$. Ομοίως, η `np.corrcoef` θα μας δώσει τον **πίνακα συσχέτισης**.


In [None]:
print(f"Covariance matrix:\n{np.cov(heights, salaries)}")
print(f"Covariance = {np.cov(heights, salaries)[0,1]}")
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

Μια συσχέτιση ίση με 1 σημαίνει ότι υπάρχει μια ισχυρή **γραμμική σχέση** μεταξύ δύο μεταβλητών. Μπορούμε να δούμε οπτικά τη γραμμική σχέση σχεδιάζοντας μια τιμή σε σχέση με την άλλη:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights,salaries)
plt.tight_layout()
plt.show()

Ας δούμε τι συμβαίνει αν η σχέση δεν είναι γραμμική. Ας υποθέσουμε ότι η εταιρεία μας αποφάσισε να κρύψει την προφανή γραμμική εξάρτηση μεταξύ ύψους και μισθών, και εισήγαγε κάποια μη γραμμικότητα στον τύπο, όπως το `sin`:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

Σε αυτή την περίπτωση, η συσχέτιση είναι λίγο μικρότερη, αλλά εξακολουθεί να είναι αρκετά υψηλή. Τώρα, για να κάνουμε τη σχέση ακόμη λιγότερο προφανή, ίσως θέλουμε να προσθέσουμε λίγη επιπλέον τυχαιότητα προσθέτοντας κάποια τυχαία μεταβλητή στον μισθό. Ας δούμε τι συμβαίνει:


In [None]:
salaries = 1000+np.sin((heights-heights.min())/(heights.max()-heights.mean()))*100+np.random.random(size=len(heights))*20-10
print(f"Correlation = {np.corrcoef(heights, salaries)[0,1]}")

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(heights, salaries)
plt.tight_layout()
plt.show()

> Μπορείτε να μαντέψετε γιατί οι κουκκίδες ευθυγραμμίζονται σε κατακόρυφες γραμμές σαν αυτές;

Έχουμε παρατηρήσει τη συσχέτιση μεταξύ μιας τεχνητά δημιουργημένης έννοιας όπως ο μισθός και της παρατηρούμενης μεταβλητής *ύψος*. Ας δούμε επίσης αν οι δύο παρατηρούμενες μεταβλητές, όπως το ύψος και το βάρος, συσχετίζονται επίσης:


In [None]:
np.corrcoef(df['Height'].ffill(),df['Weight'])

Δυστυχώς, δεν λάβαμε κανένα αποτέλεσμα - μόνο κάποιες παράξενες τιμές `nan`. Αυτό οφείλεται στο γεγονός ότι μερικές από τις τιμές στη σειρά μας είναι απροσδιόριστες, παρουσιάζονται ως `nan`, γεγονός που προκαλεί το αποτέλεσμα της πράξης να είναι επίσης απροσδιόριστο. Κοιτώντας τον πίνακα μπορούμε να δούμε ότι η στήλη `Weight` είναι το πρόβλημα, επειδή έχει υπολογιστεί η αυτο-συσχέτιση μεταξύ των τιμών του `Height`.

> Αυτό το παράδειγμα δείχνει τη σημασία της **προετοιμασίας δεδομένων** και του **καθαρισμού**. Χωρίς κατάλληλα δεδομένα δεν μπορούμε να υπολογίσουμε τίποτα.

Ας χρησιμοποιήσουμε τη μέθοδο `fillna` για να συμπληρώσουμε τις ελλείπουσες τιμές και να υπολογίσουμε τη συσχέτιση:


In [None]:
np.corrcoef(df['Height'].fillna(method='pad'), df['Weight'])

Πράγματι υπάρχει συσχέτιση, αλλά όχι τόσο ισχυρή όσο στο τεχνητό μας παράδειγμα. Πράγματι, αν κοιτάξουμε το διάγραμμα διασποράς μιας τιμής σε σχέση με την άλλη, η σχέση θα ήταν πολύ λιγότερο προφανής:


In [None]:
plt.figure(figsize=(10,6))
plt.scatter(df['Weight'],df['Height'])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.tight_layout()
plt.show()

## Συμπέρασμα

Σε αυτό το σημειωματάριο μάθαμε πώς να εκτελούμε βασικές λειτουργίες σε δεδομένα για να υπολογίσουμε στατιστικές συναρτήσεις. Τώρα ξέρουμε πώς να χρησιμοποιούμε ένα αξιόπιστο εργαλείο μαθηματικών και στατιστικής προκειμένου να αποδείξουμε ορισμένες υποθέσεις, και πώς να υπολογίζουμε διαστήματα εμπιστοσύνης για αυθαίρετες μεταβλητές δεδομένου ενός δείγματος δεδομένων.


---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Αποποίηση ευθυνών**:  
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης AI [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που επιδιώκουμε την ακρίβεια, παρακαλούμε να λάβετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη γλώσσα του θεωρείται η επίσημη πηγή. Για κρίσιμες πληροφορίες, συνιστάται η επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για οποιεσδήποτε παρανοήσεις ή λανθασμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
