# THE NORMAL DISTRIBUTION - Distribuzione Normale 


**La Distribuzione Normale o Gaussiana** è <u>la distribuzione di probabilità continua più importante ed
utilizzata in statistica.</u>


<mark><u>Caratteristiche:</u></mark>

<ul>
    
<li> La curva delle frequenze della distribuzione Normale ha una forma
caratteristica, simile ad una campana </li>
<li> Il valore medio si trova esattamente al centro della distribuzione, e la curva è
    simmetrica rispetto ad esso: quindi <u>valor medio, mediana e moda coincidono</u> </li>
<li> La maggior parte delle osservazioni si concentrano intorno al valore medio </li>
<li> Allontanandosi dal valore medio, la curva si avvicina sempre più all’asse delle
ascisse ma non giunge mai a toccarlo: quindi si possono avere anche (pochissime)
osservazioni che risultano molto distanti dalla media </li>
    
   </ul>
   
   
<mark><strong>Regola empirica della Distribuzione Normale:</strong></mark>
 
 <ul>
    
  
<li><strong>Il 68,26% dei valori è compreso fra -1 e +1 deviazioni standard.</strong></li>

<li><strong>Il 95,44% dei valori è compreso fra -2 e +2 deviazioni standard.</strong> </li>

<li><strong>Il 99,73% dei valori è compreso fra -3 e +3 deviazioni standard. </strong></li> <br>
    

<li>Un'area di probabilità del 95% è compresa fra -1.96 e +1.96 deviazioni standard. </li>

<li>Un'area di probabilità del 99% è compresa fra -2.576 e + 2.576 deviazioni standard. </li>
    
   </ul>
   
   
La Distribuzione Normale risulta la più importante perchè la maggior parte della variabili nel mondo reale segue esattamente una distribuzione di tipo normale come ad esempio: Altezza popolazione, peso, misurazioni mediche, voti scolastici, variabili di tipo finanziario etc.


<img src="https://github.com/lorisliusso/Python-Statistics/blob/master/Standard%20Normal%20Distribution.png?raw=true" alt="350" width="550" align="left"/>

<img src="https://github.com/lorisliusso/Python-Statistics/blob/master/Regola_empirica_normal_distribution.png?raw=true" alt="350" width="550" align="left"/>


<img src="https://github.com/lorisliusso/Python-Statistics/blob/master/standardization.png?raw=true" alt="350" width="550" align="left"/>

<img src="https://github.com/lorisliusso/Python-Statistics/blob/master/Normal_distribution_formula.png?raw=true" alt="350" width="550" align="left"/>

# ESEMPIO 1: EDUCATION 📑

<u>In India in una scuola superiore i voti del test di matematica seguono una Distribuzione Normale</u> con **media=100** **e deviazione standard= 15**

In [16]:
import numpy as np
import scipy.stats as stats

In [17]:
#Let's create the Normal Distribution:

mean=100
sd=15

#instanciate normal distributed random variable with mean=100 and sd=15

X_rv= stats.norm(loc=mean, scale=sd)

***Il Ministro dell'Educazione indiano decide che il punteggio minimo che gli studenti devono raggiungere per essere considerati competenti in matematica è di <mark>80 punti.</mark>***

<u>Qual'è quindi la % di studenti che riuscirà a raggiungere un punteggio <strong>>=80</strong> ?</u>

In [18]:
#Let's use the Cdf

p_g_80= 1 - X_rv.cdf(80) 
p_g_80 #circa il 91% verrà considerato competente in matematica

0.9087887802741321

***Un'università indiana molto selettiva vuole fissare uno standard molto elevato agli studenti della scuola superiore per poter accedere ai loro corsi.***

<u>**L'università ammetterà soltanto gli studenti con un punteggio nel test di matematica facente parte del <mark>2%</mark> dei migliori punteggi della popolazione.**</u>

<u>Quale punteggio minimo quindi dovranno ottenere gli studenti per poter entrare all'università?</u>

In [19]:
#Dobbiamo usare in questo caso l'inversa della Cdf > Ppf (Percent point function (inverse of cdf)
#per ottenere il punteggio relativo al 2% (punteggi/valori dal 98% al 100% della nostra Distribuzione)

proportion_of_admitted= 0.02 #2%

#Let's use the inverse of Cdf -> Ppf (Percent point function (inverse of cdf)

score= X_rv.ppf(1 - proportion_of_admitted) #100% - cdf fino al 98%

print('Il punteggio minimo è pari a:', score)


Il punteggio minimo è pari a: 130.80623365947733


# ESEMPIO 2: AZIENDA CONFEZIONI 📦

Un'azienda produce delle confezioni alimentari prodotte in modo automatico.

<u>Il peso delle confezioni è una variabile aleatoria normale X</u> con **media µ = 250 g** e **deviazione standard σ = 3 g.**

<mark>Calcolare la probabilità che una confezione:</mark>
 
<ul>
    
<li><strong>a: pesi meno di 245 g;</strong> </li>

<li><strong>b: pesi più di 250 g;</strong> </li>

<li><strong>c: abbia un peso tra 247 g e 253 g.</strong> </li>
    
 </ul>

In [20]:
mean=250
sd=3

#instanciate normal distributed random variable with mean=250 and sd=3

X_rv= stats.norm(loc=mean, scale=sd)

In [21]:
#Let's calculate a:

proba_l_245= X_rv.cdf(245) # let's use cdf -> probabilità accumulata da 0 a 245
proba_l_245

0.0477903522728147

In [22]:
#Let's calculate b:

proba_g_250= 1 - X_rv.cdf(250) #proba accumulata da 250 a +inf
proba_g_250

0.5

In [23]:
#Let's calculate c:

proba_b_247_253= X_rv.cdf(253) - X_rv.cdf(247) #proba tra 247 e 253
proba_b_247_253

0.6826894921370859

# ESEMPIO 3: Altezze in NBA 🏀

The heights of the 430 National Basketball Association players were listed on team rosters at the start of the 2005–2006 season.

<u>The heights of basketball players have an approximate normal distribution</u> with **mean, µ = 79 inches** and a **standard deviation, σ = 3.89 inches**. 

<mark>For each of the following heights, calculate the z-score and interpret it using complete sentences.</mark>

<ul>

<li>77 inches</li>

<li>85 inches</li>

<li><u>If an NBA player reported his height had a z-score of 3.5, would you believe him? Explain your answer.</u></li>
    
</ul>

<img src="https://www.simplypsychology.org/Z-score-formula.jpg" alt="350" width="250" align="left"/>

In [24]:
mean= 79
sd=3.89

In [25]:
z_score_77= (77-79) / 3.89 # "quante deviazioni standard è distante dalla media"
z_score_77 

-0.5141388174807198

The height of 77 inches is 0.5141 standard deviations below the mean. An NBA player whose height is 77 inches is shorter than average.

In [26]:
z_score_85= (85-79) / 3.89
z_score_85

1.5424164524421593

The height 85 inches is 1.5424 standard deviations above the mean. An NBA player whose height is 85 inches is taller than average.

**"If an NBA player reported his height had a z-score of 3.5, would you believe him? Explain your answer."** 👇

***Z-score= 3.5 --> 0.0233%***

<img src="https://slideplayer.com/slide/4929549/16/images/86/Compute+X+values+from+probabilities.jpg" alt="350" width="450" align="left"/>

In [27]:
height= mean + 3.5*sd #convert from z_score to real value
height

92.615

In [30]:
X_rv= stats.norm(loc=mean, scale= sd)

proba_g_92= 1 - X_rv.cdf(92.615)

print(f'Probability of height equal to 92.615 -> 3.5 zscore is : {proba_g_92*100}%') #quasi nulla, MOLTO IMPROBABILE

Probability of height equal to 92.615 -> 3.5 zscore is : 0.02326290790355401%


<img src="https://media.istockphoto.com/vectors/congratulations-greeting-sign-congrats-graduated-vector-id1148641884?k=20&m=1148641884&s=170667a&w=0&h=UZvEyiD5nxDJiLz5n0i1jdvWn-MR6wt1nomiPV1wSDE=" alt="400" width="500" align="left"/>