<img src="../../images/Callysto_Notebook-Banner_Top_06.06.18.jpg"/>

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
from IPython.display import HTML

import plotly.offline as py
import plotly.tools as tls
import plotly.figure_factory as ff
from plotly import graph_objs as go

import matplotlib.pylab as plt
from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas

import ipywidgets as widgets
from IPython.display import display, Math, Latex, clear_output


# These options allow plots to display.
py.init_notebook_mode(connected=True)
fig = plt.Figure()
ax = fig.gca()
canvas = FigureCanvas(fig)

hide_me = ''
HTML('''<script>
code_show=true; 
function code_toggle() {
  if (code_show) {
    $('div.input').each(function(id) {
      el = $(this).find('.cm-variable:first');
      if (id == 0 || el.text() == 'hide_me') {
        $(this).hide();
      }
    });
    $('div.output_prompt').css('opacity', 0);
  } else {
    $('div.input').each(function(id) {
      $(this).show();
    });
    $('div.output_prompt').css('opacity', 1);
  }
  code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input style="opacity:0" type="submit" value="Click here to toggle on/off the raw code."></form>''')

# Introduction

Jerry Sokoloski is a Canadian actor and former basketball player. At 7'4" (2.24 m) he is also Canada's tallest man! 

https://en.wikipedia.org/wiki/Jerry_Sokoloski

# Introduction

Jerry Sokoloski est un acteur canadien et ancien basketteur. À 7'4 "(2.24 m), il est également l'homme le plus grand du Canada!

https://en.wikipedia.org/wiki/Jerry_Sokoloski

![jerry](images/jerry.jpg)
*Jerry Sokoloski walking down the street in Toronto. Photo credit: STAN BEHAL/Toronto Sun.*

![jerry](images/jerry.jpg)
*Jerry Sokoloski marchant dans la rue à Toronto. Crédit photo: STAN BEHAL / Toronto Sun.*

Ok, so 7'4" seems really tall, right? What if we want to find out how Jerry - ahem - *measures up* to the rest of the Canadian population of adult men? For that task, we're going to need some more information.

Ok, donc 7'4 "semble vraiment grand, non? Et si nous voulions savoir comment Jerry - ahem - *se mesurait* au reste de la population canadienne d'hommes adultes? allez avoir besoin de plus d’informations.

# Background

We can find out just how out*stand*ing Jerry is by comparing his height to thousands of other men's heights. We'll use Python to load in some data made available by the 2016 Center for Disease Control (CDC) National Health Interview Survey.

# Contexte

Nous pouvons découvrir à quel point *se démarque* de Jerry en comparant sa taille à celle de milliers d'autres hommes. Nous utiliserons Python pour charger certaines données mises à disposition par l'enquête nationale sur les entretiens de santé menée par le Center for Disease Control (CDC) de 2016.

In [2]:
# Load in the data.
data = pd.read_csv('data/samadult.csv')

# We only want men's heights, so we'll remove the women's heights.
data = data[data.SEX != 2]

# We'll only use the variable called 'AHEIGHT' (adult height).
data = data.AHEIGHT

# This dataset uses the codes 96, 97, 98, and 99 for missing entries.
# We'll remove any missing height data.
data = data[data < 96]

print('Height data loaded with ' + str(data.index[-1]) + ' entries.')

Height data loaded with 33027 entries.


As you may have guessed from the Python output, we are going to compare Jerry's height to 33027 other men. The heights of these men were collected in the United States, but since the average height of Americans can be expected to be the same as the average height of Canadians, we will not worry about this.

Now we'll make a **histogram** of the men's height data. This is done by a process called *binning*. To *bin* the men's heights, we just count up every height within a predetermined interval. For example, we count up every height that is between 60-62 inches (remember, these are American measurements!). After this, count every height between 62-64 inches, and so on.

Comme vous l'avez peut-être deviné à la sortie de Python, nous allons comparer la taille de Jerry à 33027 autres hommes. Les tailles de ces hommes ont été recueillies aux États-Unis, mais comme on s'attend à ce que la taille moyenne des Américains soit la même que celle des Canadiens, nous ne nous en inquiétons pas.

Nous allons maintenant créer un **histogramme** des données de taille des hommes. Ceci est effectué par un processus appelé *binning*. Pour *bin* les hauteurs des hommes, nous comptons simplement chaque hauteur dans un intervalle prédéterminé. Par exemple, nous comptons chaque hauteur entre 60 et 62 pouces (rappelez-vous, ce sont des mesures américaines!). Ensuite, comptez chaque hauteur entre 62 et 64 pouces, et ainsi de suite.

In [3]:
hist_data = [data]
group_labels = ["Men's Height"]

# Change y-label scaling.

fig = ff.create_distplot(hist_data, group_labels, show_rug=False, bin_size=1)
py.iplot(fig)

The shape of this histogram may not seem very special, but it is! When a histogram has a large bump in the middle and smaller values at either end, we say that the data are **normally** distributed. When a dataset is **normally** distributed, we can do all kinds of analysis on it.

La forme de cet histogramme peut ne pas sembler très spéciale, mais c'est le cas! Lorsqu'un histogramme présente une grosse bosse au milieu et des valeurs plus petites à chaque extrémité, nous disons que les données sont **normalement** distribuées. Lorsqu'un ensemble de données est **normalement** distribué, nous pouvons effectuer toutes sortes d'analyses sur celui-ci.

Let's leave this example for a few minutes to explore a bit more about normal distributions.

Laissons cet exemple quelques minutes pour explorer un peu plus les distributions normales.

## Normal Distributions

You've probably heard the term 'bell curve' at some point. This is *the* normal distribution! It's an ideal model for any normally distributed dataset. 

Using the NumPy random module, let's generate a normal distribution by looking at the histogram of 5000 randomly generated numbers.

## Distributions normales

Vous avez probablement entendu le terme «courbe en cloche» à un moment donné. Ceci est *la* distribution normale! C'est un modèle idéal pour tout jeu de données normalement distribué.

En utilisant le module aléatoire NumPy, générons une distribution normale en consultant l'histogramme de 5 000 nombres générés aléatoirement.

In [4]:
norm = np.random.randn(5000)

hist_norm = [norm]
labels = ['Normal data']

fig = ff.create_distplot(hist_norm, labels, show_rug=False, bin_size=.25)
py.iplot(fig)

### The Mean of a Distribution

Notice the big bump in the middle of the distribution. This is telling us that most of the values are close in value to 0. We call 0 the **mean** of this distribution.

The mean of a normally distributed dataset is usually the middle value. It's the average of all of the values in the dataset. Usually, we use $\bar{x}$ as a symbol for the mean.

### *Exercise*

What do you think the mean is for the above normally distributed dataset?

### The Median and the Mode of a Distribution

There are two others numbers that can help us describe the distribution of a dataset. The first is the **median**, which is easy to find. The median is just the **middle** number of a dataset. That is, if you order all the heights from smallest to largest, the median is the value that is found in the middle of the dataset. 

Now we'll find the mean, median, and mode of the male height dataset using Python.

### La moyenne d'une distribution

Remarquez la grosse bosse au milieu de la distribution. Cela nous dit que la plupart des valeurs ont une valeur proche de 0. Nous appelons 0 la **moyenne** de cette distribution.

La moyenne d'un jeu de données normalement distribué est généralement la valeur moyenne. C'est la moyenne de toutes les valeurs de l'ensemble de données. Généralement, nous utilisons $\bar{x}$ comme symbole de la moyenne.

### *Exercice*

Selon vous, quelle est la moyenne pour l'ensemble de données normalement distribué ci-dessus?

### La médiane et le mode de distribution

Deux autres chiffres peuvent nous aider à décrire la distribution d'un jeu de données. Le premier est la **médiane**, qui est facile à trouver. La médiane est simplement le nombre **moyen** d'un jeu de données. Autrement dit, si vous commandez toutes les hauteurs, de la plus petite à la plus grande, la médiane est la valeur trouvée au milieu du jeu de données.

Nous allons maintenant trouver la moyenne, la médiane et le mode du jeu de données de hauteur des hommes en utilisant Python.

In [5]:
mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data, axis = None)

print('Mean: ' + str(mean) + '\nMedian: ' + str(median) + '\nMode: ' + str(mode))

Mean: 69.87171549924412
Median: 70.0
Mode: ModeResult(mode=array([70]), count=array([2037]))


So the mean and median are very close in value. The median and the mode have the same value, 70. The Python output from when we called the ``stats.mode()`` function says that the mode is 70, and the value of 70 occurs 2037 times in our dataset. So, the most frequently occurring height in our dataset is 70", or 5'10".

La valeur moyenne et la médiane sont donc très proches. La médiane et le mode ont la même valeur, 70. La sortie Python de lorsque nous avons appelé la fonction `` stats.mode () `` indique que le mode est 70 et que la valeur de 70 apparaît 2037 fois dans notre ensemble de données. Ainsi, la hauteur la plus fréquente dans notre jeu de données est 70 "ou 5'10".

<img src="../../images/Callysto_Notebook-Banners_Bottom_06.06.18.jpg"/>