![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banner_Top_06.06.18.jpg?raw=true)

# Working With Open Data Part 3 - The Lottery

## Introduction
In this notebook we will be demonstrating some more complex data manipulation skills that will prove useful when working with open data. In this case, we will be using a data set of the historical winning lottery numbers. 



## The Data Set

We'll be using historical Lotto 649 data that is hosted on the Lotto 649 website [at this link](http://www.lotto649stats.com/recent_winning.html). Should you choose to follow that link, you'll find yourself greeted by a table that looks similar to the one below 

![winning lottery numbers](images/lotto.png)

Which is fantastic, there's all the data right there. However, the question remains: how will we extract that data from the website into a format that will work well for us? Another catch, which isn't obvious from the screen shot is that this is an incomplete table - there are several more tables for earlier years available. As this is technically open data, we're free to go through that website (either manually or with a computer) and copy that data down ourselves. However, that might take a lot more time than it's worth, so we should be hesitant to start our analysis from here. 

Luckily, it turns out that someone else has already gone through the trouble of capturing the last 30 or so years worth of data and putting it into a form that is much easier to work with. This data is available [at this link](https://www.kaggle.com/datascienceai/lottery-dataset). However, this is an example of "semi-open data" in that you're free to download it without restriction, but you have to register for the website in order to access it. Luckily, we've already gone through that trouble for you and we're simply loading a local copy we've saved separately. Below are a few lines of code that should be starting to look familiar if you worked through the previous notebook. 

# Travailler avec des données ouvertes - Partie 3 - La loterie

## Introduction
Dans ce cahier, nous démontrerons des compétences plus complexes en matière de manipulation de données qui s'avéreront utiles lorsque vous travaillerez avec des données ouvertes. Dans ce cas, nous utiliserons un ensemble de données des numéros de loterie gagnants historiques.



## L'ensemble de données

Nous utiliserons les données historiques du Lotto 649 hébergées sur le site Web du Lotto 649 [à ce lien](http://www.lotto649stats.com/recent_winning.html). Si vous choisissez de suivre ce lien, vous serez accueilli par une table semblable à celle ci-dessous.

![numéros de loterie gagnants](images/lotto.png)

Ce qui est fantastique, il y a toutes les données ici. Cependant, la question demeure: comment allons-nous extraire ces données du site Web dans un format qui fonctionnera bien pour nous? Un autre problème, qui ne ressort pas de la capture d'écran, est qu'il s'agit d'un tableau incomplet. Plusieurs autres tableaux pour les années précédentes sont disponibles. S'agissant de données techniquement ouvertes, nous sommes libres de consulter ce site Web (manuellement ou avec un ordinateur) et de les copier nous-mêmes. Cependant, cela peut prendre beaucoup plus de temps que cela ne vaut la peine, nous devrions donc hésiter à commencer notre analyse à partir d’ici.

Heureusement, il s'avère que quelqu'un d'autre a déjà eu la peine de capturer des données d'une trentaine d'années et de les mettre sous une forme beaucoup plus facile à utiliser. Ces données sont disponibles [sur ce lien](https://www.kaggle.com/datascienceai/lottery-dataset). Cependant, il s'agit d'un exemple de "données semi-ouvertes" dans la mesure où vous êtes libre de les télécharger sans restriction, mais vous devez vous inscrire sur le site Web pour pouvoir y accéder. Heureusement, nous avons déjà eu ce problème à votre place et nous chargeons simplement une copie locale que nous avons sauvegardée séparément. Vous trouverez ci-dessous quelques lignes de code qui devraient commencer à vous paraître familières si vous avez travaillé avec le bloc-notes précédent.

In [None]:
# Import our data manipulation library
import pandas as pd 
import matplotlib.pyplot as plt
# So any plots we want will appear in the notebook
%matplotlib inline

In [None]:
# Here we're loading the data set, here the 'pd' prefix tells us that 'read_csv' is a method
# coming from the pandas library
lottery = pd.read_csv("data/649.csv")

# This is to show us how many rows in our table we will have, 'len' stands for length
print('Total number of lotteries played:', len(lottery))

# This is to just look at the first five rows of the data set and keep the 
# notebook a little cleaner. 
lottery.head()

The above table is the first five rows of our table which has entries for 3665 separate lotteries. That's a lot of prizes! A natural first question to ask of this data is "are some numbers more popular than others?". If there is a bias for some numbers over others, we'd probably like to play those numbers instead! 

A good way to try that is by simply counting how many times each number appears. For example, how many 1s, 2s, 3s ... etc have been drawn throughout the life of this data set. Let's walk through the steps that we have to go through in order to do that. First, let's make a new data table of just the numbers data. 

Le tableau ci-dessus est constitué des cinq premières lignes de notre tableau, qui contient des entrées pour 3665 loteries distinctes. Cela fait beaucoup de prix! Une première question naturelle à poser à ces données est la suivante: "Certains chiffres sont-ils plus populaires que d’autres?". S'il y a un biais pour certains chiffres par rapport à d'autres, nous aimerions probablement jouer ces chiffres à la place!

Un bon moyen d'essayer est de compter simplement combien de fois chaque nombre apparaît. Par exemple, combien de 1, 2, 3, etc. ont été dessinés tout au long de la vie de cet ensemble de données. Passons en revue les étapes que nous devons suivre pour le faire. Commençons par créer un nouveau tableau de données composé uniquement de données numériques.

In [None]:
# First we define a list of the column names (seen in the table above) that we are interested in in order
# to count up their entries. 
cols = ['NUMBER DRAWN 1','NUMBER DRAWN 2','NUMBER DRAWN 3',
        'NUMBER DRAWN 4','NUMBER DRAWN 5','NUMBER DRAWN 6']

# By passing the list we've defined above, we return only those columns. We then assign those columns
# to a new dataframe called 'numbers'
numbers = lottery[cols]

numbers.head()

Now that we've isolated just the numbers we're interested in, it's a simple matter of counting up all the occurrences of each number. However, before we can do that, we have to first introduce another piece of Python/pandas functionality: the `apply()` function. 

---
### Digression: Understanding Apply()

Apply is a function within python/pandas which allows you to "apply" another function or transformation to a large amount of data easily at once. In our case, think of it as a tool that we're using to manipulate all the data in our frame at once. Below we work through an example of how apply works by showing how we can use it to do something deceptively simple: add one to each entry of a data frame.  

Maintenant que nous n’avons isolé que les chiffres qui nous intéressent, c’est une simple question de compter toutes les occurrences de chaque nombre. Cependant, avant de pouvoir le faire, nous devons d'abord introduire un autre élément de fonctionnalité Python / pandas: la fonction `apply ()`.

---
### Digression: Comprendre Apply ()

Apply est une fonction au sein de python / pandas qui vous permet d’appliquer facilement une autre fonction ou transformation à une grande quantité de données. Dans notre cas, considérez-le comme un outil que nous utilisons pour manipuler toutes les données de notre cadre à la fois. Ci-dessous, nous présentons un exemple de la manière dont apply fonctionne en montrant comment nous pouvons l’utiliser pour faire quelque chose d’une simplicité trompeuse: ajoutez un à chaque entrée d’un bloc de données.

In [None]:
'''
Here we're creating a new dataframe and filling it with zeroes. 

The first argument is the values to fill (here just zero everywhere) 
index is a list of labels for the row indexes, here just zero through five,
and columns is the column names, again zero through five 
'''

$example = pd.DataFrame(0, index=[0,1,2,3,4,5], columns=[0,1,2,3,4,5])
example$

In [None]:
'''
Ici, nous créons un nouveau cadre de données et le remplissons de zéros.

Le premier argument est les valeurs à remplir (ici juste zéro partout)
index est une liste d'étiquettes pour les index de lignes, ici juste entre zéro et cinq,
et les colonnes sont les noms de colonne, encore une fois zéro à cinq
'''

example = pd.DataFrame(0, index=[0,1,2,3,4,5], columns=[0,1,2,3,4,5])
example

In [None]:
'''
Now we're going through defining a function, a process which we need to introduce. 

1. Here the 'def' keyword can be thought of to mean "define"

2. 'add_one' is the name we've given to the function that we're defining. This choice is 
    arbitrary and we could have named it anything we wanted. However, it's often helpful 
    to name a function in a way that is meaningful to help describe the purpose of the function.
    
3. 'x' in parenthesis is the name we're assigning to the variable that our function will be 
   taking as input 
   
4. output is the name that we're giving to a variable internal to our function to make calculations

5. return is the keyword that tells our function to return that value once it's been called

6. Notice the consistent indentation after 'def', this is how python knows that the lines of code 
   underneath def are a part of the function 


'''

# This function will take a number x as input, and return that value plus one 
def add_one(x):
    output = x + 1
    return output

# Here we're testing it for expected behavior: Does it indeed 
# return the original number plus one? 
add_one(10)

In [None]:
'''
Nous allons maintenant définir une fonction, un processus que nous devons introduire.

1. Ici, le mot clé 'def' peut signifier "définir"

2. 'add_one' est le nom que nous avons donné à la fonction que nous définissons. Ce choix est
    arbitraire et nous aurions pu nommer tout ce que nous voulions. Cependant, c'est souvent utile
    nommer une fonction de manière significative pour aider à décrire le but de la fonction.
    
3. 'x' entre parenthèses est le nom que nous attribuons à la variable que notre fonction sera
   en prenant comme entrée
   
4. output est le nom que nous donnons à une variable interne à notre fonction pour effectuer des calculs

5. return est le mot clé qui indique à notre fonction de renvoyer cette valeur une fois qu'elle a été appelée

6. Notez l’indentation cohérente après 'def', c’est ainsi que python sait que les lignes de code
   dessous def sont une partie de la fonction


'''

# Cette fonction prendra un nombre x en entrée et renverra cette valeur plus un
def add_one(x):
    output = x + 1
    return output

# Ici, nous testons le comportement attendu: le fait-il
# renvoyer le numéro d'origine plus un?
add_one(10)

Now that we've defined a "test" dataframe and a function which will add one to any input, we will demonstrate at a high level what the `apply()` method will do when it is used on a dataframe. 

Maintenant que nous avons défini un cadre de données "test" et une fonction qui en ajoutera une à toute entrée, nous allons démontrer à un niveau élevé ce que la méthode `apply ()` fera lorsqu'elle sera utilisée sur un cadre de données.

In [None]:
'''
Notice how we're not supplying any arguments to our add_one function, that is because 
the arguments will be supplied from the contents of the dataframe 'example' itself!
'''
example.apply(add_one)

In [None]:
'''
Notez que nous ne fournissons pas d’arguments à notre fonction add _, c’est que
les arguments seront fournis à partir du contenu du dataframe 'example' lui-même!
'''
example.apply(add_one)

Notice how we've added one to every entry of our dataframe in one short line of code! For our purposes, `apply()` can be thought of as a method that 'applies' a function to our data frame. The functionality of `apply()` extends much beyond this, but for our purposes this should be sufficient to understand the next the next sections.


---


### Back to Business

Now that we see how to use a function on the data within our dataframe using `apply()`, we are now free to use it in order to count how many times each number has appeared within the lottery. In this case we're going to use an internal pandas function, which can be thought of as an Excel function like `SUM`, `AVERAGE`, `MEAN` etc. In our case, we're going to use `pd.value_counts`. Here the `pd` prefix specifies that this is a pandas function, and `value_counts` is the name of the function that is useful for us. What `value_counts` does is return a separate data frame object of the counts of all unique values. Let's see how to use it with apply to count the frequencies of lottery numbers below.

Notez que nous avons ajouté un à chaque entrée de notre base de données dans une seule ligne de code! Pour nos besoins, `apply ()` peut être considéré comme une méthode qui «applique» une fonction à notre bloc de données. La fonctionnalité de `apply ()` va bien au-delà, mais cela devrait suffire à comprendre les prochaines sections.


---


### De retour aux affaires

Maintenant que nous voyons comment utiliser une fonction sur les données de notre cadre de données en utilisant `apply ()`, nous sommes maintenant libres de l'utiliser pour compter le nombre de fois où chaque numéro est apparu dans la loterie. Dans ce cas, nous allons utiliser une fonction interne aux pandas, qui peut être considérée comme une fonction Excel comme `SUM`,` AVERAGE`, `MEAN` etc. Dans notre cas, nous allons utiliser` pd. La valeur _compte`. Ici, le préfixe `pd` spécifie qu'il s'agit d'une fonction pandas, et` valeur_ compte` est le nom de la fonction qui nous est utile. `Value_counts` renvoie un objet de bloc de données distinct contenant le nombre de toutes les valeurs uniques. Voyons comment l'utiliser avec apply pour compter les fréquences des numéros de loterie ci-dessous.

In [None]:
"""
Here the function we're passing to "apply" is pd.value_counts. This is a pandas function
that counts the occurences of unique entries, in this case in the data frame. This is the perfect function
to count how many times each number has been drawn in the lottery!
"""

numbers.apply(pd.value_counts)

In [None]:
"""
Ici, la fonction que nous passons à "apply" est pd.value _compte. C'est une fonction des pandas
qui compte les occurrences d'entrées uniques, dans ce cas dans le cadre de données. C'est la fonction parfaite
compter combien de fois chaque numéro a été tiré à la loterie!
"""

numbers.apply(pd.value_counts)

Where in the table above we can see how many times each number has been counted, and in which position!  This may also represent a good example of where perfectly good data may appear to be misleading. Why are seeing a lot of those `NaN` values appearing again? Well - the answer is quite simple. As these values had been sorted in ascending order in the columns, we're simply seeing that certain numbers haven't, or can't, appear in certain positions. For example, as these numbers are sorted, the number 1-5 can _never_ be present in the 6$^{\text{th}}$ column, and that is precisely what we are seeing.


Now, a table of data is fantastic, but it's much easier to communicate something like frequency counts in terms of a histogram, or bar chart. However, we first have to add up the number of times each number was counted! If we were doing this in Excel, such a thing would be quite straight forward; simply type `SUM`, drag a selection of rows, then drag that cell down the side. Easy! Here, we're going to see that it's just as easy, possibly even easier using pandas

Où dans le tableau ci-dessus, nous pouvons voir combien de fois chaque nombre a été compté et dans quelle position! Cela peut également constituer un bon exemple de cas dans lesquels des données parfaitement correctes peuvent sembler trompeuses. Pourquoi voyons-nous réapparaître beaucoup de ces valeurs `NaN`? Eh bien, la réponse est assez simple. Comme ces valeurs ont été triées par ordre croissant dans les colonnes, nous voyons simplement que certains nombres n'apparaissent pas ou ne peuvent pas apparaître à certaines positions. Par exemple, lorsque ces nombres sont triés, le nombre 1-5 ne peut _jamais_ être présent dans la colonne 6$^{\text{th}}$, et c’est précisément ce que nous observons.


Maintenant, un tableau de données est fantastique, mais il est beaucoup plus facile de communiquer quelque chose comme le comptage de fréquence sous forme d'histogramme ou d'histogramme. Cependant, nous devons d'abord additionner le nombre de fois que chaque nombre a été compté! Si nous faisions cela dans Excel, une telle chose serait assez simple; tapez simplement `SUM`, faites glisser une sélection de lignes, puis faites glisser cette cellule sur le côté. Facile! Ici, nous allons voir que c'est tout aussi facile, voire même plus facile, d'utiliser des pandas

In [None]:
'''
Here we first create a new data frame 'counts' which is the dataframe we created before

We then create a new  "sum_column" in our data frame, and filling it with the sum of each 
row in our data frame. The sum of each row is specified by the 'axis=1' argument.
'''

counts = numbers.apply(pd.value_counts)

# Create a new column in our counts data frame called "sum_column"
counts["sum_column"] = counts.sum(axis=1)

counts

In [None]:
'''
Ici, nous créons d’abord un nouveau cadre de données «compte», qui est le cadre de données créé précédemment.

Nous créons ensuite une nouvelle "somme _colonne" dans notre bloc de données et nous la remplissons avec la somme de chaque
ligne dans notre cadre de données. La somme de chaque ligne est spécifiée par l'argument 'axis = 1'.
'''

counts = numbers.apply(pd.value_counts)

# Créer une nouvelle colonne dans notre cadre de données de comptes appelé "somme_ colonne"
counts["sum_column"] = counts.sum(axis=1)

counts

Where we see that the above action has added a new column that represents the sum of the data contained within each row. Notice how the `NaN` entries did not count towards the numeric total in our sum column (this is easiest to see in the first or last rows). Now that we have a convenient column, let's finally visualize the amount of counts we have. 

Où nous voyons que l'action ci-dessus a ajouté une nouvelle colonne qui représente la somme des données contenues dans chaque ligne. Notez que les entrées `NaN` ne comptent pas dans le total numérique de notre colonne somme (ceci est plus facile à voir dans la première ou la dernière ligne). Maintenant que nous avons une colonne commode, visualisons enfin le nombre de comptes que nous avons.

In [None]:
'''
Here we're simply making a plot of the number frequencies that we counted in the previous step.

'''

counts['sum_column'].plot(kind = 'bar', figsize = (16,8))
plt.xlabel("Number Drawn", size = 16)
plt.ylabel("Counts", size = 16)
plt.title("Number Frequencies of Lotto 649", size = 18)

In [None]:
'''
Ici, nous faisons simplement un graphique des fréquences numériques que nous avons comptées à l'étape précédente.

'''

counts['sum_column'].plot(kind = 'bar', figsize = (16,8))
plt.xlabel("Number Drawn", size = 16)
plt.ylabel("Counts", size = 16)
plt.title("Number Frequencies of Lotto 649", size = 18)

From the above figure, it's clear that there certainly isn't a _uniform_ distribution of lottery numbers. Of course, the question remains; are any numbers more _likely_ to be drawn in the lottery than others? If this was the case, certainly it would be ideal to choose those numbers instead. 

Now, in the scope of the entire notebook, it certainly appears that we did a lot of work to create the graph above. However, that is quite the contrary! In the cell below we've repeated all the code necessary to go from loading the data set to creating the number frequency histogram of Lotto 649. In fact, you'll find that ignoring white space and comments, it is but ten lines of code to go from loading the data to creating a formatted graph of wrangled data.  



La figure ci-dessus montre clairement qu’il n’ya certainement pas de distribution _uniforme_ des numéros de loterie. Bien sûr, la question demeure; Y a-t-il des numéros plus _susceptibles_ d'être tirés à la loterie que d'autres? Si tel était le cas, il serait certainement idéal de choisir ces chiffres à la place.

Maintenant, dans le cadre de tout le cahier, il apparaît certainement que nous avons beaucoup travaillé pour créer le graphique ci-dessus. Cependant, c'est tout le contraire! Dans la cellule ci-dessous, nous avons répété tout le code nécessaire pour passer du chargement du jeu de données à la création de l'histogramme de fréquence numérique de Lotto 649. En fait, vous constaterez qu'en ignorant les espaces et les commentaires, il ne s'agit que de dix lignes de code. passer du chargement des données à la création d’un graphe formaté de données enchevêtrées.

In [None]:
# Below is all the code required to create the histogram of Lotto 649 number draws 
# Libraries
import pandas as pd 
import matplotlib.pyplot as plt
%matplotlib inline

# Data loading/wrangling
lottery = pd.read_csv("data/649.csv")

cols = ['NUMBER DRAWN 1','NUMBER DRAWN 2','NUMBER DRAWN 3',
        'NUMBER DRAWN 4','NUMBER DRAWN 5','NUMBER DRAWN 6']
numbers = lottery[cols]

counts = numbers.apply(pd.value_counts)
counts["sum_column"] = counts.sum(axis=1)

# To create the plot again remove the '#' and trailing space from the four lines
# below. 

# counts['sum_column'].plot(kind = 'bar', figsize = (16,8))
# plt.xlabel("Number Drawn", size = 16)
# plt.ylabel("Counts", size = 16)
# plt.title("Number Frequencies of Lotto 649", size = 18)

## Conclusion

Hopefully this notebook has demystified how to incorporate open data within a Jupyter notebook. We have demonstrated the relative simplicity of loading data into an easy to work with data frame, then creating and visualizing summary statistics directly using that data frame. Of course, this is but the beginning of any analysis. If you were in fact interested in understanding any "non-random anomalies" you would need to dive a little deeper into this data set. Perhaps perform a test of randomness such a chi-squared or the Kolmogorov-Smirnov test. Perhaps you would try to find any numbers that appear to be "less random" than the others and use those as favorable picks in your own lottery picks. Certainly, it would be surprising if the lottery was subject to some form of bias, however discovering those possibilities is what working with open data is all about.


---

## Bonus

Below is a function called `lot` that will generate random lottery numbers for you. If you're feeling adventurous, try and create your own (simulated) data set of lottery numbers, or simply run the cell multiple times to generate as many combinations of potential lottery numbers as you'd like. 

## Conclusion

Espérons que ce bloc-notes ait démystifié la façon d'intégrer les données ouvertes dans un bloc-notes Jupyter. Nous avons démontré la simplicité relative du chargement de données dans un bloc de données facile à utiliser, puis la création et la visualisation de statistiques récapitulatives directement à l'aide de ce bloc de données. Bien sûr, ce n’est que le début de toute analyse. Si vous souhaitez réellement comprendre les "anomalies non aléatoires", vous devrez vous plonger un peu plus dans cet ensemble de données. Peut-être effectuer un test aléatoire tel que le chi-carré ou le test de Kolmogorov-Smirnov. Peut-être pourriez-vous essayer de trouver des numéros qui semblent être "moins aléatoires" que les autres et les utiliser comme choix favorables dans vos propres choix de loterie. Certes, il serait surprenant que la loterie soit sujette à une forme de partialité. Cependant, découvrir ces possibilités, c’est la raison pour laquelle travailler avec des données ouvertes.


---

## Prime

Vous trouverez ci-dessous une fonction appelée `lot` qui générera des numéros de loterie aléatoires pour vous. Si vous vous sentez aventureux, essayez de créer votre propre jeu de données (simulé) de numéros de loterie ou exécutez simplement la cellule plusieurs fois pour générer autant de combinaisons de numéros de loterie potentiels que vous le souhaitez.

In [None]:
import random
from IPython.display import clear_output
def lot(sort = True):
    # Create a list (the [] brackets) of your firstrandom lottery number
    choice = [float(random.randint(1,49))]
    
    # This is an infinite loop: be careful!
    while True:
        # Try to add a new number to our list provided it isn't already in 
        # our list
        new = float(random.randint(1,49))
        if new not in choice:
            # If it's a number we don't already have, add it to the list
            choice.append(new)
        
        # If we have 6 numbers, we can exit our infinite loop by returning
        # our lottery choices
        if len(choice) == 6:
            if sort:
                return sorted(choice)
            else:
                return choice

# This actually calls our function
lot()



![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banners_Bottom_06.06.18.jpg?raw=true)