In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/transactions.csv")
df.drop("Unnamed: 0", axis=1, inplace=True)

# Basic data types - types de données intégrés
Ceci ne couvre pas tous les types de données intégrés dans Python. Ce n'est pas non plus un cours exhaustif sur les listes et les dictionnaires. Consultez la documentation de python pour tous les types de données intégrés. [Python built-in types](https://docs.python.org/3/library/functions.html)

__Format:__ nous présenterons quelques types de données de base et couvrirons certains attributs de base de ces types de données. Ensuite, les types de données seront utilisés dans des opérations d'agrégation, de tri ou de recherche de données dans une grande collection.

## Listes et dictionaires

Les listes et les dictionnaires sont des types de données intégrés dans Python. Ils sont utilisés de manière intensive pour collecter, regrouper et agréger des données. Ils peuvent être utilisés explicitement, c'est-à-dire que vous les appelez et effectuez une opération ou une méthode que vous utilisez en utilisant des listes ou des dictionnaires.

### Listes

In [2]:
# making a list of words
a_list_words = ["ham", "spam", "foo", "bar"]

# making a list of numbers
a_list_nums = [1, 2, 3, 4]

# printing a list
a_list_words

['ham', 'spam', 'foo', 'bar']

In [3]:
# adding things to the end of a list
# append to the end
a_list_words.append("toast")

a_list_words

['ham', 'spam', 'foo', 'bar', 'toast']

In [4]:
# adding things to a specific location in the list
# this is an expensive operation look for ways to 
# achieve the same goal withoht calling insert
# add an object to the head of the list
a_list_words.insert(0, "jelly")
a_list_words

['jelly', 'ham', 'spam', 'foo', 'bar', 'toast']

In [5]:
# removing things from a list
# the pop method can be used to remove
# an item at a specific location
# remove the first item
a_list_words.pop(0)
# remove the last item
a_list_words.pop(-1)


a_list_words

['ham', 'spam', 'foo', 'bar']

In [6]:
# removing things from a list
# use remove to delete a specific item
a_list_words.remove("ham")

a_list_words

['spam', 'foo', 'bar']

### Finding data with lists

Les listes ( et les dictionnaires) sont couramment utilisées comme arguments d'une fonction. Par exemple, dans pandas, une liste de valeurs peut être utilisée comme termes de recherche pour les valeurs d'un cadre de données, exemple ci-dessous.

1. [pandas dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)
2. [filtrer-un-dataframe](https://moncoachdata.com/blog/filtrer-un-dataframe-pandas/)

In [7]:
# create a list of breads of interest
breads_of_interest = ["BAGUETTE", "PAIN AU CHOCOLAT"]

# pandas is our basic data science tool.
# the transactions.csv was loaded into a 
# dataframe at the start of the notebook
# search the data frame for all transactions
# of breads_of_interest by searching the article
# column of the data frame

# documentation of pandas dataframe

# !! Note: we are using df.head() to show the results
# this is just the first few lines of the data.
# un this cell without the .head() extension

# the data frame
df.head()

Unnamed: 0,date,time,ticket_number,article,Quantity,unit_price
0,2021-01-02,08:38,150040.0,BAGUETTE,1.0,"0,90 €"
1,2021-01-02,08:38,150040.0,PAIN AU CHOCOLAT,3.0,"1,20 €"
2,2021-01-02,09:14,150041.0,PAIN AU CHOCOLAT,2.0,"1,20 €"
3,2021-01-02,09:14,150041.0,PAIN,1.0,"1,15 €"
4,2021-01-02,09:25,150042.0,TRADITIONAL BAGUETTE,5.0,"1,20 €"


In [8]:
# breads_of_interest transactions
df[df.article.isin(breads_of_interest)].head()

Unnamed: 0,date,time,ticket_number,article,Quantity,unit_price
0,2021-01-02,08:38,150040.0,BAGUETTE,1.0,"0,90 €"
1,2021-01-02,08:38,150040.0,PAIN AU CHOCOLAT,3.0,"1,20 €"
2,2021-01-02,09:14,150041.0,PAIN AU CHOCOLAT,2.0,"1,20 €"
5,2021-01-02,09:25,150043.0,BAGUETTE,2.0,"0,90 €"
10,2021-01-02,09:37,150046.0,PAIN AU CHOCOLAT,6.0,"1,20 €"


In [9]:
# from there it is a little easier to figure out how many of each were sold
df[df.article.isin(breads_of_interest)].groupby("article").Quantity.sum()

article
BAGUETTE            22053.0
PAIN AU CHOCOLAT    25236.0
Name: Quantity, dtype: float64