# TP: Introduction to Python

In [1]:
%matplotlib notebook
import numpy as np                  # import a package with specified name
from sklearn import linear_model    # import whole module
from os import mkdir, rmdir, path   # import a function
from inspect import getsourcelines  # get function source code
import string
import time
import pandas as pd
import matplotlib.pyplot as plt     # for plots
import seaborn as sns               # for plots

sns.set_palette("colorblind")
color_blind_list = sns.color_palette("colorblind", 8)
plt.style.use('bmh')

In [45]:
# initialize random generator.
# see: https://numpy.org/doc/stable/reference/random/index.html#random-quick-start
rng = np.random.default_rng(17)

# 1) Introduction: Python, Numpy et Scipy

## Question 1 : 
Écrire une fonction ```nextpower``` qui calcule la première puissance de 2 supérieure ou égale à un nombre $n$ (on veillera a ce que le type de sortie soit un <font color='red'>**int**</font>, tester cela avec <font color='red'>**type**</font> par exemple).

In [3]:
def nextpower(n):
    a = 1
    while a < n :
        a*=2
    return a

In [7]:
#nextpower(15)
type(nextpower(15))

int

## Question 2 :
En partant du mot contenant toutes les lettres de l'alphabet, générer par une opération de *slicing* la chaîne de caractère ```cfilorux``` et, de deux façons différentes, la chaîne de caractère ```vxz```.

In [9]:
alphabet = string.ascii_lowercase

'cfilorux'

In [15]:
alphabet[2::3] #cfilorux
alphabet[21::2] #vxz1

'vxz'

## Question 3 :
Afficher le nombre $\pi$ avec 9 décimales après la virgule.

In [17]:
# π
round(np.pi,9)


3.141592654

## Question 4 :
Compter le nombre d’occurrences de chaque caractère dans la chaîne de caractères ```s="HelLo WorLd!!!" ```. On renverra un dictionnaire qui à chaque lettre associe son nombre d’occurrences.

In [53]:
s = "HelLo WorLd!!!"
dic = {}
for a in s :
    if a in dic :
        dic[a] += 1
    else :
        dic[a] = 1
dic

{'H': 1,
 'e': 1,
 'l': 1,
 'L': 2,
 'o': 2,
 ' ': 1,
 'W': 1,
 'r': 1,
 'd': 1,
 '!': 3}

## Question 5 :
Écrire une fonction de codage par inversion de lettres (aussi connu sous le nom de code de César): chaque lettre d'un mot est remplacée par une (et une seule) autre. On se servira de la fonction ```shuffle``` sur la chaîne de caractère contenant tout l'alphabet, ou de ```rng.permutation```

In [48]:
def coding(message, clef):
    """encodage"""
    s = string.ascii_lowercase #la clef est la permutation
    code = ""
    for a in message :
        a_ind = s.index(a)
        code += s[clef[a_ind]]
    return code

In [52]:
# test coding here.
message = "test"
clef = rng.permutation(26)
coding(message,clef)


'evse'

PS: un peu de lecture sur l'utf8: [sam & max](https://web.archive.org/web/20200214133339/http://sametmax.com/lencoding-en-python-une-bonne-fois-pour-toute)

## Question 6 :
Calculer $ 2 \displaystyle\prod_{k=1}^{\infty}\frac{4 k^2}{4k^2-1}$ efficacement. On pourra utiliser ```time``` (ou ```%timeit``` pour déterminer la rapidité de votre méthode. Proposer une version sans boucle utilisant ```Numpy```.

In [166]:
def wallis(k):
    result = 1
    for i in range (1,k) :
        result *= 4 * (i ** 2) / (4 * (i ** 2) - 1.)
    return 2*result
        
def wallis_numpy(k):
    tab = np.arange(1,k+1)
    tab = tab ** 2
    tab = 4 * tab / (4 * tab - 1)
    return 2*np.prod(tab)
    

Les commandes "magic" de type %timeit dans Jupyter peuvent aussi s'averer utiles:

In [175]:
start_time = time.time()
print(wallis(10000))
print("--- %s seconds for wallis ---" % (time.time() - start_time))
start_time = time.time()
print(wallis_numpy(10000))
print("--- %s seconds for wallis_numpy ---" % (time.time() - start_time))

3.1415141108281714
--- 0.0058825016021728516 seconds for wallis ---
3.1415141186819566
--- 0.0023260116577148438 seconds for wallis_numpy ---


## Question 7 :
Créer une fonction ```quicksort``` qui trie une liste, en remplissant les éléments manquants dans le code suivant. On testera que la fonction est correcte sur l'exemple ```quicksort([-2, 3, 5, 1, 3])```:

In [180]:
def quicksort(ll):
    """A sorting function with a pivot value."""
    if len(ll) <= 1:
        return ll
    else:
        pivot = ll[0]
        less = []
        greater = []
        for x in ll[1:]:
            if x <= pivot:
                less.append(x)
            else:
                greater.append(x)
        return quicksort(less) + [pivot] + quicksort(greater)

In [182]:
quicksort([-2, 3, 5, 1, 3])

[-2, 1, 3, 3, 5]

## Question 8 : 
Sans utiliser de boucles ```for / while ```:
créer une matrice $M \in \mathbb{R}^{5\times6}$ aléatoire à coefficients uniformes dans $[-1, 1]$, puis remplacer une colonne sur deux par sa valeur moins le double de la colonne suivante. Remplacer enfin les valeurs négatives par 0 en utilisant un masque binaire.

In [None]:
np.set_printoptions(precision=3) # makes printing matrices easier on the eyes.


In [None]:
# la matrice ici.

## Question 9 :
Créer une matrice $M \in \mathbb{R}^{5\times 20}$ aléatoire à coefficients uniformes dans $[-1, 1]$. Tester que $G=M^\top M$ est symétrique et que ses valeurs propres sont positives (on parle de alors de matrice définie positive). Quel est le rang de $G$?
  
**Aide**: on utilisera par exemple ```np.allclose, np.logical_not, np.all``` pour les tests numériques.

In [None]:
#matrice

In [None]:
#calcul du rang

# 2)  Introduction: Pandas, Matplotlib, etc.

## Question 1 :
Chargement de la base de données. Détecter et dénombrer le nombre de lignes ayant des valeurs manquantes.

In [None]:
url = u'https://archive.ics.uci.edu/ml/machine-learning-databases/00235/household_power_consumption.zip'

In [None]:
# Detect and count lines with missing values.
na_values = ['?', '']
fields = ['Date', 'Time', 'Global_active_power']

# Whole columns names:
# Date;Time;Global_active_power;Global_reactive_power;Voltage;Global_intensity;Sub_metering_1;Sub_metering_2;Sub_metering_3

df = pd.read_csv(url, sep=';', nrows=200000, na_values=na_values, usecols=fields,)

In [None]:
df.head()

## Question 2 :
Supprimer toutes les lignes avec des valeurs manquantes.

## Question 3 :
 Utiliser ```to_datetime``` et ```set_index``` pour indexer le Data Frame (on prendra garde au format des dates internationales qui diffère du format français).


## Question 4 :
Afficher le graphique des moyennes journalières entre le 1er janvier et le 30 avril 2007. Proposer une cause expliquant la consommation fin février et début avril. On pourra utiliser en plus de ```matplotlib``` le package ```seaborn``` pour améliorer le rendu visuel.

## Question 5 : 
Charger les données avec ```pandas```, et ne garder que les colonnes ```DATE``` et ```TG```.
Diviser par 10 la colonne TG pour obtenir des températures en degrés Celsius.
Traiter les éléments de température aberrants comme des ```NaN```.

## Question 6 :
Créer un DataFrame **pandas** des températures journalières entre le 1er janvier et le 30 avril 2007. Afficher sur un même graphique ces températures et la séries *Global_active_power*.

## Question 7 :
On considère maintenant le jeu de données ```20080421_20160927-PA13_auto.csv```.
Proposer une visualisation de la pollution pour l'ozone sur la période d'étude.

In [None]:
!wget -OMDIDATA.zip https://partage.imt.fr/index.php/s/5NGHoNZtXKzGqGK/download
!unzip MDIDATA.zip

In [None]:
my_file ='MDI220_TP1_202223/20080421_20160927-PA13_auto.csv'

## Question 8 :
 Proposer une visualisation de la pollution la plus critique par année pour l'ozone et pour pour le
dioxyde d'azote.

## Question 9 :
Donner une représentation par mois de la pollution. Quel est le mois le plus pollué pour l'ozone, pour le dioxyde de souffre?

In [None]:
# study month-wide