# Les équivalences SAS / Python

Python n'est pas un logiciel de traitement de données, il faut donc utiliser des packages pour travailler sur des données en python.

Dans notre cas, nous allons nous concentrer sur 3 packages :

- Pandas pour la manipulation de données
- Scikit-learn pour les modèles de machine learning
- Statsmodels pour les modèles statistiques

In [71]:
# attention cette cellule doit être lancée au début de chaque session
import pandas as pd
import numpy as np

## L'équivalent d'une table <--> le DataFrame de pandas

En python, vos tables vont être stockées dans des DataFrame

Avant d'importer des données, il faut apprendre ce qu'est un DataFrame

# Les Series de Pandas

- Les Series sont indexées, c'est leur avantage sur les arrays de NumPy
- On peut utiliser les fonctions `.values` et `.index` pour voir les différentes parties de chaque Series
- On définit une Series par `pd.Series([,], index=['','',])`
- On peut appeler un élément avec `ma_serie['France']`
- On peut aussi faire des conditions :
```python
ma_serie[ma_serie>5000000]
```
```
'France' in ma_serie
```
- Les objets Series peuvent être transformés en dictionnaires en utilisant :
`.to_dict()`

In [72]:
ser1 = pd.Series([3,5,7,3,2],index=["lundi","mardi", "mercredi", "jeudi", "vendredi"])

In [73]:
ser1

lundi       3
mardi       5
mercredi    7
jeudi       3
vendredi    2
dtype: int64

**Exercice :**
    
Définir un objet Series comprenant le nombre d'élèves par académie de 5 académies puis afficher les acadéùies avec plus de 100'000 élèves.


In [75]:
ser_acad = pd.Series(___)

In [76]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(ser_acad) == pd.Series
print("Bien créée !")

Bien créée !


In [None]:
ser_acad_100k = ___

In [11]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert ser_acad_100k.min() >= 100000
print("Bravo !")

Bravo !


# D'autres opérations sur les objets series

- Pour définir le nom de la Series, on utilise `.name`
- Pour définir le titre de la colonne des observations, on utilise `.index.name`

**Exercice :**
    
Définir les noms de l’objet et de la colonne des pays pour la Series précédente


In [12]:
ser_acad.name = "populations"
ser_acad.index.name = "académie"
ser_acad

pays
France      65
USA        350
Chine     1200
Suisse       8
Name: populations, dtype: int64

# Les données manquantes

Dans pandas, les données manquantes sont identifiés avec les fonctions de Numpy (`np.nan`). On a d'autres fonctions telles que :

In [13]:
serie_manquant = pd.Series([2,np.nan,4],index=['a','b','c'])

In [14]:
serie_manquant.mean()

3.0

In [15]:
pd.isna(pd.Series([2,np.nan,4],index=['a','b','c']))

a    False
b     True
c    False
dtype: bool

In [16]:
pd.notna(pd.Series([2,np.nan,4],index=['a','b','c']))

a     True
b    False
c     True
dtype: bool

# Les dates avec pandas

- Python possède un module datetime qui permet de gérer facilement des dates
- Pandas permet d'appliquer les opérations sur les dates aux Series et aux DataFrame
- Le format es dates Python est `YYYY-MM-DD HH:MM:SS`

- On peut générer des dates avec la fonction `pd.date_range()` avec différente fréquences `freq=`
- On peut utiliser ces dates comme index dans un DataFrame ou dans un objet Series
- On peut changer la fréquence en utilisant `.asfreq()`
- Pour transformer une chaine de caractère en date, on utilise `pd.to_datetime()` avec l’option `dayfirst=True` si on est dans le cas français
-On pourra aussi spécifier un format pour accélérer le processus `%Y%m%d`

**Exercice :**

Créez un objet Series et ajoutez des dates partant du 3 octobre 2017 par jour jusqu’à aujourd’hui. Afficher le résultat dans un graphique (on utilisera la méthode `.plot()`

*Indice :* Utilisez les informations ci-dessus

On utilisera :
```
pd.date_range(___)
np.random.randn(___)
pd.Series(___)
```

In [8]:
import datetime
dates = ___
valeurs = ___

In [6]:
serie_temp = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert len(serie_temp) == len(dates)
print("Bravo !")

# Le DataFrame 

- Les DataFrame sont des objets très souples pouvant être construits de différentes façon
- On peut les construire en récupérant des données copier / coller, où directement sur Internet, ou en entrant les valeurs manuellement


- Les DataFrame se rapprochent des dictionnaires et on peut construire ces objets en utilisant `DataFrame(dico)`
- De nombreux détails sur la création des DataFrame se trouve sur ce site :

<http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.html>


# Construction de DataFrame

On peut simplement construire un DataFrame avec le classe pd.DataFrame() à partir de différentes structures :

In [11]:
frame1=pd.DataFrame(np.random.randn(10).reshape(5,2),
             index=["obs_"+ str(i) for i in range(5)],
             columns=["col_"+ str(i) for i in range(2)])
frame1

Unnamed: 0,col_0,col_1
obs_0,0.094993,-0.732343
obs_1,-0.919855,-0.269825
obs_2,-0.351539,-0.160396
obs_3,-0.5011,0.422774
obs_4,0.071824,-0.447178


# Opérations sur les DataFrame

On peut afficher le nom des colonnes :

In [25]:
print(frame1.columns)

Index(['col_0', 'col_1'], dtype='object')


On peut accéder à une colonne avec :
- `frame1.col_0` : attention au cas de nom de colonnes avec des espaces...
- `frame1['col_0']`

On peut accéder à une cellule avec :
- `frame1.loc['obs1','col_0']` : on utilise les index et le nom des colonnes
- `frame1.iloc[1,0]` : on utilise les positions dans le DataFrame


# De SAS à python, l'importation des données

Quel que soit le type de données, il y a une fonctin en python pour charger les données dans un DataFrame

## Le chargement des données

Quel que soit le type de fichier, on utilise pandas.

Pandas permet de charger de nombreux fichiers avec :
    `pd.read_...()` en remplaçant les ... par le type de fichier.

## Importation de données avec Pandas

Quel que soit le type de fichier, Pandas possède une fonction :
```python
frame=pd.read_...('chemin_du_fichier/nom_du_fichier',...)
```
Pour écrire un DataFrame dans un fichier, on utilise :
```python
frame.to_...('chemin_du_fichier/nom_du_fichier',...)
```

**Exercice :**
    
Importer un fichier `.csv` avec `pd.read_csv()`. On utilisera le fichier "./data/airbnb.csv"

In [78]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert airbnb["price"].dtype == object
print("Bien importé !")

Bien importé !


Importer un fichier `.csv` qui a comme séparateur `;`, le nom du fichier est `base-dpt.csv`

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(base_dpt) == pd.DataFrame
print("Bien importé !")

## HTML
On utilise `pd.read_html(url)`. Cet fonction est basée sur les packages `beautifulsoup` et `html5lib`

Cette fonction renvoie une liste de DataFrame qui représentent tous les DataFrame de la page. On ira ensuite chercher l'élément qui nous intéresse avec `frame_list[0]`

**Exercice :**
    
Importez un tableau en html depuis la page <https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/> 

In [38]:
frame_bank = ___

In [39]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(frame_bank) == pd.DataFrame
print("Bien importé !")

Bien importé !


# Importer depuis Excel

On a deux approches pour Excel :
- On peut utiliser `pd.read_excel()`
- On peut utiliser la classe `pd.ExcelFile()`

Dans ce cas, on utilise :
```python
xlsfile=pd.ExcelFile('fichier.xlsx')
xlsfile.parse('Sheet1')
```

**Exercice :** 
    
Importez un fichier Excel avec les deux approches, on utilisera : `credit2.xlsx` et `ville.xls`

1- avec `pd.read_excel()` pour le fichier `credit2.xlsx`

In [80]:
credit2 = pd.read_excel("./data/credit2.xlsx")

In [81]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert credit2["Age"].max() == 83
print("Bravo !")

Bravo !


2- avec `pd.ExcelFile()` pour le fichier `ville.xls`

In [43]:
frame_ville = ____

In [46]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(frame_ville) == pd.DataFrame
print("Bravo !")

Bravo !


# Importer des données SQL

Pandas possède une fonction `read_sql()` qui permet d’importer directement des bases de données ou des queries dans des DataFrame

Il faut tout de même un connecteur pour accéder aux bases de données

Pour mettre en place ce connecteur, on utlise le package SQLAlchemy.

Suivant le type de base de données, on utilisera différents codes mais la structure du code est toujours la même

In [50]:
# on importe l'outil de connexion
from sqlalchemy import create_engine

On crée une connexion
```python
connexion=create_engine("sqlite:///(...).sqlite")
```

On utlise une des fonctions de Pandas pour charger les données
```python
requete="""select ... from ..."""
frame_sql=pd.read_sql_query(requete,connexion)
```

**Exercices :**
    
Importez la base de données SQLite salaries et récupérez la table Salaries dans un DataFrame 

*Indice :* On commence par créer la connexion et ensuite on fait la requête `select * from salaries`, la connexion se fait en utilisant l'adresse : "sqlite:///./data/salaries.sqlite"

In [52]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(salaries) == pd.DataFrame
print("Bravo !")

Bravo !


## Importer des données SAS

Les données SAS ont un format propriétaire qui est bien souvent difficile à gérer dans d'autres outils.

Pandas peut gérer des fichiers SAS en utilisant la fonction `pd.read_sas(___)` 

**Exercice :**
Importez le fichier `bce_uai.sas7bdat` en utilisant pandas

*Indice :* L'encodage des chaînes de caractères est spécifique en SAS, on utilisera l'option `encoding='latin-1'`

In [84]:



bce_uai = pd.read_sas("./data/bce_uai.sas7bdat",encoding='latin-1')

In [85]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(bce_uai) == pd.DataFrame
print("Bravo !")

Bravo !


### Utilisation de pyreadstat

Pour aller plus loin, on peut utiliser le package `pyreadstat`. Il permet de récupérer les metadata de votre fichier SAS.

In [44]:
import pyreadstat

In [88]:
# on charge directement deux objets, un DataFrame et un fichier de format
df_person, format_df_person = pyreadstat.read_sas7bdat("./data/person.sas7bdat")

Si on veut changer les labels des colonnes, on peut utiliser :
    
`df.rename(columns=format_df.column_names_to_labels)`

**Exercice :** Récupérer le fichier person.sas7bdat et changer les noms des colonnes en noms longs.

In [90]:
df_person2 = ___

In [92]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  df_person.columns[0] == 'Line number of person'
print("Bravo !")

Bravo !


# La proc Contents

```
PROC CONTENTS 
      DATA=data_frame 
     SHORT ;
RUN ;
```

```{python}
data_frame.columns
```


**Exercice :** Affichez les colonnes de votre DataFrame bce_uai

```
PROC CONTENTS 
      DATA=data_frame ;
RUN ;
```

```{python}
data_frame.info(verbose = 1)
```

**Exercice :** Affichez les détails du DataFrame bce_uai

## Associer une nom long à une colonne Pandas

Python ne possède pas nativement de proc format pour associer des labels longs aux labels courts pour les affichages. Le plus simple est de construire un dictionnaire :


In [9]:
df = pd.DataFrame({'classes_ages':[1,2,3,4,5,6,7,5,6]})
d = {1:'0-23',2:'24-27',3:'48-59',4:'60-71',5:'72-79',6:'80-87',7:'88-99'}

df.replace({"classes_ages": d})

Unnamed: 0,classes_ages
0,0-23
1,24-27
2,48-59
3,60-71
4,72-79
5,80-87
6,88-99
7,72-79
8,80-87


Le type categorical permet de conserver directement cette information :

In [15]:
df = pd.DataFrame({'age_group':[1,2,3,4,5,6,7]}, 
                  dtype="category")

# Rename categories
df.age_group = df.age_group.cat.rename_categories(d)

df.age_group.cat.codes
df.age_group

0     0-23
1    24-27
2    48-59
3    60-71
4    72-79
5    80-87
6    88-99
Name: age_group, dtype: category
Categories (7, object): [0-23, 24-27, 48-59, 60-71, 72-79, 80-87, 88-99]

# La proc print

Il s'agit juste de la fonction `print()` de python.

Pour afficher un DataFrame avec des conditions, on utilise :
    
`df[df["a"]>10]`

Pour afficher uniquement certaines colonnes :

`df[["a","b"]]`


**Exercice :** Utilisez les manipulations de DataFrame pour afficher les colonnes "price" et "zipcode" avec uniquement les "zipcode" égaux à 75015.
Stockez le résultats dans l'objet new_df

In [97]:
new_df = ___

In [98]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  new_df.shape[0] == 2892
print("Bravo !")

Bravo !


# Les étapes DATA

Ajouter une variable en pandas est simple :
    
`df["new_a"] = df["a"] * 2`

Avec une condition :
    
`df.loc[df["a"]>0, "new_a"] = 10`

ou 

`df["b"] = np.where(df["a"]<0, 1,0)`


**Exercice :** Construire une nouvelle colonne à partir de la colonne "zipcode" avec des 1 pour chaque valeur égales à 75015.

In [None]:
airbnb["is_75015"] = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  airbnb["is_75015"].max() == 1
print("Bravo !")

Modifier ce qui est dans une colonne est simple en pandas, si on utilise un type spécial, on utilisera :
    
- pour une donnée textuelle :
    `df["col_test"].str.___`, ___ peut être remplacé par n'importe quelle méthode liée aux chaînes de caractères

- pour une donnée de date :
    `df["col_test"].dt.___`, ___ peut être remplacé par n'importe quelle méthode liée aux objets datetime de python

    

**Exercice :** Extraire deux colonnes avec le jour et le mois à partir de la colonne DATE_OUVERTURE du data frame bce_uai en utlisant `.dt.day` et `.dt.month`

In [None]:
bce_uai["jour_ouverture"] = ___
bce_uai["mois_ouverture"] = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  bce_uai["jour_ouverture"].min() == 1
print("Bravo !")

**Exercice avancé :**
    Utilisez des transformations pour rendre la colonne price de airbnb numérique.

In [105]:
# on utilisera pd.to_numeric()

airbnb["price_num"] = ___

In [106]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  airbnb["price_num"].dtype == np.number
print("Bravo !")

Bravo !


## Les concaténations avec python 

On utlise la fonction `pd.concat()`, cette fonction gèrera le cas des données manquantes.

# Les jointures avec Pandas

On veut joindre des jeux de données en utilisant des clés (variables communes)

- `pd.merge()` permet de joindre deux DataFrame, on utilise comme options `on='key'`

- On peut utiliser comme option `how=`, on peut avoir :
    - `left` dans ce cas, on garde le jeu de données à gauche et pour les données de droite des valeurs manquantes sont ajoutées.
    - `outer`, on garde toutes les valeurs des deux jeux de données
    - ...

- On peut avoir plusieurs clés et faire une jointure sur les deux clés `on=['key1','key2']`

Pour plus de détails : <http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.merge.html>


**Exercice :**
    
Joindre deux dataframes (credit1 et credit2).


In [None]:

credit_merged = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  credit1.shape[0] == credit_merged.shape[0]
print("Bravo !")

# Discrétisation

Pour discrétiser, on utilise la fonction `pd.cut()`, on va définir une liste de points pour discrétiser et on entre cette liste comme second paramètre de la fonction.

Une fois discrétisé, on peut afficher les modalités obtenues en utilisant `.categories`

On peut aussi compter les occurrence en utilisant `pd.value_counts()`

Il est aussi possible d’entrer le nombre de segments comme second paramètre

On utilisera aussi `qcut()`

**Exercice :**
    
Créez une variable dans le dataframe AirBnB pour obtenir des niveaux de prix.


# La proc Sort

## Les tris avec Pandas 

Pour effectuer des tris, on utilise :
- `.sort_index()` pour le tri des index
- `.sort_values()` pour le tri des données
- `.rank()` affiche le rang des observations

Il peut y avoir plusieurs tris dans la même opération. Dans ce cas, on utilise des listes de colonnes :
```python
frame.sort_values(["col_1","col_2"])
```

En SAS, on aura :
    
```
PROC SORT
      DATA=df_in
       OUT=df_out ;
  BY var ;
RUN ;
```

En python, cela donnera :
```
df_out = df_in.sort_values("var")
```

### Pour aller plus loin
```
PROC SORT
      DATA=df_in
       OUT=df_out ;
  BY var1
     DESCENDING var2 ;
RUN ;
```

En python cela donne :
```
df_out = df_in*.sort_values(["var1", "var2"], ascending = [True, False])
```

**Exercice :** 
Trier les logements airbnb par prix

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  airbnb.price_num.max() = airbnb.price_num.loc[-1]
print("Bravo !")

**Exercice :** Trier les salaires en utilisant JobTitle et TotalPay

# Gestion des doublons

- On utilise `.duplicated()` ou `.drop_duplicates()` dans le cas où on désire effacer les lignes se répétant


- On peut se concentrer sur une seule variables en entrant directement le nom de la variable. Dans ce cas, c’est la première apparition qui compte. Si on veut prendre la dernière apparition, on utilise l’option `keep="last"`. On pourra avoir :
```python
frame1.drop_duplicates(["col_0","col_1"],keep="last")
```

# La proc Means

La proc means est une procédure centrale de SAS pour décrire une variable. Python utilise différentes fonctions pour remplacer la proc means.

Pour décrire une variable ou toutes les variables, on utilise la méthode `.describe()`.

Si on veut combiner des statistiques on utilisera `.agg()`.

Si on veut étudier les modalités d'une variable qualitative, on utilise : `.value_counts()`

```
PROC MEANS 
      DATA=df
      MEAN ;
  VAR var1 ;
RUN ;
```
équivalent python :
```
df["var1"].mean()
```


Si on veut aller plus loin, et traduire :
```
PROC MEANS 
  DATA=df ;
  VAR var1 ;
  CLASS var2 ;
RUN ;
```
On utilisera alors un nouvel outil, l'outil `groupby()`
```
df.groupby("var2")["var1].mean()
```

**Excercice :** Extraire les statistiques descriptives pour la colonne TotalPay du dataframe Salaries.
Par ailleurs, obtenir les salaires moyens par JobTitle. Stockez ces résultats dans un DataFrame

In [None]:
salaires_moy_job = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  salaires_moy_job["TotalPay"].max() < salaries["TotalPay"].max()
print("Bravo !")

# L'utilisation de GroupBy sur des DataFrame

- `.groupby` permet de rassembler des observations en fonction d’une variable dite de groupe


- Par exemple, `frame.groupby('X').mean()` donnera les moyennes par groupes de `X`


- On peut aussi utiliser `.size()` pour connaître la taille des groupes et utiliser d’autres fonctions (`.sum()`)


- On peut effectuer de nombreuses opérations de traitement avec le groupby


**Exercice :**
    
- Données sur les salaires


- On utilise le `groupby()` pour rassembler les types d’emploi


- Et on calcule des statistiques pour chaque type


On peut utiliser la méthode `.agg()` avec par exemple `'mean'` comme paramètre

On utilise aussi fréquemment la méthode `.apply()` combinée à une fonction lambda

# La proc FREQ

La procédure Freq calcule des comptages et des croisements de variables. Pandas a pour cela deux méthodes :
- `.value_counts()`
- `pd.crosstab()`

Par exemple : 
```
PROC FREQ
      DATA=df ;
  TABLE var1 ;
RUN ;
```
est équivalent à :
```
df["var1"].value_counts(normalize=True) * 100
```

La proc Freq permet aussi de générer des tableaux croisés. Ainsi, on aura :
```
PROC FREQ
      DATA=a ;
  TABLE b*c ;
RUN ;
```
L'équivalent python sera donc :
```
pd.crosstab(index = df["var1"], columns = df["var2"])
```


**Exercice :** Obtenez les distributions des fréquences par SECTEUR_CONTRAT et triez les par ordre alphanumérique. Stockez le résultat.

In [111]:

secteur_distrib = ___

01    56786
03     8081
02     2574
Name: SECTEUR_CONTRAT, dtype: int64

In [112]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  secteur_distrib.max() == 56786
print("Bravo !")

NameError: name 'secteur_distrib' is not defined

**Exercice :**
    
Afficher un tableau Pivot pour les données AirBnB. On croise `cancellation_policy` et `room_type` et on compte les occurences et stockez le

In [128]:
cross_airbnb = ___

In [127]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  cross_airbnb.iloc[0,0] == 16789
print("Bravo !")

Bravo !


# Proc SQL

Bien souvent en SAS, vous utlisez la proc SQL. Pandas est proche du langage SQL avec notamment les groupby. Pour s'en rapprocher encore, on peut utiliser `.query()`

```
PROC SQL ;
  SELECT var1, var2
  FROM df
  WHERE var1>0 ;
QUIT ;
```
On a beaucoup de fonctions pour y arriver :
```
df[["var1","var2"]][df["var1"]>0]

df[["var1","var2"]].query("var1>0")
```

Aller plus loin :
```
PROC SQL ;
  SELECT SUM(var1)
          AS sum_var1
  FROM df
  GROUP BY var2 ;
QUIT ;
```
Avec python cela revient à :
```
df.groupby("var2")["var1"].sum().reset_index(name ='sum_var1')

```


**Exercice :** Essayez de coder l'équivalent de :
```
SELECT count(distinct NATURE_UAI) 
FROM bce_uai
WHERE ETAT_ETABLISSEMENT = '1'
GROUP BY SECTEUR_PUBLIC_PRIVE
```
Stockez le résultat dans un objet.

In [133]:
bce_u_unique = ___

In [132]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  bce_u_unique.iloc[0] == 21
print("Bravo !")

Bravo !


# Proc export

La proc export est en pandas une méthode qui s'écrit `.to_...`

**Exercice :** Exportez un dataframe au format Excel en utilisant `.to_excel()`

# Macros-programmes et fonctions et classes python

Nous avons vu les fonctions lors de la pemère partie de la formation. Une fonction est un macro-programme.

Dans une fonction, on pourra utiliser directement le code d'exploration avec peu de changements.
    

**Exercice :**
Construire une fonction capable de charger des données, de les transformer et de sauvegarder le résultat dans un fichier

*Quelques indications*

On utilisera python et pandas, on complètera la fonction ci-dessous :

In [10]:
import os

def transfo(file_name, 
            folder_name,
            output_file_name,
            output_folder_name,
            sep_csv = ","
           ):
    """
    This function should load a file (csv), clean it and export it to Excel
    Here are the steps:
     - Remove missing values 
     - Transform dates to Python date format
     - Drop duplicated rows
    This function should return 0 if all OK / 1 if error
    """
    try:
        # on commence par importer la donnée en vérifiant qu'elle se trouve dans le répertoire voulu
        # pd.read_csv()
        

        # on applique les transformations en utlisant les outils de pandas
        # on supprime les données manquantes
        # .dropna()
        
        
        # on essaye de transformer les colonnes de date en format date python
        # pd.to_datetime()
        # si le terme "date" est compris dans le nom de la colonne
        
        
        # on supprime les doublons
        # .drop_duplicates()
        
        
        # on exporte les données en vérifiant l'existence du répertoire
        # .to_excel()
        
        return 0
    except FileNotFoundError:
        print("Attention problème de répertoire introuvable")
        return 1
    

In [11]:
# test du fonctionnement
assert transfo(folder_name="./data/", 
               file_name="base-dpt.csv", 
               output_folder_name="./data/", 
               output_file_name="base-dpt.xlsx", 
               sep_csv = ";") == 0
data_temp = pd.read_excel("./data/base-dpt.xlsx")
assert data_temp.isna().sum().all() == 0
print('Bravo!')

Il reste 461 lignes dans les données
Bravo!


Vous avez créé une fonction équivalente à un macro-programme !

On va continuer avec les graphiques en python !