## Imports

In [None]:
import numpy as np
import pandas as pd
from lxml import etree
import re
import json

## Lecture d'un fichier csv

In [None]:
df = pd.read_csv("DATA/conv_gloses.csv", sep=";", encoding="utf-8")
# dtype={'ordre': 'Int32'}

In [None]:
df.head(10)

### Lister les colonnes

In [None]:
df.columns

### Convertir des NaN

In [None]:
df.fillna("-", inplace=True)

### Transformer une colonne

In [None]:
df.XFeat = df.XFeat.str.upper()

In [None]:
df.head(10)

### Supprimer une colonne

In [None]:
df.drop(["Unnamed: 8"], axis=1, inplace=True)

### Appliquer une fonction simple à une colonne

In [None]:
# mettre en majuscule (upper), minuscule (lower), première lettre majuscule (capitalize)
df.XFeat.str.capitalize()

In [None]:
df["Etiquette_new"] = df["Etiquette"].apply(lambda x : set(x.split(".")))

In [None]:
df.head(120)

### Convertir des valeurs décimales en entier

In [None]:
def convertOrdre(x):
    if x == "-":
        return "-"
    else:
        return int(float(x))

In [None]:
convertOrdre("1.2")

In [None]:
df["ordre_int"] = df.ordre.apply(convertOrdre)

In [None]:
df.head(10)

### Localiser une cellule et trouver son type

In [None]:
type(df.iloc[114,9])

### Filtrer sur colonnes

In [None]:
df[["POS","XFeat"]]

### Filtrer sur lignes

In [None]:
df[df.XFeat.str.contains("ACC") & df.Etiquette.str.contains("ACC")]

In [None]:
df[df.XFeat.str.contains("ACC") | df.Etiquette.str.contains("ADV")]

### Filtrer sur lignes et colonnes

In [None]:
df.loc[df["POS"] == "adverb", ("POS","Feat_conv","Etiquette")]

### Sauvegarder un fichier

In [None]:
df.to_csv("results/examples_out.tsv", index=False, encoding="utf-8", sep="\t")

## Lecture d'un fichier xlsx : Book1

In [None]:
dfxls = pd.read_excel("DATA/Book1.xlsx", usecols=[0,1,2])

In [None]:
dfxls.head()

### Convertir en chaîne de caractères

In [None]:
type(dfxls.iloc[0,0])

In [None]:
dfxls["house_age_str"] = dfxls["House Age (years)"].astype(str)

In [None]:
dfxls.head()

### Qqs fonctions mathématiques

In [None]:
print(dfxls["Price per Square Foot"].sum())
print(dfxls["Price per Square Foot"].mean())
print(dfxls["Price per Square Foot"].max())

In [None]:
dfxls.describe()

## Exercices : Book2

In [None]:
ventes = pd.read_excel("DATA/Book2_sample.xlsx", usecols=range(0,7))
# usecols = "A,B,C,D"

In [None]:
ventes.shape

In [None]:
ventes.head()

### Lire une feuille par son index

In [None]:
clients = pd.read_excel("DATA/Book2_sample.xlsx", sheet_name=1)

In [None]:
clients.head()

### Faire une jointure (équivalent du Vlookup dans excel)

In [None]:
join = pd.merge(ventes, clients, on="Customer_ID", how='left')
join

### Questions : 
1. Remplacer les valeurs "NaN" par des chaînes de caractères vides
1. Trouver le nombre de Order_No différents
1. Filtrer les commandes dont la quantité est supérieure à 10
1. Pour l'order_No 539993, trouver la quantité de produits correspondant et la somme de ces quantités
1. Créer une colonne "new" contenant le numéro de commande et l'id du client séparés par un slash
1. Bonus : Transformer la colonne "Product_Description" pour que les noms soient en minuscules avec la première lettre en majuscule
