# Pandas Tricks

*Rappel et/ou découverte de manipulation de matrices de données avec pandas*

### Lire un tableur



In [1]:
import pandas as pd

# préciser le chemin du fichier à lire
cheminDuFichierCSV = "./../data/dictionary/1757_Buchanan-J.csv" 

# demander à pandas de lire le fichier et garder ce tableau accessible dans une variable
dfDicoBuch = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

# afficher à l'écran un échantillon du tableau
dfDicoBuch.sample(n=5)

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId
9921,3,pĕʹnĭtĕnce,L.,,,n.,41.0,159
15797,4,zōŏʹphŏric,G.,,,n.,21.0,241
13865,2,tieʹrcel,F.,,,n.,38.0,214
7583,3,lăctėʹȧl,,,,a.,20.0,126
1107,2,băʹtt_e_r,L.,,,n.,68.0,34


Pour lires des tableurs aux format xls, xlsx ou odt il faut utiliser pd.read_excel(cheminDuFichier) et je conseil de bien préciser explicitement l'engine à utiliser en paramètre.
* dfXlsx = pd.read_excel(cheminDuFichierXLSX, engine="openpyxl")
* dfOds = pd.read_excel(cheminDuFichierODS, engine="odf")

### Ajouter un nouvelle colonne contenant le resultat d'un traitement

In [2]:
# définir une fonction qui retourne quelque chose
def sizePron(strPron):
    #retourner le nombre de caractère de la prononciation
    
    return len(strPron)



In [3]:
# appeler cette fonction sur toutes les lignes de la matrice pour remplir une nouvelle colonne grace à apply
dfDicoBuch['sizePron'] = dfDicoBuch.apply(lambda x: sizePron(x['pron']),1)

dfDicoBuch.sample(n=5)

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,sizePron
2065,2,chămpaiʹn,F.,,,n.,18.0,48,9
11703,4,revĭʹ_c_t_u_al,F.,,,v.,30.0,184,14
1655,3,bŭʹrglăry,,,,n.,38.0,42,9
9481,1,os,L.,,,n.,29.0,153,2
9795,4,păʹſſionāte,,,,a.,59.0,157,11


## Un petit calcul

In [4]:
dfDicoBuch['sizePron'].median()

9.0

## Une recherche de valeur

In [5]:
dfDicoBuch[dfDicoBuch['sizePron']==26.0]

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,sizePron
2813,3,contrŏʹller or comptrollĕr,,,,n.,49.0,58,26
7492,3,kaʹlĕnd_a_r or caʹlĕnd_a_r,,,,n.,2.0,125,26


## Afficher des graphiques
Plusieurs librairie possibles :
* matplotlib (static, bonne qualité pour publication)
* seaborn (interactif, pour le web)
* bokeh (interactif, pour le web)
* plotly (interactif, pour le web)

In [6]:
import seaborn as sns
import matplotlib.pyplot as plt

In [7]:
%matplotlib ipympl

plt.figure("scatter plot view")
sns.scatterplot(data=dfDicoBuch, x="nbSyll", y="sizePron", hue="POS")

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<AxesSubplot:xlabel='nbSyll', ylabel='sizePron'>

In [8]:
%matplotlib ipympl

plt.figure("scatter plot view")
sns.scatterplot(data=dfDicoBuch, x="nbSyll", y="sizePron", hue="POS", alpha=0.05)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<AxesSubplot:xlabel='nbSyll', ylabel='sizePron'>

## Manipuler des matrices de format exotique

In [9]:
cheminDuDicoBigi = "./../data/dictionary/2015_Bigi-B.dict" 

# ouvrir une matric exotique
#dfDicoBigi = pd.read_csv(cheminDuDicoBigi, delimiter=" [] ", encoding="utf8")

dfDicoBigi = pd.read_csv(cheminDuDicoBigi, delimiter=" \[\] ", encoding="utf8", engine='python', names=['hwd','pronSampa'], skiprows=8 )

# afficher à l'écran un échantillon du tableau
dfDicoBigi.head(n=5)

Unnamed: 0,hwd,pronSampa
0,a,@
1,a(2),eI
2,a'ready,@ r\ E d i:
3,a's,eI z
4,a.,eI


Intro/rappel Regex : https://gitlab.huma-num.fr/mnauge/cnam-athon-transcrire/-/blob/master/codes/regexBasics.ipynb

## Jouer avec deux matrices à la fois

In [10]:
cheminDuMappingSampaIpa = "./../data/dictionary/sampa-ipa.txt" 
dfMappingSampaIpa = pd.read_csv(cheminDuMappingSampaIpa, delimiter="  *", encoding="utf8", engine='python', names=['sampa','ipa'])
dfMappingSampaIpa.sample(n=3)

Unnamed: 0,sampa,ipa
64,Q,ɒ
45,H\,ʜ
63,P,ʋ


In [11]:
dfMappingSampaIpa['sampa'].value_counts()

r      3
@      2
g      2
U~/    2
h      2
      ..
S      1
t`     1
_q     1
_}     1
_c     1
Name: sampa, Length: 177, dtype: int64

In [12]:
dfMappingSampaIpa[dfMappingSampaIpa['sampa']=='@']

Unnamed: 0,sampa,ipa
28,@,ə
29,@,ɛ


In [13]:
# ne garder que la première occurence pour éviter une indécision mais ce n'est pas terrible. A discuter avec les linguistes.
dfMappingSampaIpa.drop_duplicates(subset=['sampa'], keep='first', inplace=True)

In [14]:
dfMappingSampaIpa[dfMappingSampaIpa['sampa']=='@']

Unnamed: 0,sampa,ipa
28,@,ə


In [15]:
def sampa2ipa(strSampa, dfMapping):
    ipaRes = ""
    
    listValSampa = strSampa.split(" ")
    #print(listValSampa)
    for valSampa in listValSampa:
        dfRowFinded = dfMapping[dfMapping['sampa']==valSampa]

        if len(dfRowFinded==1):
            ipaRes+=dfRowFinded.iloc[0]['ipa']
        else:
            ipaRes+='?'
    return ipaRes

In [16]:
sampa2ipa("A r\ t i",dfMappingSampaIpa)

'ɑɹti'

In [19]:
dfDicoBigiRich = dfDicoBigi.sample(n=1000).copy()

dfDicoBigiRich['ipa'] = dfDicoBigiRich.apply(lambda x: sampa2ipa(x['pronSampa'], dfMappingSampaIpa),1)


In [21]:
dfDicoBigiRich.sample(n=5)

Unnamed: 0,hwd,pronSampa,ipa
115153,swoveland,s w @U v l @ n d,swoʊvlənd
113807,subsurface,s V b s 3:r f @ s,sʌbsɜ:rfəs
19391,charlestown,tS A r\ l s t aU n,?ɑɹlst?n
15165,buckshot,b V k S A t,bʌkʃɑt
10450,betar,b E 4 A r\,bɛɾɑɹ


### Sauvegarder la nouvelle matrice


In [23]:
pathDicoBigiRich = "./../data/dataframe/BigiRichSample.csv"
dfDicoBigiRich.to_csv(pathDicoBigiRich, sep=";",encoding="utf8",index=False)