# Format data
Dans ce fichier, on importe les differentes sources, et on les normalise et formatte pour utiliser un meme format

## Intro: installation

In [1]:
# Install a pip package in the current Jupyter kernel
import sys
!{sys.executable} -m pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/opt/homebrew/opt/python@3.11/bin/python3.11 -m pip install --upgrade pip[0m


In [2]:
import pandas as pd
import re

## Fichier corpus

In [3]:
# Inspire par: http://abdulbaqi.io/2019/01/19/quranic-roots-pandas/

# Lire le fichier de quranic corpus (en sautant les lignes d'intro)
corpus = pd.read_csv('./data/quranic-corpus-morphology-0.4.txt', sep='\t',skiprows=56)



# L'enregistrer converti en csv
corpus.to_csv('./data/quranic-corpus-morphology.csv')



In [4]:
# Voir un sample 
corpus.head()

Unnamed: 0,LOCATION,FORM,TAG,FEATURES
0,(1:1:1:1),bi,P,PREFIX|bi+
1,(1:1:1:2),somi,N,STEM|POS:N|LEM:{som|ROOT:smw|M|GEN
2,(1:1:2:1),{ll~ahi,PN,STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN
3,(1:1:3:1),{l,DET,PREFIX|Al+
4,(1:1:3:2),r~aHoma`ni,ADJ,STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN


In [5]:
# Compter lignes
corpus.count()

LOCATION    128219
FORM        128011
TAG         128219
FEATURES    128219
dtype: int64

In [6]:
# Ajouter une colonne pour "root"


# Function to extract the value of 'root' from 'features' using regex
def extraire_root(features):
    match = re.search(r"\|ROOT:([^|]+)", features)
    if match:
        return match.group(1)
    else:
        return None

# Apply the 'extract_root' function to create the 'root' column
corpus['root'] = corpus['FEATURES'].apply(extraire_root)


corpus.head()

Unnamed: 0,LOCATION,FORM,TAG,FEATURES,root
0,(1:1:1:1),bi,P,PREFIX|bi+,
1,(1:1:1:2),somi,N,STEM|POS:N|LEM:{som|ROOT:smw|M|GEN,smw
2,(1:1:2:1),{ll~ahi,PN,STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN,Alh
3,(1:1:3:1),{l,DET,PREFIX|Al+,
4,(1:1:3:2),r~aHoma`ni,ADJ,STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN,rHm


In [7]:
# Fonction pour extraire la position du mot au niveau 3 (par exemple 6:11:2)
def extraire_position_mot(location):
    match = re.match(r"\((\d+:\d+:\d+)", location)
    if match:
        return match.group(1)
    else:
        return None

# Appliquer la fonction pour creer "word_location"
corpus['word_location'] = corpus['LOCATION'].apply(extraire_position_mot)

corpus.head()

Unnamed: 0,LOCATION,FORM,TAG,FEATURES,root,word_location
0,(1:1:1:1),bi,P,PREFIX|bi+,,1:1:1
1,(1:1:1:2),somi,N,STEM|POS:N|LEM:{som|ROOT:smw|M|GEN,smw,1:1:1
2,(1:1:2:1),{ll~ahi,PN,STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN,Alh,1:1:2
3,(1:1:3:1),{l,DET,PREFIX|Al+,,1:1:3
4,(1:1:3:2),r~aHoma`ni,ADJ,STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN,rHm,1:1:3


In [8]:
# Extraire le verset de 'LOCATION'
def extraire_verset(location):
    match = re.match(r"\((\d+:\d++)", location)
    if match:
        return match.group(1)
    else:
        return None

# Apply the 'extraire_verset' function to create the 'verse' column
corpus['verse'] = corpus['LOCATION'].apply(extraire_verset)


corpus.head()

Unnamed: 0,LOCATION,FORM,TAG,FEATURES,root,word_location,verse
0,(1:1:1:1),bi,P,PREFIX|bi+,,1:1:1,1:1
1,(1:1:1:2),somi,N,STEM|POS:N|LEM:{som|ROOT:smw|M|GEN,smw,1:1:1,1:1
2,(1:1:2:1),{ll~ahi,PN,STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN,Alh,1:1:2,1:1
3,(1:1:3:1),{l,DET,PREFIX|Al+,,1:1:3,1:1
4,(1:1:3:2),r~aHoma`ni,ADJ,STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN,rHm,1:1:3,1:1


In [9]:
# compter le nombre de mots selon cette source
corpus['word_location'].nunique()

77429

## Fichier Coran mot a mot

In [11]:
coran_mot = pd.read_csv('./data/Coran_mot_a_mot_coranseul_12juin2019.csv')
coran_mot.head()

Unnamed: 0,N° de mot,Mot arabe,Translitération,Racine,Traduction
0,1:1#1,بِسْمِ,biçmi,سمو,Par le biais de l'attribut de
1,1:1#2,ٱللَّهِ,allahi,الله,Dieu
2,1:1#3,ٱلرَّحْمَٰنِ,alraĥmani,رحم,"le Très Bienveillant,"
3,1:1#4,ٱلرَّحِيمِ,alraĥiymi,رحم,le vecteur de toute Bienveillance (Bienveilleur).
4,1:2#1,ٱلْحَمْدُ,alĥamdou,حمد,Louanges


In [12]:
# compter le nombre de mots selon cette source
coran_mot['N° de mot'].nunique()

77399

In [16]:
# Il y a une disparite. On va maintenant trouver ou. 
# Je vais creer la colonne word_location sur coran_mot aussi avec le meme format que dans l'autre.
# Formatter 'N° de mot' en format 1:1:1
def formatter_numero_en_word_location(numero):
    return numero.replace("#", ":")

coran_mot['word_location'] = coran_mot['N° de mot'].apply(formatter_numero_en_word_location)


coran_mot.head()

Unnamed: 0,N° de mot,Mot arabe,Translitération,Racine,Traduction,word_location
0,1:1#1,بِسْمِ,biçmi,سمو,Par le biais de l'attribut de,1:1:1
1,1:1#2,ٱللَّهِ,allahi,الله,Dieu,1:1:2
2,1:1#3,ٱلرَّحْمَٰنِ,alraĥmani,رحم,"le Très Bienveillant,",1:1:3
3,1:1#4,ٱلرَّحِيمِ,alraĥiymi,رحم,le vecteur de toute Bienveillance (Bienveilleur).,1:1:4
4,1:2#1,ٱلْحَمْدُ,alĥamdou,حمد,Louanges,1:2:1


In [24]:
# Trouver les word_location qui sont dans une source et pas l'autre


# Un set recupere les valeurs uniques
corpus_word_locations = set(corpus['word_location'])
coran_mot_word_locations = set(coran_mot['word_location'])

# les word_location dans corpus qui ne sont pas dans coran_mot
seulement_dans_corpus = corpus_word_locations - coran_mot_word_locations

# Find the word_location values that appear in df2 but not in df1
seulement_dans_coran_mot = coran_mot_word_locations - corpus_word_locations

# Print the results
print("Dans corpus mais pas coran_mot:", seulement_dans_corpus)
print("Dans coran_mot mais pas corpus:", seulement_dans_coran_mot)

Dans corpus mais pas coran_mot: {'9:128:11', '9:129:8', '9:129:3', '9:129:12', '9:128:6', '9:129:4', '9:129:1', '9:128:14', '9:129:11', '9:128:1', '9:129:7', '9:128:7', '9:128:12', '9:129:15', '9:128:9', '9:128:5', '9:128:3', '9:129:5', '9:128:13', '9:129:10', '9:129:9', '9:129:6', '9:129:14', '96:5:5', '9:128:2', '9:128:8', '9:128:4', '9:128:10', '9:129:13', '9:129:2'}
Dans coran_mot mais pas corpus: set()


In [23]:
# En gros, il manque les versets 9:128 et 9:129 dans Coran mot a mot. Il manque aussi le mot 96:5:5.

128219