# Préparation des données

Nous chargeons le jeu de données dans une dataframe avec Pandas.

In [1]:
import pandas as pd

# Nous allons prendre le set de test.

test = pd.read_csv("data/x_test.txt", header=None, delimiter="\r\n",
                   engine='python', names=['text'], encoding="utf-8")

# Ajout de la colonne 'label'
test['label'] = pd.read_table(
    "data/y_test.txt", header=None, keep_default_na=False)

test

Unnamed: 0,text,label
0,Ne l fin de l seclo XIX l Japon era inda çconh...,mwl
1,Schiedam is gelegen tussen Rotterdam en Vlaard...,nld
2,"ГIурусаз батальонал, гьоркьор гIарадабиги лъун...",ava
3,ರಾಜ್ಯಶಾಸ್ತ್ರದ ಪಿತಾಮಹೆ ಅರಿಸ್ಟಾಟಲ್. ರಾಜ್ಯಶಾಸ್ತ್ರ...,tcy
4,Halukum adalah kelenjar tiroid nang menonjol d...,bjn
...,...,...
117495,"Wakati wa mimba,homa ya Q ni vigumu kutibu kwa...",swa
117496,گیلون یک ته تاریخی منطقه‌ سفیدرود دلتای طرف ای...,glk
117497,តាម​រយៈ​ការ​ចិញ្ចឹម​មនោសញ្ចេតនា​ជាតិនិយម​បែប​ន...,khm
117498,روس اک وفاق اے تے 1 مارچ 2008ء توں اسدیاں 83 و...,pnb


Nous allons maintenant récupérer les textes des 5 langues les plus parlées du monde, l'anglais, Chinois mandarin, l'hindi, l'espagnol et l'arabe.

In [2]:
wiki_code = ['en', 'zh', 'hi', 'es', 'ar']
iso_369 = ['eng', 'zho', 'hin', 'spa', 'ara']

Ensuite, nous allons passer la dataframe en dictionnaire pour manipuler les données plus facilement dans ce cas de figure.

Nous allons placer les 5 premiers paragraphes de chaque langue dans un dictionnaire ayant pour clé l'iso_369 et comme valeur son paragraphe.

Chaque dictionnaire sera ensuite placé dans la liste 'list_dict_5'.

In [3]:
dict_test = test.to_dict('records')

x = 0
list_dict_5 = []

for dict in dict_test:
    for key, value in dict.items():
        for iso in iso_369:
            if value == iso and x != 25:
                print(dict["text"]+" | "+dict["label"]+"\n-------------------")
                dict_5 = {value: str(dict["text"])}
                list_dict_5.append(dict_5)
                x += 1

كانت رحلة كوك - فولسوم - بيترسون الاستكشافية عام 1869م أول رحلة استكشافية مفصلة إلى منطقة يلوستون، وضمت الرحلة ثلاثة مستكشفين ممّولين من قِبَل القطاع الخاص وقد تبع فريق فولسوم نهر يلوستون إلى بحيرة يلوستون وقد احتفظ الأعضاء بمجلة واعتمدوا على المعلومات الواردة فيها. بعد ذلك نظّم فريق من سكان مونتانا رحلة واشبرن – لانغفورد - دُوان الاستكشافية عام 1870م. ترأسها مسّاح الأراضي العام لمونتانا هنري واشبرن بالإضافة إلى ناثانيل بي لانغفورد وكتيبة من الجيش الأمريكي بقيادة المُلازم غوستافوس دُوان لانغفورد الذي أصبح يعرف باسم "المنتزه الوطني". استغرقت الرحلة ما يُقارب الشهر في استكشاف المنطقة وجمع العينات وتسمية المواقع الهامة واقترح كاتب ومحامي في مونتانا يدعى كورنيليوس هِدقس وكان عضوًا في رحلة واشبرن الاستكشافية ضرورة وضع المنطقة جانبًا وحمايتها باعتبارها منتزهًا وطنيًا وقد كتب عددًا من المقالات المفصّلة لصحيفة هيلينا هيرالد بين 1870 و 1871 حول ملاحظاته. | ara
-------------------
大都会区有它自己的当地路边快餐口味，包括瓦达帕夫（蓬松面包劈开一半，填入锅贴）、潘尼普里（油炸crêpe和罗望子和扁豆调味料）、帕夫布哈吉（蓬松面包加上油炸蔬菜）和布赫普里（爆米花混合物），而且印度南部菜和中国菜都非常普遍。世界性的

In [4]:
print(list_dict_5)

[{'ara': 'كانت رحلة كوك - فولسوم - بيترسون الاستكشافية عام 1869م أول رحلة استكشافية مفصلة إلى منطقة يلوستون، وضمت الرحلة ثلاثة مستكشفين ممّولين من قِبَل القطاع الخاص وقد تبع فريق فولسوم نهر يلوستون إلى بحيرة يلوستون وقد احتفظ الأعضاء بمجلة واعتمدوا على المعلومات الواردة فيها. بعد ذلك نظّم فريق من سكان مونتانا رحلة واشبرن – لانغفورد - دُوان الاستكشافية عام 1870م. ترأسها مسّاح الأراضي العام لمونتانا هنري واشبرن بالإضافة إلى ناثانيل بي لانغفورد وكتيبة من الجيش الأمريكي بقيادة المُلازم غوستافوس دُوان لانغفورد الذي أصبح يعرف باسم "المنتزه الوطني". استغرقت الرحلة ما يُقارب الشهر في استكشاف المنطقة وجمع العينات وتسمية المواقع الهامة واقترح كاتب ومحامي في مونتانا يدعى كورنيليوس هِدقس وكان عضوًا في رحلة واشبرن الاستكشافية ضرورة وضع المنطقة جانبًا وحمايتها باعتبارها منتزهًا وطنيًا وقد كتب عددًا من المقالات المفصّلة لصحيفة هيلينا هيرالد بين 1870 و 1871 حول ملاحظاته.'}, {'zho': '大都会区有它自己的当地路边快餐口味，包括瓦达帕夫（蓬松面包劈开一半，填入锅贴）、潘尼普里（油炸crêpe和罗望子和扁豆调味料）、帕夫布哈吉（蓬松面包加上油炸蔬菜）和布赫普里（爆米花混合物），而且印度南部菜和中国菜都非常普遍。世界性的居民在烹

# Test de l'API

Et enfin, nous allons vérifier si l'API detecte correctement les différentes langues des paragraphes, avec l'affichage de l'iso_369 du paragraphe.

In [5]:
import requests, uuid, json

with open('key_azur.txt') as f:
    lines = f.readlines()

# Add your subscription key and endpoint
subscription_key = lines[0] #Place your key here
endpoint = "https://api.cognitive.microsofttranslator.com"

# Add your location, also known as region. The default is global.
# This is required if using a Cognitive Services resource.
location = "francecentral"

path = '/detect'
constructed_url = endpoint + path

params = {
    'api-version': '3.0'
}
constructed_url = endpoint + path

headers = {
    'Ocp-Apim-Subscription-Key': subscription_key,
    'Ocp-Apim-Subscription-Region': location,
    'Content-type': 'application/json',
    'X-ClientTraceId': str(uuid.uuid4())
}

# You can pass more than one object in body.
for ele in list_dict_5:
    for cle, valeur in ele.items():
        body = [{
            'text': valeur
        }]
        
        request = requests.post(constructed_url, params=params, headers=headers, json=body)
        response = request.json()

        print(json.dumps(response, sort_keys=True, ensure_ascii=False, indent=4, separators=(',', ': ')), cle)

[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": true,
        "language": "ar",
        "score": 1.0
    }
] ara
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": true,
        "language": "zh-Hans",
        "score": 0.99
    }
] zho
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": false,
        "language": "es",
        "score": 1.0
    }
] spa
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": false,
        "language": "en",
        "score": 0.97
    }
] eng
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": true,
        "language": "hi",
        "score": 1.0
    }
] hin
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported": true,
        "language": "ar",
        "score": 1.0
    }
] ara
[
    {
        "isTranslationSupported": true,
        "isTransliterationSupported":

On contaste que l'API detecte correctement la langue des paragraphes puisqu'elle correspond aux iso_369, et nous avons aucun score inférieur à 0.93. 

L'API est donc fiable.