### Génération de jeux de données réalistes avec Faker en Python | Generating Realistic Dummy Data with Faker in Python

Dans le monde de la programmation, la création de jeux de données réalistes est souvent une nécessité. Faker est une bibliothèque Python qui permet de générer des données factices de manière simple et efficace. Dans cet article, nous explorerons les différentes fonctionnalités de Faker, son installation, les méthodes les plus utilisées, et nous verrons comment créer un jeu de données réaliste dans un DataFrame.
_____________________________________________________________________________________________________
In the world of programming, creating realistic dummy data is often a necessity. Faker is a Python library that enables simple and efficient generation of fake data. In this article, we will explore the various features of Faker, its installation, the most commonly used methods, and how to create realistic dummy data in a DataFrame.

##### Présentation de Faker | Introduction to Faker
Faker est une bibliothèque open-source en Python qui fournit des outils pour générer des données aléatoires de différentes catégories telles que les noms, adresses, numéros de téléphone, adresses e-mail, dates, textes, etc. Ces données fictives sont créées de manière à sembler réelles, ce qui les rend idéales pour créer des jeux de données de test, des prototypes d'applications ou pour effectuer des démonstrations. Faker est largement utilisé dans le développement de logiciels, le data mining, les tests automatisés, et bien d'autres domaines.
_____________________________________________________________________________________________________
Faker is an open-source Python library that provides tools for generating random data in various categories, such as names, addresses, phone numbers, email addresses, dates, texts, and more. This fictitious data is designed to appear real, making it ideal for creating test datasets, application prototypes, and demonstrations. Faker is widely used in software development, data mining, automated testing, and many other fields.

##### Installation de Faker et méthodes les plus utilisées | Installing Faker and Commonly Used Methods
Pour commencer à utiliser Faker, vous devez l'installer dans votre environnement Python. Vous pouvez le faire en utilisant pip, le gestionnaire de paquets de Python. Voici la commande à exécuter dans votre terminal :
_____________________________________________________________________________________________________
To begin using Faker, you need to install it in your Python environment. You can do this using pip, the Python package manager. Use the following command in your terminal:

``` bash
pip install faker
```

Une fois installée, vous pouvez importer la bibliothèque Faker dans votre code Python en utilisant l'instruction suivante :
_____________________________________________________________________________________________________
Once installed, you can import the Faker library into your Python code using the following statement:

In [7]:
from faker import Faker

Faker propose de nombreuses méthodes pour générer des données dans différentes catégories. En voici quelques-unes des plus couramment utilisées :

* Génération de noms : name(), first_name(), last_name()
* Génération d'adresses : address(), city(), country()
* Génération de numéros de téléphone : phone_number(), cell_phone()
* Génération d'adresses e-mail : email()
* Génération de dates : date_of_birth(), date_time_between()
* Génération de textes : sentence(), paragraph()
* Ces méthodes peuvent être utilisées individuellement pour générer des valeurs aléatoires ou combinées pour créer des jeux de données plus complexes et réalistes.

##### Cas d'utilisation pour créer un jeu de données dans un DataFrame
L'un des cas d'utilisation les plus courants de Faker est la création de jeux de données dans un DataFrame, une structure de données tabulaire utilisée dans la manipulation et l'analyse de données. Pour cela, nous aurons besoin de la bibliothèque pandas en plus de Faker.

Voici un exemple de code qui génère un jeu de données aléatoire comprenant des noms, des adresses et des numéros de téléphone, le tout stocké dans un DataFrame :

In [114]:
import pandas as pd
from faker import Faker

fake = Faker('fr_FR')

data = []
for _ in range(5):
    name = fake.name()
    job = fake.job()
    address = fake.address()
    phone = fake.phone_number()
    data.append((name, job, address, phone))

df = pd.DataFrame(data, columns=['name', 'job', 'address', 'phone'])
df.head()

Unnamed: 0,name,job,address,phone
0,Michèle Guerin-Chauveau,Accompagnateur de voyages,"27, rue Lemaitre\n00984 De Sousa",0623573817
1,Audrey Delmas,Expert immobilier,"9, avenue Michel Sanchez\n78985 Didier-les-Bains",+33 3 02 90 36 01
2,Tristan-Xavier Francois,Coffreur,"752, avenue Michel Leveque\n01399 Saint Astridnec",04 73 67 05 40
3,Alexandria Renard,Géomaticien,"20, rue Jeanne Remy\n08861 Neveu",+33 4 42 50 83 02
4,Paulette Pelletier,Responsable de réseau d'assainissement,"39, boulevard Vincent Gallet\n52084 Bouchetboeuf",02 50 00 20 32


In [115]:
from tabulate import tabulate
print(df.to_markdown(index=True))

|    | name                    | job                                    | address                      | phone             |
|---:|:------------------------|:---------------------------------------|:-----------------------------|:------------------|
|  0 | Michèle Guerin-Chauveau | Accompagnateur de voyages              | 27, rue Lemaitre             | 0623573817        |
|    |                         |                                        | 00984 De Sousa               |                   |
|  1 | Audrey Delmas           | Expert immobilier                      | 9, avenue Michel Sanchez     | +33 3 02 90 36 01 |
|    |                         |                                        | 78985 Didier-les-Bains       |                   |
|  2 | Tristan-Xavier Francois | Coffreur                               | 752, avenue Michel Leveque   | 04 73 67 05 40    |
|    |                         |                                        | 01399 Saint Astridnec        |                   |


|    | name                    | job                                    | address                      | phone             |
|---:|:------------------------|:---------------------------------------|:-----------------------------|:------------------|
|  0 | Michèle Guerin-Chauveau | Accompagnateur de voyages              | 27, rue Lemaitre             | 0623573817        |
|    |                         |                                        | 00984 De Sousa               |                   |
|  1 | Audrey Delmas           | Expert immobilier                      | 9, avenue Michel Sanchez     | +33 3 02 90 36 01 |
|    |                         |                                        | 78985 Didier-les-Bains       |                   |
|  2 | Tristan-Xavier Francois | Coffreur                               | 752, avenue Michel Leveque   | 04 73 67 05 40    |
|    |                         |                                        | 01399 Saint Astridnec        |                   |
|  3 | Alexandria Renard       | Géomaticien                            | 20, rue Jeanne Remy          | +33 4 42 50 83 02 |
|    |                         |                                        | 08861 Neveu                  |                   |
|  4 | Paulette Pelletier      | Responsable de réseau d'assainissement | 39, boulevard Vincent Gallet | 02 50 00 20 32    |
|    |                         |                                        | 52084 Bouchetboeuf           |                   |

Par defaut la langue utilisé par Faker est l'anglais, mais il est tout à fait possible d'utiliser d'autre langue. je vous met aussi quelque exemples avec du francais, anglais, japonais, russe, italien, portugais, Chinois et Allemand etc.

In [116]:
locales = ['fr_FR', 'en_US', 'es_ES', 'ja_JP', 'ru_RU', 'it_IT', 'pt_PT', 'zh_CN', 'de_DE']
fake = Faker(locales)

# Génération des données dans le DataFrame
data = []
for locale in locales:
    fake = Faker(locale)
    for _ in range(1):
        name = fake.name()
        name = fake.name()
        job = fake.job()
        address = fake.address()
        phone = fake.phone_number()
        data.append((name, job, address, phone, locale))

# Création du DataFrame
df = pd.DataFrame(data, columns=['name', 'job', 'address', 'phone', 'country'])
df.head(9)

Unnamed: 0,name,job,address,phone,country
0,Jacqueline Dumas,Agent des méthodes,"9, rue Bousquet\n95415 Saint Gabrieldan",08 07 05 05 64,fr_FR
1,John Walker,Lexicographer,"7824 Rachel Knoll Suite 768\nJamesborough, UT ...",+1-575-666-7678x3361,en_US
2,Eliana Adadia,Osteopath,"Cañada Arsenio Segovia 81\nOurense, 02431",+34 958 564 377,es_ES
3,江古田 康弘,アートディレクター,福岡県長生郡長柄町独鈷沢28丁目25番10号,080-4085-6980,ja_JP
4,Регина Ильинична Артемьева,Эндокринолог,"г. Белокуриха, бул. Тракторный, д. 3 к. 418, 1...",8 522 024 22 40,ru_RU
5,Lucrezia Norbiato,Psychotherapist,"Strada Eraldo 799 Piano 7\nAntonino laziale, 2...",+39 657 50 78 6594,it_IT
6,Ricardo Correia,Polidor e acabador de artigos de vidro,"Praça Lucas Nogueira, 819\n5795-183 Leiria",(351) 963919804,pt_PT
7,吴艳,行程管理/计调,重庆市通辽县合川李路l座 692469,13259951830,zh_CN
8,Frau Stefania Lübs B.Eng.,Informatiker,Willibald-Kuhl-Platz 60\n16256 Kulmbach,0240406322,de_DE


In [118]:
print(df.to_markdown(index=True))

|    | name                       | job                                    | address                                             | phone                | country   |
|---:|:---------------------------|:---------------------------------------|:----------------------------------------------------|:---------------------|:----------|
|  0 | Jacqueline Dumas           | Agent des méthodes                     | 9, rue Bousquet                                     | 08 07 05 05 64       | fr_FR     |
|    |                            |                                        | 95415 Saint Gabrieldan                              |                      |           |
|  1 | John Walker                | Lexicographer                          | 7824 Rachel Knoll Suite 768                         | +1-575-666-7678x3361 | en_US     |
|    |                            |                                        | Jamesborough, UT 14349                              |                      |           |
|  2

|    | name                       | job                                    | address                                             | phone                | country   |
|---:|:---------------------------|:---------------------------------------|:----------------------------------------------------|:---------------------|:----------|
|  0 | Jacqueline Dumas           | Agent des méthodes                     | 9, rue Bousquet                                     | 08 07 05 05 64       | fr_FR     |
|    |                            |                                        | 95415 Saint Gabrieldan                              |                      |           |
|  1 | John Walker                | Lexicographer                          | 7824 Rachel Knoll Suite 768                         | +1-575-666-7678x3361 | en_US     |
|    |                            |                                        | Jamesborough, UT 14349                              |                      |           |
|  2 | Eliana Adadia              | Osteopath                              | Cañada Arsenio Segovia 81                           | +34 958 564 377      | es_ES     |
|    |                            |                                        | Ourense, 02431                                      |                      |           |
|  3 | 江古田 康弘                | アートディレクター                     | 福岡県長生郡長柄町独鈷沢28丁目25番10号              | 080-4085-6980        | ja_JP     |
|  4 | Регина Ильинична Артемьева | Эндокринолог                           | г. Белокуриха, бул. Тракторный, д. 3 к. 418, 164606 | 8 522 024 22 40      | ru_RU     |
|  5 | Lucrezia Norbiato          | Psychotherapist                        | Strada Eraldo 799 Piano 7                           | +39 657 50 78 6594   | it_IT     |
|    |                            |                                        | Antonino laziale, 22798 Venezia (SR)                |                      |           |
|  6 | Ricardo Correia            | Polidor e acabador de artigos de vidro | Praça Lucas Nogueira, 819                           | (351) 963919804      | pt_PT     |
|    |                            |                                        | 5795-183 Leiria                                     |                      |           |
|  7 | 吴艳                       | 行程管理/计调                          | 重庆市通辽县合川李路l座 692469                      | 13259951830          | zh_CN     |
|  8 | Frau Stefania Lübs B.Eng.  | Informatiker                           | Willibald-Kuhl-Platz 60                             | 0240406322           | de_DE     |
|    |                            |                                        | 16256 Kulmbach                                      |                      |           |

N'oubliez pas d'installer les paquets de langue supplémentaires si nécessaire. Par exemple, pour utiliser le français, vous devez installer le paquet faker pour la langue française :

``` bash
pip install faker[fr_FR]
```

Pour aller plus loin, dans le prochain article je vous partagerais comment anonmyiser un jeu de données à l'aide de Faker, stay tuned

### Cas d'utilisation pour anonymiser un fichier xml

Dans la vie de tous les jours d'un data analyst, pour crée des pipelines et autres automatisation, il est essentielles de se constuire un jeu de données. Toutefois, il est trés délicat d'utiliser des données à charactère personnelle. Faker est une parfaite solution pour regler se problème. Prenons l'exemple suivant : mon jeu de données est un fichier xml contenant des noms et prénoms. Je souhaite modifier les noms prénoms de chaque individu afin de me constituer un jeu de données que je peux diffusé à mon équipe data. Faker est une bonne solution d'appoint. 

To be continued

In [100]:
fake.profile()

{'job': 'Beamter',
 'company': 'Heuser Naser GmbH',
 'ssn': '477-93-6943',
 'residence': 'Truppstr. 1/5\n19207 Greiz',
 'current_location': (Decimal('65.762768'), Decimal('39.958822')),
 'blood_group': 'O-',
 'website': ['http://www.jopich.org/', 'http://www.gumprich.de/'],
 'username': 'zlatko60',
 'name': 'Antonina Bachmann',
 'sex': 'F',
 'address': 'Holtallee 3\n44103 Grimma',
 'mail': 'hseifert@yahoo.de',
 'birthdate': date(2000, 3, 18)}

In [103]:
fake.text()

'Papa empire quatre événement ensemble dès. Jusque plaine exister preuve rire fatigue roman.'

In [105]:
data = [fake.profile() for _ in range(5)]
df = pd.DataFrame(data)
df.head()

Unnamed: 0,job,company,ssn,residence,current_location,blood_group,website,username,name,sex,address,mail,birthdate
0,Pédiatre,Dos Santos,325-99-3553,"51, chemin Reynaud\n12458 Sainte Martindan","(1.119591, 170.562586)",A+,"[http://www.pierre.fr/, https://www.guillet.co...",antoinetterichard,Émile-Gilles Perrier,M,"64, rue Leclerc\n08230 Saint Virginiedan",alfredgrondin@free.fr,1983-04-10
1,Expert automobile,Guyon,331-06-9773,"3, avenue Carlier\n99796 Pruvostdan","(64.533793, 73.889101)",B-,"[http://www.coste.fr/, https://blanc.com/, htt...",clemence33,Nath Poulain,F,"50, rue de Blondel\n33911 Gaudin",moreauchantal@hotmail.fr,2008-04-19
2,Carrossier,Auger,001-41-8605,"7, rue de Lacroix\n18955 Michaud-sur-Mer","(75.6651585, 168.822755)",B-,[http://www.thomas.com/],christelleriou,Camille Le Goff,F,"51, rue Léon Cousin\n40110 Wagner",henriette09@hotmail.fr,1999-09-27
3,Conseiller en génétique,Becker Rousseau SARL,650-01-1091,"35, chemin Marianne Fernandes\n52658 Leveque","(-81.210022, 156.975119)",O+,"[https://www.simon.fr/, https://mercier.com/]",claudinemallet,Thibaut Traore,M,"92, rue Henry\n27704 Sainte Denis",julesnavarro@orange.fr,1998-04-06
4,Pharmacien dans l'industrie,Jacob Costa SARL,620-94-2091,rue Marques\n86692 Fernandesboeuf,"(-13.1321035, 57.781238)",B-,"[http://www.leroux.com/, https://philippe.fr/]",danielclemence,Margot du Dijoux,F,"537, avenue de Jacquot\n37758 Reynaud",wbaron@laposte.net,1986-06-16
