# Création de données synthétiques avec le didacticiel Python Faker

+ **Générer des données synthétiques à l'aide de Python Faker pour compléter les données du monde réel pour les tests d'applications et la confidentialité des données.**


![Alt Text](https://images.datacamp.com/image/upload/v1660228287/Creating_Synthetic_Data_with_Python_Faker_Tutorial_03d475c16a.png)


# Qu’est-ce que les données synthétiques ?

+ **`Les données synthétiques` sont des données générées par ordinateur qui sont similaires aux données du monde réel. L’objectif principal des données synthétiques est d’augmenter la confidentialité et l’intégrité des systèmes. Par exemple, pour protéger les informations personnelles identifiables (PII) ou les informations personnelles sur la santé (PHI) des utilisateurs, les entreprises doivent mettre en œuvre des stratégies de protection des données. L'utilisation de données synthétiques peut aider les entreprises à tester de nouvelles applications et à protéger la confidentialité des utilisateurs.**

+ **Dans le cas du machine learning, nous utilisons des données synthétiques pour améliorer les performances du modèle. Cela est également valable pour les situations où les données sont rares et déséquilibrées. L'utilisation typique des données synthétiques dans l'apprentissage automatique concerne les véhicules autonomes, la sécurité, la robotique, la protection contre la fraude et les soins de santé.**

![Image de Nvidia](https://images.datacamp.com/image/upload/v1660228278/Gartner_4bfc4f0f18.jpg)


+ **Selon les données de Gartner , d'ici 2024, 60 % des données utilisées pour développer des applications d'apprentissage automatique et analytiques seront générées de manière synthétique. Mais pourquoi assistons-nous à une tendance à la hausse des données synthétiques ? **

+ **La collecte et le nettoyage des données réelles sont coûteux et, dans certains cas, rares. Par exemple, les données sur la fraude bancaire, le cancer du sein, les voitures autonomes et les attaques de logiciels malveillants sont rares dans le monde réel. Même si vous obtenez les données, il faudra du temps et des ressources pour les nettoyer et les traiter pour les tâches d'apprentissage automatique.**

+ Dans la première partie du didacticiel, nous découvrirons pourquoi nous avons besoin de données synthétiques, leurs applications et comment les générer. Dans la dernière partie, nous explorerons la bibliothèque `Python Faker` et l'utiliserons pour créer des données synthétiques afin de tester et de préserver la confidentialité des utilisateurs.**

# Pourquoi devons-nous générer des données synthétiques ?


![Alt Text](https://images.datacamp.com/image/upload/v1660228279/why_10a3649cbe.png)

+ **Nous avons besoin de données synthétiques pour la confidentialité des utilisateurs, les tests d'applications, l'amélioration des performances des modèles, la représentation de cas rares et la réduction des coûts d'exploitation.**

  + `Confidentialité` : pour protéger les données des utilisateurs. Vous pouvez remplacer les noms, les e-mails et l'adresse par des données synthétiques. Cela nous aidera à éviter les cyberattaques et les attaques par boîte noire où les modèles déduisent les détails des données de formation.

  + `Tests` : les tests d’applications sur des données réelles coûtent cher. Tester les applications de bases de données, d’interface utilisateur et d’IA sur des données synthétiques est plus rentable et plus sécurisé.

  + `Performances du modèle` : les données synthétiques générées peuvent améliorer les performances du modèle. Par exemple : dans les classificateurs d'images, nous utilisons le cisaillement, le déplacement et la rotation des images pour augmenter la taille de l'ensemble de données et améliorer la précision du modèle.

  + `Cas rares` : nous ne pouvons pas attendre qu'un événement rare se produise et collecter des données réelles. Exemples : détection de fraude au crédit, accidents de voiture et données sur le cancer.

  + `Coût` : la collecte de données prend du temps et des ressources. Il est coûteux d'acquérir des données du monde réel, de les nettoyer, de les étiqueter et de les préparer pour les tests ou la formation des modèles.

# Que sont les applications de données synthétiques ?

+ **Dans cette section, nous apprendrons comment les entreprises utilisent les données synthétiques pour créer des applications rentables, respectueuses de la confidentialité et hautes performances.**

  + `Partage de données` : les données synthétiques permettent aux entreprises de partager des données sensibles en interne et avec des tiers. Il permet également de déplacer les données privées vers le cloud et de conserver les données à des fins d'analyse.

  + `Service financier` : des données synthétiques sont générées pour imiter des événements rares tels que des transactions frauduleuses, la détection d'anomalies et la récession économique. Il est également utilisé pour comprendre les comportements des clients à l’aide d’outils d’analyse.

  + `Assurance qualité` : maintenir et tester la qualité des applications ou des systèmes de données. Les données synthétiques sont restituées pour tester les systèmes sur des anomalies plus rares et améliorer les performances.

  + `Soins de santé` : nous permettent de partager les dossiers médicaux en interne et en externe tout en préservant la confidentialité des patients. Vous pouvez également l’utiliser pour des essais cliniques et la détection de maladies rares. Apprenez à traiter des informations sensibles en suivant un cours sur la confidentialité et l'anonymisation des données avec Python ou R .

  + `Automobile` : il est difficile et lent d'obtenir des données réelles sur les robots, les drones et les voitures autonomes. Les entreprises testent et entraînent leurs systèmes sur des données de simulation synthétiques et réduisent les coûts de création de solutions sans compromettre les performances.

  + `Apprentissage automatique` : nous pouvons utiliser des données synthétiques pour augmenter la taille de l'ensemble de données d'entraînement, résoudre les problèmes de déséquilibre des données et tester des modèles pour garantir les performances et la précision. Il est également utilisé pour réduire les biais dans les données d’image et de texte existantes. Cela nous aidera à tester les systèmes et à préserver la confidentialité des utilisateurs. Par exemple, DeepFake est utilisé pour tester les systèmes de reconnaissance faciale.

# Comment générer des données synthétiques

+ Nous pouvons utiliser de faux générateurs de données, des outils statistiques, des réseaux de neurones et des réseaux contradictoires génératifs pour générer des données synthétiques.  

+ `Génération de fausses bases de données` à l'aide de la bibliothèque `Faker` pour tester les bases de données et les systèmes. Il peut générer de faux profils d’utilisateurs avec des adresses et toutes les informations essentielles. Vous pouvez également l'utiliser pour générer du texte et des paragraphes aléatoires. Il aide les entreprises à protéger la confidentialité des utilisateurs pendant la phase de test et à économiser de l'argent lors de l'acquisition d'ensembles de données réels.

+ Comprendre la distribution des données pour générer un tout nouvel ensemble de données à l'aide d'outils statistiques tels que gaussien, exponentiel, chi carré, t, lognormal et uniforme. Vous devez avoir des connaissances sur le sujet pour générer des données synthétiques basées sur la distribution.

+ `Variational Autoencoder` est une méthode d'apprentissage non supervisée qui utilise un encodeur et un décodeur pour compresser l'ensemble de données d'origine et générer une représentation de l'ensemble de données d'origine. Il est conçu pour optimiser la corrélation entre les ensembles de données d’entrée et de sortie.

+ `Le réseau contradictoire génératif` est le moyen le plus populaire de générer des données. Vous pouvez l'utiliser pour restituer des images synthétiques, du son, des données tabulaires et des données de simulation. Il utilise une architecture de modèle d'apprentissage profond générateur et discriminateur pour générer des données synthétiques en comparant des échantillons aléatoires avec des données réelles. Lisez notre didacticiel [Démystifier les réseaux contradictoires génératifs](https://www.datacamp.com/tutorial/generative-adversarial-networks) pour créer vos propres données synthétiques à l'aide de Keras.  

# Qu’est-ce que Python Faker ?

+ [Python Faker](https://github.com/joke2k/faker) est un package Python open source utilisé pour créer un faux ensemble de données pour tester les applications, amorcer la base de données et maintenir l'anonymat des utilisateurs.

![Alt Text](https://images.datacamp.com/image/upload/v1660228273/faker_664bc6bd92.png)

+ Vous pouvez installer Faker en utilisant :

```
pip install faker
```

|Faker |Function Purpose|
|-----|---------------|
|name()| Génère un faux nom complet|
|credit_card_full() |Génère un numéro de carte de crédit avec expiration et CVV|
|email() |Génère une fausse adresse e-mail|
|url() |Générer une fausse URL|
|phone_number() |Génère un faux numéro de téléphone avec l'indicatif du pays|
|address()| Génère une fausse adresse complète|
|license_plate() |Génère une fausse plaque d'immatriculation |
|currency() |Générer un tuple de code de devise et un formulaire complet|
|color_name()| Générer un nom de couleur aléatoire|
|local_latlng()| Générez la latitude, la longitude, la zone, le pays et les états|
|domain_name()| Générer le faux nom de personne basé sur un faux site Web|
|text()| Générez le faux petit texte|
|company() |Générer un faux nom d'entreprise|





# Génération de données synthétiques avec Python Faker

In [None]:
!pip install ucimlrepo
!pip install faker

### Exemple 1

In [2]:
from faker import Faker
fake = Faker()

In [3]:
print(fake.name())
print(fake.email())
print(fake.country())
print(fake.name())
print(fake.text())
print(fake.latitude(), fake.longitude())
print(fake.url())

Shelby Hicks
angela01@example.com
Korea
Joseph Baird
Class future candidate in impact by. Food company economy assume land financial. Base maintain camera meeting.
Source do partner music lead nearly.
86.1237395 35.237745
https://www.jenkins-hahn.com/


### Exemple 2

In [4]:
fake = Faker("es_ES")
print(fake.email())
print(fake.country())
print(fake.name())
print(fake.text())
print(fake.latitude(), fake.longitude())
print(fake.url())

lpenalver@example.net
Tailandia
Jose Angel Estévez
Veritatis iusto et doloribus dignissimos culpa quod. Eius veritatis quaerat a facilis eum. Magnam atque magni blanditiis.
-71.9923645 91.213179
https://familia.org/


In [5]:
fake = Faker("de_DE")
fake.profile()

{'job': 'Elektroniker',
 'company': 'Steckel e.G.',
 'ssn': '352-40-7297',
 'residence': 'Adlergasse 7\n76570 Merseburg',
 'current_location': (Decimal('10.0703095'), Decimal('-179.185086')),
 'blood_group': 'A+',
 'website': ['http://tlustek.com/', 'http://meyer.de/'],
 'username': 'ingolf65',
 'name': 'Valeria Hecker-Krebs',
 'sex': 'F',
 'address': 'Hannelore-Hänel-Straße 4/6\n93567 Brilon',
 'mail': 'sieglindehertrampf@aol.de',
 'birthdate': datetime.date(1980, 5, 30)}

### Exemple 3

In [6]:
from random import randint
import pandas as pd

fake = Faker()

def input_data(x):

    # pandas dataframe
    data = pd.DataFrame()
    for i in range(0, x):
        data.loc[i,'id']= randint(1, 100)
        data.loc[i,'name']= fake.name()
        data.loc[i,'address']= fake.address()
        data.loc[i,'latitude']= str(fake.latitude())
        data.loc[i,'longitude']= str(fake.longitude())
    return data


input_data(10)

Unnamed: 0,id,name,address,latitude,longitude
0,81.0,Jillian Williams,"1773 Wright Streets\nJillville, VI 35183",89.5131185,-166.127844
1,60.0,Catherine White,"0531 Caitlin Court\nTylermouth, GA 99074",42.9979425,24.533313
2,59.0,Jason Choi,"319 Wiley Fields\nSouth Jeffreyshire, NH 90622",51.2073745,64.350501
3,53.0,Randall Wright,"8365 Michelle Neck Apt. 116\nJenniferbury, PW ...",-74.1306985,-146.638431
4,72.0,Tiffany Moss,"76367 Alexandra Estates\nPort Carriebury, MA 7...",-84.053883,12.529486
5,3.0,Tyler Stephens,"64006 Miller Mill\nClaytonfurt, NY 16949",-78.9498325,43.666596
6,51.0,Cody Baker,"602 Lisa Passage Apt. 426\nWest Zachary, ID 52501",-32.5151845,129.582795
7,86.0,Mary Fletcher,"291 Lisa Summit Suite 516\nNorth Michaelmouth,...",78.89758,39.567378
8,66.0,Wanda Frost,USNS Gates\nFPO AE 91246,3.721874,-44.469926
9,20.0,Nicole Torres,"11173 Tiffany Meadows\nPatrickbury, ND 28525",-35.136782,-75.021599


In [7]:
Faker.seed(2)
input_data(10)

Unnamed: 0,id,name,address,latitude,longitude
0,9.0,Theresa Brown,"449 Catherine Prairie\nSouth Danielle, AS 95267",46.651752,19.748349
1,57.0,Jill Adams,"7566 Ann Freeway\nNorth Gregory, HI 18418",46.946829,93.924342
2,81.0,Jose Castro,Unit 7685 Box 9557\nDPO AE 99329,17.337539,67.715834
3,25.0,Danielle Ramirez,"775 Tucker Forges Suite 294\nCollinshaven, OH ...",46.1925255,169.725443
4,98.0,Jennifer Simon,"915 Rebecca Field Apt. 090\nBrittanyville, WV ...",-53.358589,-37.277591
5,46.0,Daniel Gilmore,"55230 Darius Cliff\nNorth Jessicatown, MN 34014",-55.697404,-95.647764
6,91.0,Kelly Smith,"00591 Rogers Burgs\nShaneton, MH 35096",17.871857,153.716342
7,60.0,Kaitlyn Perez,"07289 Tucker Islands Apt. 544\nValdezside, DC ...",-74.757968,-44.189418
8,81.0,Christopher Davis,"37141 Claudia Union\nJonathanchester, KY 69469",-88.704857,-98.87051
9,66.0,Jason Rodriguez,"10231 Andrew Skyway\nChavezside, SD 50308",-32.9709565,-67.18167


In [8]:
word_list = ["DataCamp", "says", "great", "loves", "tutorial", "workplace"]

for i in range(0, 5):
    print(fake.sentence(ext_word_list=word_list))

Great DataCamp loves workplace workplace loves.
Loves great DataCamp workplace.
Loves says workplace great.
Workplace great DataCamp.
Workplace tutorial DataCamp great great.


# Mélanger les données synthétiques et les données réelles

In [12]:
# Loading CSV file
Ecommerce = pd.read_csv("/content/online_retail.csv")
Ecommerce.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/10 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/10 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/10 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/10 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/10 8:26,3.39,17850.0,United Kingdom


In [13]:
Ecommerce.Country.dropna().unique()

array(['United Kingdom', 'France', 'Australia', 'Netherlands', 'Germany',
       'Norway', 'EIRE', 'Switzerland', 'Spain', 'Poland', 'Portugal',
       'Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland',
       'Channel Islands', 'Denmark', 'Cyprus', 'Sweden', 'Austria',
       'Israel', 'Finland', 'Bahrain', 'Greece', 'Hong Kong', 'Singapore',
       'Lebanon', 'United Arab Emirates', 'Saudi Arabia',
       'Czech Republic', 'Canada', 'Unspecified', 'Brazil', 'USA',
       'European Community', 'Malta', 'RSA'], dtype=object)

In [14]:
def anonymous(df):

    # Extracting unique CustomerID
    unique_id = df.CustomerID.dropna().unique()

    # Creating the dictionary for Faker localized providers
    local = {
        "United Kingdom": "en_GB",
        "France": "fr_FR",
        "Australia": "en_AU",
        "Netherlands": "nl_NL",
        "Germany": "de_DE",
        "Norway": "no_NO",
        "EIRE": "ga_IE",
    }

    for i in unique_id:

        # Extracting row index
        row_id = df[df["CustomerID"] == i].index

        # Extracting country name for faker locale
        CountryName = Ecommerce.loc[
            Ecommerce["CustomerID"] == i, "Country"
        ].to_numpy()[0]

        # Using locale dictionary to create faker locale generator
        code = local[CountryName]
        fake = Faker(code)

        # Generating fake data and adding it to dataframe
        CustomerName = fake.name()
        Address = fake.address()
        Latitude = str(fake.latitude())
        Longitude = str(fake.longitude())

        for x in row_id:
            df.loc[x, "CustomerName"] = CustomerName
            df.loc[x, "Address"] = Address
            df.loc[x, "Latitude"] = Latitude
            df.loc[x, "Longitude"] = Longitude

    return df

In [None]:
# Using seed for reproducibility
Faker.seed(5)

secure_db = anonymous(Ecommerce)
secure_db

In [None]:
display_db = []
for i in Ecommerce.Country.dropna().unique():
    display_db.append(secure_db[secure_db["Country"] == i].to_numpy()[0])
pd.DataFrame(display_db, columns=Ecommerce.columns)