# Generowanie syntetycznych danych korzystając z biblioteki Faker

Biblioteka Faker to narzędzie Pythona do generowania fałszywych danych. Jest szczególnie przydatna podczas testowania aplikacji

## Jak zainstalować bibliotekę Faker?

Za pomocą conda:
```bash
conda activate od_zera_do_ai
conda install -y faker
```

lub za pomocą pip:
```bash
pip install Faker
```

## Jak zacząć korzystać z biblioteki Faker?

In [None]:
# należy zaimportować z biblioteki faker klasę Faker
from faker import Faker

fake = Faker()

## Jak wygenerować fałszywe imię i nazwisko?

In [None]:
fake.name()

## Jak wygenerować fałszywy adres e-mail?

In [None]:
fake.email()

## Jak wygenerować fałszywy adres?

In [None]:
fake.address()

## Jak wygenerować fałszywy tekst?

In [None]:
fake.text()

In [None]:
fake.text(300)

## Jakie typy danych można generować za pomocą biblioteki Faker?

Faker może generować szeroki zakres typów danych. Oto kilka przykładów:

In [None]:
print(fake.name())       # Imię i nazwisko
print(fake.address())    # Adres
print(fake.text())       # Tekst
print(fake.email())      # E-mail
print(fake.phone_number())  # Numer telefonu
print(fake.date_of_birth())  # Data urodzenia
print(fake.company())    # Nazwa firmy
print(fake.job())        # Stanowisko pracy
print(fake.credit_card_number())  # Numer karty kredytowej
print(fake.iban())       # Numer IBAN

## Jak sprawdzić czy faker może wygenerować szukane przeze mnie dane?

In [None]:
for attr in dir(fake):
    if "name" in attr:
        print(attr)

## Czy faker potrafi wygenerować dane w języku polskim?

In [None]:
fake_pl = Faker('pl_PL')
fake_pl.name()

In [None]:
fake_pl.address()

In [None]:
fake_pl.text()

## Jak sprawić, żeby faker zawsze generował te same dane?

In [None]:
from faker import Faker

fake = Faker()
Faker.seed(0)

In [None]:
print(fake.name())
print(fake.address())

## Jak generować listy danych?

In [None]:
fake = Faker()

names = [fake.name() for _ in range(5)]
names

## Jak użyć faker do anonimizacji danych?

In [None]:
import pandas as pd
from faker import Faker


fake = Faker()
Faker.seed(4321)

# załóżmy, że mamy bazę pracowników, dane kontaktowe i wynagrodzenia
# dane kontaktowe są bardzo wrażliwe, więc nie możemy ich udostępniać
# ale co jeżeli musimy komuś przekazać dane do analizy?
df = pd.DataFrame([
    {'name': "John Doe", 'email': "john@real.com", 'salary': 560},
    {'name': "Anna Smith", 'email': "anna@real.com", 'salary': 500},
    {'name': "Will White", 'email': "will@gmail.com", 'salary': 450},
])

unique_emails_len = len(df['email'])
anonymized_emails = []
while len(anonymized_emails) < unique_emails_len:
    email = fake.email()
    if email not in anonymized_emails:
        anonymized_emails.append(email)

unique_names_len = len(df['name'])
anonymized_names = []
while len(anonymized_names) < unique_names_len:
    name = fake.name()
    if name not in anonymized_names:
        anonymized_names.append(name)


df['email'] = anonymized_emails
df['name'] = anonymized_names

df

## Jak wygenerować DataFrame z fałszywymi danymi?

In [None]:
import faker
import random

fake = faker.Faker()

data = []
for i in range(1000):
    data.append({
        'Age': random.randint(20, 100) if random.random() > 0.1 else None,
        'Name': fake.first_name() + ' ' + fake.last_name() if random.random() > 0.1 else None,
        'Address': fake.address() if random.random() > 0.1 else None,
        'Height': random.randint(150, 200) if random.random() > 0.1 else None,
        'Weight': random.randint(40, 110) if random.random() > 0.1 else None,
    })

clients_df = pd.DataFrame(data)
clients_df