# Faker
**Datos sintéticos**

Tal como define la Agencia Española de Protección de Datos entendemos por datos sintéticos los "datos generados artificialmente, a diferencia de los datos reales que se recopilan de la realidad".

Los datos sintéticos deben preservar las características y propiedades de los datos reales para un caso de uso específico.

Por ejemplo, los utilizaremos durante las fases de desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias, o incluso dichos datos reales no existen.

También nos permite utilizarlos como técnica de privacidad, cuando se utilizan para crear conjuntos de datos no personales con la misma utilidad que los personales.

**Faker**

Si necesitamos generar muchos datos, es muy útil emplear una librería como Faker para generar datos sintéticos.

Primero hemos de instalarla mediante pip:

In [1]:
!pip3 install faker

Collecting faker
  Downloading Faker-33.3.1-py3-none-any.whl.metadata (15 kB)
Downloading Faker-33.3.1-py3-none-any.whl (1.9 MB)
   ---------------------------------------- 0.0/1.9 MB ? eta -:--:--
   ---------------------- ----------------- 1.0/1.9 MB 7.2 MB/s eta 0:00:01
   ---------------------------------------- 1.9/1.9 MB 8.0 MB/s eta 0:00:00
Installing collected packages: faker
Successfully installed faker-33.3.1


Vamos a realizar un ejemplo para mostrar algunos datos aleatorios y comprobar su funcionamiento:

In [2]:
from faker import Faker

fake = Faker()
fake = Faker('es_ES')   # cambiamos el locale a español

print("Nombre:", fake.name())
print("Dirección:", fake.address())
print("Nombre de hombre:", fake.first_name_male())
print("Número de teléfono:", fake.phone_number())
print("Color:", fake.color_name())
print("Fecha:", fake.date())
print("Email:", fake.email())
print("Frase de 10 palabras", fake.sentence(nb_words=10))

Nombre: Cebrián Nadal Vendrell
Dirección: Calle Eligio Arrieta 7
Barcelona, 42132
Nombre de hombre: Gonzalo
Número de teléfono: +34 813 42 90 62
Color: Rojo ladrillo
Fecha: 2010-03-27
Email: hgomis@example.net
Frase de 10 palabras Placeat facilis non quis enim nisi sint veritatis cupiditate nihil at quae.


Los diferentes grupos de datos que genera se agrupan en Providers: de dirección, fechas, relacionados con internet, bancarios, códigos de barra, isbn, etc...

Se recomienda consultar la documentación en https://faker.readthedocs.io/en/master/providers.html.

NOTA: Al trabajar con el idioma en español, puede que algunos métodos no funcionen (más que no funcionar, posiblemente tengan otro nombre). Es recomendable comprobar las opciones disponibles en https://faker.readthedocs.io/en/master/locales/es_ES.html

**Generando CSV**

Vamos a generar un CSV con datos de 1000 personas. Primero creamos una lista con los encabezados y los escribimos en el fichero, para posteriormente, línea a línea, generar los datos de cada persona:

In [5]:
from faker import Faker
import csv

output = open('datosFaker.csv', 'w', encoding='utf-8')

fake = Faker('es_ES')   # cambiamos el locale a español
header = ['nombre', 'edad', 'calle', 'ciudad',
        'provincia', 'cp', 'longitud', 'latitud']
mywriter = csv.writer(output)
mywriter.writerow(header)

for r in range(1000):
    mywriter.writerow([fake.name(),
                    fake.random_int(min=18, max=80, step=1),
                    fake.street_address(),
                    fake.city(),
                    fake.state(),
                    fake.postcode(),
                    fake.longitude(),
                    fake.latitude()])
output.close()

**Generando JSON**

Y a continuación repetimos el mismo ejemplo, pero ahora generando un documento JSON. La principal diferencia es que primero vamos a rellenar un diccionario con toda la información, y luego persistimos el diccionario:

In [6]:
from faker import Faker
import json

fake = Faker('es_ES')   # cambiamos el locale a español

# Preparamos los datos
datos = {}
datos['registros'] = []

for x in range(1000):
    persona = {"datos": fake.name(),
            "edad": fake.random_int(min=18, max=80, step=1),
            "calle": fake.street_address(),
            "ciudad": fake.city(),
            "provincia": fake.state(),
            "cp": fake.postcode(),
            "longitud": float(fake.longitude()),
            "latitud": float(fake.latitude())}
    datos['registros'].append(persona)

# Los metemos en el fichero
output = open('datosFaker.json', 'w', encoding='utf-8') 
json.dump(datos, output)