In [15]:
from faker import Faker
from faker_vehicle import VehicleProvider
import pandas as pd
import numpy as np
import datetime


Y obtenemos un objeto de tipo Faker

In [4]:
fake = Faker()

Añadimos el proveedor de datos con marcas y modelos de autos.

In [5]:
fake.add_provider(VehicleProvider)

Hacemos una pequeña prueba para asegurarnos de que todo marcha bien.

In [6]:
fake.name()

'Robert Mccarthy'

In [7]:
fake.vehicle_make_model()

'Hyundai Elantra'

Hasta ahora todo bien. Vamos a probar precio. Para eso, después de buscar en la documentación, vemos que existe faker.random_number, con los parametros cantidad de digitos, y se puede especificar que solo nos interesan los numeros que tengan esa cantidad de digitos. Lo que pudiera quedar así:

In [9]:
fake.random_number(digits=5, fix_len=True)

55397

Sin embargo, me interesa un rango de números aleatorios más cerrado, digamos entre 10000 y 40000. Por eso prefiero usar la librería numpy y su funcionalidad para general números aleatorios

In [29]:
np.random.randint(10000, 40000)

23864

Y le toca el turno a la fecha. Despues de revisar la documentación vemos que podemos definir un rango de fecha, con la función date_between(start_date, end_date). Tiene la particularidad que si se omite la fecha final, se asume que el rango es hasta el momento actual. Los parametros de entrada se definen mediante objetos Date

In [17]:
fake.date_between(datetime.date(2021,1,1))

datetime.date(2022, 4, 30)

Hemos recibido un objeto datetime.date, pero nos interesa guardarlo en el dataframe en forma de string. Así que vamos a ejecutarlo otra ves, esta vez llamando una función de la librería datetime para formatear adecuadamente a string.

In [21]:
fake.date_between(datetime.date(2021,1,1)).strftime('%Y-%m-%d')

'2021-09-06'

Vamos a poner todas las piezas juntas. Para eso vamos a aprovechar list comprehension (comprensión de listas) 

In [30]:
data = [
             { "costumer": fake.name(),
               "car": fake.vehicle_make_model(),
               "price": np.random.randint(10000, 40000),
               "date": fake.date_between(datetime.date(2021,1,1)).strftime('%Y-%m-%d')
             }
             for i in range(2000)
         ]

Vemos como luce nuestra lista

In [31]:
data[0:3]

[{'costumer': 'Bobby Banks',
  'car': 'Hyundai Genesis Coupe',
  'price': 15170,
  'date': '2022-09-23'},
 {'costumer': 'Brian Matthews',
  'car': 'Chrysler 300',
  'price': 13378,
  'date': '2021-11-10'},
 {'costumer': 'Ashley Murphy',
  'car': 'Chevrolet Silverado 2500 HD Regular Cab',
  'price': 30434,
  'date': '2021-04-21'}]

Y finalmente vamos a crear nuestro dataframe.

In [32]:
df = pd.DataFrame(data = data)

In [33]:
df

Unnamed: 0,costumer,car,price,date
0,Bobby Banks,Hyundai Genesis Coupe,15170,2022-09-23
1,Brian Matthews,Chrysler 300,13378,2021-11-10
2,Ashley Murphy,Chevrolet Silverado 2500 HD Regular Cab,30434,2021-04-21
3,Theresa Wilson,Isuzu i-370 Extended Cab,36648,2021-03-09
4,Judy Brewer,Dodge Ram Wagon 1500,17963,2022-06-04
...,...,...,...,...
1995,Brittany Hale,Nissan Titan Crew Cab,34862,2021-10-13
1996,Sarah Campbell,Cadillac DeVille,39151,2022-04-12
1997,Tracy Evans,INFINITI G,11412,2022-11-10
1998,Jacqueline Guerrero,Mitsubishi Eclipse,17310,2022-07-30
