# Creazione Casuale di Database

Questo codice ha l'obiettivo di generare quattro diversi database di dati in modo completamente casuale, garantendo l'assenza di qualsiasi riferimento a persone o cose reali.

Ad ogni esecuzione della cella corrispondente, verrà creato un database unico e casuale. Si prega di seguire l'ordine di esecuzione, poiché i database sono collegati tra loro.

### Importazione delle Librerie

La prima cella contiene le istruzioni per importare le librerie necessarie alla creazione dei dati.


In [None]:
import pandas as pd
import random
from random import randint as rdz
from random import shuffle as sff
from IPython.display import display

### Liste e dei Dizionari per la Generazione Casuale

In questa cella, vengono definite le liste ed i dizionari che saranno utilizzati per generare in modo casuale i nomi e i valori all'interno dei database.

In [None]:
Client_Names = ["TechSolutions Inc.", "DataMasters Corp.", "InnoTech Enterprises", "CyberGuard Innovations", "InfoSecure Solutions", "QuantumSystems Ltd.", "SyncTech Industries", "ByteMatrix Innovate", "SecureInnovate Co.", "InfoSphere Tech", "CloudPulse Innovations", "DataHarbor Systems", "TechLink Dynamics", "CipherTech Enterprises", "DataSync Innovations", "InnoGuard Solutions", "QuantumInnovate Corp.", "TechForge Ltd.", "SecureSphere Innovations", "InfoLink Dynamics", "CloudMatrix Solutions", "ByteSync Innovate", "InnoHarbor Co.", "DataForge Systems", "TechGuard Innovations", "CipherLink Corp.", "QuantumGuard Dynamics", "InfoForge Solutions", "SyncGuard Innovate", "DataLink Tech", "InnoPulse Corp.", "CloudHarbor Dynamics", "ByteHarbor Solutions", "SecureSync Tech", "QuantumLink Innovations", "InfoPulse Dynamics", "TechMatrix Co.", "CipherSync Innovate", "DataElite Solutions", "InnoSphere Tech", "SyncLink Dynamics", "CloudElite Innovations", "BytePulse Corp.", "QuantumSync Solutions", "InfoTech Dynamics", "SecureMatrix Innovate", "DataTech Co.", "TechPulse Dynamics", "CipherForge Innovations", "InnoSync Tech"]
Product_Names = ["DataGuard Pro", "InfoSync Elite", "SecureStream Plus", "Analytica Suite", "ByteShield Max", "Quantum Insight", "CipherFlow Prime", "Statistica Proxima", "CloudHarbor Guardian", "SyncSphere Master", "DataForge Nexus", "InfoMatrix Fusion", "QuantumPulse Precision", "CipherSync Horizon", "SmartParse Dynamics", "ByteGuard Sentinel", "QuantumSync Pro", "CyberMatrix Shield", "InfoVault Nexus", "Analytix Pro Plus", "CipherNet Secure", "StatElite Precision", "CloudGuardian Pro", "SyncMastermind Plus", "DataForge Analytics", "InfoSphere Fusion", "QuantumCore Prime", "CipherLink Dynamics", "StatFlow Precision", "CloudMatrix Elite", "SyncGuard Proxima", "DataHarbor Nexus", "InfoSync Dynamics", "QuantumSphere Fusion", "CipherForge Nexus", "StatHarbor Guardian", "CloudSync Precision", "SyncMatrix Prime", "DataPulse Dynamics", "InfoShield Horizon", "QuantumHarbor Guardian", "CipherPulse Proxima", "StatMatrix Fusion", "CloudForge Nexus", "SyncHarbor Dynamics", "DataLink Precision", "InfoPulse Pro", "QuantumLink Horizon", "CipherHarbor Guardian", "StatSync Dynamics"]
Names_List = [["Chiara", "Olivia", "Ava", "Isabella", "Sophia", "Mia", "Harper", "Evelyn", "Abigail", "Amelia", "Ella", "Emily", "Grace", "Lily", "Chloe", "Zoe", "Layla", "Nora", "Zoey", "Mila", "Avery", "Charlotte", "Aria", "Scarlett", "Madison", "Elena", "Penelope", "Victoria", "Riley", "Lila", "Hannah", "Aubrey", "Aurora", "Aaliyah", "Alice", "Stella", "Gianna", "Luna", "Sofia", "Lillian", "Lucy", "Nova", "Zara", "Aria", "Lyla", "Ruby", "Eleanor", "Hazel", "Violet"],  ["Liam", "Noah", "Jackson", "Lucas", "Aiden", "Ethan", "Caden", "Logan", "James", "Oliver", "Benjamin", "Sebastian", "Aiden", "Elijah", "William", "Leo", "Jackson", "Hudson", "Michael", "Daniel", "Alexander", "Eli", "Wright", "Lopez", "Hill", "Scott", "Green", "Adams", "Baker", "Nelson", "Carter", "Mitchell", "Perez", "Roberts", "Turner", "Phillips", "Campbell", "Parker", "Evans", "Edwards", "Collins", "Stewart", "Anderson", "Thomas", "Johnson", "Williams", "Jones", "Davis", "Miller", "Wilson", "Moore", "Taylor"]]
Surname_List = ["Smith", "Johnson", "Williams", "Jones", "Brown", "Davis", "Miller", "Wilson", "Moore", "Taylor", "Anderson", "Thomas", "Jackson", "White", "Harris", "Martin", "Thompson", "Garcia", "Martinez", "Robinson", "Clark", "Rodriguez", "Lewis", "Lee", "Walker", "Hall", "Allen", "Young", "Hernandez", "King", "Wright", "Lopez", "Hill", "Scott", "Green", "Adams", "Baker", "Nelson", "Carter", "Mitchell", "Perez", "Roberts", "Turner", "Phillips", "Campbell", "Parker", "Evans", "Edwards", "Collins", "Stewart"]
Countries = ["AL", "AD", "AT", "BY", "BE", "BA", "BG", "HR", "CY", "CZ", "DK", "EE", "FI", "FR", "GE", "DE", "GR", "HU", "IS", "IE", "IT", "LV", "LI", "LT", "LU", "MK", "MT", "MD", "MC", "ME", "NL", "NO", "PL", "PT", "RO", "RU", "SM", "RS", "SK", "SI", "ES", "SE", "CH", "TR", "UA", "GB", "VA", "XK", "ALB", "AND", "AUT", "BLR", "BEL", "BIH", "BGR", "HRV", "CYP", "CZE", "DNK", "EST", "FIN", "FRA", "GEO", "DEU", "GRC", "HUN", "ISL", "IRL", "ITA", "LVA", "LIE", "LTU", "LUX", "MKD", "MLT", "MDA", "MCO", "MNE", "NLD", "NOR", "POL", "PRT", "ROU", "RUS", "SMR", "SRB", "SVK", "SVN", "ESP", "SWE", "CHE", "TUR", "UKR", "GBR", "VAT", "XKX"]
Product_Categories = ["Data Security", "Information Sync and Management", "Communication Protection", "Analytics and Statistics", "Cloud Computing and Data Security"]
Alphabet = ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z"]
Roles = ["Human Resources Manager", "Software Developer", "Financial Analyst", "Administrative Assistant", "Marketing Manager", "Research and Development Engineer", "Technical Support Technician", "Cybersecurity Expert", "Operations Manager", "Seller"]
Fields = ["Information Technology", "Finance", "Healthcare", "Manufacturing", "Retail", "Telecommunications", "Energy", "Transportation", "Hospitality", "Media and Entertainment", "Education", "Agriculture", "Biotechnology", "Automotive", "Consulting", "Real Estate", "Pharmaceuticals", "Environmental Services", "Legal", "Non-profit", "Fashion", "Sports and Recreation", "Food and Beverage", "Travel", "Insurance", "Government", "Engineering", "Consumer Goods", "Utilities", "Research and Development", "Logistics", "E-commerce", "Aerospace", "Mining", "Human Resources", "Marketing", "Advertising", "Construction", "Social Services", "Aviation", "Software", "Hardware", "Internet Services", "Startups", "Renewable Energy", "Biomedical", "Fitness", "Design", "Music", "Gaming"]
Experience_Level = {"Junior": 0,"Intermediate": 0.15, "Senior": 0.3,"Lead/Manager": 0.5 }
Salary_Level={"Human Resources Manager": {"min": 45000, "max": 60000},"Software Developer": {"min": 50000, "max": 70000},"Financial Analyst": {"min": 45000, "max": 55000},"Administrative Assistant": {"min": 35000, "max": 45000},"Marketing Manager": {"min": 50000, "max": 65000},"Research and Development Engineer": {"min": 55000, "max": 70000},"Technical Support Technician": {"min": 40000, "max": 50000},"Cybersecurity Expert": {"min": 60000, "max": 75000},"Operations Manager": {"min": 55000, "max": 70000},"Seller": {"min": 40000, "max": 50000}}
Company_Sizes = { "Small": {"min": 5, "max": 50}, "Medium": {"min": 51, "max": 500}, "Large": {"min": 501, "max": 5000}, "Multinational": {"min": 5001, "max": 20000} }


### Funzioni di Supporto

In questa sezione, vengono definite e commentante le funzioni di supporto che verranno chiamate durante la creazione dei dataset.

In [None]:
# Restituisce casualmente uno dei nomi contenuti nella "Names_List", che è suddivisa tra nomi maschili e femminili.
def Sel_Name():
    # Scegli casualmente tra nomi maschili (0) e femminili (1)
    x = rdz(0, 1)
    # Seleziona un nome dalla lista corrispondente
    Name = Names_List[x]
    return Name[rdz(0, len(Name) - 1)]

# Restituisce "Female" se il nome associato alla riga è nella lista dei nomi femminili, altrimenti restituisce "Male".
def Sel_Gender(x):
    if Employees["Name"][x] in Names_List[0]:
        out = "Female"
    else:
        out = "Male"
    return out

# Estrae casualmente un cognome dalla lista "Surname_List".
def Sel_Surname():
    return Surname_List[rdz(0, len(Surname_List) - 1)]

# Crea casualmente una data di nascita all'interno di un intervallo di anni specificato.
def Create_date(AA_min, AA_max):
    year = rdz(AA_min, AA_max)
    month = rdz(1, 12)
    max_days = 31
    if month in (4, 6, 9, 11):
        max_days = 30
    if month == 2:
        max_days = 28
    day = rdz(1, max_days)
    # Formatta la data nel formato "gg/mm/aaaa"
    out = f"{day:02d}/{month:02d}/{year}"
    return out

# Genera casualmente un numero di telefono mantenendo solo la prima cifra.
def Sel_Tel():
    return "3" + str(rdz(10, 99)) + " " + str(rdz(100000, 999999))

# Crea l'indirizzo email del dipendente unendo nome, cognome, anno di nascita e un suffisso costante.
def Sel_Mail(pos):
    return f"{Employees['Name'][pos]}{Employees['Surname'][pos]}{Employees['Birth'][pos][-2:]}@email.not".lower().replace(" ", "")

# Genera un codice fiscale univoco per ogni dipendente, utilizzando alcune parti dei dati del dipendente e altre casuali.
def Sel_CF(pos):
    out = Employees['Surname'][pos].upper().replace(" ", "")[0:3]
    out += Employees['Name'][pos].upper().replace(" ", "")[0:3]
    out += Employees['Birth'][pos][-2:]
    out += Alphabet[int(Employees['Birth'][pos].split("/")[1]) - 1]
    out += Employees['Birth'][pos][0:2]
    out += Employees['Birth Country'][pos]
    out += str(rdz(10, 99))
    return out

# Restituisce una lista di numeri casuali compresi tra 10 e 99.
def rand_num():
    return sff([x for x in range(10, 99)])

# Calcola il salario del dipendente, tenendo conto del ruolo e dell'esperienza lavorativa.
def Cal_Salary(Role, Experience):
    salary = rdz(Salary_Level[Role]['min'], Salary_Level[Role]['max'])
    salary += salary * Experience_Level[Experience]
    return salary

# Estrae casualmente il numero dei dipendenti, considerando l'intervallo suggerito dalla dimensione dell'azienda.
def Cal_Empl(Size):
    return rdz(Company_Sizes[Size]['min'], Company_Sizes[Size]['max'])

#Creiamo la funzione che darà in output il database modificato
def Create_null(Database,min_err,max_err,empty_row):
    # Numero casuale di errori da introdurre
    NR_Error = rdz(min_err, max_err)
    
    # Calcolo del numero massimo di righe e colonne nel database
    Max_Row_Index, Max_Col_Index = Database.shape

    # Ciclo per l'inserimento delle righe vuote
    for _ in range(empty_row):
        nr = rdz(0,Max_Row_Index -1)

        # Creazione della riga vuota
        new_row = pd.Series(["" for _ in range(Max_Col_Index)], index=Database.columns)
        
        # Inserimento della stessa
        Database = pd.concat([Database.iloc[:nr], new_row.to_frame().T, Database.iloc[nr:]]).reset_index(drop=True)

    
    # Ciclo per introdurre celle vuote 
    for _ in range(NR_Error):
        # Selezione casuale di una posizione nel database
        Random_Row_Index = rdz(0, Max_Row_Index - 1)
        Random_Col_Index = rdz(0, Max_Col_Index - 1)
        
        # Introduzione di un valore vuoto nella posizione casuale
        Database.iat[Random_Row_Index, Random_Col_Index] = ""

    # Output    
    return Database


### Creazione dei Database

Le quattro celle seguenti forniscono le istruzioni per la creazione dei seguenti database:

1. **Employees**
2. **Products**
3. **Clients**
4. **Sales**

Durante la creazione, sono previste l'introduzione di celle e righe vuote all'interno dei database, rendendo necessaria una successiva fase di pulizia dei dati.

È importante notare che il database "Sales" viene creato alla fine, poiché acquisisce alcuni dati dagli altri database.



### Employees

In [None]:
# Creazione del Dataset dei Dipendenti

# Definizione del numero di record nel database.
NR_Employees = 250  # min 3

# Creazione di un dataframe vuoto.
Employees = pd.DataFrame()

# Popolamento delle colonne con dati utilizzando le funzioni definite precedentemente.
Employees["Name"] = [Sel_Name() for _ in range(NR_Employees)]
Employees["Surname"] = [Sel_Surname() for _ in range(NR_Employees)]
Employees["Birth"] = [Create_date(1950, 2000) for _ in range(NR_Employees)]
Employees["Birth Country"] = [Countries[rdz(0, len(Countries) - 1)] for _ in range(NR_Employees)]
Employees["Gender"] = [Sel_Gender(x) for x in range(NR_Employees)]

# Creazione di colonne con valori univoci.
while True:
    Employees["Code"] = [Sel_CF(x) for x in range(NR_Employees)]
    if Employees["Code"].nunique() == NR_Employees:break

while True:
    Employees["Telephone"] = [Sel_Tel() for x in range(NR_Employees)]
    if Employees["Telephone"].nunique() == NR_Employees:break

# Creazione delle restanti colonne del dataframe.
Employees["Email"] = [Sel_Mail(x) for x in range(NR_Employees)]
Employees["Role"] = [Roles[rdz(0, len(Roles) - 1)] for _ in range(NR_Employees)]

# Garanzia che almeno il 20% degli impiegati siano "Seller".
while Employees["Name"][Employees["Role"] == "Seller"].count() < round(NR_Employees * 0.2, 0):
    Employees["Role"][rdz(0, NR_Employees - 1)] = "Seller"

Employees["Experience"] = [list(Experience_Level.keys())[rdz(0, len(Experience_Level) - 1)] for _ in range(NR_Employees)]
Employees["Salary USD"] = [int(Cal_Salary(Employees["Role"][x], Employees["Experience"][x])) for x in range(NR_Employees)]

# Inseriamo delle righe e dei valori vuoti all'innterno del database
Employees = Create_null(Employees,5,10,5)

# Stampa del messaggio di conferma e visualizzazione delle prime righe del dataframe.
print("Database 'Employees': creato")
display(Employees)


### Products

In [None]:
# Creazione del Dataset dei Products

# Definizione del numero massimo di prodotti nel database.
NR_Products = 25  # max 50

# Creazione di una lista di ID e di nomi di prodotti, successivamente mescolati.
ID_List = [x for x in range(1, 99)]
sff(ID_List)
sff(Product_Names)

# Creazione di un dataframe vuoto.
Products = pd.DataFrame()

# Assegnazione di ID univoci ai prodotti.
while True:
    Products["ID Product"] = ["PR" + str(ID_List[x]) for x in range(NR_Products)]
    if Products["ID Product"].nunique() == NR_Products:
        break

# Creazione delle colonne restanti del dataframe.
Products["Product Name"] = [Product_Names[x] for x in range(NR_Products)]
Products["Category"] = [Product_Categories[rdz(0, len(Product_Categories) - 1)] for _ in range(NR_Products)]
Products["Gross Price"] = [int(rdz(10, 500)) for _ in range(NR_Products)]
Products["% Margin"] = [int(random.randrange(5, 50, 5)) for _ in range(NR_Products)]
Products["Selling Price"] = [int(Products["Gross Price"][x] + Products["Gross Price"][x] * (Products["% Margin"][x] / 100)) for x in range(NR_Products)]

# Inseriamo delle righe e dei valori vuoti all'innterno del database
Products = Create_null(Products,2,5,2)

# Stampa del messaggio di conferma e visualizzazione delle prime righe del dataframe.
print("Database Products: Creato")
display(Products.head())


### Clients

In [None]:
# Creazione del Database Clients

# Definizione del numero massimo di clienti nel database.
NR_Clients = 10  # max 50

# Creazione di una lista di ID e di nomi di clienti, successivamente mescolati.
sff(ID_List)
sff(Client_Names)

# Creazione di un dataframe vuoto.
Clients = pd.DataFrame()

# Assegnazione di ID univoci ai clienti.
while True:
    Clients["ID Client"] = ["CL" + str(ID_List[x]) for x in range(NR_Clients)]
    if Clients["ID Client"].nunique() == NR_Clients:
        break

# Creazione delle colonne restanti del dataframe.
Clients["Company Name"] = [Client_Names[x] for x in range(NR_Clients)]
Clients["Country"] = [Countries[rdz(0, len(Countries) - 1)] for _ in range(NR_Clients)]
Clients["Dimension"] = [list(Company_Sizes.keys())[rdz(0, len(Company_Sizes) - 1)] for _ in range(NR_Clients)]
Clients["Employees Number"] = [Cal_Empl(Clients["Dimension"][x]) for x in range(NR_Clients)]
Clients["Field"] = [Fields[rdz(0, len(Fields) - 1)] for _ in range(NR_Clients)]

# Inseriamo delle righe e dei valori vuoti all'innterno del database
Clients = Create_null(Clients,1,5,1)

# Stampa del messaggio di conferma e visualizzazione delle prime righe del dataframe.
print("Database Clients: Creato")
display(Clients.head())


### Sales

In [None]:
# Creazione del Database Sales

# Definizione del numero di vendite nel database.
NR_Sales = 500

# Creazione di un dataframe vuoto.
Sales = pd.DataFrame()

# Assegnazione di ID univoci alle vendite.
Y = rdz(100, 500)
Sales["ID Sale"] = ["FT" + str(x) for x in range(Y, Y + NR_Sales)]

# Associazione di ID prodotto, codice venditore, ID cliente, quantità venduta e data di vendita con esclusione dei valori nulli
Valid_ID_Product = Products["ID Product"][Products["ID Product"] != ""].reset_index(drop= "index")
Sales["ID Product"] = [Valid_ID_Product[rdz(0, len(Valid_ID_Product) - 1)] for _ in range(NR_Sales)]

Valid_Seller_Code = Employees["Code"][Employees["Role"] == "Seller"][Employees["Code"][Employees["Role"] == "Seller"]!= ""]
Sales["Seller Code"] = [Valid_Seller_Code.values[rdz(0, len(Valid_Seller_Code) - 1)] for _ in range(NR_Sales)]

Valid_ID_Client =Clients["ID Client"][Clients["ID Client"] != ""].reset_index(drop= "index")
Sales["ID Client"] = [Valid_ID_Client[rdz(0, len(Valid_ID_Client) - 1)] for _ in range(NR_Sales)]

# Creaimo i valori per le altre colonne
Sales["Quantity Sold"] = [rdz(10, 500) for _ in range(NR_Sales)]
Sales["Sale Date"] = [Create_date(2020, 2023) for _ in range(NR_Sales)]

# Inseriamo valori e righe vuote nelle sole colonne che non prendono valori dalle altre tabelle
Sales.iloc[:,[4,5]] = Create_null(Sales.iloc[:,[4,5]],5,10,3)

# Stampa del messaggio di conferma e visualizzazione delle prime righe del dataframe.
print("Database Sales: Creato")
display(Sales.head())


### Esporta i database

Quest'ultima cella ha la funzione di esportare, in formato CSV, i database appena creati

Solstituire il contenuto di "Folder_Path" con il percorso della cartella in cui si vogliono salvare i database

In [None]:
Folder_Path = "" # Inserire il path della cartella in cui salvare i file creati 

Employees.to_csv(Folder_Path+"DF_Dipendenti.csv",index=False)
Products.to_csv(Folder_Path+"DF_Prodotti.csv",index=False)
Clients.to_csv(Folder_Path+"DF_Clienti.csv",index=False)
Sales.to_csv(Folder_Path+"DF_Vendite.csv",index=False)