# Company dataset from LLM

### Download companies from here https://www.kaggle.com/datasets/peopledatalabssf/free-7-million-company-dataset?resource=download

### Prompt test

In [124]:
# Example
list_company_name = ['Ferrero', 'Amazon', 'Ferrari']

In [125]:
def get_prompt(list_company_name):

  return f"""
You are an expert in company names and their aliases. You will assist me in building a precise dataset of company names and their aliases.

For instance, the company "Intesa Sanpaolo" can be written in various ways such as "Intesa Sanpaolo", misspelled as "Intesa San Paolo", abbreviated as "ISP", or with its legal entity name "Intesa Sanpaolo S.p.A." Similarly, "Fiat Chrysler Automobiles" can be abbreviated as "FCA".

In cases where companies have merged, such as "Stellantis", it should be recognized as the same company as "Fiat Chrysler Automobiles" and "Peugeot". For temporary joint ventures like "Nokia and Siemens", they should not be confused as a single entity but recognized as separate companies.

Also, note that "OpenAI" and "Microsoft" are distinct companies, even though Microsoft leverages OpenAI products.

For each company name, provide one or more aliases including possible, abbreviations, acronyms, patents, and official documents, among others. Accuracy and precision in your work are essential, our lives and happiness depend on this.
If you don't have any correct aliases to match, please do not include them.

Ensure that the names you associate with a company are effectively real aliases or representations of that company.

You will receive a list of company names such as ['FCA', 'Intesa Sanpaolo', 'OpenAI'] and you should return only a CSV table formatted with only two fields: company name, alias company name.
If you have multiple aliases for the same company, add each alias on the next row while maintaining the two columns.

The output style should be simple (no title, comments or markdown style) only like this:

FCA, Fiat Chrysler Automobiles
Intesa Sanpaolo, ISP
Intesa Sanpaolo, Intesa San Paolo
OpenAI, Open AI
Stellantis, FCA

----------------------------------------------------------

List of company names: {list_company_name}

"""

prompt = get_prompt(list_company_name)

# To set more typos in the name you can add 'common names in news' in the list of possible source. You can furhter remove 'misspellings' to be more precise.

In [126]:
# Register here and get the secret key for free https://www.awanllm.com/

from google.colab import userdata
AWANLLM_API_KEY = userdata.get('awan')

import requests
import json

url = "https://api.awanllm.com/v1/chat/completions"

payload = json.dumps({
  "model": "Awanllm-Llama-3-8B-Dolfin",
  "messages": [
    {
      "role": "user",
      "content": prompt
    }
  ],
  "max_tokens": 1024,
  "temperature": 0.7
})
headers = {
  'Content-Type': 'application/json',
  'Authorization': f"Bearer {AWANLLM_API_KEY}"
}

response = requests.request("POST", url, headers=headers, data=payload)

In [127]:
print(json.loads(response.text)['choices'][0]['message']['content'])

Ferrero, Ferrero SpA
Ferrero, Nutella
Amazon, AMZN
Ferrari, Scuderia Ferrari


## Loop for dataset creation

In [128]:
import pandas as pd
# df = pd.read_csv('companies_sorted.csv')
# df_ita = df[df.country=='italy']
# list_company_name = df_ita.name[0:300].values

In [129]:
list_company_name = ['saipem', 'unicredit', 'leonardo', 'eni', 'intesa sanpaolo',
       'telecom italia', 'poste italiane', 'enel', 'luxottica', 'ibest',
       'libero  professionista', 'ministero della difesa',
       'world food programme', 'pirelli', 'magneti marelli', 'fao',
       'gucci', 'university of rome "la sapienza"',
       'bnl gruppo bnp paribas', 'banca monte dei paschi di siena',
       'university of padova', 'engineering ingegneria informatica spa',
       'university of milan', 'prada',
       'alitalia compagnia aerea italiana spa', 'banca mediolanum',
       'comau', 'iveco', 'costa crociere', 'ferrari', 'prysmian group',
       'trenitalia s.p.a.', 'me stessa', 'university of florence',
       'consiglio nazionale delle ricerche', 'studio commercialista',
       'banco popolare', 'unipolsai assicurazioni spa',
       'arma dei carabinieri', 'gi group', 'ubi banca', 'banca fideuram',
       'sky italia', 'ied istituto europeo di design',
       'politecnico di milano', 'università degli studi di torino',
       'ansaldo sts', 'sunglass hut', 'politecnico di torino',
       'almaviva s.p.a.', 'university of naples federico ii',
       'dolce&gabbana s.r.l', 'benetton group', 'alleanza assicurazioni',
       'wind', 'calzedonia group', 'finecobank', 'university of pisa',
       'mediaset', 'rfi rete ferroviaria italiana', 'diesel', 'fastweb',
       'university of rome "tor vergata"', 'whirlpool emea', 'danieli',
       'mondadori', 'comune', 'inail', 'chiesi group', 'allianz italia',
       'university of bologna', 'barilla group', "banca d'italia",
       'bulgari', 'piaggio group', 'menarini group',
       'libero professionista geometra', 'pwc italy',
       'fincantieri s.p.a.', 'polizia di stato',
       'università degli studi di milano-bicocca', 'salini impregilo',
       'egencia', 'ntt data italia', 'esselunga', 'university of pavia',
       'agenzia delle entrate', 'cheil worldwide', 'dental clinic',
       'università degli studi di bari', 'accenture italia',
       'ermenegildo zegna group', 'università degli studi roma tre',
       'rina', 'ansaldo energia', 'banca popolare di milano',
       "università degli studi di roma 'la sapienza'", 'valentino',
       'indesit company', 'salvatore ferragamo', 'max mara fashion group',
       'maserati', 'bper banca', 'astaldi', 'università bocconi',
       'gruppo cariparma crédit agricole', 'libre', 'amplifon',
       'kpmg italy', 'safilo', 'enel green power',
       'marche sub di cristobal alvarez rodolfo', 'university of trento',
       'università degli studi di palermo', 'bonatti s.p.a.',
       'unipol assicurazioni', 'university of modena and reggio emilia',
       'decathlon italia', 'avio aero', 'business integration partners',
       'studio tecnico ing. riccardo tognarini e centro promozionale efficienza in edilizia',
       'unicredit business integrated solutions',
       'reale mutua assicurazioni', 'rcs mediagroup', 'fendi',
       'il sole 24 ore', 'enea', 'brembo s.p.a.', 'banco bpm', 'lavazza',
       'geox', 'h3g', 'credem banca', 'ariston thermo group',
       'deloitte italia', 'ferrovie dello stato s.p.a.', 'gruppo campari',
       'sirti', 'ministero delle infrastrutture e trasporti', 'a2a',
       'banca generali', 'cattolica assicurazioni', 'lidl italia',
       'provincia autonoma di trento', 'zambon', 'bottega veneta',
       'kiko milano', 'comune di roma', 'deutsche bank italia', 'anas',
       'croce rossa italiana',
       'scuola superiore della pubblica amministrazione',
       'automobili lamborghini s.p.a.', 'sogefi group', 'sia s.p.a.',
       'policlinico umberto i', 'datalogic', 'scuola normale superiore',
       'technogym', 'university of verona', 'wind tre', 'randstad italia',
       'comdata spa', 'regione emilia-romagna', 'italtel',
       'libera professione', 'apss trento', 'crif',
       'università politecnica delle marche', 'edison spa',
       'seat pagine gialle spa', 'infn', 'banca ifis', 'regione lazio',
       'istituto clinico humanitas', 'psicologia', 'ilva spa', 'azimut',
       'credito valtellinese', 'hera', 'italiaonline', 'angelini',
       'diasorin',
       'ministero dei beni e delle attività culturali e del turismo',
       'permasteelisa spa', 'studio professionale', 'atac spa', 'bticino',
       'terna', 'rai - radiotelevisione italiana s.p.a.',
       'axa assicurazioni', 'exprivia', 'indipendente', 'miroglio',
       'ministero pubblica istruzione', 'electrolux professional',
       'istituto italiano di tecnologia', "scuola superiore sant'anna",
       'banca popolare di vicenza', 'italcementi group', 'artsana group',
       'istat', 'university of catania', 'veneto banca',
       'groupama assicurazioni s.p.a.', 'ovs', 'university of messina',
       'loro piana', 'international fund for agricultural development',
       'fpt industrial', 'fondazione don carlo gnocchi onlus',
       "de'longhi", 'chebanca! s.p.a - gruppo mediobanca',
       'gruppo banca sella', 'snam rete gas', 'bracco', 'acea spa',
       'varie', 'moncler', "autostrade per l'italia", 'fondiaria-sai',
       'mcs', 'comune di bologna', 'mediamarket s.p.a.',
       'agos ducato spa', 'university of calabria', 'law firm',
       'versalis spa', 'regione piemonte', 'ssc', 'banca imi',
       'biesse group', 'medisur', 'enav', 'university of salerno',
       'candy hoover group', 'luiss', 'university of perugia',
       'teamsystem', 'università del salento', 'la perla',
       'ericsson it solutions & services spa', 'ducati motor holding',
       'zucchetti', 'azienda ospedaliera universitaria integrata verona',
       'sisal s.p.a.', 'sanpaolo invest sim s.p.a.', 'unieuro',
       'fondazione i.r.c.c.s. policlinico san matteo pavia',
       'fincons group', 'banca carige spa', 'techedge group', 'sogei',
       'maire tecnimont', 'mediobanca', 'unipol banca', 'conad',
       'recordati', 'comune di firenze', 'university of siena',
       'fater s.p.a.', 'natuzzi', 'sol', 'banca popolare di sondrio',
       'università degli studi di cagliari', 'coop alleanza 3.0',
       'presidenza del consiglio dei ministri',
       'sara assicurazioni s.p.a.', 'sacmi',
       'ieo istituto europeo di oncologia', 'vittoria assicurazioni',
       'mine', 'scm group spa', 'sdl centrostudi s.p.a.',
       'italferr s.p.a.', 'alten italia', 'italia lavoro', 'csi piemonte',
       'sielte s.p.a.', 'sda express courier', 'findomestic banca spa',
       'sorin group', 'camera dei deputati',
       'regione autonoma friuli venezia giulia',
       'sda bocconi school of management', 'frau', 'coldiretti',
       'wolters kluwer italia', 'marcolin', 'university of udine',
       'bonfiglioli', 'mondo convenienza',
       'zoppas industries heating element technologies',
       'università degli studi di parma', 'same deutz-fahr group',
       'telespazio', 'furla', 'würth italia', 'gea', 'manutencoop']

In [135]:
import time

dataset_alias = 'Company Name, Alias\n'

STEP=5
for i in range(0, len(list_company_name), STEP):
  try:
      list_company_name_tmp = list_company_name[i:i+STEP]

      url = "https://api.awanllm.com/v1/chat/completions"

      payload = json.dumps({
        "model": "Awanllm-Llama-3-8B-Dolfin",
        "messages": [
          {
            "role": "user",
            "content": get_prompt(list_company_name_tmp)
          }
        ],
        "max_tokens": 1024,
        "temperature": 0.7
      })
      headers = {
        'Content-Type': 'application/json',
        'Authorization': f"Bearer {AWANLLM_API_KEY}"
      }

      response = requests.request("POST", url, headers=headers, data=payload)

      print(json.loads(response.text)['choices'][0]['message']['content'])

      dataset_alias += json.loads(response.text)['choices'][0]['message']['content'] + '\n'

      time.sleep(6)
  except Exception as e:
      print(e)
      time.sleep(6)


saipem, Saipem S.p.A.
unicredit, Unicredit Group
unicredit, UniCredit Bank AG
leonardo, Leonardo SpA
eni, ENI S.p.A.
eni, Ente Nazionale Idrocarburi
intesa sanpaolo, ISP
intesa sanpaolo, Intesa San Paolo S.p.A.
telecom italia, Telecom Italia
telecom italia, TIM
telecom italia, Telecom Italy
poste italiane, Poste Italiane
poste italiane, Poste Italie
enel, ENEL
enel, Ente Nazionale per l'Energia Elettrica
luxottica, Luxottica Group
luxottica, Luxo
ibest, Ibest Spa
Libero Professionista,
Libero Professionisti
Ministero Della Difesa,
Ministero Difesa
World Food Programme,
WFP
Pirelli,
Pirelli & C.
Magneti Marelli,
Marelli Corporation
fao,
Banco BPM
BNL Gruppo BNP Paribas,
Banca Monte dei Paschi di Siena, BMPS
Gucci,
University of Rome "La Sapienza",
None
University of Padova, University of Padua
Engineering Ingegneria Informatica Spa, EII
University of Milan, Universita' di Milano
Prada, Pradawww.alitalia.it, Alitalia Compagnia Aerea Italiana Spa
Banca Mediolanum,Banca Mediolanum Spa
Coma

KeyboardInterrupt: 

In [136]:
import csv
file_path = "output.csv"

lines = dataset_alias.split("\n")

# Specify the file path
file_path = "dataset.csv"

# Open the CSV file in write mode with newline='' to ensure correct newline handling
with open(file_path, "w", newline='') as file:
    # Create a CSV writer object
    writer = csv.writer(file)

    # Write each line to the CSV file
    for line in lines:
        # Split the line into fields based on the comma ','
        fields = line.split(",")
        # Write the fields to the CSV file
        if len(fields)==2:
          writer.writerow(fields)
        elif len(fields)>2:
          writer.writerow(fields[0:1])
        else:
          print('Warning, only one name')



In [137]:
pd.read_csv(file_path)

Unnamed: 0,Company Name,Alias
0,saipem,Saipem S.p.A.
1,unicredit,Unicredit Group
2,unicredit,UniCredit Bank AG
3,leonardo,Leonardo SpA
4,eni,ENI S.p.A.
...,...,...
92,Salini Impregilo,Salimpi
93,Salini Impregilo,SI
94,Egencia,Egencia - A Concur Company
95,NTT Data Italia,NTT DIT
