## Projektarbeit

### 6099 - Data and Knowledge Engineering

Name = Kerstin Scharinger

Matrikelnummer = 11813383

#### Inhaltsverzeichnis
1. [Ziel](#Ziel)
2. [Data Set 1 - SimFin](#DataSet1-Simfin)
    2.1. [Companies in US](#CompaniesinUS)
    2.2. [Industrie](#Industrie)
3. [Data Set 2 - DBPedia](#DataSet2-DBPedia)
4. [Datenverknüpfung über Namen](#DatenverknüpfungüberNamen)
5. [Verknüpfung über Ticker](#VerknüpfungüberTicker)
6. [Conclusion](#Conclusion)


### Ziel:  <a name="Ziel"></a>

Ziel dieser Arbeit ist es Daten zu US Unternehmen, welche im Dow Jones Industrial Average Index gelistet sind,
    verfügbar zu machen. Dazu werden zwei Quellen verwendet:
    
- Simfin: https://simfin.com/
        Stammdaten zu US Unternehmen

- DBPedia: http://dbpedia.org
        Liste der Namen der Unternehmen welche im Dow Jones Idustrial Average Index gelistet sind

Die Daten werden mittels Python API bzw. Sparql Endpoint abgefragt und in Datenbank Tabellen gespeichert.

Die Verknüpfung erfolgt über den Namen bzw. das Kürzel der Unternehmen.

### 2. Data Set 1 - Simfin <a name="DataSet1-Simfin"></a>

Das erste Data Set wird über eine Pythen API abgefragt. 
Informationen zur API können auf der Homepage von simfin gefunden werden: https://simfin.com/data/api

Ohne Registrierung auf den Homepage können pro Tag 2.000 Abfragen ausgeführt werden, mit einer Registrierung
steht auch ein unlimitierter Datenzugriff zur Verfügung.

In [1]:
#Sollte simfin noch nicht installiert sein, muss dieses vorher durchgeführt werden:
#pip install simfin

In [2]:
#Verwendete Packages
import simfin as sf
import requests
import sqlite3 
import pandas

#### 2.1 Companies in US <a name="CompaniesinUS"></a>

In [3]:
import simfin as sf

# Der API key free downloadet die frei verfügbaren Daten
sf.set_api_key('free')

# Lokales repository wo die Daten gespeichert werden.
# Es wird ein neues angelegt, wenn noch keines vorhanden ist.
sf.set_data_dir('~/simfin_data/')

# Download der Daten vom SimFin Server und laden in Pandas DataFrame.
df_us = sf.load_companies(market='us', index = None)

Dataset "us-companies" on disk (18 days old).
- Loading from disk ... Done!


In [4]:
df_us

Unnamed: 0,Ticker,SimFinId,Company Name,IndustryId
0,FOX_old,242,21st Century Fox,103001.0
1,ACAT,33956,ARCTIC CAT INC,103005.0
2,APIC,34899,Apigee Corp,101003.0
3,LABL,35331,MULTI COLOR Corp,100002.0
4,JOY,39382,JOY GLOBAL INC,100009.0
...,...,...,...,...
2115,GHC,716648,Graham Holdings Co,102006.0
2116,DDD,545133,3D SYSTEMS CORP,101001.0
2117,WYND,116466,"WYNDHAM DESTINATIONS, INC.",103015.0
2118,ETN,124922,Eaton Corp plc,100001.0


SQLite Datenbank laden und Pandas DataFrame in Datenbank Tabelle speichern

In [5]:
%load_ext sql

In [6]:
#Verbindung zur Companies Datenbank herstellen
%sql sqlite:///companies.db

'Connected: @companies.db'

In [7]:
%%sql

PRAGMA foreign_keys = ON;

 * sqlite:///companies.db
Done.


[]

In [8]:
conn = sqlite3.connect('companies.db')

In [9]:
df_us=df_us.rename(columns = {'Company Name':'Name'})
df_us['Ticker']= df_us['Ticker'].astype('str')
df_us['SimFinId']= df_us['SimFinId'].astype('int')
df_us['Name']= df_us['Name'].astype('str')
df_us['IndustryId']= df_us['IndustryId'].astype('str').str.split('.',1,expand = True)

In [10]:
#Pandas DataFrame als Datenbank Tabelle us_companies anlegen
df_us.to_sql('us_companies', conn, index=False, if_exists='replace')

In [11]:
%sql select * from us_companies limit 3;

 * sqlite:///companies.db
Done.


Ticker,SimFinId,Name,IndustryId
FOX_old,242,21st Century Fox,103001
ACAT,33956,ARCTIC CAT INC,103005
APIC,34899,Apigee Corp,101003


Das erste Data Set mit den Namen der US Unternehmen ist nun als Datenbank Tabelle us_companies angelegt.

#### 2.2 Industrie <a name="Industrie"></a>

Um den Daten später weitere Aussagekraft zu geben kann über die simfin Website zusätzlich noch eine Industriesparte zu der Spalte IndustryId abgerufen werden und später verknüpft werden.

Die Daten werden über simfin abgerufen und als Datenbank Tabelle abgelegt.

In [12]:
# Download the data from the SimFin server and load into a Pandas DataFrame.
df_industry = sf.load_industries(index = None)

# Print the first rows of the data.
print(df_industry.head()) 

Dataset "industries" on disk (17 days old).
- Loading from disk ... Done!
   IndustryId       Sector                    Industry
0      100001  Industrials         Industrial Products
1      100002  Industrials           Business Services
2      100003  Industrials  Engineering & Construction
3      100004  Industrials            Waste Management
4      100005  Industrials     Industrial Distribution


In [13]:
df_industry['IndustryId']= df_industry['IndustryId'].astype('str')
df_industry['Sector']= df_industry['Sector'].astype('str')
df_industry['Industry']= df_industry['Industry'].astype('str')

In [14]:
#Pandas DataFrame als Datenbank Tabelle us_companies anlegen
df_industry.to_sql('comp_industry', conn, index=False, if_exists='replace')

In [15]:
%sql select * from comp_industry limit 3;

 * sqlite:///companies.db
Done.


IndustryId,Sector,Industry
100001,Industrials,Industrial Products
100002,Industrials,Business Services
100003,Industrials,Engineering & Construction


Die Tabelle enthält nun eine IndustryId zur Verknüpfung, einen Sector in dem das Unternehmen tätig ist und eine 
genauere Bezeichnung der Industrie.

### 3. Data Set 2 - DBPedia <a name="DataSet2-DBPedia"></a>

Die Liste der US Unternehmen, welche im Dow Jones Industrial Average Index gelistet sind kann über einen Sparql Endpoint über DBPedia abgefragt werden.

In [16]:
from SPARQLWrapper import SPARQLWrapper, JSON, CSV, XML
from IPython.display import HTML, display

In [17]:
sparql = SPARQLWrapper("http://dbpedia.org/sparql")

Die Sparql Abfrage soll die Namen der Unternehmen welche im Dow Jones Index gelistet sind zurückgeben. 
Folgende Sqarql Abfrage wird verwendet:

In [18]:
sparql.setQuery("""
PREFIX dbr:    <http://dbpedia.org/resource/>
PREFIX dbo:    <http://dbpedia.org/ontology/>
PREFIX dct:    <http://purl.org/dc/terms/>
PREFIX owl:    <http://www.w3.org/2002/07/owl#>
PREFIX prov:   <http://www.w3.org/ns/prov#>
PREFIX qb:     <http://purl.org/linked-data/cube#>
PREFIX qudt:   <http://qudt.org/vocab/unit#>
PREFIX rdf:    <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs:   <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema: <http://schema.org/>
PREFIX skos:   <http://www.w3.org/2004/02/skos/core#>
PREFIX unit:   <http://qudt.org/vocab/unit#>
PREFIX xsd:    <http://www.w3.org/2001/XMLSchema#>
PREFIX sdmx:   <http://purl.org/linked-data/sdmx#>

    SELECT ?name
    WHERE {
    ?comp dbp:tradedAs dbr:Dow_Jones_Industrial_Average.
    ?comp rdfs:label ?name .
    filter(lang(?name) = 'en')
    }
""")

sparql.setReturnFormat(JSON)

dowjones = sparql.query().convert()

In [19]:
tab = '<table>'
for res in dowjones["results"]["bindings"]:
    tab += '<tr><td>%s<td>' % (res["name"]["value"])
display(HTML(tab+'</table>'))

0,1
Boeing,
Caterpillar Inc.,
DuPont,
The Travelers Companies,
UnitedHealth Group,
Apple Inc.,
General Electric,
Intel,
Microsoft,
ExxonMobil,


In [20]:
#DBPedia Daten in csv Datei laden
f = open("dowjones.csv", "w")
f.write(str("company\n"))
for res in dowjones["results"]["bindings"]:
    f.write(res["name"]["value"] + "\n")
f.close()

In [21]:
#CSV Daten in Pandas DataFrame laden
df_dj = pandas.read_csv("dowjones.csv", sep = "\n")

In [22]:
df_dj

Unnamed: 0,company
0,Boeing
1,Caterpillar Inc.
2,DuPont
3,The Travelers Companies
4,UnitedHealth Group
5,Apple Inc.
6,General Electric
7,Intel
8,Microsoft
9,ExxonMobil


In [23]:
#Pandas DataFrame als Datenbank Tabelle dowjones anlegen
df_dj['company']= df_dj['company'].astype('str')
df_dj.to_sql('dowjones', conn, index=False, if_exists='replace')

In [24]:
%sql select * from dowjones limit 3;

 * sqlite:///companies.db
Done.


company
Boeing
Caterpillar Inc.
DuPont


Auch das zweite Data Set ist als Datenbank Tabelle dowjones angelegt.

### 4. Datenverknüpfung über Namen <a name="DatenverknüpfungüberNamen"></a>

Beide Data Sets wurden beriets in der Company Datenbank als Tabellen angelegt. Jetzt können die beiden Tabellen über
Company Bezeichnung verknüpft werden.

In [25]:
%%sql select us_companies.Ticker, us_companies.Name, dowjones.company from dowjones
join us_companies on trim(upper(dowjones.company)) = trim(upper(us_companies.Name));

 * sqlite:///companies.db
Done.


Ticker,Name,company
DIS,The Walt Disney Company,The Walt Disney Company
V,VISA INC.,Visa Inc.


Das sind leider nicht viele Unternehmen, deren Namen in beiden Tabellen übereinstimmen auch wenn Schwierigkeiten
mit der Groß- und Kleinschreibung und Leerzeichen mit den String Funktionen trim und upper gelöst wurden.

Es wird versucht herauszufinden ob die Verknüpfung verbessert werden kann:

In [26]:
%%sql select us_companies.Ticker, us_companies.Name, dowjones.company from dowjones
left outer join us_companies on 
SUBSTR(trim(upper(dowjones.company)),0,12)=SUBSTR(trim(upper(us_companies.Name)),0,12)
where Ticker is not null;

 * sqlite:///companies.db
Done.


Ticker,Name,company
UTX,UNITED TECHNOLOGIES CORP /DE/,United Technologies
CSCO,"CISCO SYSTEMS, INC.",Cisco Systems
AXP,AMERICAN EXPRESS CO,American Express
GE,GENERAL ELECTRIC CO,General Electric
VZ,VERIZON COMMUNICATIONS INC,Verizon Communications
GS,GOLDMAN SACHS GROUP INC,Goldman Sachs
DIS,The Walt Disney Company,The Walt Disney Company
CAT,CATERPILLAR INC,Caterpillar Inc.
JPM,JPMORGAN CHASE & CO,JPMorgan Chase
V,VISA INC.,Visa Inc.


Mithilfe der SQL String Funktion Substring, bei welcher nur die Zeichen 0 bis 12 verglichen werden, können mehr
Daten aus den beiden Tabellen verknüpft werden. 

Probleme bei der Verknüfung bereiten offensichtlich die teils vorhandenen Kürzel (Inc, Co, Corp). 

### 5. Verknüpfung über Ticker <a name="VerknüpfungüberTicker"></a>

Um zu sehen ob über den Ticker mehr Daten verknüpft werden können, werden die DBPedia Daten um den Ticker erweitert
und mit den bereits vorhanden verknüpften Daten verglichen.

Folgende Sparql Query liefert alle Unternehmen welche im Dow Jones Industrial Average Index gelistet sind und
ein Symbol als property in dbpedia hinterlegt haben:

In [27]:
sparql.setQuery("""
PREFIX dbr:    <http://dbpedia.org/resource/>
PREFIX dbo:    <http://dbpedia.org/ontology/>
PREFIX dct:    <http://purl.org/dc/terms/>
PREFIX owl:    <http://www.w3.org/2002/07/owl#>
PREFIX prov:   <http://www.w3.org/ns/prov#>
PREFIX qb:     <http://purl.org/linked-data/cube#>
PREFIX qudt:   <http://qudt.org/vocab/unit#>
PREFIX rdf:    <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs:   <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema: <http://schema.org/>
PREFIX skos:   <http://www.w3.org/2004/02/skos/core#>
PREFIX unit:   <http://qudt.org/vocab/unit#>
PREFIX xsd:    <http://www.w3.org/2001/XMLSchema#>
PREFIX sdmx:   <http://purl.org/linked-data/sdmx#>

    SELECT ?name ?symbol
    WHERE {
    ?comp dbp:tradedAs dbr:Dow_Jones_Industrial_Average.
    ?comp rdfs:label ?name .
    filter(lang(?name) = 'en')
    ?comp dbp:symbol ?symbol
    }
""")

sparql.setReturnFormat(JSON)

dowjones_symbol = sparql.query().convert()

In [28]:
tab = '<table>'
for res in dowjones_symbol["results"]["bindings"]:
    tab += '<tr><td>%s<td>%s<td>' % (res["name"]["value"],res["symbol"]["value"])
display(HTML(tab+'</table>'))

0,1,2
Boeing,BA,
UnitedHealth Group,UNH,
Apple Inc.,AAPL,
General Electric,GE,
Intel,INTC,
Microsoft,MSFT,
ExxonMobil,XOM,
IBM,IBM,
Goldman Sachs,GS,
Verizon Communications,VZ,


In [29]:
#DBPedia Daten in csv Datei laden
f = open("dowjones_symbol.csv", "w")
f.write(str("company;symbol\n"))
for res in dowjones_symbol["results"]["bindings"]:
    f.write(res["name"]["value"] + ";" + res["symbol"]["value"] +"\n")
f.close()

In [30]:
#CSV Daten in Pandas DataFrame laden
df_dj_sy = pandas.read_csv("dowjones_symbol.csv", sep = ";")

In [31]:
df_dj_sy 

Unnamed: 0,company,symbol
0,Boeing,BA
1,UnitedHealth Group,UNH
2,Apple Inc.,AAPL
3,General Electric,GE
4,Intel,INTC
5,Microsoft,MSFT
6,ExxonMobil,XOM
7,IBM,IBM
8,Goldman Sachs,GS
9,Verizon Communications,VZ


Leider haben nicht alle im Dow Jones gelisteten Unternehmen ein Symbol als property hinterlegt, aber 
immerhin 14 Unternehmen.

Diese werden wieder als Datenbank Tabelle angelegt.


In [32]:
#Pandas DataFrame als Datenbank Tabelle dowjones_symbol anlegen
df_dj_sy['company']= df_dj_sy['company'].astype('str')
df_dj_sy['symbol']= df_dj_sy['symbol'].astype('str')
df_dj_sy.to_sql('dowjones_symbol', conn, index=False, if_exists='replace')

In [33]:
%sql select * from dowjones_symbol;

 * sqlite:///companies.db
Done.


company,symbol
Boeing,BA
UnitedHealth Group,UNH
Apple Inc.,AAPL
General Electric,GE
Intel,INTC
Microsoft,MSFT
ExxonMobil,XOM
IBM,IBM
Goldman Sachs,GS
Verizon Communications,VZ


Jetzt können die Tabellen über den Tricker verknüpft werden und gleichzeitig die Industry über die IndustryId.

In [34]:
%%sql 

drop view if exists dj_companies;

create view dj_companies as 
select us_companies.Ticker, us_companies.SimFinId, us_companies.Name, comp_industry.Sector, comp_industry.Industry from us_companies 
join dowjones_symbol on dowjones_symbol.symbol = us_companies.Ticker
join comp_industry on us_companies.IndustryId = comp_industry.IndustryId;

 * sqlite:///companies.db
Done.
Done.


[]

In [35]:
%%sql
select * from dj_companies

 * sqlite:///companies.db
Done.


Ticker,SimFinId,Name,Sector,Industry
CSCO,82202,"CISCO SYSTEMS, INC.",Technology,Communication Equipment
INTC,85652,INTEL CORP,Technology,Semiconductors
IBM,69543,INTERNATIONAL BUSINESS MACHINES CORP,Technology,Application Software
KO,82117,COCA COLA CO,Consumer Defensive,Beverages - Non-Alcoholic
GE,244314,GENERAL ELECTRIC CO,Industrials,Industrial Products
VZ,101219,VERIZON COMMUNICATIONS INC,Business Services,Communication Services
MSFT,59265,MICROSOFT CORP,Technology,Application Software
GS,60439,GOLDMAN SACHS GROUP INC,Financial Services,Banks
BA,70844,BOEING CO,Industrials,Aerospace & Defense
AAPL,111052,APPLE INC,Technology,Computer Hardware


### 6. Conclusion <a name="Conclusion"></a>

Die Abfrage des Views zeigt, dass zu allen Symbolen in der dowjones_symbol Tabelle ein Unternehmen in der us_company Tabelle über die Vernüpfung des Ticker gefunden werden konnte und eine Zuteilung der Industrie.

Das Ziel wurde erreicht, auch wenn leider nicht alle Kürzel zu Unternehmen im Dow Jones über den Sparql Endpoint von DBPedia vorhanden sind, konnten alle vorhandenen Unternehmen mit einer Information zu deren Sektor und Industrie 
versehen werden.