## Projektarbeit

### 6099 - Data and Knowledge Engineering

Name = Kerstin Scharinger

Matrikelnummer = 11813383

Ziel: Ziel dieser Arbeit ist es Daten zu US Unternehmen, welche im Dow Jones Industrial Average Index gelistet sind,
    verfügbar zu machen. Dazu werden zwei Quellen verwendet:
    
- Simfin: https://simfin.com/
        Stammdaten zu US Unternehmen

- DBPedia: http://dbpedia.org
        Liste der Namen der Unternehmen welche im Dow Jones Idustrial Average Index gelistet sind

Die Daten werden mittels Python API bzw. Sparql Endpoint abgefragt und in Datenbank Tabellen gespeichert.

Die Verknüpfung erfolgt über den Namen der Unternehmen.

### Data Set 1 - Simfin

Das erste Data Set wird über eine Pythen API abgefragt. 
Informationen zur API können auf der Homepage von simfin gefunden werden: https://simfin.com/data/api

Ohne Registrierung auf den Homepage können pro Tag 2.000 Abfragen ausgeführt werden, mit einer Registrierung
steht auch ein unlimitierter Datenzugriff zur Verfügung.

In [1]:
#Sollte simfin noch nicht installiert sein, muss dieses vorher durchgeführt werden:
#pip install simfin

In [2]:
#Verwendete Packages
import simfin as sf
import requests
import sqlite3 
import pandas

In [3]:
import simfin as sf

# Der API key free downloadet die frei verfügbaren Daten
sf.set_api_key('free')

# Lokales repository wo die Daten gespeichert werden.
# Es wird ein neues angelegt, wenn noch keines vorhanden ist.
sf.set_data_dir('~/simfin_data/')

# Download der Daten vom SimFin Server und laden in Pandas DataFrame.
df_us = sf.load_companies(market='us')

Dataset "us-companies" on disk (14 days old).
- Loading from disk ... Done!


In [4]:
df_us.columns = ["SimFinId","Name","IndustryId"]

In [5]:
df_us

Unnamed: 0_level_0,SimFinId,Name,IndustryId
Ticker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,45846,AGILENT TECHNOLOGIES INC,106001.0
AA,367153,Alcoa Corp,110004.0
AAC,939324,"AAC Holdings, Inc.",
AAL,68568,American Airlines Group Inc.,100006.0
AAME,450021,ATLANTIC AMERICAN CORP,104004.0
...,...,...,...
ZUMZ,45730,Zumiez Inc,103002.0
ZVO,901866,Zovio Inc,102006.0
ZYNE,901704,"Zynerba Pharmaceuticals, Inc.",106002.0
ZYXI,171401,ZYNEX INC,106004.0


SQLite Datenbank laden und Pandas DataFrame in Datenbank Tabelle speichern

In [6]:
%load_ext sql

In [7]:
#Verbindung zur Companies Datenbank herstellen
%sql sqlite:///companies.db

'Connected: @companies.db'

In [8]:
%%sql

PRAGMA foreign_keys = ON;

 * sqlite:///companies.db
Done.


[]

In [9]:
conn = sqlite3.connect('companies.db')

In [10]:
#Pandas DataFrame als Datenbank Tabelle us_companies anlegen
df_us.to_sql('us_companies', conn, index=True, if_exists='replace')

In [11]:
%sql select * from us_companies limit 3;

 * sqlite:///companies.db
Done.


Ticker,SimFinId,Name,IndustryId
A,45846,AGILENT TECHNOLOGIES INC,106001.0
AA,367153,Alcoa Corp,110004.0
AAC,939324,"AAC Holdings, Inc.",


Das erste Data Set ist nun als Datenbank Tabelle us_companies angelegt.

Um den Daten später weitere Aussagekraft zu geben kann über die simfin Website zusätzlich noch eine Industriesparte zu der Spalte IndustryId abgerufen werden und später verknüpft werden.

Die Daten werden über simfin abgerufen und als Datenbank Tabelle abgelegt.

In [12]:
# Download the data from the SimFin server and load into a Pandas DataFrame.
df_industry = sf.load_industries()

# Print the first rows of the data.
print(df_industry.head()) 

Dataset "industries" on disk (12 days old).
- Loading from disk ... Done!
                 Sector                    Industry
IndustryId                                         
100001      Industrials         Industrial Products
100002      Industrials           Business Services
100003      Industrials  Engineering & Construction
100004      Industrials            Waste Management
100005      Industrials     Industrial Distribution


In [13]:
#Pandas DataFrame als Datenbank Tabelle us_companies anlegen
df_industry.to_sql('comp_industry', conn, index=True, if_exists='replace')

In [35]:
%sql select * from comp_industry limit 3;

 * sqlite:///companies.db
Done.


IndustryId,Sector,Industry
100001,Industrials,Industrial Products
100002,Industrials,Business Services
100003,Industrials,Engineering & Construction


Die Tabelle enthält nun eine IndustryId zur Verknüpfung, einen Sector in dem das Unternehmen tätig ist und eine 
genauere Bezeichnung der Industrie.

### Data Set 2 - DBPedia

Die Liste der US Unternehmen, welche im Dow Jones Industrial Average Index gelistet sind kann über einen Sparql Endpoint über DBPedia abgefragt werden.

In [15]:
from SPARQLWrapper import SPARQLWrapper, JSON, CSV, XML
from IPython.display import HTML, display

In [16]:
sparql = SPARQLWrapper("http://dbpedia.org/sparql")

Die Sparql Abfrage soll die Namen der Unternehmen welche im Dow Jones Index gelistet sind zurückgeben. 
Folgende Sqarql Abfrage wird verwendet:

In [17]:
sparql.setQuery("""
PREFIX dbr:    <http://dbpedia.org/resource/>
PREFIX dbo:    <http://dbpedia.org/ontology/>
PREFIX dct:    <http://purl.org/dc/terms/>
PREFIX owl:    <http://www.w3.org/2002/07/owl#>
PREFIX prov:   <http://www.w3.org/ns/prov#>
PREFIX qb:     <http://purl.org/linked-data/cube#>
PREFIX qudt:   <http://qudt.org/vocab/unit#>
PREFIX rdf:    <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs:   <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema: <http://schema.org/>
PREFIX skos:   <http://www.w3.org/2004/02/skos/core#>
PREFIX unit:   <http://qudt.org/vocab/unit#>
PREFIX xsd:    <http://www.w3.org/2001/XMLSchema#>
PREFIX sdmx:   <http://purl.org/linked-data/sdmx#>

    SELECT ?name
    WHERE {
    ?comp dbp:tradedAs dbr:Dow_Jones_Industrial_Average.
    ?comp rdfs:label ?name .
    filter(lang(?name) = 'en')
    }
""")

sparql.setReturnFormat(JSON)

dowjones = sparql.query().convert()

In [18]:
tab = '<table>'
for res in dowjones["results"]["bindings"]:
    tab += '<tr><td>%s<td>' % (res["name"]["value"])
display(HTML(tab+'</table>'))

0,1
Boeing,
Caterpillar Inc.,
DuPont,
The Travelers Companies,
UnitedHealth Group,
Apple Inc.,
General Electric,
Intel,
Microsoft,
ExxonMobil,


In [19]:
#DBPedia Daten in csv Datei laden
f = open("dowjones.csv", "w")
f.write(str("company\n"))
for res in dowjones["results"]["bindings"]:
    f.write(res["name"]["value"] + "\n")
f.close()

In [20]:
#CSV Daten in Pandas DataFrame laden
df_dj = pandas.read_csv("dowjones.csv", sep = "\n")

In [21]:
df_dj

Unnamed: 0,company
0,Boeing
1,Caterpillar Inc.
2,DuPont
3,The Travelers Companies
4,UnitedHealth Group
5,Apple Inc.
6,General Electric
7,Intel
8,Microsoft
9,ExxonMobil


In [22]:
#Pandas DataFrame als Datenbank Tabelle dowjones anlegen
df_dj.to_sql('dowjones', conn, index=True, if_exists='replace')

In [23]:
%sql select * from dowjones limit 3;

 * sqlite:///companies.db
Done.


index,company
0,Boeing
1,Caterpillar Inc.
2,DuPont


Auch das zweite Data Set ist als Datenbank Tabelle dowjones angelegt.

#### Daten verknüpfen

Beide Data Sets wurden beriets in der Company Datenbank als Tabellen angelegt. Jetzt können die beiden Tabellen über
Company Bezeichnung verknüpft werden.

In [24]:
%%sql select us_companies.Ticker, us_companies.Name, dowjones.company from dowjones
join us_companies on trim(upper(dowjones.company)) = trim(upper(us_companies.Name));

 * sqlite:///companies.db
Done.


Ticker,Name,company
DIS,The Walt Disney Company,The Walt Disney Company
V,VISA INC.,Visa Inc.


Das sind leider nicht viele Unternehmen, deren Namen in beiden Tabellen übereinstimmen auch wenn Schwierigkeiten
mit der Groß- und Kleinschreibung und Leerzeichen mit den String Funktionen trim und upper gelöst wurden.

Es wird versucht herauszufinden ob die Verknüpfung verbessert werden kann:

In [25]:
%%sql select us_companies.Ticker, us_companies.Name, dowjones.company from dowjones
left outer join us_companies on 
SUBSTR(trim(upper(dowjones.company)),0,12)=SUBSTR(trim(upper(us_companies.Name)),0,12)
where Ticker is not null;

 * sqlite:///companies.db
Done.


Ticker,Name,company
AXP,AMERICAN EXPRESS CO,American Express
CAT,CATERPILLAR INC,Caterpillar Inc.
CSCO,"CISCO SYSTEMS, INC.",Cisco Systems
CVX,CHEVRON CORP,Chevron Corporation
DIS,The Walt Disney Company,The Walt Disney Company
GE,GENERAL ELECTRIC CO,General Electric
GS,GOLDMAN SACHS GROUP INC,Goldman Sachs
JPM,JPMORGAN CHASE & CO,JPMorgan Chase
UNH,UNITEDHEALTH GROUP INC,UnitedHealth Group
UTX,UNITED TECHNOLOGIES CORP /DE/,United Technologies


Mithilfe der SQL String Funktion Substring, bei welcher nur die Zeichen 0 bis 12 verglichen werden, können mehr
Daten aus den beiden Tabellen verknüpft werden. 

Probleme bei der Verknüfung bereiten offensichtlich die teils vorhandenen Kürzel (Inc, Co, Corp). 

Um zu sehen ob über den Ticker mehr Daten verknüpft werden können, werden die DBPedia Daten um den Ticker erweitert
und mit den bereits vorhanden verknüpften Daten verglichen.

Folgende Sparql Query liefert alle Unternehmen welche im Dow Jones Industrial Average Index gelistet sind und
ein Symbol als property in dbpedia hinterlegt haben:

In [26]:
sparql.setQuery("""
PREFIX dbr:    <http://dbpedia.org/resource/>
PREFIX dbo:    <http://dbpedia.org/ontology/>
PREFIX dct:    <http://purl.org/dc/terms/>
PREFIX owl:    <http://www.w3.org/2002/07/owl#>
PREFIX prov:   <http://www.w3.org/ns/prov#>
PREFIX qb:     <http://purl.org/linked-data/cube#>
PREFIX qudt:   <http://qudt.org/vocab/unit#>
PREFIX rdf:    <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs:   <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema: <http://schema.org/>
PREFIX skos:   <http://www.w3.org/2004/02/skos/core#>
PREFIX unit:   <http://qudt.org/vocab/unit#>
PREFIX xsd:    <http://www.w3.org/2001/XMLSchema#>
PREFIX sdmx:   <http://purl.org/linked-data/sdmx#>

    SELECT ?name ?symbol
    WHERE {
    ?comp dbp:tradedAs dbr:Dow_Jones_Industrial_Average.
    ?comp rdfs:label ?name .
    filter(lang(?name) = 'en')
    ?comp dbp:symbol ?symbol
    }
""")

sparql.setReturnFormat(JSON)

dowjones_symbol = sparql.query().convert()

In [27]:
tab = '<table>'
for res in dowjones_symbol["results"]["bindings"]:
    tab += '<tr><td>%s<td>%s<td>' % (res["name"]["value"],res["symbol"]["value"])
display(HTML(tab+'</table>'))

0,1,2
Boeing,BA,
UnitedHealth Group,UNH,
Apple Inc.,AAPL,
General Electric,GE,
Intel,INTC,
Microsoft,MSFT,
ExxonMobil,XOM,
IBM,IBM,
Goldman Sachs,GS,
Verizon Communications,VZ,


In [28]:
#DBPedia Daten in csv Datei laden
f = open("dowjones_symbol.csv", "w")
f.write(str("company;symbol\n"))
for res in dowjones_symbol["results"]["bindings"]:
    f.write(res["name"]["value"] + ";" + res["symbol"]["value"] +"\n")
f.close()

In [29]:
#CSV Daten in Pandas DataFrame laden
df_dj_sy = pandas.read_csv("dowjones_symbol.csv", sep = ";")

In [30]:
df_dj_sy 

Unnamed: 0,company,symbol
0,Boeing,BA
1,UnitedHealth Group,UNH
2,Apple Inc.,AAPL
3,General Electric,GE
4,Intel,INTC
5,Microsoft,MSFT
6,ExxonMobil,XOM
7,IBM,IBM
8,Goldman Sachs,GS
9,Verizon Communications,VZ


Leider haben nicht alle im Dow Jones gelisteten Unternehmen ein Symbol als property hinterlegt, aber 
immerhin 14 Unternehmen.

Diese werden wieder als Datenbank Tabelle angelegt.


In [31]:
#Pandas DataFrame als Datenbank Tabelle dowjones_symbol anlegen
df_dj_sy.to_sql('dowjones_symbol', conn, index=True, if_exists='replace')

In [32]:
%sql select * from dowjones_symbol;

 * sqlite:///companies.db
Done.


index,company,symbol
0,Boeing,BA
1,UnitedHealth Group,UNH
2,Apple Inc.,AAPL
3,General Electric,GE
4,Intel,INTC
5,Microsoft,MSFT
6,ExxonMobil,XOM
7,IBM,IBM
8,Goldman Sachs,GS
9,Verizon Communications,VZ


Jetzt können die Tabellen über den Tricker verknüpft werden und gleichzeitig die Industry über die IndustryId.

In [33]:
%%sql 

drop view if exists dj_companies;

create view dj_companies as 
select us_companies.Ticker, us_companies.SimFinId, us_companies.Name, comp_industry.Industry from us_companies 
join dowjones_symbol on dowjones_symbol.symbol = us_companies.Ticker
join comp_industry on us_companies.IndustryId = comp_industry.IndustryId;

 * sqlite:///companies.db
Done.
Done.


[]

In [34]:
%%sql
select * from dj_companies

 * sqlite:///companies.db
Done.


Ticker,SimFinId,Name,Industry
AAPL,111052,APPLE INC,Computer Hardware
BA,70844,BOEING CO,Aerospace & Defense
CSCO,82202,"CISCO SYSTEMS, INC.",Communication Equipment
CVX,248396,CHEVRON CORP,Oil & Gas - Integrated
GE,244314,GENERAL ELECTRIC CO,Industrial Products
GS,60439,GOLDMAN SACHS GROUP INC,Banks
IBM,69543,INTERNATIONAL BUSINESS MACHINES CORP,Application Software
INTC,85652,INTEL CORP,Semiconductors
JPM,243510,JPMORGAN CHASE & CO,Banks
KO,82117,COCA COLA CO,Beverages - Non-Alcoholic


Die Tabelle zeigt, dass zu allen Symbolen in der dowjones_symbol Tabelle ein Unternehmen in der us_company Tabelle
über die Vernüpfung des Ticker gefunden werden konnte und eine Zuteilung der Industrie.