# Python & SQLite
Willkommen zurück in Python!

Vor unserem "kleinen Ausflug" in SQL haben wir hier Pandas und Tabellen kennengelernt. Lasst uns dieses Wissen mit SQL verknüpfen und SQL-Befehle in Python kennenlernen.

## Wie können wir SQL in Verbindung mit Python nutzen?

Wir brauchen einen Datenbank-Treiber, um uns mit Datenbanken zu verbinden. Auch Pycharm, DBeaver und Pgadmin benutzen diese Treiber, um mit der Datenbank zu kommunizieren. In Python erhalten wir diese Treiber durch die Installation von Paketen. Diese unterscheiden sich je nach Datenbank.

Den Anfang machen wir wieder in `SQLite`. Um uns mit SQLite-Datenbanken zu verbinden, brauchen wir das `sqlite3`-Paket, welches den Treiber bereitstellt. Da das Paket Teil der Standard-Bibliothek ist, brauchen wir es nicht erst nachträglich installieren. Wir können es direkt importieren und mit seiner Hilfe Verbindungen zu SQLite-Datenbanken herstellen.

Dokumentation [hier](https://docs.python.org/3/library/sqlite3.html).

### Warum Python und SQL kombinieren?

Mit Python haben wir einen Allrounder in Sachen Programmierung und Datenanalyse, mit dem wir Diagramme erstellen, Machine Learning betreiben und vieles Weiteres tun können. Die Sammlung von Daten in Unternehmen erfolgt sehr häufig in relationalen Datenbanken – und hier ist die Zugriffssprache SQL. Ein Datenanalyst sollte imstande sein, auf solche Datenbanken zuzugreifen, um z.B. Daten für die weitere Analyse in einen Dataframe zu laden. Nutzt man SQL-Datenbanken als solide Datenspeicher, führt die Analysen von gewissen Daten dann aber mit Python durch, dann vereint man das Beste aus beiden Welten.

Hinweis: Beim Arbeiten in Pycharm stellen wir den globalen Dialekt wieder von Postgres auf SQLite um.

In [2]:
import sqlite3
import pandas as pd

## Zu einer bestehenden Datenbank verbinden

Mit der connect-Methode stellt man eine Verbindung zu einer Datenbank her.
Existiert die in Klammern angegebene Datenbank nicht, wird sie erstellt!

In [2]:
connection = sqlite3.connect(
	r"C:\Users\Admin\OneDrive\Dokumente\DataCraft\DataAnalyst_Aug.24\08_Datenbanken_und_SQL\databases\Chinook.db")

Um über diese Verbindung Befehle ausführen zu können, müssen wir noch einen "cursor"
erstellen. Das kann man sich wie eine Kommandozeile/ Befehlseingabe vorstellen.

<small>Hinweis: Nicht für alle SQL-Statements brauchen wir auch unbedingt einen Cursor und bei manchen
ist es sogar sinnvoll, direkt connection.execute() zu benutzen.
<br>In erster Linie bei SELECT-Statements, bei denen wir Kontrolle über die Ausgabe haben wollen,
brauchen wir aber einen Cursor.</small>

In [7]:
cursor = connection.cursor()

Mit der execute-Methode kann man SQL-Befehle wie Select-Statements ausführen.

In [22]:
cursor.execute('SELECT * FROM Artist;')

<sqlite3.Cursor at 0x20d32bc7440>

Der Cursor hat jetzt die Tabelleninhalte abgerufen und kann diese mit den fetch-Methoden ausgeben. Dabei kann der Nutzer zwischen der Ausgabe von einer Tabellenzeile (fetchone), einer selbst gewählten Anzahl (fetchmany) und allen Zeilen der Tabelle auf einen Schlag (fetchall) wählen. Je nach dem, wie viel gefetcht wurde, bleibt der Cursor dabei an einer bestimmten Stelle stehen und holt mit dem nächten Fetch die nächsten Einträge. Das kann so lange gehen, bis der Cursor komplett "entleert" bzw. abgearbeitet ist.

In [17]:
# Der Cursor gibt dem Nutzer den ersten Eintrag als Tupel aus und bleibt beim nächsten stehen:
cursor.fetchone()

(1, 'AC/DC')

In [18]:
# Derselbe Befehl gibt den nächsten Eintrag aus:
cursor.fetchone()

(2, 'Accept')

In [19]:
# Mit fetchmany eine Anzahl von 5 Zeilen ausgeben lassen (Liste von Tupeln):
cursor.fetchmany(5)

[(3, 'Aerosmith'),
 (4, 'Alanis Morissette'),
 (5, 'Alice In Chains'),
 (6, 'Antônio Carlos Jobim'),
 (7, 'Apocalyptica')]

In [20]:
# Mit fetchall alle restlichen Inhalte ausgeben lassen:
cursor.fetchall()

[(8, 'Audioslave'),
 (9, 'BackBeat'),
 (10, 'Billy Cobham'),
 (11, 'Black Label Society'),
 (12, 'Black Sabbath'),
 (13, 'Body Count'),
 (14, 'Bruce Dickinson'),
 (15, 'Buddy Guy'),
 (16, 'Caetano Veloso'),
 (17, 'Chico Buarque'),
 (18, 'Chico Science & Nação Zumbi'),
 (19, 'Cidade Negra'),
 (20, 'Cláudio Zoli'),
 (21, 'Various Artists'),
 (22, 'Led Zeppelin'),
 (23, 'Frank Zappa & Captain Beefheart'),
 (24, 'Marcos Valle'),
 (25, 'Milton Nascimento & Bebeto'),
 (26, 'Azymuth'),
 (27, 'Gilberto Gil'),
 (28, 'João Gilberto'),
 (29, 'Bebel Gilberto'),
 (30, 'Jorge Vercilo'),
 (31, 'Baby Consuelo'),
 (32, 'Ney Matogrosso'),
 (33, 'Luiz Melodia'),
 (34, 'Nando Reis'),
 (35, 'Pedro Luís & A Parede'),
 (36, 'O Rappa'),
 (37, 'Ed Motta'),
 (38, 'Banda Black Rio'),
 (39, 'Fernanda Porto'),
 (40, 'Os Cariocas'),
 (41, 'Elis Regina'),
 (42, 'Milton Nascimento'),
 (43, 'A Cor Do Som'),
 (44, 'Kid Abelha'),
 (45, 'Sandra De Sá'),
 (46, 'Jorge Ben'),
 (47, 'Hermeto Pascoal'),
 (48, 'Barão Vermelho'

In [21]:
# Ab jetzt ist der Cursor über alle Inhalte gelaufen und "leer" (gibt None zurück):
cursor.fetchone()

In [24]:
# Wir können natürlich komplexere Abfragen schreiben und über execute ausführen.
# Dann lohnt sich aber ein Multiline-String:
cursor.execute('''
        SELECT InvoiceId,
               CustomerId,
               BillingAddress,
               BillingCity,
               BillingCountry,
               Total
        FROM Invoice
        WHERE InvoiceId > 100
        AND BillingCountry = 'Germany';
''')
# Das funktioniert, ist aber unschön und relativ unflexibel.

<sqlite3.Cursor at 0x20d32bc7440>

In [25]:
cursor.fetchall()

[(104, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 0.99),
 (127, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 1.98),
 (138, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 13.86),
 (193, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 14.91),
 (196, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 1.98),
 (219, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 3.96),
 (224, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 1.98),
 (225, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 1.98),
 (236, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 13.86),
 (241, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 5.94),
 (247, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 3.96),
 (269, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 5.94),
 (291, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 8.91),
 (293, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 0.99),
 (321, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 0.99),
 (322, 37, 'Berger Straße 10', 'Frankfurt', 'Ge

In [26]:
# Gängiger ist es, die Query in eine Variabel zu schreiben und diese
# Variabel dann dem execute zu übergeben:

get_germans = '''
        SELECT InvoiceId,
               CustomerId,
               BillingAddress,
               BillingCity,
               BillingCountry,
               Total
        FROM Invoice
        WHERE BillingCountry = 'Germany';
'''

In [27]:
cursor.execute(get_germans)

<sqlite3.Cursor at 0x20d32bc7440>

In [28]:
cursor.fetchall()

[(1, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 1.98),
 (6, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 0.99),
 (7, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 1.98),
 (12, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 13.86),
 (29, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 1.98),
 (30, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 3.96),
 (40, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 13.86),
 (52, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 5.94),
 (67, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 8.91),
 (95, 36, 'Tauentzienstraße 8', 'Berlin', 'Germany', 8.91),
 (104, 38, 'Barbarossastraße 19', 'Berlin', 'Germany', 0.99),
 (127, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 1.98),
 (138, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 13.86),
 (193, 37, 'Berger Straße 10', 'Frankfurt', 'Germany', 14.91),
 (196, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany', 1.98),
 (219, 2, 'Theodor-Heuss-Straße 34', 'Stuttgart', 'Germany

In [29]:
# Spaltennamen erhält man über description.
# Die Ausgabe sind siebenteilige Tupel, wobei die Überschrift immer im
# ersten Element steckt:
cursor.description

(('InvoiceId', None, None, None, None, None, None),
 ('CustomerId', None, None, None, None, None, None),
 ('BillingAddress', None, None, None, None, None, None),
 ('BillingCity', None, None, None, None, None, None),
 ('BillingCountry', None, None, None, None, None, None),
 ('Total', None, None, None, None, None, None))

In [30]:
# Sich nur die Spaltennamen ausgeben lassen:
for column in cursor.description:
	print(column[0])

InvoiceId
CustomerId
BillingAddress
BillingCity
BillingCountry
Total


In [13]:
# Wenn wir den Cursor nicht mehr brauchen, sollten wir ihn schließen,
# auch wenn es nicht so tragisch ist, wenn man das vergisst, denn er wird
# mit der Zeit automatisch entfernt:
cursor.close()

ProgrammingError: Cannot operate on a closed database.

In [15]:
# Wenn wir mit allem fertig sind, sollte die bestehende Verbindung geschlossen werden:
connection.close()

#### Aufgabe: 
1. Stelle eine Verbindung zu Chinook her.
2. Lass dir die Nach- und Vornamen aller Mitarbeiter ausgeben.
3. Hole dir aus Invoice Kundennummer, Stadt sowie Gesamtbetrag und hole außerdem die Kundennamen hinzu. 
   Lasse dir die oberen zehn Einträge ausgeben.
4. Schließe die Verbindung wieder.

In [3]:
connection = sqlite3.connect(
	r"C:\Users\Admin\OneDrive\Dokumente\DataCraft\DataAnalyst_Aug.24\08_Datenbanken_und_SQL\databases\Chinook.db")

In [4]:
cursor = connection.cursor()

In [5]:
employeesname = '''
		SELECT LastName,
		FirstName
		FROM Employee;
'''

In [6]:
cursor.execute(employeesname)
cursor.fetchall()

[('Adams', 'Andrew'),
 ('Edwards', 'Nancy'),
 ('Peacock', 'Jane'),
 ('Park', 'Margaret'),
 ('Johnson', 'Steve'),
 ('Mitchell', 'Michael'),
 ('King', 'Robert'),
 ('Callahan', 'Laura')]

In [7]:
customers = '''
		SELECT C.LastName || ", " || C.FirstName,
		I.CustomerId,
		I.BillingCity,
		I.Total
		FROM Customer C
		JOIN Invoice I on C.CustomerId = I.CustomerId
		ORDER BY I.CustomerId
		LIMIT 10;
'''

In [8]:
cursor.execute(customers)
cursor.fetchall()

[('Gonçalves, Luís', 1, 'São José dos Campos', 3.98),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 3.96),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 5.94),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 0.99),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 1.98),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 13.86),
 ('Gonçalves, Luís', 1, 'São José dos Campos', 8.91),
 ('Köhler, Leonie', 2, 'Stuttgart', 1.98),
 ('Köhler, Leonie', 2, 'Stuttgart', 13.86),
 ('Köhler, Leonie', 2, 'Stuttgart', 8.91)]

In [20]:
cursor.close()
connection.close()

## Eine neue Datenbank erstellen

Vorhin war die Rede davon, dass bei der connect-Methode eine Datenbank neu erstellt wird, jetzt wollen wir genau das machen!

In [26]:
# Verbindung zur noch nicht existierenden Datenbank wohnungen.db aufbauen:
connection = sqlite3.connect(
	r"C:\Users\Admin\OneDrive\Dokumente\DataCraft\DataAnalyst_Aug.24\08_Datenbanken_und_SQL\databases\wohnungen.db")

In [None]:
# Kurz im Bereich Datenbanken die neue Tabelle einbinden!

In [27]:
cursor = connection.cursor()

In [13]:
# Eine neue Tabelle erstellen
# 1. SQL-Befehl als String-Variable erstellen:

create_areas_table = """
    CREATE TABLE IF NOT EXISTS areas(
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        preis FLOAT,
        quadratmeter INT,
        stadt VARCHAR);"""

In [14]:
# 2. Den Befehl ausführen:
cursor.execute(create_areas_table)

<sqlite3.Cursor at 0x25c2cd53540>

In [15]:
# fetchall() gibt alles zurück, was wir durch Select aus Tabelle areas bekommen.
# Aktuell ist das eine leere Liste:
cursor.execute("SELECT * FROM areas;")
cursor.fetchall()

[]

In [16]:
# Ein paar Daten einfügen (die Query):
insertion_query = """
    INSERT INTO areas (preis, quadratmeter, stadt)
    VALUES
    (65.24, 70, "München"),
    (21.88, 367, "Augsburg"),
    (89.22, 34, "Halle");
"""

# SQL-Befehl über sqlite3 durchführen:
cursor.execute(insertion_query)

<sqlite3.Cursor at 0x25c2cd53540>

In [17]:
# Hier sehen wir Inhalte:
cursor.execute('SELECT * FROM areas;')
cursor.fetchall()

[(1, 65.24, 70, 'München'),
 (2, 21.88, 367, 'Augsburg'),
 (3, 89.22, 34, 'Halle')]

### Achtung! Wenn wir SQL aus Python heraus benutzen, ist der Modus "autocommit" standardmäßig aus. Das bedeutet, dass wir jedes Mal cursor.commit() ausführen müssen, um unsere Veränderungen wirklich in die Datenbank zu schreiben. Alternativ kann man auch mit with arbeiten.

In [18]:
# Die Inhalte sind also noch nicht in der Datenbank.
# Schreibt die Veränderungen in die Datenbank:
connection.commit()

# Daten aus Excel importieren -> Pandas

Pandas bringt uns wieder allerhand Zusatzfunktionen, auch für SQL.
Zunächst wollen wir eine Excel-Tabelle in unsere SQLite-Datenbank einfügen.


Excel-Tabelle in ein DataFrame einlesen:
( Falls nicht schon vorhanden, muss das Paket openpyxl vorher installiert werden)

In [23]:
data = pd.read_excel('hotelsneu.xlsx')
data.head()

Unnamed: 0,Gewinn,Preis in Mio,Quadratmeter,Stadt,Preis pro Quadratmeter
0,119000,21.88,3938,Berlin,5556.119858
1,250000,27.95,3986,München,7012.042148
2,250000,16.09,2574,Köln,6250.971251
3,145000,27.58,4155,München,6637.7858
4,110000,23.76,3795,Berlin,6260.869565


Alle Zeilen der Excel-Tabelle in die Datenbank überführen: 

1. Tabelle 'hotels' in SQL erstellen

In [28]:
create_hotels = """
    CREATE TABLE IF NOT EXISTS hotels(
        Gewinn int,
        Preis float,
        Quadratmeter int,
        Stadt varchar,
        Preis_qm float);"""

cursor.execute(create_hotels)

<sqlite3.Cursor at 0x25c2d4ff440>

2. Einfügen der Daten aus Dataframe direkt per `to_sql`-Befehl an die von uns angelegte Connection (die ja auch hier in Python geöffnet ist)

In [29]:
# Hilfe für Funktion to_sql anzeigen lassen
help(data.to_sql)

Help on method to_sql in module pandas.core.generic:

to_sql(name: 'str', con, *, schema: 'str | None' = None, if_exists: "Literal['fail', 'replace', 'append']" = 'fail', index: 'bool_t' = True, index_label: 'IndexLabel | None' = None, chunksize: 'int | None' = None, dtype: 'DtypeArg | None' = None, method: "Literal['multi'] | Callable | None" = None) -> 'int | None' method of pandas.core.frame.DataFrame instance
    Write records stored in a DataFrame to a SQL database.

    Databases supported by SQLAlchemy [1]_ are supported. Tables can be
    newly created, appended to, or overwritten.

    Parameters
    ----------
    name : str
        Name of SQL table.
    con : sqlalchemy.engine.(Engine or Connection) or sqlite3.Connection
        Using SQLAlchemy makes it possible to use any DB supported by that
        library. Legacy support is provided for sqlite3.Connection objects. The user
        is responsible for engine disposal and connection closure for the SQLAlchemy
        conn

In [30]:
# Daten in Tabelle hotel eintragen
data.to_sql("hotels",
			connection,
			if_exists="replace",
			index=False)

150

Überprüfen, ob das Einfügen von den Excel-Daten auch erfolgreich war (wir nutzen hier wieder `fetchall()`)

In [33]:
cursor.execute("SELECT * FROM hotels;")
cursor.fetchall()

[(119000, 21.88, 3938, 'Berlin', 5556.119857795836),
 (250000, 27.95, 3986, 'München', 7012.042147516308),
 (250000, 16.09, 2574, 'Köln', 6250.971250971251),
 (145000, 27.58, 4155, 'München', 6637.785800240674),
 (110000, 23.76, 3795, 'Berlin', 6260.869565217391),
 (246000, 22.88, 2773, 'München', 8250.991705733863),
 (54000, 13.25, 634, 'München', 20899.05362776025),
 (2000, 8.94, 82, 'München', 109024.3902439024),
 (114000, 24.87, 3706, 'München', 6710.739341608203),
 (47000, 14.11, 1692, 'Berlin', 8339.243498817967),
 (54000, 11.65, 1989, 'Köln', 5857.214680744092),
 (124000, 17.26, 2616, 'Berlin', 6597.859327217126),
 (125000, 18.45, 3358, 'Köln', 5494.34187016081),
 (62000, 17.08, 1941, 'München', 8799.587841318908),
 (250000, 19.32, 1831, 'München', 10551.61114145276),
 (24000, 8.48, 800, 'Berlin', 10600.0),
 (102000, 14.16, 2700, 'Köln', 5244.444444444444),
 (26000, 13.84, 1257, 'München', 11010.34208432777),
 (85000, 19.59, 2644, 'Berlin', 7409.228441754917),
 (182000, 18.64, 2

Auch hier können wir natürlich mit konkreteren Select-Befehlen arbeiten

In [34]:
cursor.execute("""
               SELECT *
               FROM hotels
               WHERE Stadt = 'Köln';""")

cursor.fetchall()

[(250000, 16.09, 2574, 'Köln', 6250.971250971251),
 (54000, 11.65, 1989, 'Köln', 5857.214680744092),
 (125000, 18.45, 3358, 'Köln', 5494.34187016081),
 (102000, 14.16, 2700, 'Köln', 5244.444444444444),
 (74000, 8.0, 1581, 'Köln', 5060.088551549652),
 (134000, 15.54, 2412, 'Köln', 6442.786069651741),
 (14000, 6.09, 769, 'Köln', 7919.375812743823),
 (250000, 6.73, 525, 'Köln', 12819.04761904762),
 (88000, 13.58, 2644, 'Köln', 5136.157337367625),
 (156000, 19.1, 3631, 'Köln', 5260.25888185073),
 (17000, 7.87, 859, 'Köln', 9161.816065192084),
 (136000, 22.98, 4908, 'Köln', 4682.151589242054),
 (129000, 14.15, 2545, 'Köln', 5559.92141453831),
 (137000, 18.12, 3478, 'Köln', 5209.890741805635),
 (156000, 24.78, 5099, 'Köln', 4859.776426750343),
 (21000, 8.69, 1215, 'Köln', 7152.263374485597),
 (72000, 13.76, 2375, 'Köln', 5793.684210526316),
 (101000, 11.87, 2101, 'Köln', 5649.690623512613),
 (250000, 24.21, 4832, 'Köln', 5010.347682119205),
 (57000, 13.0, 2458, 'Köln', 5288.852725793328),
 (

In [35]:
# Schließen der Verbindung
cursor.close()
connection.close()