### Ortschaften der Schweiz
Das File `PLZO_CSV_LV95.csv` enth&auml;lt eine Tabelle mit Angaben zu Ortschaften in der Schweiz. Wir wollen uns einen &Uuml;berblick &uuml;ber diesen Datensatz verschaffen. Wir werfen einen genaueren Blick auf ie Ortschaftsnamen. 

In [None]:
# File oeffnen, Zeilen von umgebendem Whitespace befreien und in Liste einlesen
# Anzahl Zeilen ausgeben
#PATH = '/home/studi/work/data/'
#FILENAME = PATH + 'PLZO_CSV_LV95.csv'
FILENAME = '../../data/PLZO_CSV_LV95.csv'
with open(FILENAME, 'r') as f:
    lines = [line.strip() for line in f]
len(lines)

In [None]:
# 1., 2. und letzte Zeile ausgeben
for i in (0, 1, -1):
    print(lines[i])

In [None]:
# Spaltenindex und Spaltenname ausgeben
SEP = ';'
header = lines[0].split(SEP)
for i, col in enumerate(header):
    print(i, col)

In [None]:
# Die Koordinaten interessieren uns im Moment nicht.
# Um nicht im Kopf behalten zu muessen, welche Spalte welche Info enthaelt,
# definieren wir entsprechende Konstanten
ORT = 0
PLZ = 1
ZZ = 2
GDE = 3
KT = 4
LG = 5
cols = (0, 1, 2, 3, 5, 8)

spalten = tuple(header[i] for i in cols)
spalten

In [None]:
# Datenzeilen erstellen mit ausgewaehlten Spalten
rows = []
for line in lines[1:]:
    row = line.split(SEP)
    row = [row[i] for i in cols]
    rows.append(row)
rows[0]

In [None]:
rows[1000][ORT], rows[1000][ZZ], rows[1000][LG]

In [None]:
# Zeilen mit fehlenden Angaben
incomplete_rows = []
for row in rows:
    for item in row:
        if item == '':
            incomplete_rows.append(row)
incomplete_rows

In [None]:
# Erstelle eine sortierte Liste mit den Ortsnamen
orte = sorted(set(row[ORT] for row in rows))
len(orte), orte[:3], orte[-3:]

In [None]:
# Welche Zeichen kommen in den Ortsnamen vor?
alphabet = set()
for row in rows:
    alphabet |= set(row[ORT])
''.join(sorted(alphabet))

In [None]:
# Liste der Ortsname, die Ziffern enthalten
digits = '0123456789'
orte_mit_ziffern = []
for ort in orte:
    for d in digits:
        if d in ort:
            orte_mit_ziffern.append(ort)
            break
orte_mit_ziffern

In [None]:
# Zeilen ausgeben, wo Ortsname Ziffern enthaelt
print(spalten)
[row for row in rows if row[ORT] in orte_mit_ziffern]

In [None]:
# Orte mit Ziffern aussondern (mit Ausnahme von Root D4)
orte = [ort for ort in orte if not ort.split()[-1].isdigit()]
len(orte)

In [None]:
# Ortschaftsnamen mit 2 aufeinanderfolgenden Grossbuchstaben
ORte = []
for ort in orte:
    n = len(ort)
    for i in range(n-1):
        if ort[i:i+2].isalpha() and ort[i:i+2].isupper():
            ORte.append(ort)
            break
len(ORte), ORte[:5]

In [None]:
# Dictionary {<Kantonskuerzel>: <Kanton>, ...} importieren
from kz_kt import d as kz_kt
kz_kt

In [None]:
# Ortsnamen mit einem Kantonskuerzel
orte_kz = [ort for ort in orte if any(kz in ort for kz in kz_kt)]
len(orte_kz), orte_kz[:2]

In [None]:
# Hmmm, ORte und orte_kz sind nicht gleich
set(ORte) - set(orte_kz)

In [None]:
# FL wie ein Kantonskuerzel behandeln
kz_kt['FL'] = 'Liechtenstein'

In [None]:
# Ortsnamen mit Praezisierung in Klammern
orte_bra = [ort for ort in orte if all(c in ort for c in '()')]
orte_bra[:5]

In [None]:
from orte_helpers import remove_extraspace
from orte_helpers import remove_bracket
from orte_helpers import remove
from orte_helpers import removes


print(remove('abcdefgh', 'cde'))
print(remove_extraspace(' foo  bar  bax '))
print(remove_bracket('Foo (Bar) AG'))

In [None]:
# ortsnamen: Klammern und Kt.kz entfernen
orte_ = [remove_bracket(ort) for ort in orte]
ortsnamen = [removes(ort, kz_kt) for ort in orte_]
ortsnamen[:10]

In [None]:
# Ortsnamen mit 4 oder mehr Woertern
orte_3s = [ort for ort in ortsnamen if ort.count(' ') >= 3]
orte_3s

In [None]:
# Ortsnamen mit 3 Woertern
orte_2s = [ort for ort in ortsnamen if ort.count(' ') == 2]
orte_2s

In [None]:
len(ortsnamen)

In [None]:
ortsnamen[:10]