# Weitere Datentypen, Files und Python Pakete

## List Comprehensions

`for`-Schleifen können auch in Form von *List Comprehensions* geschrieben werden. Dies stellt oft eine nachvollziehbarere Schreibweise dar:

`[i for i in x]`

In [1]:
input_list = []
for number in range(1, 10): # von 1 (inklusive) bis 10 (exklusive)
    input_list.append(number ** 2)
print(input_list)

[1, 4, 9, 16, 25, 36, 49, 64, 81]


In [2]:
new = [x ** 2 for x in range(1, 10)]
new

[1, 4, 9, 16, 25, 36, 49, 64, 81]

List Comprehensions können auch mit Bedingungen versehen werden:    
`[i for i in x if Bedingung]`

In [3]:
test = [str(x ** 2) for x in range(1, 10) if x % 2 != 0]
test

['1', '9', '25', '49', '81']

Über List Comprehensions und die String-Funktion `join()` können z.B. auch mehrere String Elemente aus einer Liste in einen einzelnen String überführt werden:

In [4]:
many_strings = ['#spam', '#bacon', '#eggs']
one_string = ', '.join([s.upper() for s
                        in many_strings])
print(one_string)

#SPAM, #BACON, #EGGS


## Datentyp: [Tupel](https://docs.python.org/3.3/tutorial/datastructures.html#tuples-and-sequences)

Unveränderliche Sequenzen beliebiger Objekte, werden mit `(` eingeleitet und mit `)` geschlossen. Tupel haben alle Eigenschaften von Listen, sind allerdings wie Strings *immutable*.

In [5]:
tupel = (2, 3)
print(tupel[0])
type(tupel)

2


tuple

### Iteration mit Listen-von-Tupeln

Erlaubt es synchron über mehrere gleich lange Sequenzen zu iterieren. Dazu müssen diese in eine Liste von Tupeln transferiert werden. Dies geschieht über die `zip()` Funktion.

In [6]:
L1 = [1988, 1964, 1912, 1996, 2008, 1976]
L2 = ['Seoul', 'Tokio', 'Stockholm', 'Atlanta', 'Peking', 'Montreal']


lot = list(zip(L1, L2)) # erzeugt Liste aus Tupeln des gezippten Objekts
print(lot)

[(1988, 'Seoul'), (1964, 'Tokio'), (1912, 'Stockholm'), (1996, 'Atlanta'), (2008, 'Peking'), (1976, 'Montreal')]


Bei der Sortierung von Tupeln verwendet Python standardmäßig das jeweils erste Element:

In [7]:
print(lot)

[(1988, 'Seoul'), (1964, 'Tokio'), (1912, 'Stockholm'), (1996, 'Atlanta'), (2008, 'Peking'), (1976, 'Montreal')]


In [8]:
print(sorted(lot))

[(1912, 'Stockholm'), (1964, 'Tokio'), (1976, 'Montreal'), (1988, 'Seoul'), (1996, 'Atlanta'), (2008, 'Peking')]


In [11]:
type(lot[1][1][1]) # von welchem element wird hier der typ abgefragt?
print(lot[1][1][1])

o


## Datentyp: [Diktionäre](https://docs.python.org/3.3/tutorial/datastructures.html#dictionaries)

- Neben Listen sind Diktionäre die wichtigsten Datencontainer im Python, da das im Web häufig verwendete Datenformat JSON direkt in Python Diktionäre überführt werden kann.
- Diktionäre sind ungeordnete Sammlungen von Elementen die jeweils über einen einzigartigen Schlüssel angesprochen werden können. Diktionäre werden mit `{` geöffnet und mit `}` geschlossen. `key-value` Paare bestehen jeweils aus einem Schlüssel und dem dazugehörigen Wert, beides wird mit `:` von einander getrennt.

`D = {key1: value1, key2: value2, ...}`

In [12]:
D = {'1988': 'Seoul', '2008': ['Peking', 5], 1988: 'Seoul'}
print(D)
type(D)

{'1988': 'Seoul', '2008': ['Peking', 5], 1988: 'Seoul'}


dict

In [13]:
print(D['2008'])

['Peking', 5]


In [14]:
D[1988] = 'neuer value'
print(D)

{'1988': 'Seoul', '2008': ['Peking', 5], 1988: 'neuer value'}


In [15]:
for key in D.keys():
    print(key, D[key])

1988 Seoul
2008 ['Peking', 5]
1988 neuer value


Diktionäre können - ebenso wie Listen - mehrere Hierarchieebenen "tief" geschachtelt sein:

In [16]:
nested = {'structured': {'spreadsheets': 'flat', 'json': 'tree'},
          'unstructured':  [{'type': 'natural language', 'format': 'txt'}, 
                              {'type' : 'image', 'format': 'png'}]}

In [17]:
print(nested['structured']['json'])

tree


In [21]:
print(nested['unstructured'][0]['type'])    

natural language


## Übungsaufgabe 1

Schreibt Python Code (z.B: mit Hilfe einer for-Schleife) um euch für alle `unstructured` Elemente aus dem obigen Diktionär den zugehörigen `type` auszugeben.

In [27]:
# Code für Übungsaufgabe 1
for i in range(len(nested['unstructured'])):
    print(nested['unstructured'][i]['type'])

natural language
image


### Übungsaufgabe 2

Erstellt ein Diktionär, dessen `keys` die id's  der nachfolgenden Tweets darstellen sollte. Als `values` zu den Keys sollen alle Hashtag Strings des jeweiligen Tweets in einer Liste enthalten sein. *Bonus: Definiert eine Funktion zur Lösung der Aufgabe.*

https://twitter.com/BMBF_Bund/status/1199976385621692416    
https://twitter.com/WHO/status/1257937948424757248  

Lösungsbeispiel:
```
{'1199976385621692416': ['#openaccess', '#BMBF', '#Wissenschaft', '#OA', '#podcast'],
 '1257937948424757248': ['#COVID19', '#HealthForAll', '#coronavirus']}
```

In [7]:
tweets = [
      { # tweet 1
        'created_at': 'Thu Nov 28 09:00:39 +0000 2019',
        'favorite_count': 283,
        'full_text': 'Reden wir offen ... über #openaccess! \nUnd zwar in unserer Podcast-Mini-Serie. In der ersten Folge spricht Radiomoderator Holger Klein mit der Chemikerin Mai Thi Nguyen-Kim @maithi_nk. Jetzt hier reinhören 🎧: https://t.co/aRRo23c0t0\n@wrint_de #BMBF #Wissenschaft #OA #podcast https://t.co/EzyqBc4WAK',
        'hashtags': [{
            'text': 'openaccess'
          },
          {
            'text': 'BMBF'
          },
          {
            'text': 'Wissenschaft'
          },
          {
            'text': 'OA'
          },
          {
            'text': 'podcast'
          }
        ],
        'id': 1199976385621692416, # id 1
        'id_str': '1199976385621692416',
        'lang': 'de',
        'media': [{
          'display_url': 'pic.twitter.com/EzyqBc4WAK',
          'expanded_url': 'https://twitter.com/BMBF_Bund/status/1199976385621692416/photo/1',
          'id': 1199976381893005314,
          'media_url': 'http://pbs.twimg.com/media/EKcsKV2XUAIvNj6.jpg',
          'media_url_https': 'https://pbs.twimg.com/media/EKcsKV2XUAIvNj6.jpg',
          'sizes': {
            'small': {
              'w': 680,
              'h': 453,
              'resize': 'fit'
            },
            'thumb': {
              'w': 150,
              'h': 150,
              'resize': 'crop'
            },
            'medium': {
              'w': 1200,
              'h': 799,
              'resize': 'fit'
            },
            'large': {
              'w': 2048,
              'h': 1363,
              'resize': 'fit'
            }
          },
          'type': 'photo',
          'url': 'https://t.co/EzyqBc4WAK'
        }],
        'retweet_count': 73,
        'source': '<a href="https://www.hootsuite.com" rel="nofollow">Hootsuite Inc.</a>',
        'urls': [{
          'expanded_url': 'http://ow.ly/xymW50xmNGj',
          'url': 'https://t.co/aRRo23c0t0'
        }],
        'user': {
          'created_at': 'Fri Jan 09 13:29:16 +0000 2015',
          'default_profile': True,
          'description': 'Hier twittert die Social-Media-Redaktion des Bundesministeriums für Bildung und Forschung - https://t.co/UqNZkLfa5s',
          'favourites_count': 3803,
          'followers_count': 48480,
          'friends_count': 650,
          'geo_enabled': True,
          'id': 2969727718,
          'id_str': '2969727718',
          'listed_count': 596,
          'location': 'Berlin',
          'name': 'BMBF',
          'screen_name': 'BMBF_Bund',
          'statuses_count': 9852,
          'url': 'https://t.co/swEZR6KkpA',
          'verified': True
        },
        'user_mentions': [{
            'id': 1094849342,
            'id_str': '1094849342',
            'name': 'Mai Thi Nguyen-Kim',
            'screen_name': 'maithi_nk'
          },
          {
            'id': 303342452,
            'id_str': '303342452',
            'name': 'WRINT',
            'screen_name': 'wrint_de'
          }
        ]
      },

      { # tweet 2
        'created_at': 'Wed May 06 07:39:12 +0000 2020',
        'favorite_count': 750,
        'full_text': 'In a little over 3 months, #COVID19 has changed the world in so many ways, bringing us closer together and reaffirming the importance of #HealthForAll.\nThis video shows the key moments so far as WHO works with partners worldwide to fight #coronavirus and save lives. https://t.co/oYQV4DPbxa',
        'hashtags': [{
            'text': 'COVID19'
          },
          {
            'text': 'HealthForAll'
          },
          {
            'text': 'coronavirus'
          }
        ],
        'id': 1257937948424757248, # id 2
        'id_str': '1257937948424757248',
        'lang': 'en',
        'media': [{
          'display_url': 'pic.twitter.com/oYQV4DPbxa',
          'expanded_url': 'https://twitter.com/WHO/status/1257937948424757248/video/1',
          'id': 1257937273561190400,
          'media_url': 'http://pbs.twimg.com/amplify_video_thumb/1257937273561190400/img/JvLTmXi97KVXwviA.jpg',
          'media_url_https': 'https://pbs.twimg.com/amplify_video_thumb/1257937273561190400/img/JvLTmXi97KVXwviA.jpg',
          'sizes': {
            'thumb': {
              'w': 150,
              'h': 150,
              'resize': 'crop'
            },
            'medium': {
              'w': 1200,
              'h': 675,
              'resize': 'fit'
            },
            'small': {
              'w': 680,
              'h': 383,
              'resize': 'fit'
            },
            'large': {
              'w': 1280,
              'h': 720,
              'resize': 'fit'
            }
          },
          'type': 'video',
          'url': 'https://t.co/oYQV4DPbxa',
          'video_info': {
            'aspect_ratio': [16, 9],
            'duration_millis': 325600,
            'variants': [{
                'bitrate': 288000,
                'content_type': 'video/mp4',
                'url': 'https://video.twimg.com/amplify_video/1257937273561190400/vid/480x270/Qp6JiURxItBa9H6c.mp4?tag=13'
              },
              {
                'bitrate': 832000,
                'content_type': 'video/mp4',
                'url': 'https://video.twimg.com/amplify_video/1257937273561190400/vid/640x360/nqIWSKAqarkV9xRw.mp4?tag=13'
              },
              {
                'content_type': 'application/x-mpegURL',
                'url': 'https://video.twimg.com/amplify_video/1257937273561190400/pl/JUsDgAz2USLHj8JK.m3u8?tag=13'
              },
              {
                'bitrate': 2176000,
                'content_type': 'video/mp4',
                'url': 'https://video.twimg.com/amplify_video/1257937273561190400/vid/1280x720/frWD4cpJVdQsBDDH.mp4?tag=13'
              }
            ]
          }
        }],
        'retweet_count': 324,
        'source': '<a href="https://studio.twitter.com" rel="nofollow">Twitter Media Studio</a>',
        'urls': [],
        'user': {
          'created_at': 'Wed Apr 23 19:56:27 +0000 2008',
          'description': 'We are the #UnitedNations’ health agency. We are committed to achieving better health for everyone, everywhere - #HealthForAll',
          'favourites_count': 10673,
          'followers_count': 7692786,
          'friends_count': 1719,
          'geo_enabled': True,
          'id': 14499829,
          'id_str': '14499829',
          'listed_count': 32284,
          'location': 'Geneva, Switzerland',
          'name': 'World Health Organization (WHO)',
          'screen_name': 'WHO',
          'statuses_count': 50956,
          'url': 'https://t.co/wVulKuROWG',
          'verified': True
        },
        'user_mentions': []
      }]

In [8]:
# Code Übungsaufgabe 2

def give_hash(twiit):
    ergebnis = {}
    hash = []
    print(range(len(tweets)))
    for i in range(len(tweets)):           # durchläuft die einzelnen Tweets
        id = tweets[i]['id']
        for j in range(len(tweets[i]['hashtags'])):
            hash.append(tweets[i]['hashtags'][j]['text'])
        ergebnis[id] = hash
    return ergebnis

print(give_hash(tweets))



range(0, 2)
{1199976385621692416: ['openaccess', 'BMBF', 'Wissenschaft', 'OA', 'podcast', 'COVID19', 'HealthForAll', 'coronavirus'], 1257937948424757248: ['openaccess', 'BMBF', 'Wissenschaft', 'OA', 'podcast', 'COVID19', 'HealthForAll', 'coronavirus']}


## Files (I/O)

File Methoden (I/O) können verwendet werden um Daten in Python einzulesen bzw. nach der Verarbeitung abzuspeichern. Die wichtigsten I/O Methoden sind:

* `.write()`: schreibt ein String Objekt in ein File.
* `.read()`: liest aus einem Fileobjekt gibt ein Textobjekt zurück.

Für das einlesen bzw. abspeichern von Daten muss über die Funktion `open()` zunächst ein Fileobjekt erstellt werden. Der erste Input bestimmt dabei den Dateinamen, der zweite Input den Modus (`r` für lesen, `w` für schreiben) und der dritte Input die Text Enkodierung.

Arbeitsverzeichnis wechseln (passt euer Verzeichnis entsprechend an):

In [58]:
%cd "C:\Users\ekara\Documents\GitHub\python_data_scraping\notebooks"

C:\Users\ekara\Documents\GitHub\python_data_scraping\notebooks


Beispielliste anlegen:

In [59]:
towrite = ['Enkodierung', 'erzeugt', 'Aerger', '€nkôdíerung_ärzäugt_Ärger']

In [60]:
with open('myfile.txt', 'w', encoding = 'utf-8') as f:
    for word in towrite:
        f.write(word + '\n')

In [61]:
with open('myfile.txt', 'r', encoding = 'utf-8') as f:
    toread = f.read().split('\n')[:-1] # split
print(toread)

['Enkodierung', 'erzeugt', 'Aerger', '€nkôdíerung_ärzäugt_Ärger']


### Enkodierung von Texten

Texte werden von Computern in Form von Zahlen abgespeichert. Für jedes Textsymbol, z.B. `a`, gibt es eine Zahl, über die das jeweilige Symbol [kodiert](https://de.wikipedia.org/wiki/Zeichenkodierung) wird.

In [62]:
from IPython.display import IFrame
IFrame("https://www.asciitable.com/", width = "800", height = "400")

Allerdings gibt es mittlerweile viele verschiedene Standards für die Enkodierung von Texten (z.B. [ASCII](https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange), oder Unicode Zeichensätze wie [UTF-8](https://de.wikipedia.org/wiki/UTF-8), [UTF-16](https://de.wikipedia.org/wiki/UTF-16) und [Latin-1](https://de.wikipedia.org/wiki/ISO_8859-1)). Wenn einem Programm beim einlesen von Text die falsche Enkodierung übergeben wird, werden die Zeichen nicht mehr korrekt verarbeitet:

In [63]:
with open('myfile.txt', 'r', encoding = 'latin-1') as f:
    toread = f.read().split('\n') # split
print(toread)

['Enkodierung', 'erzeugt', 'Aerger', 'â\x82¬nkÃ´dÃ\xaderung_Ã¤rzÃ¤ugt_Ã\x84rger', '']


Es empfiehlt sich deshalb unbedingt, grundsätzlich alle Dateien in einer einheitlichen Kodierung abzuspeichern. Als eine der häufigsten Kodierungen bietet sich als Standard `utf-8` an.    
Falls beim einlesen von Daten die Kodierung nicht bekannt ist, müssen notfalls verschiedene Kodierungen getestet werden. 

## Python Pakete

Alle bisher verwenden Datentypen, Funktionen, etc., sind in der Standardbibliothek von Python. Mittlerweile existieren tausende von Zusatzpaketen, die bestimmte Problemstellen vereinfachen. Insbesondere beim Data Scraping werden wir mehrere Zusatzbibliotheken nutzen.

Zusatzpakete werden über den Befehl `import` eingelesen. Dabei kann entweder die komplette Bibliothek, oder nur eine bestimmte funktion importiert werden. Beispiele: Paket [time](https://docs.python.org/3/library/time.html) und Funktion `Counter` aus [collections](https://docs.python.org/3/library/collections.html).

In [64]:
import time
from collections import Counter

Ansschließend sind die entsprechenden Module und Funktionen im `namespace` enthalten und können verwendet werden:

In [65]:
print(time.localtime())

time.struct_time(tm_year=2021, tm_mon=10, tm_mday=31, tm_hour=1, tm_min=36, tm_sec=38, tm_wday=6, tm_yday=304, tm_isdst=1)


In [66]:
to_count = [1, 2, 3, 1, 7, '2', 4, 6, 9, 2, 7]
count_dic = Counter(to_count)
print(count_dic)

Counter({1: 2, 2: 2, 7: 2, 3: 1, '2': 1, 4: 1, 6: 1, 9: 1})


### JSON

Das Python Paket [json](https://docs.python.org/3/library/json.html) ermöglicht des einlesen und abspeichern von Daten im [JavaScript Object Notation](https://de.wikipedia.org/wiki/JavaScript_Object_Notation) Format - kurz `JSON`. Die wichtigsten Funktionen sind `load()` und `dump()`:

In [4]:
import json
nested = {'structured': {'spreadsheets': 'flat', 'json': 'tree'},
          'unstructured':  [{'type': 'natural language', 'format': 'txt'}, 
                              {'type' : 'image', 'format': 'png'}]}

with open('example_dict.json', 'w', encoding = 'utf-8') as f:
    json.dump(nested, # das abzuspeichernde Daten-Objekt
              f,      # das geöffnete File-Objekt
             ensure_ascii = False, # für UTF-8 Kompatibilität
             indent = 2) # optional: einrücken genesteter Datenstrukturen

In [5]:
with open('example_dict.json', 'r', encoding = 'utf-8') as f:
    nested2 = json.load(f)
    
nested == nested2
type(nested)

dict

In [69]:
from pprint import pprint # uebersichtliche ausgabe
pprint(nested, 
       indent = 5) # output einruecken

{    'structured': {'json': 'tree', 'spreadsheets': 'flat'},
     'unstructured': [    {'format': 'txt', 'type': 'natural language'},
                          {'format': 'png', 'type': 'image'}]}


## Übungsaufgabe 3

Speichert die beiden Tweets aus Übungsaufgabe 2 mit Hilfe der Python I/O und JSON Funktionen auf eurer Festplatte.

In [1]:
# Code für Übungsaufgabe 3
import json

with open('tweets.json', 'w', encoding = 'utf-8') as f: 
    json.dump(tweets,
             f,
             ensure_ascii = False,
             indent = 2)
type(f)

NameError: name 'tweets' is not defined

In [71]:
with open('tweets.json', 'r', encoding = 'utf=8') as f:
    tweets2 = json.load(f)
    
tweets == tweets2

True

<br>
<br>


___

                
**Kontakt: Carsten Schwemmer** (Webseite: www.carstenschwemmer.com,  Email: c.schwem2er@gmail.com)