## Python Grundlagen - Challenge



- Die Datei `guardian_articles_corona.json` beinhaltet utf-8 kodierte Artikel zum Suchbegriff *coronavirus* für das Jahr 2020 aus der [The Guardian API](http://open-platform.theguardian.com/)  (abgerufen am 13.05.2020)
- Ziel ist es, die Datenstruktur so zu vereinfachen, dass im Anschluss Analysen durchgeführt werden können 
- Orientiert euch bei Problemen zunächst an den bisherigen Notebooks aus dem Kurs 
- Die nachfolgende Challenge sind umfangreicher als die bisherigen Übungsaufgaben. Es ist in Ordnung wenn die Lösung mehr Zeit in Anspruch nimmt

### 1.

Ladet die `JSON` Datei herunter, lest diese in Python ein und macht euch mit der Datenstruktur vertraut. Wie viele Artikel enthält die Datei? 

10801 Artikel

### 2. 

Schreibt eine Funktion um die Liste mit Artikeln zu verarbeiten. Vereinfacht die Datenstruktur dabei entsprechend dem folgenden Input / Output Beispiel:

**Input:**

```
{
    'id': 'world/2020/may/08/coronavirus-the-week-explained',
    'type": 'article',
    'sectionId': "world',
    'sectionName': 'World news',
    'webPublicationDate': '2020-05-08T10:54:45Z',
    'webTitle': 'Coronavirus: the week explained',
    'webUrl': 'https://www.theguardian.com/world/2020/may/08/coronavirus-the-week-explained',
    'apiUrl': 'https://content.guardianapis.com/world/2020/may/08/coronavirus-the-week-explained',
    'fields': {
      'bodyText': 'Welcome to our weekly roundup of developments in the coronavirus pandemic, which continues ...',
      'charCount': '6139'},     
   'tags': 
   [{'id': 'world/coronavirus-outbreak',
   'type': 'keyword',
   'sectionId': 'world',
   'sectionName': 'World news',
   'webTitle': 'Coronavirus outbreak',
   'webUrl': 'https://www.theguardian.com/world/coronavirus-outbreak',
   'apiUrl': 'https://content.guardianapis.com/world/coronavirus-outbreak',
   'references': []},
  {'id': 'science/science',
   'type': 'keyword',
   'sectionId': 'science',
   'sectionName': 'Science',
   'webTitle': 'Science',
   'webUrl': 'https://www.theguardian.com/science/science',
   'apiUrl': 'https://content.guardianapis.com/science/science',
   'references': []}]
   ...

```

**Output:**

```
{'chars': 6139,
 'id': 'world/2020/may/08/coronavirus-the-week-explained',
 'section': 'World news',
 'tags': 'world/coronavirus-outbreak, science/science',
 'text': 'Welcome to our weekly roundup of developments in the coronavirus pandemic, which continues ...',
 'title': 'Coronavirus: the week explained',
 'url': 'https://www.theguardian.com/world/2020/may/08/coronavirus-the-week-explained',
 'month': 5}
```

### 3.
Die Variable `chars` in euren verarbeiteten Artikeln beinhaltet die jeweilige Anzahl der Zeichen des Texts. Überprüft exemplarisch anhand eines Artikels, ob die Angabe korrekt ist.
      
### 4.
Findet heraus in welchem Monat die meisten Artikel veröffentlicht wurden.

April

### 5.
Findet die drei meistgenutzten Tags aus allen Artikeln.

### 6.
Gebt die Titel der fünf längsten Artikel (= Anzahl Zeichen) aus.

### 7.
Speichert die verarbeiteten Artikel in einer `JSON` Datei ab. Achtet darauf, die Textkodierung auf `utf-8` zu setzen.

In [56]:
# Code für Grundlagenchallenge
import json
from collections import Counter
from pprint import pprint

with open('guardian_articles_corona.json', 'r', encoding='utf=8') as f:
    guardian_raw = json.load(f)

def json_parser(file_to_pars):
    parsed = []
    for i in range(0, len(file_to_pars)):
        for j in range(0, len(file_to_pars[i])):
            tmp = {}
            tmp['id'] = file_to_pars[i]["id"]
            tmp['chars'] = file_to_pars[i]["fields"]["charCount"]
            tmp['section'] = file_to_pars[i]["sectionName"]
            tmp2 = []
            for k in range(0, len(file_to_pars[i]['tags'])):
                tmp2.append(file_to_pars[i]['tags'][k]['id'])
            tmp2 = ', '.join(tmp2)
            tmp['tags'] = tmp2
            tmp['text'] = file_to_pars[i]["fields"]["bodyText"]
            tmp['title'] = file_to_pars[i]["webTitle"]
            tmp['url'] = file_to_pars[i]["webUrl"]
            date = file_to_pars[i]['webPublicationDate']
            tmp['month'] = date[5:7]
            # print(tmp)
        parsed.append(tmp)
    return parsed

def month_article():
    counter = []
    for i in range(len(parsed_guardian)):
        counter.append(parsed_guardian[i]['month'])
    counter_month = Counter(counter)
    print('Zahl der Artikel pro Monat', counter_month.most_common())
    print('Monat mit mesten Artikeln: ', counter_month.most_common(1))

def most_tags():
    counter = []
    for i in range(len(parsed_guardian)):
        tmp_tag = parsed_guardian[i]['tags'].split(", ")
        counter = counter + tmp_tag
    counter_tags = Counter(counter)
    print('3 häufigsten tags: ', counter_tags.most_common(3))

def long_article():
    counter = []
    counter_chars = []
    for i in range(len(parsed_guardian)):
        counter.append(int(parsed_guardian[i]['chars']))
        #counter = counter + parsed_guardian[i]['chars']
    #counter_chars = counter.sort(reverse=True)
    #counter_chars = list(dict.fromkeys(counter))
    counter = list(dict.fromkeys(counter))
    counter_chars = counter.sort(reverse=True)
    #print('Counter Chars', counter)
    #print('Counter', counter)
    print()
    print('Die längsten 5 Beiträge: ')
    for j in range(0, 4):
        for k in range(len(parsed_guardian)):
            if str(counter[j]) == parsed_guardian[k]['chars']:
                print(parsed_guardian[k]['chars'], parsed_guardian[k]['title'])
            else:
                continue



parsed_guardian = json_parser(guardian_raw)

month_article()

most_tags()

long_article()

with open('uardian_articles_corona-parsed.json', 'w', encoding = 'utf-8') as f:
    json.dump(parsed_guardian,
             f,
             ensure_ascii = False,
             indent = 2)

Zahl der Artikel pro Monat [('04', 4307), ('03', 4076), ('05', 1479), ('02', 744), ('01', 195)]
Monat mit mesten Artikeln:  [('04', 4307)]
3 häufigsten tags:  [('world/coronavirus-outbreak', 8238), ('uk/uk', 3742), ('world/world', 3289)]

Die längsten 5 Beiträge: 
205535 Canada closes borders to foreigners – as it happened
164451 Covid-19 outbreak like a nuclear explosion, says archbishop of Canterbury – as it happened
164451 Covid-19 outbreak like a nuclear explosion, says archbishop of Canterbury – as it happened
162578 Austria says easing lockdown has not led to spike in infections – as it happened
160497 US announces economic measures after markets plunge on virus fears – as it happened


<br>
<br>


___

                
**Kontakt: Carsten Schwemmer** (Webseite: www.carstenschwemmer.com,  Email: c.schwem2er@gmail.com)