## Assessing an article's readability score

In this notebook, I assess an individual article's readability score. I do so with help of the textstat package.

### 1) Loading necessary packages and data

In [9]:
#import pandas
import pandas as pd
from pandas import read_excel

In [10]:
df = read_excel("complete_data_cleaned.xlsx")

In [11]:
#importing the textstat package
import textstat as ts
#set the language to German
ts.set_lang("de")

### 2) Testing the fromula

In [12]:
#Formula: 180 - ASL - 58,5* 
#Thus the following should be 180 - 5 - (58,5*6/5) = 175-70,2 = 104.8
ts.flesch_reading_ease("Das ist ein leichter Satz.")

104.8

### 3) Calculating readability

In [13]:
#calculate readability score per row for teaser and text
#note that teaser data is only available for online articles
df["readabilityscore_text"] = df["Article"].apply (ts.flesch_reading_ease)
df.head(3)

Unnamed: 0.1,Unnamed: 0,ID,Newspaper,Date,Length,Category,Author,Headline,Teaser,Article,Modality,url,clean text,words in clean text,reach_dummy,modality_dummy,readabilityscore_text
0,6,100006,sueddeutschet politik (www),2020-05-28T15:34:08,367,,,SZ Espresso: Nachrichten kompakt - die Übersic...,<p>Was heute wichtig war - und was Sie auf SZ....,Das Wichtigste zum Coronavirus. Berufstätige M...,online,https://www.sueddeutsche.de/politik/nachrichte...,"das wichtig coronavirus . berufstat mutt vat ,...",224,1,0,44.6
1,8,100008,sueddeutschet politik (www),2020-05-28T17:01:43,200,,,Kommunalpolitik: Abgeblendet,<p>Bayreuths Stadtrat im Stream</p>,"Livestream aus dem Stadtrat, das klingt transp...",online,https://www.sueddeutsche.de/bayern/kommunalpol...,"livestream stadtrat , klingt transparent erstr...",104,1,0,65.25
2,24,100024,aachener zeitung (www),2020-05-28T03:01:52,512,Politik,,Länder planen Öffnung: Streit über Schulen und...,"<img src=""https://www.aachener-zeitung.de/imgs...",Der Streit über die Wiederöffnung von Schulen ...,online,https://www.aachener-zeitung.de/politik/deutsc...,der streit wiederoffn schul kindergart kris ve...,318,0,0,38.6


### 4) Comparing outlets

In [14]:
#grouping by outlet
df.groupby("Newspaper").mean()

Unnamed: 0_level_0,Unnamed: 0,ID,Length,words in clean text,reach_dummy,modality_dummy,readabilityscore_text
Newspaper,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aachener Zeitung,492.615464,493.615464,484.008247,294.691753,0.0,1.0,38.610464
Der Tagesspiegel,10927.010886,10928.010886,574.946345,345.008554,1.0,1.0,40.177302
Die Welt,1407.464501,1408.464501,774.438026,458.566787,1.0,1.0,41.601264
Rheinische Post,3486.029474,3487.029474,377.456,227.909895,0.0,1.0,41.84648
Stuttgarter Zeitung,5749.415521,5750.415521,394.241714,236.194826,0.0,1.0,40.650226
Süddeutsche Zeitung (inkl. Regionalausgaben),8341.211828,8342.211828,529.366129,312.950806,1.0,1.0,40.458879
aachener zeitung (www),4215.535714,104215.535714,401.488095,247.35119,0.0,0.0,36.289286
der tagesspiegel (www),4147.094697,104147.094697,574.189394,340.988636,1.0,0.0,43.03428
die welt (www),3980.39548,103980.39548,578.751412,346.711864,1.0,0.0,39.518588
rheinische post (www),4260.479769,104260.479769,338.699422,206.323699,0.0,0.0,39.336358


In [17]:
df.head(10)

Unnamed: 0.1,Unnamed: 0,ID,Newspaper,Date,Length,Category,Author,Headline,Teaser,Article,Modality,url,clean text,words in clean text,reach_dummy,modality_dummy,readabilityscore_text
0,6,100006,sueddeutschet politik (www),2020-05-28T15:34:08,367,,,SZ Espresso: Nachrichten kompakt - die Übersic...,<p>Was heute wichtig war - und was Sie auf SZ....,Das Wichtigste zum Coronavirus. Berufstätige M...,online,https://www.sueddeutsche.de/politik/nachrichte...,"das wichtig coronavirus . berufstat mutt vat ,...",224,1,0,44.6
1,8,100008,sueddeutschet politik (www),2020-05-28T17:01:43,200,,,Kommunalpolitik: Abgeblendet,<p>Bayreuths Stadtrat im Stream</p>,"Livestream aus dem Stadtrat, das klingt transp...",online,https://www.sueddeutsche.de/bayern/kommunalpol...,"livestream stadtrat , klingt transparent erstr...",104,1,0,65.25
2,24,100024,aachener zeitung (www),2020-05-28T03:01:52,512,Politik,,Länder planen Öffnung: Streit über Schulen und...,"<img src=""https://www.aachener-zeitung.de/imgs...",Der Streit über die Wiederöffnung von Schulen ...,online,https://www.aachener-zeitung.de/politik/deutsc...,der streit wiederoffn schul kindergart kris ve...,318,0,0,38.6
3,28,100028,sueddeutschet politik (www),2020-05-28T03:12:25,647,,,Mecklenburg-Vorpommern: Grundgesetz als Maßstab,"<img src=""https://media-cdn.sueddeutsche.de/im...",An diesem Donnerstag trifft sich das neue Land...,online,https://www.sueddeutsche.de/politik/barbara-bo...,an donnerstag trifft neu landesverfassungsgeri...,340,1,0,56.65
4,34,100034,aachener zeitung (www),2020-05-28T06:05:18,409,Politik,,„Kein Generalverdacht“: Högl will sich mit Rec...,"<img src=""https://www.aachener-zeitung.de/imgs...","Die neue Wehrbeauftragte des Bundestages, Eva ...",online,https://www.aachener-zeitung.de/politik/deutsc...,"die neu wehrbeauftragt bundestag , eva hogl , ...",215,0,0,39.65
5,36,100036,sueddeutschet politik (www),2020-05-28T05:49:26,492,,,SZ Espresso: Nachrichten am Morgen - die Übers...,"<img src=""https://media-cdn.sueddeutsche.de/im...",Das Wichtigste zum CoronavirusEXKLUSIV Darauf ...,online,https://www.sueddeutsche.de/politik/nachrichte...,das wichtig coronavirusexklusiv darauf sollt s...,297,1,0,40.85
6,39,100039,sueddeutschet politik (www),2020-05-28T04:42:30,538,,,Soziale Medien: Trump sagt Twitter den Kampf an,"<img src=""https://media-cdn.sueddeutsche.de/im...",Auf Twitter liest sich Trumps Drohung ziemlich...,online,https://www.sueddeutsche.de/politik/trump-twit...,auf twitt liest trumps drohung ziemlich martia...,309,1,0,47.2
7,42,100042,sueddeutschet politik (www),2020-05-28T07:28:40,364,,,Peking: Chinas Volkskongress billigt Pläne für...,"<img src=""https://media-cdn.sueddeutsche.de/im...",Ungeachtet massiver internationaler Kritik hat...,online,https://www.sueddeutsche.de/politik/china-hong...,ungeachtet massiv international kritik chinas ...,235,1,0,34.0
8,77,100077,der tagesspiegel (www),2020-05-28T14:51:16,507,Politik,,Rechtspopulisten scheitern mit Maulkorb für Ve...,Der Verfassungsschutz darf die „Junge Alternat...,Niederlage für die AfD: Das Verwaltungsgericht...,online,https://www.tagesspiegel.de/politik/niederlage...,niederlag afd : das verwaltungsgericht berlin ...,306,1,0,46.1
9,84,100084,der tagesspiegel (www),2020-05-28T13:47:55,874,Politik,,Wie der Wirtschaftsprofessor die Corona-Kritik...,Der Ökonom Stefan Homburg liefert Demonstrante...,"Sachlichen Argumenten stelle er sich gerne, sc...",online,https://www.tagesspiegel.de/politik/stefan-hom...,"sachlich argument stell gern , schreibt stefan...",509,1,0,40.6


In [18]:
df["Article"][2]

'Der Streit über die Wiederöffnung von Schulen und Kindergärten in der Krise verschärft sich. Immer mehr Bundesländer planen inzwischen eine schrittweise Rückkehr zum Regelbetrieb - obwohl es keine gesicherten Erkenntnisse über die Ansteckungsgefahr gibt, die von Kindern ausgeht. "Die Wahrheit ist, dass wir aktuell eine Studienlage haben, die keine echten Schlüsse zulässt, inwieweit Kinder zur Verbreitung des Virus beitragen", sagte Bundesgesundheitsminister Jens Spahn der "Augsburger Allgemeinen". "Da gibt es sehr unterschiedliche Bewertungen - und das macht es besonders schwer, politische Entscheidungen zu treffen. "Spahn wies darauf hin, dass es fast täglich neue wissenschaftliche Erkenntnisse über das Virus gebe. Das zwinge auch die Politik, Einschätzungen zu verändern und Maßnahmen anzupassen. "Besonders schwierig sind die Bereiche Kindergarten und Schule", sagte er. Um die Ausbreitung des Coronavirus einzudämmen, hatten alle Bundesländer Mitte März Schulen und Kitas geschlossen. 

### 5) Save output

In [19]:
df.to_excel("complete_data_cleaned_with_reliability.xlsx")