# Text Analysis with Pandas: Multiple Data Sources & Grouping By
### Word Cloud for Motion of No Confidence Speeches in Czech Chamber of Deputies
Getting data for this text analysis was easy. There are shorthand records of all the speeches in the Chamber of Deputies. All we had to do was copy&paste them into an Excel file. Every speaker has their own sheet. We did no change to those texts. 

<br>__We picked speeches of the following politicians:__
<br>Andrej Babiš, PM & party leader (ANO)
<br>Ivan Bartoš, party leader (Piráti)
<br>Jan Farský, MP (STAN)
<br>Jan Hamáček, party leader (ČSSD)
<br>Jaroslav Faltýnek, MP (ANO)
<br>Karel Schwarzenberg, MP (TOP 09)
<br>Miroslav Kalousek, party leader (TOP 09)
<br>Pavel Bělobrádek, party leader (KDU-ČSL)
<br>Petr Fiala, party leader (ODS)
<br>Tomio Okamura, party leader (SPD)
<br>Vojtěch Filip, party leader (KSČM)

__[Here's a New York Times article to learn more about the current political situation.](https://www.nytimes.com/2018/11/23/world/europe/andrej-babis-czech-republic.html)__

<br>Data source: __[Shorthand records](http://www.psp.cz/eknih/2017ps/stenprot/023schuz/23-1.html#q5)__
<br>Code source: __[Huge help was this article.](https://sigdelta.com/blog/text-analysis-in-pandas/)__

__[Final Tableau vizz (optimalized for phones as well):](https://public.tableau.com/profile/sarka4960#!/vizhome/Hlasovnovyslovennedvryvldlistopad2018/wordcloudConfidence?publish=yes)__

<img src="nikdyNeodstoupim.png">

## Importing Pandas & XLDR
In this text analysis, we will need Pandas library as well as XLDR library for reading and writing into Excel files.

In [1]:
import pandas as pd
import xlrd

## Multiple Data Sources
As every speach was put into a separate sheet, we had to open every single one of them to concatenate them into one dataframe afterwards.

In [2]:
sourceDataFiala = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Fiala", header = None, encoding = "utf-8")
sourceDataBabis = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Babiš", header = None, encoding = "utf-8")
sourceDataBartos = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Bartoš", header = None, encoding = "utf-8")
sourceDataFilip = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Filip", header = None, encoding = "utf-8")
sourceDataOkamura = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Okamura", header = None, encoding = "utf-8")
sourceDataHamacek = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Hamáček", header = None, encoding = "utf-8")
sourceDataBelobradek = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Bělobrádek", header = None, encoding = "utf-8")
sourceDataKalousek = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Kalousek", header = None, encoding = "utf-8")
sourceDataFarsky = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Farský", header = None, encoding = "utf-8")
sourceDataFaltynek = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Faltýnek", header = None, encoding = "utf-8")
sourceDataSchwarzenberg = pd.read_excel("motionSpeeches.xlsx", sheet_name = "Schwarzenberg", header = None, encoding = "utf-8")

In [3]:
sourceDataFiala["name"] = "Fiala"
sourceDataBabis["name"] = "Babis"
sourceDataBartos["name"] = "Bartos"
sourceDataFilip["name"] = "Filip"
sourceDataOkamura["name"] = "Okamura"
sourceDataHamacek["name"] = "Hamacek"
sourceDataBelobradek["name"] = "Belobradek"
sourceDataKalousek["name"] = "Kalousek"
sourceDataFarsky["name"] = "Farsky"
sourceDataFaltynek["name"] = "Faltynek"
sourceDataSchwarzenberg["name"] = "Schwarzenberg"

## Concatenating Multiple Data Sources

In [4]:
frames = [sourceDataFiala, sourceDataBabis, sourceDataBartos, sourceDataFilip, sourceDataOkamura, sourceDataHamacek, sourceDataBelobradek, sourceDataKalousek, sourceDataFarsky, sourceDataFaltynek, sourceDataSchwarzenberg]
result = pd.concat(frames)

## Renaming Columns

In [5]:
result.columns = ["text","speaker"]

## Data Cleansing
### New Data Frame for Text Analysis
To strip and split the text, we prepared a new DF with two columns - original text and clean text that will later contain a list of words.
<br>The text is divided into a paragraph per row as it was in the shorthand records.

In [6]:
newDataset = pd.DataFrame(result)
newData = pd.concat([newDataset["text"], newDataset["text"], newDataset["speaker"]], axis=1, keys=["original", "clean","speaker"])
newData.head()

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...","Děkuji. Vážený pane předsedo, vážení členové v...",Fiala
1,"Možná vás překvapím, ale jsem si jist, že dnes...","Možná vás překvapím, ale jsem si jist, že dnes...",Fiala
2,Ve skutečnosti zde dokonce nehlasujeme ani o k...,Ve skutečnosti zde dokonce nehlasujeme ani o k...,Fiala
3,"Stejně tak pokládám za důležité, abychom místo...","Stejně tak pokládám za důležité, abychom místo...",Fiala
4,"Vážené paní poslankyně, vážení páni poslanci m...","Vážené paní poslankyně, vážení páni poslanci m...",Fiala


## Spliting with Regex
We split the words to a list by regex \W_ that includes characters a-z, A-Z, 0-9 and an underscore.

In [7]:
newData['clean'] = newData.clean.str.strip().str.split('[\W_]+')
newData.head()

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...","[Děkuji, Vážený, pane, předsedo, vážení, členo...",Fiala
1,"Možná vás překvapím, ale jsem si jist, že dnes...","[Možná, vás, překvapím, ale, jsem, si, jist, ž...",Fiala
2,Ve skutečnosti zde dokonce nehlasujeme ani o k...,"[Ve, skutečnosti, zde, dokonce, nehlasujeme, a...",Fiala
3,"Stejně tak pokládám za důležité, abychom místo...","[Stejně, tak, pokládám, za, důležité, abychom,...",Fiala
4,"Vážené paní poslankyně, vážení páni poslanci m...","[Vážené, paní, poslankyně, vážení, páni, posla...",Fiala


## Pivoting List Items
Pivots the list to a word-per-line format. We had to keep the _speaker_ column intact for later use.

In [8]:
rows = list()
for row in newData[['original', 'clean', 'speaker']].iterrows():
    r = row[1]
    for clean in r.clean:
        rows.append((r.original, clean, r.speaker))
clean = pd.DataFrame(rows, columns=['original', 'clean', 'speaker'])
clean.head(30)

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...",Děkuji,Fiala
1,"Děkuji. Vážený pane předsedo, vážení členové v...",Vážený,Fiala
2,"Děkuji. Vážený pane předsedo, vážení členové v...",pane,Fiala
3,"Děkuji. Vážený pane předsedo, vážení členové v...",předsedo,Fiala
4,"Děkuji. Vážený pane předsedo, vážení členové v...",vážení,Fiala
5,"Děkuji. Vážený pane předsedo, vážení členové v...",členové,Fiala
6,"Děkuji. Vážený pane předsedo, vážení členové v...",vlády,Fiala
7,"Děkuji. Vážený pane předsedo, vážení členové v...",vážené,Fiala
8,"Děkuji. Vážený pane předsedo, vážení členové v...",paní,Fiala
9,"Děkuji. Vážený pane předsedo, vážení členové v...",poslankyně,Fiala


## Getting Rid of Empty Strings
As we have some empty strings - remnants after splitting - we just filter these out.

In [9]:
clean = clean[clean.clean.str.len() > 0]
clean.head(10)

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...",Děkuji,Fiala
1,"Děkuji. Vážený pane předsedo, vážení členové v...",Vážený,Fiala
2,"Děkuji. Vážený pane předsedo, vážení členové v...",pane,Fiala
3,"Děkuji. Vážený pane předsedo, vážení členové v...",předsedo,Fiala
4,"Děkuji. Vážený pane předsedo, vážení členové v...",vážení,Fiala
5,"Děkuji. Vážený pane předsedo, vážení členové v...",členové,Fiala
6,"Děkuji. Vážený pane předsedo, vážení členové v...",vlády,Fiala
7,"Děkuji. Vážený pane předsedo, vážení členové v...",vážené,Fiala
8,"Děkuji. Vážený pane předsedo, vážení členové v...",paní,Fiala
9,"Děkuji. Vážený pane předsedo, vážení členové v...",poslankyně,Fiala


## Lowercasing

In [10]:
clean['clean'] = clean.clean.str.lower()
clean.head(20)

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...",děkuji,Fiala
1,"Děkuji. Vážený pane předsedo, vážení členové v...",vážený,Fiala
2,"Děkuji. Vážený pane předsedo, vážení členové v...",pane,Fiala
3,"Děkuji. Vážený pane předsedo, vážení členové v...",předsedo,Fiala
4,"Děkuji. Vážený pane předsedo, vážení členové v...",vážení,Fiala
5,"Děkuji. Vážený pane předsedo, vážení členové v...",členové,Fiala
6,"Děkuji. Vážený pane předsedo, vážení členové v...",vlády,Fiala
7,"Děkuji. Vážený pane předsedo, vážení členové v...",vážené,Fiala
8,"Děkuji. Vážený pane předsedo, vážení členové v...",paní,Fiala
9,"Děkuji. Vážený pane předsedo, vážení členové v...",poslankyně,Fiala


## Counting & Grouping By
Here we count each word's occurance and reset the dataframe's index. The _word_ column will be used for stopword lookup later.
<br>We group the words by _speaker_ and export the total number of words (including stopwords) per speaker into an Excel sheet.

In [11]:
numberOfWords = clean.groupby(['speaker'])['clean'].count()
numberOfWords.columns = ["speaker","number of words"]
numberOfWords.to_excel('motionOfNoConfidenceWordsNumber.xlsx', sheet_name='words')

## Stop words
For English stop words, you can use __[(library from NLTK)](https://www.nltk.org)__.
<br> As we're analysing Czech language, we use our own CSV file containing stop words. As we decided we will include all significant words no matter the number of occurance, we took all the words for manual polishing afterwards with consideration of grammatical declension and conjugation.

In [12]:
stop = pd.read_csv("stopwordsCzech.csv", header = None, encoding = "utf-8")
stop.columns = ["stopword"]
stop.head()

Unnamed: 0,stopword
0,a
1,aby
2,ačkoli
3,aj
4,ale


To compare the _word_ column and 'stopwords_czech.csv' file, we use __.isin()__. To exclude words that are stop-words, we use __.dropna()__. 

In [13]:
cleanStripped = clean[~clean["clean"].isin(stop["stopword"])].dropna()
toCount = cleanStripped
toCount.head(20)

Unnamed: 0,original,clean,speaker
0,"Děkuji. Vážený pane předsedo, vážení členové v...",děkuji,Fiala
1,"Děkuji. Vážený pane předsedo, vážení členové v...",vážený,Fiala
2,"Děkuji. Vážený pane předsedo, vážení členové v...",pane,Fiala
3,"Děkuji. Vážený pane předsedo, vážení členové v...",předsedo,Fiala
4,"Děkuji. Vážený pane předsedo, vážení členové v...",vážení,Fiala
5,"Děkuji. Vážený pane předsedo, vážení členové v...",členové,Fiala
6,"Děkuji. Vážený pane předsedo, vážení členové v...",vlády,Fiala
7,"Děkuji. Vážený pane předsedo, vážení členové v...",vážené,Fiala
8,"Děkuji. Vážený pane předsedo, vážení členové v...",paní,Fiala
9,"Děkuji. Vážený pane předsedo, vážení členové v...",poslankyně,Fiala


## Group By
Another grouping by _speaker_ was neccessary for keeping the right number of each word occurance with the corresponding speaker.

In [14]:
counts = toCount.groupby('speaker')\
    .clean.value_counts()\
    .to_frame()\
    .rename(columns={'clean':'counts'})
counts.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,counts
speaker,clean,Unnamed: 2_level_1
Babis,samozřejmě,19
Babis,syna,19
Babis,naše,16
Babis,mého,14
Babis,syn,13


## Index Reset
To get a neat table, we reset the index.

In [15]:
toExport = counts.reset_index()
toExport.head()

Unnamed: 0,speaker,clean,counts
0,Babis,samozřejmě,19
1,Babis,syna,19
2,Babis,naše,16
3,Babis,mého,14
4,Babis,syn,13


## Export to Excel
As Tableau works nicely with Excel files, we decided to export into this format.

In [17]:
toExport.to_excel('motionOfNoConfidencePrep.xlsx', sheet_name='words')