# Introduction
In this workshop we'll read hundreds of court rulings from the Swiss Supreme Court regarding migrants. The Swiss [Bundesverwaltungsgericht](http://www.bvger.ch), which is based in St. Gallen, is obliged to published every single decision in the Internet. Since 2007 thats over 45'000 decisions. Well be working with 700 of them, regarding the timeframe from Sep. 2016 to Jan. 2017. 

[Regex Tester](https://regex101.com/)

# Imports

In [1]:
import pandas as pd
# We'll use this to store the data we generate
import re
# We'll us regular expression to find the information we need
import os
# And the Os will help us locate the hundreds of files

# What are we after?
1. Date
1. Nationality
1. Decision

Before we start, lets take a look at the files though.

# A list of all the relevant files

In [2]:
os.listdir('files')

['289.txt',
 '504.txt',
 '262.txt',
 '276.txt',
 '510.txt',
 '538.txt',
 '706.txt',
 '712.txt',
 '29.txt',
 '869.txt',
 '15.txt',
 '855.txt',
 '699.txt',
 '841.txt',
 '114.txt',
 '100.txt',
 '896.txt',
 '882.txt',
 '470.txt',
 '316.txt',
 '302.txt',
 '464.txt',
 '458.txt',
 '459.txt',
 '303.txt',
 '465.txt',
 '471.txt',
 '317.txt',
 '883.txt',
 '897.txt',
 '101.txt',
 '115.txt',
 '840.txt',
 '698.txt',
 '854.txt',
 '14.txt',
 '868.txt',
 '28.txt',
 '713.txt',
 '707.txt',
 '539.txt',
 '277.txt',
 '511.txt',
 '505.txt',
 '263.txt',
 '288.txt',
 '513.txt',
 '275.txt',
 '261.txt',
 '507.txt',
 '249.txt',
 '711.txt',
 '705.txt',
 '739.txt',
 '842.txt',
 '16.txt',
 '856.txt',
 '103.txt',
 '117.txt',
 '881.txt',
 '895.txt',
 '498.txt',
 '467.txt',
 '301.txt',
 '315.txt',
 '473.txt',
 '329.txt',
 '328.txt',
 '314.txt',
 '472.txt',
 '466.txt',
 '300.txt',
 '499.txt',
 '894.txt',
 '880.txt',
 '116.txt',
 '102.txt',
 '857.txt',
 '17.txt',
 '843.txt',
 '738.txt',
 '704.txt',
 '710.txt',
 '248.txt'

In [3]:
lst = os.listdir('files')

# Reading the files

In [4]:
#Lets read one file first
file = open('files/'+lst[0], 'r') #w, rb & wb #3 German #0 French
file.read()

"  Bundesverwaltungsgericht\nTribunal administratif fédéral\nTribunale amministrativo federale\nTribunal administrativ federal\n                Cour V\nE-6691/2016\n          Arrêt du 7 novembre 2016\nComposition\n  François Badoud, juge unique,\navec l'approbation de Blaise Vuille, juge ;\nBeata Jastrzebska, greffière.\n      Parties\n  A._______, née le (...),\nErythrée, \nreprésentée par Catalina Mendoza, Caritas Genève,\n(...),\nrecourante,\n      contre\n    Secrétariat d'Etat aux migrations (SEM),\nQuellenweg 6, 3003 Berne,\nautorité inférieure.\n      Objet\n  Asile (non-entrée en matière / procédure Dublin) et renvoi ; décision du SEM du 19 octobre 2016 / N (...).\n     \nVu\nla demande d'asile déposée en Suisse par A._______, le 28 juillet 2015,\nla décision du 9 octobre 2015, par laquelle le SEM, se fondant sur l'art. 31a al. 1 let. b LAsi (RS 142.31), n'est pas entré en matière sur cette demande et a prononcé le transfert de l'intéressée vers l'Italie,\nl'arrêt du 22 octobre

In [5]:
#Lets only read the beginning and end
file = open('files/'+lst[0], 'r')
text = file.read()
beginning = text[:1000]
end = text[-2000:]
text = beginning + end

In [6]:
text

"  Bundesverwaltungsgericht\nTribunal administratif fédéral\nTribunale amministrativo federale\nTribunal administrativ federal\n                Cour V\nE-6691/2016\n          Arrêt du 7 novembre 2016\nComposition\n  François Badoud, juge unique,\navec l'approbation de Blaise Vuille, juge ;\nBeata Jastrzebska, greffière.\n      Parties\n  A._______, née le (...),\nErythrée, \nreprésentée par Catalina Mendoza, Caritas Genève,\n(...),\nrecourante,\n      contre\n    Secrétariat d'Etat aux migrations (SEM),\nQuellenweg 6, 3003 Berne,\nautorité inférieure.\n      Objet\n  Asile (non-entrée en matière / procédure Dublin) et renvoi ; décision du SEM du 19 octobre 2016 / N (...).\n     \nVu\nla demande d'asile déposée en Suisse par A._______, le 28 juillet 2015,\nla décision du 9 octobre 2015, par laquelle le SEM, se fondant sur l'art. 31a al. 1 let. b LAsi (RS 142.31), n'est pas entré en matière sur cette demande et a prononcé le transfert de l'intéressée vers l'Italie,\nl'arrêt du 22 octobre

# Finding the Dates

In [7]:
re.search(r'7 novembre 2016', text)

<_sre.SRE_Match object; span=(177, 192), match='7 novembre 2016'>

In [8]:
re.search(r'7 novembre 2016', text).group()

'7 novembre 2016'

In [9]:
re.search(r'[0-9]* [a-zA-Zéèà]* 201[0-9]', text).group()

'7 novembre 2016'

# Finding the Nationality

In [10]:
re.search(r'Parties\n.*\n.*', text).group()

'Parties\n  A._______, née le (...),\nErythrée, '

# Finding the Decision

In [11]:
re.search(r'Tribunal administratif fédéral prononce :\n1.\n.*Le recours est rejeté.', text).group()

'Tribunal administratif fédéral prononce :\n1.\nLe recours est rejeté.'

In [12]:
re.search(r'Tribunal administratif fédéral prononce :\n1.\n.*\.', text).group()

'Tribunal administratif fédéral prononce :\n1.\nLe recours est rejeté.'

# Lets test this on a German decision

In [13]:
#Lets only read the beginning and end
file = open('files/'+lst[3], 'r')
text = file.read()
beginning = text[:1000]
end = text[-2000:]
text = beginning + end

In [14]:
text

'  Bundesverwaltungsgericht\nTribunal administratif fédéral\nTribunale amministrativo federale\nTribunal administrativ federal\n                  Abteilung IV\nD-6504/2016\n          Urteil vom 3. November 2016\nBesetzung\n  Einzelrichter Fulvio Haefeli,\nmit Zustimmung von Richter David R. Wenger;\nGerichtsschreiber Gert Winter.\n      Parteien\n  A._______, geboren am (...),\nIrak,\n(...),\nBeschwerdeführer,\n      gegen\n    Staatssekretariat für Migration (SEM),\nQuellenweg 6, 3003 Bern,\nVorinstanz.\n      Gegenstand\n  Asyl und Wegweisung;\nVerfügung des SEM vom 19. September 2016 / N (...).\n     \nSachverhalt:\nA.\nDer Beschwerdeführer ersuchte am 20. August 2015 im Empfangs- und Verfahrenszentrum (EVZ) M._______ um Asyl. Anlässlich der Befragung vom 11. September 2015 zur Person (BzP) sowie der Anhörung vom 5. April 2016 durch das SEM machte er zur Begründung seines Asylgesuchs im Wesentlichen geltend, er stamme aus N._______ im Nordirak und sei ethnischer Kurde. Ungefähr am 2

In [15]:
# Date
re.search(r'[0-9]*(.) [a-zA-Zéèà]* 201[0-9]', text).group()

'3. November 2016'

In [16]:
#  Nationality
re.search(r'Parteien\n.*\n.*', text).group()

'Parteien\n  A._______, geboren am (...),\nIrak,'

In [17]:
# Decision
re.search(r'Demnach erkennt das Bundesverwaltungsgericht.*:\n1.\n.*\.', text).group()

'Demnach erkennt das Bundesverwaltungsgericht:\n1.\nDie Beschwerde wird abgewiesen.'

# Looping through everything, first the dates

In [18]:
lst = []

for elem in os.listdir('files'):
    
    #Lets only read the beginning and end
    file = open('files/'+elem, 'r')
    text = file.read()
    beginning = text[:1000]
    end = text[-2000:]
    text = beginning + end
    
    date = re.search(r'[0-9]*(.) [a-zA-Zéèà]* 201[0-9]', text).group()
    
    mini_dict = {'Date': date,
                 'File': elem}
    
    lst.append(mini_dict)

In [19]:
#Making the DataFrame
df = pd.DataFrame(lst)
df.head()

Unnamed: 0,Date,File
0,7 novembre 2016,289.txt
1,5 décembre 2016,504.txt
2,27 octobre 2016,262.txt
3,3. November 2016,276.txt
4,6. Dezember 2016,510.txt


# Lets work with everything

In [20]:
lst = []

for elem in os.listdir('files'):
    
    #Lets only read the beginning and end
    file = open('files/'+elem, 'r')
    text = file.read()
    beginning = text[:1000]
    end = text[-2000:]
    text = beginning + end
    
    date = re.search(r'[0-9]*(.) [a-zA-Zéèà]* 201[0-9]', text).group()
    
    try:
        decD = re.search(r'Demnach erkennt das Bundesverwaltungsgericht:\n1.*.*\n.*.\n', text).group()
        natD = re.search(r'Parteien\n.*\n.*', text).group()
    except:
        decD = ''
        natD = ''
        
    try:
        decF = re.search(r'Tribunal administratif fédéral prononce\s*:\n1.*.*\n.*.\n', text).group()
        natF = re.search(r'Parties\n.*\n.*', text).group()
    except:
        decF = ''
        natF = ''
    
    mini_dict = {'Date': date,
                 'File': elem, 
                 'DecisionDE': decD,
                 'DecisionF': decF,
                 'NationalityDE':natD,
                 'NationalityF':natF}
    
    lst.append(mini_dict)

In [22]:
mini_dict

{'Date': '2. November 2016',
 'DecisionDE': 'Demnach erkennt das Bundesverwaltungsgericht:\n1.\nDie Beschwerde wird abgewiesen.\n',
 'DecisionF': '',
 'File': '284.txt',
 'NationalityDE': 'Parteien\n  A._______, geboren am (...),\nSri Lanka, ',
 'NationalityF': ''}

In [23]:
lst

[{'Date': '7 novembre 2016',
  'DecisionDE': '',
  'DecisionF': 'Tribunal administratif fédéral prononce :\n1.\nLe recours est rejeté.\n',
  'File': '289.txt',
  'NationalityDE': '',
  'NationalityF': 'Parties\n  A._______, née le (...),\nErythrée, '},
 {'Date': '5 décembre 2016',
  'DecisionDE': '',
  'DecisionF': 'Tribunal administratif fédéral prononce :\n1. \nLe recours est admis, dans le sens des considérants.\n',
  'File': '504.txt',
  'NationalityDE': '',
  'NationalityF': 'Parties\n  A._______, née le (...),\nSomalie, '},
 {'Date': '27 octobre 2016',
  'DecisionDE': '',
  'DecisionF': 'Tribunal administratif fédéral prononce :\n1.\nLes recours sont rejetés.\n',
  'File': '262.txt',
  'NationalityDE': '',
  'NationalityF': 'Parties\n  A._______, née le (...), et ses enfants\nB._______, née le (...),'},
 {'Date': '3. November 2016',
  'DecisionDE': 'Demnach erkennt das Bundesverwaltungsgericht:\n1.\nDie Beschwerde wird abgewiesen.\n',
  'DecisionF': '',
  'File': '276.txt',
  'Na

In [24]:
df = pd.DataFrame(lst)

In [25]:
df

Unnamed: 0,Date,DecisionDE,DecisionF,File,NationalityDE,NationalityF
0,7 novembre 2016,,Tribunal administratif fédéral prononce :\n1.\...,289.txt,,"Parties\n A._______, née le (...),\nErythrée,"
1,5 décembre 2016,,Tribunal administratif fédéral prononce :\n1. ...,504.txt,,"Parties\n A._______, née le (...),\nSomalie,"
2,27 octobre 2016,,Tribunal administratif fédéral prononce :\n1.\...,262.txt,,"Parties\n A._______, née le (...), et ses enf..."
3,3. November 2016,Demnach erkennt das Bundesverwaltungsgericht:\...,,276.txt,"Parteien\n A._______, geboren am (...),\nIrak,",
4,6. Dezember 2016,Demnach erkennt das Bundesverwaltungsgericht:\...,,510.txt,"Parteien\n A._______, geboren am (...)\n(Besc...",
5,6 décembre 2016,,Tribunal administratif fédéral prononce :\n1. ...,538.txt,,"Parties\n A._______,\nAfghanistan,"
6,1. Dezember 2016,Demnach erkennt das Bundesverwaltungsgericht:\...,,706.txt,"Parteien\n A._______, geboren am (...),\nGhana,",
7,13. Dezember 2016,Demnach erkennt das Bundesverwaltungsgericht:\...,,712.txt,"Parteien\n A._______, geboren am (...),\nB.__...",
8,7. Oktober 2016,Demnach erkennt das Bundesverwaltungsgericht:\...,,29.txt,"Parteien\n A._______, geboren am (...),\nSudan,",
9,5 janvier 2017,,Tribunal administratif fédéral prononce :\n1. ...,869.txt,,"Parties\n A._______, né le (...), son épouse,..."


# Lets clean the data a bit more

In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 698 entries, 0 to 697
Data columns (total 6 columns):
Date             698 non-null object
DecisionDE       698 non-null object
DecisionF        698 non-null object
File             698 non-null object
NationalityDE    698 non-null object
NationalityF     698 non-null object
dtypes: object(6)
memory usage: 32.8+ KB


In [97]:
df['Decision'] = df['DecisionDE'] + df['DecisionF']
df['Nationality'] = df['NationalityDE'] + df['NationalityF']

In [98]:
df = df[['Date', 'Decision', 'File', 'Nationality']].copy()

# Lets clean that data a little more

In [104]:
def nat(elem):
    elem = elem.split('\n')[-1].replace(',','').strip()
    return elem

In [105]:
df['Nat cleaned'] = df['Nationality'].apply(nat)

In [106]:
df['Nat cleaned'].value_counts()

B._______ geboren am (...)                                         55
Sri Lanka                                                          54
Syrien                                                             48
Eritrea                                                            44
Irak                                                               26
B._______ née le (...)                                             22
Äthiopien                                                          17
Iran                                                               16
Afghanistan                                                        15
Erythrée                                                           14
                                                                   13
Türkei                                                             11
geboren am (...)                                                   11
Géorgie                                                             9
Staat unbekannt     