# Stellenausschreibung im Ausland (Viajob.ro)

Der Bundesrat setzt die Masseneinwanderungsinitiative in Etappen um. Seit dem 1.Juni 2018 gilt in der Schweiz die Stellenmeldepflicht. Sie wird in einem ersten Schritt in denjenigen Berufsarten eingeführt, in denen die gesamtschweizerische Arbeitslosenquote 8 Prozent erreicht oder überschreitet. Per 1. Januar 2020 wird dieser Schwellenwert auf 5 Prozent gesenkt. Trotz dem Ja zur Masseneinwanderungsinitiative schreiben Schweizer Firmen Jobs in EU-Ländern aus, zum Teil zu Dumpinglöhnen. Auf dem rumänischen Portal Viajob wird etwa ein Veterinär in Zürich gesucht für einen Lohn von 4000 CHF pro Monat. Mich interessiert in welchen Ländern, auf welchen Protalen, werden welche Jobs in der Schweiz, von wem und zu welchem Lohn ausgeschrieben. 

Quelle: https://www.viajob.ro/   

Ziel: Eine Tabelle mit allen Ausschreibungen für eine Stelle in der Schweiz. Zu jeder ausgeschriebenen Stelle soll der Beruf, Ort und Monatsgehalt angegeben werden. 

### Schritt 1: Import der Libraries

In [92]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

### Schritt 2: Webseite analysieren

Die Stellenangebote für die Schweiz erscheinen auf einer Unterseite. Schweiz auf rumänisch heisst "Elvetia". Alle gesuchten Informationen (Beruf, Ort, Gehalt) sind bereits dort verfügbar.  

https://www.viajob.ro/munca-strainatate?tara=Elvetia  

Zusätzliche Informationen gibt es pro Stellengesuch auf einer Unterwebseite. Die Url setzt sich in der Regel aus der Jobbezeichnung und Ort zusammen:

https://www.viajob.ro/locuri-de-munca-operator-cnc-geneva.html

In [93]:
url = 'https://www.viajob.ro/munca-strainatate?tara=Elvetia'
content = requests.get(url).text 
soup = BeautifulSoup(content, 'html.parser')
# soup

In [98]:
# Ort und Beruf auslesen

# 3 Varianten
# location_job = soup.select('h2.h2blockhome')
# location_job = soup.find_all('h2', class_='h2blockhome')
location_job = soup.find_all('h2', {'class':'h2blockhome'})
location_job[1]
location_job[1].text

'operator cnc\nGeneva'

**TIPP:** Webseite analysieren mit SelectorGadget. ACHTUNG funktioniert nur in Google Chrome!

**FRAGE:** Gibt es eine Möglichkeiten bereits hier location und job zu trennen und als separate Listen auszulesen?

In [114]:
len(location_job)

45

In [112]:
salery = soup.find_all('strong', {'class':'salarluna'})
salery[1]
salery[1].text

'3900 CHF'

In [113]:
len(salery)

45

In [107]:
# BESSER: den ganzen Block auslesen
# ad = soup.select('div.blockprincipal')
ad = soup.find_all('div', class_="blockprincipal")
ad[0]

<div class="blockprincipal">
<img class="flag" src="https://www.viajob.ro/wp-content/uploads/2015/09/Switzerland.png"/><br/>
<a href="https://www.viajob.ro/locuri-de-munca-menaj-geneva.html" target="_blank"><img alt="locuri de munca menaj Geneva" class="blockdiv" height="180px" src="https://www.viajob.ro/wp-content/uploads/formidable/20/Locuri-de-munca-menaj-Geneva-250x173.jpg"/></a><br/>
<a href="https://www.viajob.ro/locuri-de-munca-menaj-geneva.html" target="_blank"></a></div>

In [109]:
ad[1]
ad[1].text

'\n\n\n'

**ACHTUNG:** Es gibt ein Problem. In diesem Block sind die h2 und strong nicht enthalten.

HTML-Code der ganzen Webseite https://www.viajob.ro/munca-strainatate?tara=Elvetia als txt-File den Output von soup abspeichern mittels Edit > Copy Cells > Copy Paste in html.txt

**Wie funktionert es mit Barnabys Vorschlag?**

deineinhalte = "Das ist ein Supertext."    
with open('file.txt', 'w') as file:   
    file.write(deineinhalte)    
    file.close()  

**Im HTML-Code könnte es einen Fehler haben: ein p wird nicht geschlossen mit /p . Das könnte Absicht sein oder ein Code-Fehler. Das Problem: Der Inspector korrigiert solche Fehler.**

### Schritt 3: For-Loop

In [140]:
# Es braucht einen Work around. 
# Zum Glück sind alle Listen gleich lang, und die einzelnen Elemente korrepsondieren miteinander
# Neue Liste bauen

lst = []
for description,chf in zip(location_job,salery):
    
    mini_dict = {'Beruf_Ort':description.text.replace('\n',' '),
                 'Monatslohn':chf.text}
    
    lst.append(mini_dict)
      

In [141]:
lst

[{'Beruf_Ort': 'menaj Geneva', 'Monatslohn': '3400 CHF'},
 {'Beruf_Ort': 'operator cnc Geneva', 'Monatslohn': '3900 CHF'},
 {'Beruf_Ort': 'electrician intretinere Geneva', 'Monatslohn': '3600 CHF'},
 {'Beruf_Ort': 'curatenie Geneva', 'Monatslohn': '3400 CHF'},
 {'Beruf_Ort': 'ingrijire batrani Zurich', 'Monatslohn': '4000 CHF'},
 {'Beruf_Ort': 'hotel Zurich', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'asistent medical Zurich', 'Monatslohn': '3800 CHF'},
 {'Beruf_Ort': 'asistent medical generalist Lausanne',
  'Monatslohn': '3800 CHF'},
 {'Beruf_Ort': 'ingrijire batrani Basel', 'Monatslohn': '4000 CHF'},
 {'Beruf_Ort': 'casier Zurich', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'tehnician service auto Geneva', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'sudori Zurich', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'mecanic auto Zurich', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'tinichigiu auto Zurich', 'Monatslohn': '3500 CHF'},
 {'Beruf_Ort': 'lucrator comercial Zurich', 'Monatslohn': '3750

### Schritt 4: Daten mit Pandas säubern

In [142]:
df=pd.DataFrame(lst).head(3)
df

Unnamed: 0,Beruf_Ort,Monatslohn
0,menaj Geneva,3400 CHF
1,operator cnc Geneva,3900 CHF
2,electrician intretinere Geneva,3600 CHF


In [146]:
# Aus Beruf und Ort 2 Spalten machen

df[['Beruf', 'Ort']] = df.Beruf_Ort.str.split(' ', expand = True)

ValueError: Columns must be same length as key

Funktioniert nicht. Grund "Columns must be same length as key": Die Daten enthalten zum Teil mehr als zwei Namen die durch einen Leerschlag getrennt sind.