# CSV Lesen

In [40]:
# Sachen importieren

import pandas as pd
import re
import gender_guesser.detector as gender

In [41]:
# Die CSV-Datei laden

df = pd.read_csv('Versuch 2.3.csv')
df.head()

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin
3,Ackermann,Urs,Abteilung Institutionen und Rechtsangelenheiten,+41 26 305 14 16,urs.ackermann@fr.ch,Höherer Verwaltungssachbearbeiter
4,Adam,Samuel,Kantonsarztamt,+41 26 305 29 63,,Adjunkt des Dienstchefs


In [42]:
df.describe()

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion
count,1593,1593,1593,1489,1191,1593
unique,1073,601,453,1246,1151,579
top,Aebischer,Philippe,Generalsekretariat,+41 26 305 23 43,Non renseigné,Schulleiter-in
freq,11,24,80,28,26,73


In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1593 entries, 0 to 1592
Data columns (total 6 columns):
Nachname     1593 non-null object
Vorname      1593 non-null object
Abteilung    1593 non-null object
Telefon      1489 non-null object
Email        1191 non-null object
Funktion     1593 non-null object
dtypes: object(6)
memory usage: 74.8+ KB


Ok, wir stoppen hier und üben Text-Erkennung

In [44]:
# Test an einem Begriff

print(re.search("in+", 'Receptionistin'))
type(re.search("in+", 'Receptionistin'))

<re.Match object; span=(12, 14), match='in'>


re.Match

In [45]:
# Typ des Resultats

print(re.search("in+", 'Receptionist'))

None


Back to wher we were. Task: Eine neue Spalte, die nach * *in* sucht.


In [46]:
#Eine Funktion (Pandas nimmt sie, aber es geht auch anders)

def find_in(sentence):
    if type(re.search("in+", sentence)) == re.Match:
        print('Female')
    else:
        print('Male')

In [47]:
find_in('Receptionistin')

Female


In [48]:
#Was geht:

df['In-Marker'] = df['Funktion'].str.contains('in', regex=True)
df.head()

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion,In-Marker
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat,False
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin,True
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin,True
3,Ackermann,Urs,Abteilung Institutionen und Rechtsangelenheiten,+41 26 305 14 16,urs.ackermann@fr.ch,Höherer Verwaltungssachbearbeiter,False
4,Adam,Samuel,Kantonsarztamt,+41 26 305 29 63,,Adjunkt des Dienstchefs,False


In [49]:
#Das ist natürlich nur halbgenau, weil ein Adjunkt der Dienstchefin auch als weiblich gezählt wird. 

In [50]:
#Zählen wie viele True (F) / False (M) Werte es gibt:

df['In-Marker'].value_counts()

False    856
True     737
Name: In-Marker, dtype: int64

In [51]:
# Das heisst, grob gibt es 
# männlich    856
# weiblich     737
# Personen.

## Gender guesser

Zeit für eine genauere Analyse. Mit dem Gender-Guesser.

In [52]:
# Den Datensatz anzeigen:

df.head()


Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion,In-Marker
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat,False
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin,True
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin,True
3,Ackermann,Urs,Abteilung Institutionen und Rechtsangelenheiten,+41 26 305 14 16,urs.ackermann@fr.ch,Höherer Verwaltungssachbearbeiter,False
4,Adam,Samuel,Kantonsarztamt,+41 26 305 29 63,,Adjunkt des Dienstchefs,False


In [53]:
# Hilfe von Stack Overflow

gd = gender.Detector()
df['Gender_2'] = df['Vorname'].apply(gd.get_gender)

In [54]:
df.head()

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion,In-Marker,Gender_2
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat,False,unknown
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin,True,unknown
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin,True,male
3,Ackermann,Urs,Abteilung Institutionen und Rechtsangelenheiten,+41 26 305 14 16,urs.ackermann@fr.ch,Höherer Verwaltungssachbearbeiter,False,male
4,Adam,Samuel,Kantonsarztamt,+41 26 305 29 63,,Adjunkt des Dienstchefs,False,male


In [55]:
# Anzahl female / male

df['Gender_2'].value_counts()

female           735
male             674
unknown          130
mostly_male       36
andy              13
mostly_female      5
Name: Gender_2, dtype: int64

In [56]:
# Vergleich mit der in-Suche:

print("""Männlich    856
Weiblich     737
Name: In-Marker, dtype: int64""")

Männlich    856
Weiblich     737
Name: In-Marker, dtype: int64


In [25]:
# Um die Daten zu säubern wechsel ich auf Excel

df.to_csv('Gender bereinigen.csv')

In [57]:
df_1 = pd.read_csv('Gender bereinigt_1.csv')

In [62]:
df_1.head(3)

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion,In-Marker,Gender
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat,False,no_person
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin,True,f
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin,True,m


In [63]:
# Da hat sich der Index verdoppelt. Diesen wieder löschen:

df_1.pop('Unnamed: 0')

In [60]:
# Check wie die Tabelle jetzt aussieht

df_1.head(3)

Unnamed: 0,Nachname,Vorname,Abteilung,Telefon,Email,Funktion,In-Marker,Gender
0,---,---,Staatsarchiv,+41 26 305 12 70,,Sekretariat,False,no_person
1,Abeztout,Abderrahim,Technische Abteilung,+41 26 305 37 97,abderrahim.abeztout@fr.ch,Architektin,True,f
2,Ackermann,Christophe,Finanzinspektorat,+41 26 305 31 38,christophe.ackermann@fr.ch,Adjunkt der Dienstchefin,True,m


In [61]:
df_1['Gender'].value_counts()

f            806
m            775
no_person     10
doppel         2
Name: Gender, dtype: int64

## Zwischenstand

So far so toll. Weitere Tasks:
* Doppel finden
* Einträge Direktionen zuordnen

Fragen an den Datensatz:
* Wie viele Dienstchef/innen gibt es?
* Wie vile Sekretär/innen ?