# File Handling mit Pandas - Dateien lesen und Schreiben

Übersicht aller möglichen Lese- und Schreibbefehle:  [Link](https://pandas.pydata.org/docs/user_guide/io.html)


### CSV
`pd.read_csv(dateiname)`

`DataFrame.to_csv(dateiname)`


In [2]:
import pandas as pd
import seaborn as sns

In [3]:
# Datensatz aus seaborn laden
planets = sns.load_dataset("planets")
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [4]:
# Daten speichern
# Befehl: Datensatz.to_csv()
planets.to_csv("planets.csv", index=False)

In [5]:
# Daten einlesen
# Befehl: pd.read_csv()
planets = pd.read_csv("planets.csv")
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [6]:
# Daten speichern
# Dieses Mal speichern wir Index mit
planets.to_csv("planets.csv")

In [7]:
# Was wir nicht machen sollten:
planets = pd.read_csv("planets.csv")
planets

Unnamed: 0.1,Unnamed: 0,method,number,orbital_period,mass,distance,year
0,0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...,...
1030,1030,Transit,1,3.941507,,172.00,2006
1031,1031,Transit,1,2.615864,,148.00,2007
1032,1032,Transit,1,3.191524,,174.00,2007
1033,1033,Transit,1,4.125083,,293.00,2008


In [8]:
# Daten einlesen
# Verwenden dabei existierenden Index
planets = pd.read_csv("planets.csv", index_col=0)
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [9]:
# Auswahl der Spalten direkt beim Einlesen möglich
planets = pd.read_csv("planets.csv", 
                       usecols=["mass", "distance", "number"])
planets

Unnamed: 0,number,mass,distance
0,1,7.10,77.40
1,1,2.21,56.95
2,1,2.60,19.84
3,1,19.40,110.62
4,1,10.50,119.47
...,...,...,...
1030,1,,172.00
1031,1,,148.00
1032,1,,174.00
1033,1,,293.00


In [10]:
# Quizfrage: Wie importieren wir dirty_planets.csv?
# Bei dirty_planets.csv ist einiges zu tun.
# Zunächst einmal Zeilen überspringen mit skiprows...

dirty = pd.read_csv("dirty_planets.csv", 
                    skiprows=3, 
                    index_col=0, 
                    delimiter='#')

In [11]:
# Möglichkeit, Dokumentation einer Funktion direkt in 
# Python anzeigen zu lassen: help()
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols: 'UsecolsArgType' = None, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters: 'Mapping[Hashable, Callable] | None' = None, true_values: 'list | None' = None, false_values: 'list | None' = None, skipinitialspace: 'bool' = False, skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool | 

In [13]:
# Falls sich Datei nicht am gleichen Ort wie aktuelle Notebook
# befindet, nutzen wir den absoluten Pfad

file_path = r'/home/vale/Dokumente/0_pandas/Tag5_Dateien_lesen_schreiben/Vorlesung/planets.csv'
planets = pd.read_csv(file_path, index_col=0)
planets

FileNotFoundError: [Errno 2] No such file or directory: '/home/vale/Dokumente/0_pandas/Tag5_Dateien_lesen_schreiben/Vorlesung/planets.csv'

In [14]:
# Speichern von csv ermöglicht auch das Auswählen eines 
# Separators
planets.to_csv("planets.csv", index=False, sep="@")

In [15]:
# Beim Laden muss dementsprechend auch auf richtigen Separator
# geachtet werden. Hier falsch:
pd.read_csv("planets.csv")

Unnamed: 0,number@mass@distance
0,1@7.1@77.4
1,1@2.21@56.95
2,1@2.6@19.84
3,1@19.4@110.62
4,1@10.5@119.47
...,...
1030,1@@172.0
1031,1@@148.0
1032,1@@174.0
1033,1@@293.0


In [16]:
# Hier richtig:
pd.read_csv("planets.csv", sep="@")

Unnamed: 0,number,mass,distance
0,1,7.10,77.40
1,1,2.21,56.95
2,1,2.60,19.84
3,1,19.40,110.62
4,1,10.50,119.47
...,...,...,...
1030,1,,172.00
1031,1,,148.00
1032,1,,174.00
1033,1,,293.00


### Übungsaufgabe:
Lade den seaborn Datensatz "diamonds" und speichere ihn als csv Datei ab. Einträge sollen dabei durch ein ;-Zeichen getrennt sein, der Index soll mitgespeichert werden. Lese anschließend die Datei in einen Dataframe wieder ein, allerdings nur die ersten beiden Spalten, die nicht der Index sind.

In [17]:
# load dataset Diamonds & save it with Index & Seperator ';' as CSV
sns.load_dataset("diamonds").to_csv("dia.csv", sep=";")
# create DF with Col 1 & 2
dia = pd.read_csv("dia.csv", sep=";", usecols=[1, 2])
# show DF
dia

Unnamed: 0,carat,cut
0,0.23,Ideal
1,0.21,Premium
2,0.23,Good
3,0.29,Premium
4,0.31,Good
...,...,...
53935,0.72,Ideal
53936,0.72,Good
53937,0.70,Very Good
53938,0.86,Premium


### Excel

`pd.read_excel(dateiname)`

`DataFrame.to_excel(dateiname)`

Viele der im Folgenden genutzten Argumente können identisch für pd.read_csv 
genutzt werden!

Link zu der [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

In [18]:
# Einfaches Einlesen einer Exceldatei
shops = pd.read_excel('ShopData.xlsx')
shops

Unnamed: 0,Produkt-ID,Monat,Jahr,Umsatz,Land
0,1,Januar,2018,27.730600,DE
1,1,Februar,2018,60.243255,DE
2,1,März,2018,3.395735,DE
3,1,April,2018,28.356482,DE
4,1,Mai,2018,16.189050,DE
...,...,...,...,...,...
535,2,August,2022,546.492102,USA
536,2,September,2022,731.890204,USA
537,2,Oktober,2022,508.903215,USA
538,2,November,2022,723.216784,USA


In [19]:
# Wenn nur bestimmte Spalten eingelesen werden sollen
# --> usecols Argument
path = 'ShopData.xlsx'

pd.read_excel(path,
              # usecols=[0, 1, 2],  # Index-Schreibweise
              usecols="A:C",  # Excel-Schreibweise
)

Unnamed: 0,Produkt-ID,Monat,Jahr
0,1,Januar,2018
1,1,Februar,2018
2,1,März,2018
3,1,April,2018
4,1,Mai,2018
...,...,...,...
535,2,August,2022
536,2,September,2022
537,2,Oktober,2022
538,2,November,2022


In [20]:
# Wenn nur bestimmte Anzahl an Zeilen eingelesen werden soll
# --> nrows
pd.read_excel(path, nrows=20)

Unnamed: 0,Produkt-ID,Monat,Jahr,Umsatz,Land
0,1,Januar,2018,27.7306,DE
1,1,Februar,2018,60.243255,DE
2,1,März,2018,3.395735,DE
3,1,April,2018,28.356482,DE
4,1,Mai,2018,16.18905,DE
5,1,Juni,2018,35.594535,DE
6,1,Juli,2018,89.48473,DE
7,1,August,2018,43.06415,DE
8,1,September,2018,10.138252,DE
9,1,Oktober,2018,69.669278,DE


In [21]:
# Sollten die Tabellentitel nicht direkt in der ersten Zeile
# stehen --> header
pd.read_excel(path, header=1)

Unnamed: 0,1,Januar,2018,27.7306,DE
0,1,Februar,2018,60.243255,DE
1,1,März,2018,3.395735,DE
2,1,April,2018,28.356482,DE
3,1,Mai,2018,16.189050,DE
4,1,Juni,2018,35.594535,DE
...,...,...,...,...,...
534,2,August,2022,546.492102,USA
535,2,September,2022,731.890204,USA
536,2,Oktober,2022,508.903215,USA
537,2,November,2022,723.216784,USA


In [22]:
# Argument nur bei read_excel: sheet_name
# Falls wir ein anderes Arbeitsblatt ansteuern wollen
pd.read_excel(path, sheet_name="Produktübersicht")

Unnamed: 0,Produkt-ID,Produkt Name,Beschreibung
0,1,BI-Force,A business intelligence software that helps yo...
1,2,BI-g Data,A data analytics tool that helps you wrangle y...
2,3,Power BI-zarre,A dashboard tool that helps you uncover strang...
3,4,BI-nder,A matchmaking tool for data analysts and their...


In [23]:
# Falls es eine Spalte in den Daten gibt, die der
# zukünftige Index werden soll --> index_col
pd.read_excel(path,
              sheet_name=1,
              index_col="Produkt-ID",  # Pandas bevorzugt numerischen Index (0)
              )

Unnamed: 0_level_0,Produkt Name,Beschreibung
Produkt-ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,BI-Force,A business intelligence software that helps yo...
2,BI-g Data,A data analytics tool that helps you wrangle y...
3,Power BI-zarre,A dashboard tool that helps you uncover strang...
4,BI-nder,A matchmaking tool for data analysts and their...


In [24]:
# Einfaches Speichern einer Exceldatei
shops.to_excel("shop.xlsx")

In [25]:
# Benennen des Arbeitsblatts
shops.to_excel("shop.xlsx", sheet_name="Einnahmen")

In [26]:
# Ohne Speichern des Index
shops.to_excel("shop.xlsx", index=False)

### Übungsaufgabe: 

Lies die Exceldatei ShopData ein. Verwende dabei das Arbeitsblatt "Produktübersicht", nur die Spalten A und B, nur die ersten 3 Zeilen. Nutze außerdem die "Produkt-ID" als Indexspalte. Speichere diesen neuen DataFrame als neue Exceldatei ab und verwende dabei den Arbeitsblattnamen "BI".

In [27]:
sd = pd.read_excel(path,
                   sheet_name="Produktübersicht",
                   usecols="A:B",
                   nrows=3,
                   index_col="Produkt-ID")

sd.to_excel("sd.xlsx",
            sheet_name="BI")

sd

Unnamed: 0_level_0,Produkt Name
Produkt-ID,Unnamed: 1_level_1
1,BI-Force
2,BI-g Data
3,Power BI-zarre


### JSON

`pd.read_json(dateiname)`

`DataFrame.to_json(dateiname)`

In [28]:
shops

Unnamed: 0,Produkt-ID,Monat,Jahr,Umsatz,Land
0,1,Januar,2018,27.730600,DE
1,1,Februar,2018,60.243255,DE
2,1,März,2018,3.395735,DE
3,1,April,2018,28.356482,DE
4,1,Mai,2018,16.189050,DE
...,...,...,...,...,...
535,2,August,2022,546.492102,USA
536,2,September,2022,731.890204,USA
537,2,Oktober,2022,508.903215,USA
538,2,November,2022,723.216784,USA


In [46]:
# Speichern eines df in json-Format
shops.to_json("shops.json")

In [47]:
# Laden einer json Datei in einen DataFrame
pd.read_json("shops.json")

Unnamed: 0,Produkt-ID,Monat,Jahr,Umsatz,Land
0,1,Januar,2018,27.730600,DE
1,1,Februar,2018,60.243255,DE
2,1,März,2018,3.395735,DE
3,1,April,2018,28.356482,DE
4,1,Mai,2018,16.189050,DE
...,...,...,...,...,...
535,2,August,2022,546.492102,USA
536,2,September,2022,731.890204,USA
537,2,Oktober,2022,508.903215,USA
538,2,November,2022,723.216784,USA


### Kategorische / Kategoriale Daten

Eine Spalte, welche eine Kategorie angibt (z.B.: Gruppe A, B oder C) nennt man "kategorisch" (categorical data). Mit solchen Daten rechnet man anders als mit numerischen Daten. Interessant könnten hier z.B. die Anzahl an einzigartigen Kategorien sein, deren Namen, oder die Anzahl an Datenpunkten, die in jede Kategorie fällt. Später können wir solche Kategorien auch zum Gruppieren, und Aggregieren verwenden (wie eine Pivot Tabelle in Excel).


In [31]:
peng_df = sns.load_dataset("penguins")
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


In [32]:
# Einzigartige Werte. Welche unterschiedlichen Kategorien 
# gibt es in einer Spalte?
peng_df["species"].unique()

array(['Adelie', 'Chinstrap', 'Gentoo'], dtype=object)

In [33]:
# Wie viele verschiedene Arten von Pinguinen?
print(peng_df["species"].nunique())

print(len(peng_df["species"].unique()))

print(peng_df["species"].unique().size)

3
3
3


In [34]:
# Standard Python Methode: In Set umwandeln
# Erinnerung: Sets enthalten nur einzigartige Elemente!
set(peng_df["species"])

{'Adelie', 'Chinstrap', 'Gentoo'}

In [35]:
# Duplikate können auch einfach entfernt werden
peng_df["species"].drop_duplicates()

0         Adelie
152    Chinstrap
220       Gentoo
Name: species, dtype: object

In [36]:
# Häufigkeiten verschiedener Werte
peng_df["species"].value_counts()

species
Adelie       152
Gentoo       124
Chinstrap     68
Name: count, dtype: int64

In [37]:
# Als Anteile eines Ganzen
peng_df["species"].value_counts(normalize=True)

species
Adelie       0.441860
Gentoo       0.360465
Chinstrap    0.197674
Name: proportion, dtype: float64

In [38]:
# Oder Prozentangaben:
peng_df["species"].value_counts(normalize=True) * 100

species
Adelie       44.186047
Gentoo       36.046512
Chinstrap    19.767442
Name: proportion, dtype: float64

In [39]:
# Häufigkeiten verschiedener Werte
peng_df["species"].value_counts(ascending=True)

species
Chinstrap     68
Gentoo       124
Adelie       152
Name: count, dtype: int64

In [56]:
# Kategorisierung einer numerischen Spalte
peng_df["body_category"] = pd.cut(peng_df["body_mass_g"],
                                  bins=[0, 4000, 5000, 6500])
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,body_labels,species_and_sex,body_category
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,Unter 4kg,"Adelie, Male","(0.0, 4000.0]"
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
3,Adelie,Torgersen,,,,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
...,...,...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female","(4000.0, 5000.0]"
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,Ueber 5kg,"Gentoo, Male","(5000.0, 6500.0]"
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,Ueber 5kg,"Gentoo, Female","(5000.0, 6500.0]"


In [55]:
#######################################################
# Kategorisierung einer numerischen Spalte mit labeln #
#######################################################


peng_df["body_labels"] = pd.cut(peng_df["body_mass_g"],
                                bins=[0, 4000, 5000, 6500],
                                labels=["Unter 4kg", "Zwischen 4kg und 5kg", "Ueber 5kg"])

peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,body_labels,species_and_sex,body_category
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,Unter 4kg,"Adelie, Male","(0.0, 4000.0]"
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
3,Adelie,Torgersen,,,,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,Unter 4kg,"Adelie, Female","(0.0, 4000.0]"
...,...,...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female","(4000.0, 5000.0]"
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,Ueber 5kg,"Gentoo, Male","(5000.0, 6500.0]"
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,Ueber 5kg,"Gentoo, Female","(5000.0, 6500.0]"


In [42]:
# Unnötige Spalte wegschmeißen mit drop:
peng_df.drop('body_category', axis=1, inplace=True)

# (Natürlich hätte man die nie erst anlegen müssen, aber für die Demo war 
# sie nötig)

In [43]:
# Spalte aus zwei Text-Spalten erstellen. Beispiel: Art + Geschlecht
peng_df['species_and_sex'] = peng_df['species'] + ', ' + peng_df['sex']
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,body_labels,species_and_sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,Unter 4kg,"Adelie, Male"
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,Unter 4kg,"Adelie, Female"
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,Unter 4kg,"Adelie, Female"
3,Adelie,Torgersen,,,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,Unter 4kg,"Adelie, Female"
...,...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female"
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,Ueber 5kg,"Gentoo, Male"
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,Ueber 5kg,"Gentoo, Female"


In [44]:
# Stichprobe ziehen (zufällige Pinguine, "n" an der Zahl)
# Jedes Mal, wenn wir ziehen, werden es andere 10 sein:
peng_df.sample(n=10)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,body_labels,species_and_sex
86,Adelie,Dream,36.3,19.5,190.0,3800.0,Male,Unter 4kg,"Adelie, Male"
186,Chinstrap,Dream,49.7,18.6,195.0,3600.0,Male,Unter 4kg,"Chinstrap, Male"
222,Gentoo,Biscoe,48.7,14.1,210.0,4450.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female"
107,Adelie,Biscoe,38.2,20.0,190.0,3900.0,Male,Unter 4kg,"Adelie, Male"
280,Gentoo,Biscoe,45.3,13.8,208.0,4200.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female"
114,Adelie,Biscoe,39.6,20.7,191.0,3900.0,Female,Unter 4kg,"Adelie, Female"
70,Adelie,Torgersen,33.5,19.0,190.0,3600.0,Female,Unter 4kg,"Adelie, Female"
200,Chinstrap,Dream,51.5,18.7,187.0,3250.0,Male,Unter 4kg,"Chinstrap, Male"
147,Adelie,Dream,36.6,18.4,184.0,3475.0,Female,Unter 4kg,"Adelie, Female"
276,Gentoo,Biscoe,43.8,13.9,208.0,4300.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female"


In [45]:
# Es sei denn, wir legen den "Zufall" fest mit random_state
# Wir sollten alle dieselben Pinguine erhalten –
# und das egal, wie oft wir diese Zelle ausführen!
peng_df.sample(n=10, random_state=13)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,body_labels,species_and_sex
333,Gentoo,Biscoe,51.5,16.3,230.0,5500.0,Male,Ueber 5kg,"Gentoo, Male"
101,Adelie,Biscoe,41.0,20.0,203.0,4725.0,Male,Zwischen 4kg und 5kg,"Adelie, Male"
67,Adelie,Biscoe,41.1,19.1,188.0,4100.0,Male,Zwischen 4kg und 5kg,"Adelie, Male"
33,Adelie,Dream,40.9,18.9,184.0,3900.0,Male,Unter 4kg,"Adelie, Male"
251,Gentoo,Biscoe,42.8,14.2,209.0,4700.0,Female,Zwischen 4kg und 5kg,"Gentoo, Female"
118,Adelie,Torgersen,35.7,17.0,189.0,3350.0,Female,Unter 4kg,"Adelie, Female"
12,Adelie,Torgersen,41.1,17.6,182.0,3200.0,Female,Unter 4kg,"Adelie, Female"
136,Adelie,Dream,35.6,17.5,191.0,3175.0,Female,Unter 4kg,"Adelie, Female"
221,Gentoo,Biscoe,50.0,16.3,230.0,5700.0,Male,Ueber 5kg,"Gentoo, Male"
127,Adelie,Torgersen,41.5,18.3,195.0,4300.0,Male,Zwischen 4kg und 5kg,"Adelie, Male"


In [52]:
peng_df['sex'].value_counts(normalize=True)

sex
Male      0.504505
Female    0.495495
Name: proportion, dtype: float64