![title](./pic/basics/einlesen/1_title.png)

In [3]:
import pandas as pd

Das am weitesten verbreitete Dateiformat für tabellarische Daten ist und bleibt das `CSV`-Format. Hier lernst du, wie du `CSV`-Dateien sicher in deine Programmierumgebung einliest.

Die Abkürzung `CSV` steht für **„Comma Separated Values“** – `CSV`’s sind also Dateien, die durch Kommata getrennte Werte enthalten. Durch ihr einfach zu interpretierendes Format ist diese Dateiform mit den allermeisten Technologien kompatibel und wird genutzt, um Rohdaten abzuspeichern.

Mit `.read_csv()` kann eine CSV Datei in ein pandas DataFrame eingelesen werden.

In [4]:
pd.read_csv('./csv/titanic.csv')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


`DataFrame.head()` zeigt dir immer die ersten 5 Einträge deines `DataFrames` an. Somit kannst du leicht den Überblick behalten. Das Pendant dazu ist `.tail()` was dir immer die letzten 5 Einträge zurückgibt. Du kannst den Methoden auch Zahlen übergeben z.B. `df.head(10)`, dann werden dir die ersten 10 Einträge angezeigt.

In [5]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


---

# Zusätzliche Attribute

![title](./pic/basics/einlesen/2_attribute.png)

In [3]:
pd.read_csv?

# nrows erklären

---

## Seperator: `sep=`

Obwohl alle kommaseparierten Dateien dieselbe Endung besitzen, heißt das nicht, dass sie alle gleich formatiert sind. Ein Beispiel ist das Komma, welches bei Computern zu großer Verwirrung führen kann. Zum einen wird dieses Zeichen standardmäßig als Trennzeichen innerhalb der Datei benutzt. Gleichzeitig findet es im deutschsprachigen Raum Anwendung bei der Darstellung von Dezimalzahlen. Da kann Python schon mal durcheinander kommen.

Sollte die CSV einen anderen Seperator als ein Komma verwenden, kann dieser in `sep='x'` an die Funktion übergeben werden. Im folgenden Beispiel wurde die Datei mit einmal mit einem `,` und einmal mit einem `;` separiert

![title](./pic/basics/einlesen/3_seperator.png)

In [4]:
pd.read_csv('./csv/titanic.csv', sep=',')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


<br>

Wenn nun eine Datei nicht mit einem Komma, sondern mit einem anderen `Seperator` abgespeichert wurde, sieht das `DataFrame` nach dem Einlesen wie folgt aus:

In [5]:
pd.read_csv('./csv/read_df/titanic_semicolon_sep.csv')

Unnamed: 0,;PassengerId;Survived;Pclass;Name;Sex;Age;SibSp;Parch;Ticket;Fare;Cabin;Embarked
0;892;0;3;Kelly,Mr. James;male;34.5;0;0;330911;7.8292;;Q
1;893;1;3;Wilkes,Mrs. James (Ellen Needs);female;47.0;1;0;3632...
2;894;0;2;Myles,Mr. Thomas Francis;male;62.0;0;0;240276;9.687...
3;895;0;3;Wirz,Mr. Albert;male;27.0;0;0;315154;8.6625;;S
4;896;1;3;Hirvonen,Mrs. Alexander (Helga E Lindqvist);female;22....
...,...
413;1305;0;3;Spector,Mr. Woolf;male;;0;0;A.5. 3236;8.05;;S
414;1306;1;1;Oliva y Ocana,Dona. Fermina;female;39.0;0;0;PC 17758;108.9;...
415;1307;0;3;Saether,Mr. Simon Sivertsen;male;38.5;0;0;SOTON/O.Q. ...
416;1308;0;3;Ware,Mr. Frederick;male;;0;0;359309;8.05;;S


<br>

Das hat so nicht hingehauen. `Pandas` geht davon aus, dass wir eine Datei einlesen, in der die Werte auch wirklich durch Kommata getrennt sind. Das ist hier nicht der Fall und passiert zum Beispiel, wenn man eine Excel-Datei als `CSV` abspeichert. Der Separator in unserer Datei ist ein **`Semikolon`** und wird nicht erkannt. Deshalb definieren wir innerhalb der Funktion explizit das **`Semikolon`** als Trennungszeichen.

In [6]:
pd.read_csv('./csv/read_df/titanic_semicolon_sep.csv', sep=';')

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


<br>

Das sieht doch nach einem korrekt eingelesenen `DataFrame` aus. Alle leeren Einträge werden übrigens automatisch mit **`NaN`** (**not a number**) befüllt. 

---

## Index: `index_col=`

In den Beispielen oben siehst du, dass `Pandas` jedes Mal der Tabelle einen eindeutigen Zeilenindex verpasst hat. Allerdings kannst du diesen beim Import direkt definieren. Zum Beispiel kannst du mit dem Argument **`index_col`** eine oder mehrere Spalten als **Index** verwenden.

Wenn du nur eine Spalte als Index setzen willst, kannst du ihren Namen einfach als `String` dem Argument übergeben.

Das sollte jedoch mit Vorsicht genossen werden, da der Index auch nach der Umwandlung eindeutig sein sollte. Meist wird es bei der Standardindexierung von `Pandas` belassen. Falls du den Index dennoch endern willst/musst, stelle aufjedenfall sicher, dass dieser unique ist.

<video width="1000" controls src="./pic/basics/einlesen/4_index.mp4" />

Der Index kann entweder mit dem Namen der jeweiligen Spalte angegeben werden..

In [7]:
pd.read_csv('./csv/titanic.csv', index_col='PassengerId')

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


.. oder mit der Nummer der Spalte, die verwendet werden soll (Nummerierung beginnend bei 0)

In [8]:
pd.read_csv('./csv/titanic.csv', index_col=0)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


---

## Nur spezielle Spalten einlesen: `usecols=`

Manchmal willst du gar keine komplette Tabelle importieren, sondern nur bestimmte Spalten. Dies kann u.a. folgende Gründe haben.

* Dich interessiert nur eine Teilmenge der Spalten.
* Du willst eine bessere Übersicht über deinen Datensatz haben.
* Deine Ressourcen sind begrenzt, du willst schneller mit den vorhandenen Daten arbeiten.

Auch für diese Aufgabe bietet Pandas eine passende Lösung, und zwar mit dem Parameter **`usecols=`**.

<video width="1000" controls src="./pic/basics/einlesen/5_cols.mp4" />

<br>

In [9]:
pd.read_csv('./csv/titanic.csv', usecols=['PassengerId', 'Survived'])

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


In [10]:
pd.read_csv('./csv/titanic.csv', usecols=['Name'])

Unnamed: 0,Name
0,"Kelly, Mr. James"
1,"Wilkes, Mrs. James (Ellen Needs)"
2,"Myles, Mr. Thomas Francis"
3,"Wirz, Mr. Albert"
4,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)"
...,...
413,"Spector, Mr. Woolf"
414,"Oliva y Ocana, Dona. Fermina"
415,"Saether, Mr. Simon Sivertsen"
416,"Ware, Mr. Frederick"


---

## Zusätzliche Dateiformate: Eine Excel Datei einlesen

In [11]:
df_excel = pd.read_excel('./csv/read_df/titanic_comma_sep.xlsx')
df_excel

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,78292,,Q
1,1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,96875,,Q
3,3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,86625,,S
4,4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,122875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,2022-05-08 00:00:00,,S
414,414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,2025-07-01 00:00:00,,S
416,416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,2022-05-08 00:00:00,,S


<br>
   
> **[Weitere Dateiformate - Pandas Official Page](https://pandas.pydata.org/docs/reference/io.html)**

---

# Einlesen mit der `.query()` function

Mit dem Argument `usecols=` kannst du bereits nur bestimmte Spalten einlesen. Willst du aber nur bestimmte Zeilen, mit einem bestimmten Wert in einer Spalte, kannst du die Funktion `.query` verwenden. Also:

**`pd.read_csv("pfad_zur_csv.csv").query(condition)`**

<br>

Die Funktion `.query()` behandeln wir zu einem späteren Zeitpunkt noch ausführlicher da du diese Funktion für mehr als nur dem einlesen von Dateien verwenden kannst.

<br>

> Im nachfolgenden Beispiel, sollen nur diejenigen Passagiere eingelesen werden, deren Alter > 30 Jahre ist.

<br>

In [12]:
pd.read_csv('./csv/titanic.csv').query("Age > 30")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
11,903,0,1,"Jones, Mr. Charles Cresson",male,46.0,0,0,694,26.0000,,S
13,905,0,2,"Howard, Mr. Benjamin",male,63.0,1,0,24065,26.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
404,1296,0,1,"Frauenthal, Mr. Isaac Gerald",male,43.0,1,0,17765,27.7208,D40,C
407,1299,0,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
411,1303,1,1,"Minahan, Mrs. William Edward (Lillian E Thorpe)",female,37.0,1,0,19928,90.0000,C78,Q
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C


<br>

> ... oder nur die Passagiere der **Ersten Klasse**

<br>

In [13]:
pd.read_csv('./csv/titanic.csv').query("Pclass == 1")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
11,903,0,1,"Jones, Mr. Charles Cresson",male,46.0,0,0,694,26.0000,,S
12,904,1,1,"Snyder, Mrs. John Pillsbury (Nelle Stevenson)",female,23.0,1,0,21228,82.2667,B45,S
14,906,1,1,"Chaffee, Mrs. Herbert Fuller (Carrie Constance...",female,47.0,1,0,W.E.P. 5734,61.1750,E31,S
20,912,0,1,"Rothschild, Mr. Martin",male,55.0,1,0,PC 17603,59.4000,,C
22,914,1,1,"Flegenheim, Mrs. Alfred (Antoinette)",female,,0,0,PC 17598,31.6833,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
403,1295,0,1,"Carrau, Mr. Jose Pedro",male,17.0,0,0,113059,47.1000,,S
404,1296,0,1,"Frauenthal, Mr. Isaac Gerald",male,43.0,1,0,17765,27.7208,D40,C
407,1299,0,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
411,1303,1,1,"Minahan, Mrs. William Edward (Lillian E Thorpe)",female,37.0,1,0,19928,90.0000,C78,Q
