![title](./pic/aditional_functions/astype/1_title.png)

In [46]:
import pandas as pd

In [57]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


<br>

Die Methode `.astype()` wird verwendet, um ein `Pandas`-Objekt in einen bestimmten **Datentyp umzuwandeln**. Die Funktion `.astype()` bietet auch die Möglichkeit, jede geeignete vorhandene Spalte in einen kategorischen Typ umzuwandeln.

`.astype()` ist sehr nützlich, wenn du einen bestimmten **Spaltendatentyp in einen anderen Datentyp umwandeln** willst. Darüber hinaus kannst du auch ein Python-`Dictionary` verwenden, um mehr als einen Spaltentyp auf einmal zu ändern. Die Schlüsselbezeichnung im `Dict` entspricht dem Spaltennamen und die Wertebezeichnung im Dictionary entspricht den neuen Datentypen, die die Spalten haben sollen.

<br>

![title](./pic/aditional_functions/astype/2_astype.png)

In [48]:
# df['Age'] = df['Age'].astype(int)

In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB


Da `.astype()` nicht mit `Nan` Werten umgehen kann, müssen wir diese zuerst ausfindig machen und anschließend aus dem zu `DataFrame` entfernen.
Um die Daten jedoch nicht zu verlieren, speichern wir diese in ein seperates `DataFrame` ab.

In [50]:
df_age_null = df[df['Age'].isnull()]
df_age_null

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,902,0,3,"Ilieff, Mr. Ylio",male,,0,0,349220,7.8958,,S
22,914,1,1,"Flegenheim, Mrs. Alfred (Antoinette)",female,,0,0,PC 17598,31.6833,,S
29,921,0,3,"Samaan, Mr. Elias",male,,2,0,2662,21.6792,,C
33,925,1,3,"Johnston, Mrs. Andrew G (Elizabeth Lily"" Watson)""",female,,1,2,W./C. 6607,23.4500,,S
36,928,1,3,"Roth, Miss. Sarah A",female,,0,0,342712,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
408,1300,1,3,"Riordan, Miss. Johanna Hannah""""",female,,0,0,334915,7.7208,,Q
410,1302,1,3,"Naughton, Miss. Hannah",female,,0,0,365237,7.7500,,Q
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


...Anschließend droppen wir die Zeilen, welche in der Spalte Alter `Nan` Werte haben...

In [51]:
df = df.dropna(subset=['Age'])
df

...und können nun endlich den cast von `float` zu `int` vollziehen

In [53]:
df['Age'] = df['Age'].astype(int)
df

Abschließend konkatenieren wir die beiden `DataFrames` wieder zu einem finalen `DataFrame`

In [55]:
df_final = pd.concat([df, df_age_null], ignore_index=False)
df_final

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.0,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
408,1300,1,3,"Riordan, Miss. Johanna Hannah""""",female,,0,0,334915,7.7208,,Q
410,1302,1,3,"Naughton, Miss. Hannah",female,,0,0,365237,7.7500,,Q
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


-> `.concat` versucht die Daten einer Spalte immer dem selben Datentypen zuzuweißen. Da `Nan` vom Datentyp `float` ist, werden auch die `int` Werte wieder zu `float` gecastet

In [56]:
df_final.sort_index()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.0,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.0,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S
