### Convert Columns
In diesem Notebook wird die **interim** CSV "data_added_features" weiter bearbeitet, um sie in einen finalen Stand im Projekt verwenden zu können. Hierzu werden die Spaltenformate sowie -bezeichnungen angepasst.

#### Imports

In [18]:
import pandas as pd

#### Daten laden

In [19]:
path_data = 'https://raw.githubusercontent.com/mm391-030401/project/refs/heads/main/data/interim/'
file_data = 'data_added_features.csv'

data = pd.read_csv(path_data + file_data, sep=',', encoding='utf-8')

#### Überblick über die aktuellen Spalten

In [20]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 703 entries, 0 to 702
Data columns (total 15 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   MONATE_SEIT_EINFUEHRUNG_PROGRAMM_KOHORTE  703 non-null    int64  
 1   MONAT                                     703 non-null    int64  
 2   monat_jahr                                703 non-null    int64  
 3   monat_monat                               703 non-null    int64  
 4   monat_jahreszeit                          703 non-null    object 
 5   KOHORTE                                   703 non-null    int64  
 6   kohorte_jahr                              703 non-null    int64  
 7   kohorte_monat                             703 non-null    int64  
 8   kohorte_jahreszeit                        703 non-null    object 
 9   ERSTER_MONAT_KOHORTE_FG                   703 non-null    int64  
 10  MONATE_SEIT_EXISTENZ_KOHORTE          

#### Spaltenbezeichnungem umwandeln

In [21]:
data.columns = data.columns.str.lower()

In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 703 entries, 0 to 702
Data columns (total 15 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   monate_seit_einfuehrung_programm_kohorte  703 non-null    int64  
 1   monat                                     703 non-null    int64  
 2   monat_jahr                                703 non-null    int64  
 3   monat_monat                               703 non-null    int64  
 4   monat_jahreszeit                          703 non-null    object 
 5   kohorte                                   703 non-null    int64  
 6   kohorte_jahr                              703 non-null    int64  
 7   kohorte_monat                             703 non-null    int64  
 8   kohorte_jahreszeit                        703 non-null    object 
 9   erster_monat_kohorte_fg                   703 non-null    int64  
 10  monate_seit_existenz_kohorte          

In [23]:
data.head()

Unnamed: 0,monate_seit_einfuehrung_programm_kohorte,monat,monat_jahr,monat_monat,monat_jahreszeit,kohorte,kohorte_jahr,kohorte_monat,kohorte_jahreszeit,erster_monat_kohorte_fg,monate_seit_existenz_kohorte,kohortengroesse_indexiert,identifizierte_kunden_indexiert,rabatt_indexiert,retentionrate
0,-2,201408,2014,8,Sommer,201408,2014,8,Sommer,1,0,0.41,0.41,2.54,100.0
1,-2,201409,2014,9,Herbst,201408,2014,8,Sommer,0,1,0.41,0.4,7.14,97.560976
2,-2,201410,2014,10,Herbst,201408,2014,8,Sommer,0,2,0.41,0.39,9.28,95.121951
3,-2,201411,2014,11,Herbst,201408,2014,8,Sommer,0,3,0.41,0.38,3.22,92.682927
4,-2,201412,2014,12,Winter,201408,2014,8,Sommer,0,4,0.41,0.38,7.15,92.682927


#### Umwandlung der Spaltenformate  
Prinzipiell wurden von Python die Formate richtig gewählt. Für eine saubere Darstellung sollte allerdings die `erster_monat_kohorte_fg` in einen Boolean-Wert umgewandelt werden.  
Ebenfalls werden die diskreten Spalten in einen String umgewandelt. Dies macht es in der späteren EDA einfacher, sich einen Überblick zu verschaffen mit z.B. der Funktion `describe`. Die ganzen Zeitangaben gelten zwar offiziell als numerische Werte. Allerdings ist es in diesem Kontext nicht sinnig mit diesen auch Rechenoperationen durchzuführen. Daher sollten sie eher als kategorische Variblen eingeordnet werden.

In [24]:
data.select_dtypes(include='int64').columns

Index(['monate_seit_einfuehrung_programm_kohorte', 'monat', 'monat_jahr',
       'monat_monat', 'kohorte', 'kohorte_jahr', 'kohorte_monat',
       'erster_monat_kohorte_fg', 'monate_seit_existenz_kohorte'],
      dtype='object')

In [25]:
to_bool_cols = ['erster_monat_kohorte_fg']
to_str_cols = ['monate_seit_einfuehrung_programm_kohorte', 'monat', 'monat_jahr',
       'monat_monat', 'kohorte', 'kohorte_jahr', 'kohorte_monat', 'monate_seit_existenz_kohorte']

In [26]:
# Konvertierung der Spalten in boolean 
for col in to_bool_cols: 
    data[col] = data[col].astype(bool) 
    
# Konvertierung der Spalten in string 
for col in to_str_cols: 
    data[col] = data[col].astype(str)

In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 703 entries, 0 to 702
Data columns (total 15 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   monate_seit_einfuehrung_programm_kohorte  703 non-null    object 
 1   monat                                     703 non-null    object 
 2   monat_jahr                                703 non-null    object 
 3   monat_monat                               703 non-null    object 
 4   monat_jahreszeit                          703 non-null    object 
 5   kohorte                                   703 non-null    object 
 6   kohorte_jahr                              703 non-null    object 
 7   kohorte_monat                             703 non-null    object 
 8   kohorte_jahreszeit                        703 non-null    object 
 9   erster_monat_kohorte_fg                   703 non-null    bool   
 10  monate_seit_existenz_kohorte          

In [29]:
data.head()

Unnamed: 0,monate_seit_einfuehrung_programm_kohorte,monat,monat_jahr,monat_monat,monat_jahreszeit,kohorte,kohorte_jahr,kohorte_monat,kohorte_jahreszeit,erster_monat_kohorte_fg,monate_seit_existenz_kohorte,kohortengroesse_indexiert,identifizierte_kunden_indexiert,rabatt_indexiert,retentionrate
0,-2,201408,2014,8,Sommer,201408,2014,8,Sommer,True,0,0.41,0.41,2.54,100.0
1,-2,201409,2014,9,Herbst,201408,2014,8,Sommer,False,1,0.41,0.4,7.14,97.560976
2,-2,201410,2014,10,Herbst,201408,2014,8,Sommer,False,2,0.41,0.39,9.28,95.121951
3,-2,201411,2014,11,Herbst,201408,2014,8,Sommer,False,3,0.41,0.38,3.22,92.682927
4,-2,201412,2014,12,Winter,201408,2014,8,Sommer,False,4,0.41,0.38,7.15,92.682927


#### Daten ablegen  
Nun wird die neue Datengrundlage in den Ordner processed abgelegt.

In [32]:
path_data_new = 'https://raw.githubusercontent.com/mm391-030401/project/refs/heads/main/data/processed/'
file_data_new = 'data_final.csv'

data.to_csv(path_data_new + file_data_new, index = False)