#### Updated on 8th March, 2024: changed the data with the new classification

# Classfying the postal codes into urban/rural typology

In [92]:
# importing libraries

import pandas as pd
import numpy as np

### Urban/rural typology of NUTS3 regions

There are two types of classification: RLK and KTU

**- Link for RLK**: 

https://www.bbsr.bund.de/BBSR/DE/forschung/raumbeobachtung/Raumabgrenzungen/deutschland/gemeinden/Raumtypen2010_vbg/Raumtypen2010_LageSied.html;jsessionid=3D7A77E9A53718068EDE70ABECEBD732.live11292


**- Link for KTU**:

https://www.bbsr.bund.de/BBSR/DE/forschung/raumbeobachtung/Raumabgrenzungen/deutschland/kreise/siedlungsstrukturelle-kreistypen/kreistypen.html;jsessionid=3D7A77E9A53718068EDE70ABECEBD732.live11292

In [146]:
# loading the csv file for Urban/rural typology of NUTS3 regions
df_class = pd.read_csv('RLK_KTU_classification.csv', encoding='cp1252')

df_class.head(9)

Unnamed: 0,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022
0,DEF01,"Flensburg, Stadt",zentral,Dünn besiedelter ländlicher Kreis
1,DEF02,"Kiel, Stadt",zentral,kreisfreie Großstadt
2,DEF03,"Lübeck, Stadt",sehr zentral,kreisfreie Großstadt
3,DEF04,"Neumünster, Stadt",zentral,Ländlicher Kreis mit Verdichtungsansätzen
4,DEF05,Dithmarschen,sehr peripher,Dünn besiedelter ländlicher Kreis
5,DEF06,Herzogtum Lauenburg,zentral,Ländlicher Kreis mit Verdichtungsansätzen
6,DEF07,Nordfriesland,sehr peripher,Dünn besiedelter ländlicher Kreis
7,DEF08,Ostholstein,zentral,Ländlicher Kreis mit Verdichtungsansätzen
8,DEF09,Pinneberg,sehr zentral,Städtischer Kreis


In [147]:
df_class['NUTS1_ID'] = df_class['NUTS3_ID'].astype(str).str[:3]
df_class.head(9)

Unnamed: 0,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID
0,DEF01,"Flensburg, Stadt",zentral,Dünn besiedelter ländlicher Kreis,DEF
1,DEF02,"Kiel, Stadt",zentral,kreisfreie Großstadt,DEF
2,DEF03,"Lübeck, Stadt",sehr zentral,kreisfreie Großstadt,DEF
3,DEF04,"Neumünster, Stadt",zentral,Ländlicher Kreis mit Verdichtungsansätzen,DEF
4,DEF05,Dithmarschen,sehr peripher,Dünn besiedelter ländlicher Kreis,DEF
5,DEF06,Herzogtum Lauenburg,zentral,Ländlicher Kreis mit Verdichtungsansätzen,DEF
6,DEF07,Nordfriesland,sehr peripher,Dünn besiedelter ländlicher Kreis,DEF
7,DEF08,Ostholstein,zentral,Ländlicher Kreis mit Verdichtungsansätzen,DEF
8,DEF09,Pinneberg,sehr zentral,Städtischer Kreis,DEF


In [149]:
df_class['NUTS1_ID'].unique()

array(['DEF', 'DE6', 'DE9', 'DE5', 'DEA', 'DE7', 'DEB', 'DE1', 'DE2',
       'DEC', 'DE3', 'DE4', 'DE8', 'DED', 'DEE', 'DEG'], dtype=object)

In [150]:
df_class['NUTS1_ID'].nunique()

16

In [151]:
df_class.dtypes

NUTS3_ID      object
NUTS3_NAME    object
RLK2022       object
KTU2022       object
NUTS1_ID      object
dtype: object

In [152]:
# this is a shorter list than the previous one
len(df_class)

400

In [153]:
# Loading the file with NUTS3 ID and postal codes

df_plz = pd.read_csv('pc2020_DE_NUTS-2021_v4.0.csv', sep= ";")

#df_plz[['NUTS3','postal_code']] = df_plz['NUTS3;CODE'].str.split(';',expand=True)

df_plz['NUTS3'] = df_plz['NUTS3'].str.replace('\'', '')
df_plz['CODE'] = df_plz['CODE'].str.replace('\'', '')

#df_plz = df_plz[['NUTS3','postal_code']]

df_plz.head(9)

Unnamed: 0,NUTS3,CODE
0,DEA1D,41363
1,DEA1E,41366
2,DEA1E,41748
3,DEA1E,41749
4,DEA1E,41751
5,DEA1E,41747
6,DEA23,50667
7,DEA23,50668
8,DEA23,50670


In [154]:
df_plz.dtypes

NUTS3    object
CODE     object
dtype: object

In [155]:
df_plz['NUTS1_ID'] = df_plz['NUTS3'].astype(str).str[:3]
df_plz

Unnamed: 0,NUTS3,CODE,NUTS1_ID
0,DEA1D,41363,DEA
1,DEA1E,41366,DEA
2,DEA1E,41748,DEA
3,DEA1E,41749,DEA
4,DEA1E,41751,DEA
...,...,...,...
8315,DE722,35641,DE7
8316,DE724,35080,DE7
8317,DE725,35315,DE7
8318,DE914,38543,DE9


In [156]:
df_plz['NUTS1_ID'].unique()

array(['DEA', 'DED', 'DE8', 'DEE', 'DEF', 'DE9', 'DE4', 'DE5', 'DE7',
       'DEB', 'DE1', 'DE2', 'DEG', 'DEC', 'DE3', 'DE6'], dtype=object)

In [157]:
df_plz['NUTS1_ID'].nunique()

16

In [158]:
len(df_plz['CODE'])

8320

In [159]:
# Create a separate dataframe for DE4 
de4_plz = df_plz[df_plz['NUTS1_ID'] == 'DE4']
de4_plz

Unnamed: 0,NUTS3,CODE,NUTS1_ID
197,DE405,16352,DE4
198,DE40A,16565,DE4
199,DE40D,16918,DE4
320,DE40I,03202,DE4
1360,DE406,15755,DE4
...,...,...,...
8111,DE409,15366,DE4
8162,DE40D,16835,DE4
8174,DE40F,19309,DE4
8209,DE407,03253,DE4


In [160]:
de4_class = df_class[df_class['NUTS1_ID'] == 'DE4']
de4_class

Unnamed: 0,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID
325,DE401,"Brandenburg an der Havel, Stadt",peripher,Ländlicher Kreis mit Verdichtungsansätzen,DE4
326,DE402,"Cottbus, Stadt",peripher,Ländlicher Kreis mit Verdichtungsansätzen,DE4
327,DE403,"Frankfurt (Oder), Stadt",peripher,Dünn besiedelter ländlicher Kreis,DE4
328,DE404,"Potsdam, Stadt",sehr zentral,kreisfreie Großstadt,DE4
329,DE405,Barnim,zentral,Ländlicher Kreis mit Verdichtungsansätzen,DE4
330,DE406,Dahme-Spreewald,zentral,Dünn besiedelter ländlicher Kreis,DE4
331,DE407,Elbe-Elster,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4
332,DE408,Havelland,zentral,Dünn besiedelter ländlicher Kreis,DE4
333,DE409,Märkisch-Oderland,zentral,Dünn besiedelter ländlicher Kreis,DE4
334,DE40A,Oberhavel,zentral,Dünn besiedelter ländlicher Kreis,DE4


## Check: NUTS3 ID for DE4 in PLZ and the classification data 

In [161]:
# NUTS3 in PLZ data: this seems correct 

np.sort(de4_plz['NUTS3'].unique())

array(['DE401', 'DE402', 'DE403', 'DE404', 'DE405', 'DE406', 'DE407',
       'DE408', 'DE409', 'DE40A', 'DE40B', 'DE40C', 'DE40D', 'DE40E',
       'DE40F', 'DE40G', 'DE40H', 'DE40I'], dtype=object)

In [162]:
# NUTS3 in classification data
np.sort(de4_class['NUTS3_ID'].unique())

array(['DE401', 'DE402', 'DE403', 'DE404', 'DE405', 'DE406', 'DE407',
       'DE408', 'DE409', 'DE40A', 'DE40B', 'DE40C', 'DE40D', 'DE40E',
       'DE40F', 'DE40G', 'DE40H', 'DE40I'], dtype=object)

## Merge the classification data with the PLZ data 

In [163]:
# Creating NUTS1 ID column

df_plz.head()

Unnamed: 0,NUTS3,CODE,NUTS1_ID
0,DEA1D,41363,DEA
1,DEA1E,41366,DEA
2,DEA1E,41748,DEA
3,DEA1E,41749,DEA
4,DEA1E,41751,DEA


In [164]:
df_class.head()

Unnamed: 0,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID
0,DEF01,"Flensburg, Stadt",zentral,Dünn besiedelter ländlicher Kreis,DEF
1,DEF02,"Kiel, Stadt",zentral,kreisfreie Großstadt,DEF
2,DEF03,"Lübeck, Stadt",sehr zentral,kreisfreie Großstadt,DEF
3,DEF04,"Neumünster, Stadt",zentral,Ländlicher Kreis mit Verdichtungsansätzen,DEF
4,DEF05,Dithmarschen,sehr peripher,Dünn besiedelter ländlicher Kreis,DEF


In [165]:
## Merging the PLZ and classification data after fixing the discrepancies in DE3 NUTS3 ID

df_with_null = pd.merge(df_plz, df_class, left_on = ['NUTS3'], right_on = ['NUTS3_ID'], how = 'left')
df_with_null = df_with_null[['CODE', 'NUTS3_ID','NUTS3_NAME', 'RLK2022','KTU2022']]

df_with_null.head(10)

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis
5,41747,DEA1E,Viersen,sehr zentral,Städtischer Kreis
6,50667,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt
7,50668,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt
8,50670,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt
9,41836,DEA29,Heinsberg,sehr zentral,Städtischer Kreis


In [166]:
len(df_with_null)

8320

In [167]:
df_with_null['NUTS1_ID'] = df_with_null['NUTS3_ID'].astype(str).str[:3]
df_with_null.head(10)

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA
5,41747,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA
6,50667,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA
7,50668,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA
8,50670,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA
9,41836,DEA29,Heinsberg,sehr zentral,Städtischer Kreis,DEA


In [168]:
df_with_null['NUTS1_ID'].unique()

array(['DEA', 'DED', 'DE8', 'DEE', 'DEF', 'DE9', 'DE4', 'DE5', 'DE7',
       'DEB', 'DE1', 'DE2', 'DEG', 'DEC', 'DE3', 'DE6', 'nan'],
      dtype=object)

In [169]:
df_with_null['NUTS1_ID'].nunique()

17

In [170]:
df_with_null['NUTS2_ID'] = df_with_null['NUTS3_ID'].astype(str).str[:4]
df_with_null.head(10)

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
5,41747,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
6,50667,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2
7,50668,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2
8,50670,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2
9,41836,DEA29,Heinsberg,sehr zentral,Städtischer Kreis,DEA,DEA2


In [171]:
df_with_null['NUTS2_ID'].unique()

array(['DEA1', 'DEA2', 'DEA3', 'DEA4', 'DEA5', 'DED4', 'DE80', 'DEE0',
       'DEF0', 'DE93', 'DE40', 'DE91', 'DE92', 'DE94', 'DE50', 'DE71',
       'DEB1', 'DEB2', 'DEB3', 'DE11', 'DE12', 'DE13', 'DE14', 'DE21',
       'DE22', 'DE27', 'DE23', 'DE24', 'DE25', 'DED2', 'DED5', 'DEG0',
       'DE26', 'DE72', 'DE73', 'DEC0', 'DE30', 'DE60', 'nan'],
      dtype=object)

In [172]:
df_with_null['NUTS2_ID'].nunique()

39

In [173]:
df_with_null[df_with_null['NUTS1_ID'] == 'DE4']

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID
197,16352,DE405,Barnim,zentral,Ländlicher Kreis mit Verdichtungsansätzen,DE4,DE40
198,16565,DE40A,Oberhavel,zentral,Dünn besiedelter ländlicher Kreis,DE4,DE40
199,16918,DE40D,Ostprignitz-Ruppin,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4,DE40
320,03202,DE40I,Uckermark,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4,DE40
1360,15755,DE406,Dahme-Spreewald,zentral,Dünn besiedelter ländlicher Kreis,DE4,DE40
...,...,...,...,...,...,...,...
8111,15366,DE409,Märkisch-Oderland,zentral,Dünn besiedelter ländlicher Kreis,DE4,DE40
8162,16835,DE40D,Ostprignitz-Ruppin,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4,DE40
8174,19309,DE40F,Prignitz,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4,DE40
8209,03253,DE407,Elbe-Elster,sehr peripher,Dünn besiedelter ländlicher Kreis,DE4,DE40


In [174]:
df_plz[df_plz['CODE'] == '66629']

Unnamed: 0,NUTS3,CODE,NUTS1_ID
1695,DEC06,66629,DEC


In [175]:
df_class[df_class['NUTS1_ID'] == 'DEC']

Unnamed: 0,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID
318,DEC01,Regionalverband Saarbrücken,sehr zentral,Städtischer Kreis,DEC
319,DEC02,Merzig-Wadern,zentral,Städtischer Kreis,DEC
320,DEC03,Neunkirchen,zentral,Städtischer Kreis,DEC
321,DEC04,Saarlouis,zentral,Städtischer Kreis,DEC
322,DEC05,Saarpfalz-Kreis,zentral,Städtischer Kreis,DEC
323,DEC06,St. Wendel,zentral,Städtischer Kreis,DEC


In [176]:
# missing: DEC01, DEC04, DEC05, DEC06 

df_class_null = df_with_null[df_with_null['RLK2022'].isnull()]
df_class_null.head()

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID
5500,99817,,,,,,


### Adding other NUTS level

used file: NUTS2021 <br>
source: https://ec.europa.eu/eurostat/de/web/nuts/background

In [177]:
## Adding NUTS1

NUTS1 = pd.read_csv('NUTS1.csv', encoding='cp1252')
NUTS1

Unnamed: 0,Code 2021,NUTS level 1
0,DE1,Baden-Württemberg
1,DE2,Bayern
2,DE3,Berlin
3,DE4,Brandenburg
4,DE5,Bremen
5,DE6,Hamburg
6,DE7,Hessen
7,DE8,Mecklenburg-Vorpommern
8,DE9,Niedersachsen
9,DEA,Nordrhein-Westfalen


In [178]:
## Adding NUTS2
NUTS2 = pd.read_csv('NUTS2.csv', encoding='cp1252')
NUTS2

Unnamed: 0,Code 2021,NUTS level 2
0,DE11,Stuttgart
1,DE12,Karlsruhe
2,DE13,Freiburg
3,DE14,Tübingen
4,DE21,Oberbayern
5,DE22,Niederbayern
6,DE23,Oberpfalz
7,DE24,Oberfranken
8,DE25,Mittelfranken
9,DE26,Unterfranken


In [179]:
df_with_null.head()

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1


In [180]:
# left join to add the region names

df_with_null = pd.merge(df_with_null, NUTS1, left_on = ['NUTS1_ID'], right_on = ['Code 2021'], how = 'left')
df_with_null.head(10)

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,Code 2021,NUTS level 1
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
5,41747,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen
6,50667,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen
7,50668,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen
8,50670,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen
9,41836,DEA29,Heinsberg,sehr zentral,Städtischer Kreis,DEA,DEA2,DEA,Nordrhein-Westfalen


In [181]:
df_with_null = pd.merge(df_with_null, NUTS2, left_on = ['NUTS2_ID'], right_on = ['Code 2021'], how = 'left')
df_with_null.head(10)

Unnamed: 0,CODE,NUTS3_ID,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,Code 2021_x,NUTS level 1,Code 2021_y,NUTS level 2
0,41363,DEA1D,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
1,41366,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
2,41748,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
3,41749,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
4,41751,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
5,41747,DEA1E,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,DEA,Nordrhein-Westfalen,DEA1,Düsseldorf
6,50667,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen,DEA2,Köln
7,50668,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen,DEA2,Köln
8,50670,DEA23,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,DEA,Nordrhein-Westfalen,DEA2,Köln
9,41836,DEA29,Heinsberg,sehr zentral,Städtischer Kreis,DEA,DEA2,DEA,Nordrhein-Westfalen,DEA2,Köln


In [182]:
df_with_null = df_with_null[['NUTS3_ID', 'CODE', 'NUTS3_NAME', 'RLK2022', 'KTU2022' , 'NUTS1_ID', 'NUTS2_ID', 'NUTS level 1', 'NUTS level 2']]
df_with_null.head(10)

Unnamed: 0,NUTS3_ID,CODE,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,NUTS level 1,NUTS level 2
0,DEA1D,41363,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
1,DEA1E,41366,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
2,DEA1E,41748,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
3,DEA1E,41749,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
4,DEA1E,41751,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
5,DEA1E,41747,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
6,DEA23,50667,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,Nordrhein-Westfalen,Köln
7,DEA23,50668,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,Nordrhein-Westfalen,Köln
8,DEA23,50670,"Köln, Stadt",sehr zentral,kreisfreie Großstadt,DEA,DEA2,Nordrhein-Westfalen,Köln
9,DEA29,41836,Heinsberg,sehr zentral,Städtischer Kreis,DEA,DEA2,Nordrhein-Westfalen,Köln


In [183]:
df_with_null = df_with_null.rename(columns={'CODE': 'POSTAL_CODE', 'NUTS level 1': 'NUTS1_NAME', 'NUTS level 2': 'NUTS2_NAME'})
df_with_null.head()


Unnamed: 0,NUTS3_ID,POSTAL_CODE,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,NUTS1_NAME,NUTS2_NAME
0,DEA1D,41363,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
1,DEA1E,41366,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
2,DEA1E,41748,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
3,DEA1E,41749,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf
4,DEA1E,41751,Viersen,sehr zentral,Städtischer Kreis,DEA,DEA1,Nordrhein-Westfalen,Düsseldorf


In [184]:
len(df_with_null)

8320

## missing classification

In [185]:
df_class_null = df_with_null[df_with_null['RLK2022'].isnull()]
df_class_null.head()

Unnamed: 0,NUTS3_ID,POSTAL_CODE,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,NUTS1_NAME,NUTS2_NAME
5500,,99817,,,,,,,


In [186]:
len(df_class_null)

1

In [187]:
df_class_null['NUTS1_ID'].unique()

array(['nan'], dtype=object)

In [188]:
df_not_null = df_with_null[df_with_null['RLK2022'].notnull()]
len(df_not_null)

8319

In [189]:
df_class_null2 = df_with_null[df_with_null['KTU2022'].isnull()]
df_class_null2.head()

Unnamed: 0,NUTS3_ID,POSTAL_CODE,NUTS3_NAME,RLK2022,KTU2022,NUTS1_ID,NUTS2_ID,NUTS1_NAME,NUTS2_NAME
5500,,99817,,,,,,,


In [190]:
len(df_class_null2)

1

In [194]:
df_not_null_final = df_not_null[['POSTAL_CODE','NUTS3_ID','NUTS1_NAME', 'NUTS2_NAME', 'NUTS3_NAME', 'RLK2022', 'KTU2022']]
df_not_null_final.head()

Unnamed: 0,POSTAL_CODE,NUTS3_ID,NUTS1_NAME,NUTS2_NAME,NUTS3_NAME,RLK2022,KTU2022
0,41363,DEA1D,Nordrhein-Westfalen,Düsseldorf,Rhein-Kreis Neuss,sehr zentral,Städtischer Kreis
1,41366,DEA1E,Nordrhein-Westfalen,Düsseldorf,Viersen,sehr zentral,Städtischer Kreis
2,41748,DEA1E,Nordrhein-Westfalen,Düsseldorf,Viersen,sehr zentral,Städtischer Kreis
3,41749,DEA1E,Nordrhein-Westfalen,Düsseldorf,Viersen,sehr zentral,Städtischer Kreis
4,41751,DEA1E,Nordrhein-Westfalen,Düsseldorf,Viersen,sehr zentral,Städtischer Kreis


In [195]:
len(df_not_null_final[df_not_null_final['KTU2022'].isnull()])

0

In [196]:
df_not_null_final.to_csv('new_classification_urban_by_postal_code.csv', encoding='cp1252')