In [1]:
import os
import pandas as pd

In [2]:
# find all csv files in the raw_data folder
filenames = os.listdir(os.path.join('data', 'raw_data'))
filenames = [filename for filename in filenames if filename.endswith('.csv')]
filenames

['74325_201106.csv',
 '74712_200211.csv',
 '74628_201506.csv',
 '74321_201806.csv',
 '74712_201506.csv',
 '74712_200707.csv',
 '74628_201106.csv',
 '74640_201806.csv',
 '74321_201106.csv',
 '74712_196910.csv',
 '74712_196110.csv',
 '74712_201806.csv',
 '74717_201806.csv',
 '74712_201511.csv',
 '74712_196510.csv',
 '74628_200707.csv',
 '74326_200707.csv',
 '74321_201511.csv',
 '74628_200211.csv',
 '74628_201806.csv',
 '74210_201806.csv',
 '74210_201506.csv',
 '74321_201506.csv',
 '74210_201511.csv',
 '74628_201511.csv',
 '74712_201106.csv',
 '74710_195405.csv',
 '74712_199512.csv']

In [3]:
# initialize empty dataframe
df_processed = pd.DataFrame(columns=["date", "party", "text"])

# read in each file, concatenate all text, and add to df_processed
for filename in filenames:
    df = pd.read_csv(os.path.join('data', 'raw_data', filename))
    text_list = df['text'].tolist()
    text = ' '.join(text_list)
    party, date = filename.split('.')[0].split('_')
    df_processed = pd.concat([df_processed, pd.DataFrame([[date, party, text]], columns=["date", "party", "text"])], ignore_index=True)


df_processed

Unnamed: 0,date,party,text
0,201106,74325,"EMEK, DEMOKRASĠ ve ÖZG×RL×K BLOĞU 1. Demokrat..."
1,200211,74712,* YİRMİBİRİNCİ YÜZYILDA DÜNYA VE TÜRKİYE 1. Ye...
2,201506,74628,AK Parti olarak Türkiye’nin partisi olma iddia...
3,201806,74321,"BİZ, KURTULUŞ’UN VE KURULUŞ’UN PARTİSİYİZ Cumh..."
4,201506,74712,"AKIL T UT ULMASINDAN AKILLI D EVLETE Türkiye, ..."
5,200707,74712,MILLIYETÇI HAREKET PARTISI 22 TEMMUZ 2007 SEÇİ...
6,201106,74628,TüRKiYE HAZIR HEDEF 2023 12 Haziran 2011 Genel...
7,201806,74640,"İLKELER İYİ Parti, ülkemizi yönetme anlayışını..."
8,201106,74321,"Özgür insan için... Cumhuriyet Halk Partisi, C..."
9,196910,74712,Memleket ve Dünya Hadiseleri M.H.P. Milliyetçi...


In [4]:
df_MPDataset = pd.read_csv(os.path.join('data', 'MPDataset_MPDS2023a.csv'), usecols=['party', 'partyname', 'date'])

In [5]:
df_processed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 0 to 27
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    28 non-null     object
 1   party   28 non-null     object
 2   text    28 non-null     object
dtypes: object(3)
memory usage: 804.0+ bytes


In [6]:
df_MPDataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5089 entries, 0 to 5088
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   date       5089 non-null   int64 
 1   party      5089 non-null   int64 
 2   partyname  5089 non-null   object
dtypes: int64(2), object(1)
memory usage: 119.4+ KB


In [7]:
# convert date and party to string
df_MPDataset["date"] = df_MPDataset["date"].astype(str)
df_MPDataset["party"] = df_MPDataset["party"].astype(str)

In [8]:
df_MPDataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5089 entries, 0 to 5088
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   date       5089 non-null   object
 1   party      5089 non-null   object
 2   partyname  5089 non-null   object
dtypes: object(3)
memory usage: 119.4+ KB


In [9]:
# Merge two dataframes
merged_df = pd.merge(df_processed, df_MPDataset, on=["party", "date"])
merged_df

Unnamed: 0,date,party,text,partyname
0,201106,74325,"EMEK, DEMOKRASĠ ve ÖZG×RL×K BLOĞU 1. Demokrat...",Peace and Democracy Party
1,200211,74712,* YİRMİBİRİNCİ YÜZYILDA DÜNYA VE TÜRKİYE 1. Ye...,National Action Party
2,201506,74628,AK Parti olarak Türkiye’nin partisi olma iddia...,Justice and Development Party
3,201806,74321,"BİZ, KURTULUŞ’UN VE KURULUŞ’UN PARTİSİYİZ Cumh...",Republican People’s Party
4,201506,74712,"AKIL T UT ULMASINDAN AKILLI D EVLETE Türkiye, ...",National Action Party
5,200707,74712,MILLIYETÇI HAREKET PARTISI 22 TEMMUZ 2007 SEÇİ...,National Action Party
6,201106,74628,TüRKiYE HAZIR HEDEF 2023 12 Haziran 2011 Genel...,Justice and Development Party
7,201806,74640,"İLKELER İYİ Parti, ülkemizi yönetme anlayışını...",Good Party
8,201106,74321,"Özgür insan için... Cumhuriyet Halk Partisi, C...",Republican People’s Party
9,196910,74712,Memleket ve Dünya Hadiseleri M.H.P. Milliyetçi...,National Action Party


In [10]:
# order columns in dataframe
column_order = ["date", "party", "partyname",  "text"]
merged_df = merged_df[column_order]
merged_df

Unnamed: 0,date,party,partyname,text
0,201106,74325,Peace and Democracy Party,"EMEK, DEMOKRASĠ ve ÖZG×RL×K BLOĞU 1. Demokrat..."
1,200211,74712,National Action Party,* YİRMİBİRİNCİ YÜZYILDA DÜNYA VE TÜRKİYE 1. Ye...
2,201506,74628,Justice and Development Party,AK Parti olarak Türkiye’nin partisi olma iddia...
3,201806,74321,Republican People’s Party,"BİZ, KURTULUŞ’UN VE KURULUŞ’UN PARTİSİYİZ Cumh..."
4,201506,74712,National Action Party,"AKIL T UT ULMASINDAN AKILLI D EVLETE Türkiye, ..."
5,200707,74712,National Action Party,MILLIYETÇI HAREKET PARTISI 22 TEMMUZ 2007 SEÇİ...
6,201106,74628,Justice and Development Party,TüRKiYE HAZIR HEDEF 2023 12 Haziran 2011 Genel...
7,201806,74640,Good Party,"İLKELER İYİ Parti, ülkemizi yönetme anlayışını..."
8,201106,74321,Republican People’s Party,"Özgür insan için... Cumhuriyet Halk Partisi, C..."
9,196910,74712,National Action Party,Memleket ve Dünya Hadiseleri M.H.P. Milliyetçi...


In [11]:
# convert date column to datetime format and extract year and month by period of month
merged_df["date"] = pd.to_datetime(merged_df["date"], format="%Y%m").dt.to_period("M")

# sort dataframe by date
merged_df = merged_df.sort_values(by="date")
merged_df

Unnamed: 0,date,party,partyname,text
26,1954-05,74710,Republican National Party,CUMHURİYETÇİ Millet Partisi Program Ankara 1...
10,1961-10,74712,Republican Peasants' Nation Party,ÖNSÖZ Cumhuriyetçi Köylü …. Partisi kurulduğu ...
14,1965-10,74712,Republican Peasants' Nation Party,1965 SECİM BİLDİRİSİ CUMHURİYETÇİ KÖYLÜ MİLLET...
9,1969-10,74712,National Action Party,Memleket ve Dünya Hadiseleri M.H.P. Milliyetçi...
27,1995-12,74712,National Action Party,"I.ÖNSÖZ Siyasi partiler millete, devlete ve ül..."
1,2002-11,74712,National Action Party,* YİRMİBİRİNCİ YÜZYILDA DÜNYA VE TÜRKİYE 1. Ye...
18,2002-11,74628,Justice and Development Party,"HERŞEY TÜRKİYE İÇİN SUNUŞ Dünya, 21. yüzyılın ..."
16,2007-07,74326,Democratic Society Party,"BİN UMUT ADAYLARI, GÖNLÜ GERÇEK DEMOKRASİDEN Y..."
5,2007-07,74712,National Action Party,MILLIYETÇI HAREKET PARTISI 22 TEMMUZ 2007 SEÇİ...
15,2007-07,74628,Justice and Development Party,TEK MiLLET TEK BAYRAK TEK VATAN TEK DEVLET ANL...


In [12]:
# reset index
merged_df = merged_df.reset_index(drop=True)
merged_df

Unnamed: 0,date,party,partyname,text
0,1954-05,74710,Republican National Party,CUMHURİYETÇİ Millet Partisi Program Ankara 1...
1,1961-10,74712,Republican Peasants' Nation Party,ÖNSÖZ Cumhuriyetçi Köylü …. Partisi kurulduğu ...
2,1965-10,74712,Republican Peasants' Nation Party,1965 SECİM BİLDİRİSİ CUMHURİYETÇİ KÖYLÜ MİLLET...
3,1969-10,74712,National Action Party,Memleket ve Dünya Hadiseleri M.H.P. Milliyetçi...
4,1995-12,74712,National Action Party,"I.ÖNSÖZ Siyasi partiler millete, devlete ve ül..."
5,2002-11,74712,National Action Party,* YİRMİBİRİNCİ YÜZYILDA DÜNYA VE TÜRKİYE 1. Ye...
6,2002-11,74628,Justice and Development Party,"HERŞEY TÜRKİYE İÇİN SUNUŞ Dünya, 21. yüzyılın ..."
7,2007-07,74326,Democratic Society Party,"BİN UMUT ADAYLARI, GÖNLÜ GERÇEK DEMOKRASİDEN Y..."
8,2007-07,74712,National Action Party,MILLIYETÇI HAREKET PARTISI 22 TEMMUZ 2007 SEÇİ...
9,2007-07,74628,Justice and Development Party,TEK MiLLET TEK BAYRAK TEK VATAN TEK DEVLET ANL...


In [13]:
# save dataframe as csv
merged_df.to_csv(os.path.join('data', 'turkey_manifestoes.csv'), index=False)