# Scraping Wikipedia Infoboxes & Wikitables with Beautiful Soup

## Turkish Tv Series Dataset

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from pandas.io.html import read_html

- **Scraping Wikipedia infoboxes**

In [2]:
url_list = pd.read_csv('urllist.txt', delimiter = "\t" , header=None)               #infobox url list
url_list

Unnamed: 0,0
0,https://tr.wikipedia.org/wiki/Ad%C4%B1_Sevgi
1,https://tr.wikipedia.org/wiki/A%C5%9Fk%C4%B1n_...
2,"https://tr.wikipedia.org/wiki/Baba_(dizi,_2022)"
3,https://tr.wikipedia.org/wiki/Can%C4%B1m_Annem
4,https://tr.wikipedia.org/wiki/Erkek_Severse
...,...
657,http://tr.wikipedia.org//wiki/%C3%87emberimde_...
658,http://tr.wikipedia.org//wiki/%C3%87ocuklar_Ne...
659,http://tr.wikipedia.org//wiki/Dad%C4%B1_(dizi)
660,http://tr.wikipedia.org//wiki/Deli_Y%C3%BCrek


In [3]:
dataset = list()
infoboxes = pd.DataFrame([])
for page in url_list[0]:    
    info = read_html(f"{page}", header=0, attrs={"class":"infobox"})
    infobox = info[0].T
    infobox.columns = infobox.iloc[0]
    infobox = infobox.iloc[1:].reset_index(drop=True)
    infobox.insert(2, "Ad", [infobox.columns.name], True)
    infobox.columns.name = None
    infobox=infobox.loc[:,infobox.columns.isin(['Ad', 'Format', 'Tür', 'Senarist', 'Yönetmen', 'Başrol',
       'Besteci', 'Ülke', 'Dili', 'Sezon sayısı', 'Bölüm sayısı', 'Yapım',
       'Yapımcı', 'Görüntü yönetmeni', 'Gösterim süresi', 'Yapım şirketi',
       'Yayın bilgileri', 'Kanal', 'Resim formatı', 'Ses formatı', 'Yayın tarihi', 'Durumu'])]
    infoboxes = infoboxes.append(infobox)
    
infoboxes

Unnamed: 0,Format,Ad,Tür,Senarist,Yönetmen,Başrol,Besteci,Ülke,Dili,Sezon sayısı,...,Yapımcı,Yapım şirketi,Yayın bilgileri,Kanal,Durumu,Görüntü yönetmeni,Gösterim süresi,Resim formatı,Ses formatı,Yayın tarihi
0,Televizyon dizisi,Adı Sevgi,Dram,Filiz Alpgezmen Murat Can Tura,Sadullah Celen,Yunus Emre Yıldırımer Gizem Güneş,Engin Arslan,Türkiye,Türkçe,1,...,Ata Türkoğlu,Koliba Film,Yayın bilgileri,atv,Yakında,,,,,
0,Televizyon dizisi,Aşkın Yolculuğu:Hacı Bayram-ı Veli,TarihîKurgu,İsa Yıldız (1-)Fatma Nur Güldalı (1-) Ali Ozan...,Kamil Aydın (1-),Burak Sevinç,Gürkan Çakıcı,Türkiye,Türkçe,1,...,Kemal Tekden,Tekden Film,Yayın bilgileri,TRT 1,Devam ediyor,Murat Karabina,120 dakika,576i (SDTV 16:9)1080i (HDTV),Stereo,11 Şubat 2022 - günümüz
0,Televizyon dizisi,Baba,AileDramAksiyon,Gökhan HorzumEkin Atalar,Çağrı Bayrak,Haluk BilginerTolga Sarıtaş,Güldiyar Tanrıdağlı,Türkiye,Türkçe,1,...,Kerem Çatay,Ay Yapım,Yayın bilgileri,Show TV,Devam ediyor,,120 dakika,576i (16:9 SDTV) 1080i (HDTV),Stereo,15 Şubat 2022 - günümüz
0,Televizyon dizisi,Canım Annem,Dram,Ahmet KöşeoğluGökhan KorkusuzSedef KayaMünevve...,Ece Tahtalıoğlu PertezEmrah Şendur,Selin SezginErol GedikGece Işık Demirel,Murat Evgin,Türkiye,Türkçe,1,...,İnci Gülen OarrJulia Berköz,Stellar YapımSaran Studios,Yayın bilgileri,TV8,Devam ediyor,,50 dakika,576i (16:9 SDTV)1080i (HDTV),Stereo,14 Şubat 2022 - günümüz
0,İnternet dizisi,Erkek Severse,Romantik komedi,Aslı Zengin,Ömür Atay,Alperen DuymazBüşra DeveliYasemin AllenGörkem ...,Tuna Hizmetli,Türkiye,Türkçe,1,...,Faruk Turgut,Gold Film,Yayın bilgileri,,Devam ediyor,Necmettin Akdeniz,45 dakika,,,20 Ocak 2022 - günümüz
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
0,Televizyon dizisi,Çemberimde Gül Oya,DramPolitik,Sertaç ErginNihan KüçükuralKerim CeylanFikret ...,Çağan Irmak,Selda AlkorÖzge ÖzberkMehmet Ali NuroğluTuba B...,,Türkiye,Türkçe,1,...,Şükrü AvşarBahadır Atay,Avşar Film,Yayın bilgileri,Kanal D,Sona erdi,,75 dakika,,Stereo,3 Eylül 2004 - 1 Temmuz 2005
0,Televizyon dizisi,Çocuklar Ne Olacak,Aile Komedi Duygusal,Metin Açıkgöz,Raşit Çelikezer,Ayşecan TatariFurkan KızılayÖzgür OzanZeyno Gü...,,Türkiye,Türkçe,1,...,Birol Güven,,Yayın bilgileri,Star TV (2004-2005),Sona erdi,,,,,15 Eylül 2004 - 6 Mayıs 2005
0,Televizyon dizisi,Dadı,Komedi Sit-com,Erol Hızarcı,Fatih Aksoy Ebru Yalçın Yonca Güzelpınar,Gülben Ergen Kenan Işık Haldun Dormen Seray Se...,Hasan Baran,Türkiye,Türkçe,3,...,Sibel Tuna,Med Yapım,Yayın bilgileri,Show TV (2001) Star TV (2002),Sona erdi.,,45 dakika,,Stereo,5 Ocak 2001 - 28 Ekim 2002
0,Televizyon dizisi,Deli Yürek,Aksiyon Dram Politik,Ömer Lütfi MeteRaci ŞaşmazBahadır ÖzdenerGüliz...,Osman Sınav,Kenan İmirzalıoğluZeynep Tokuş Melda BekcanDem...,Bora EbeoğluCengiz Onural,Türkiye,Türkçe,4,...,Mustafa Şevki Doğan,Sinegraf,Yayın bilgileri,Show TV (1998-2001)atv (2002),Sona erdi,Fırat ŞenolKemal ŞanlıMurat ÜstünTevfik Şenol,60 dakika,,,5 Ekim 1998 - 24 Haziran 2002


- **Scraping Multiple Wikitables**

In [4]:
url = 'https://tr.wikipedia.org/wiki/T%C3%BCrk_dizileri_listesi'   #wikitable url 
df=pd.read_html(url, header=1)   

#concat multiple wikitables
wikitables=pd.concat([df[1],df[2],df[3],df[4],df[5],df[6],df[7],df[8],df[9],df[10],df[11],df[12],df[13],df[14]
                     ,df[15],df[16],df[17],df[18]], axis=0)  
wikitables

Unnamed: 0,Diziler,Bölümsayısı,Sezonsayısı,Durumu,TV kanalı veyayayınlandığı platform
0,Adı Sevgi,-,1,Yakında,atv
1,Annenin Sırrıdır Çocuk,-,1,Yakında,TV8
2,Aşkın Yolculuğu: Hacı Bayram-ı Veli,3,1,Yayında,TRT 1
3,Baba,2,1,Yayında,Show TV
4,Canım Annem,10,1,YayındaGünlük dizi,TV8
...,...,...,...,...,...
86,Yeniden Çalıkuşu,7,1,Final,Star TV
87,Yılan Hikâyesi,90,3,Final,Kanal D
88,Yusuf Yüzlü,,,Final,Samanyolu TV
89,Zerda,68,2,Final,atv


In [12]:
#combine wikitable and infobox 
wikitables = wikitables.rename({'Diziler': 'Ad'}, axis=1)                                 
final_table=pd.merge(wikitables, infoboxes, how="right", on="Ad")
final_table


# dropping duplicate values
final_table.drop_duplicates(keep='first',inplace=True)
final_table

Unnamed: 0,Ad,Bölümsayısı,Sezonsayısı,Durumu_x,TV kanalı veyayayınlandığı platform,Format,Tür,Senarist,Yönetmen,Başrol,...,Yapımcı,Yapım şirketi,Yayın bilgileri,Kanal,Durumu_y,Görüntü yönetmeni,Gösterim süresi,Resim formatı,Ses formatı,Yayın tarihi
0,Adı Sevgi,-,1,Yakında,atv,Televizyon dizisi,Dram,Filiz Alpgezmen Murat Can Tura,Sadullah Celen,Yunus Emre Yıldırımer Gizem Güneş,...,Ata Türkoğlu,Koliba Film,Yayın bilgileri,atv,Yakında,,,,,
1,Aşkın Yolculuğu:Hacı Bayram-ı Veli,,,,,Televizyon dizisi,TarihîKurgu,İsa Yıldız (1-)Fatma Nur Güldalı (1-) Ali Ozan...,Kamil Aydın (1-),Burak Sevinç,...,Kemal Tekden,Tekden Film,Yayın bilgileri,TRT 1,Devam ediyor,Murat Karabina,120 dakika,576i (SDTV 16:9)1080i (HDTV),Stereo,11 Şubat 2022 - günümüz
2,Baba,2,1,Yayında,Show TV,Televizyon dizisi,AileDramAksiyon,Gökhan HorzumEkin Atalar,Çağrı Bayrak,Haluk BilginerTolga Sarıtaş,...,Kerem Çatay,Ay Yapım,Yayın bilgileri,Show TV,Devam ediyor,,120 dakika,576i (16:9 SDTV) 1080i (HDTV),Stereo,15 Şubat 2022 - günümüz
3,Canım Annem,10,1,YayındaGünlük dizi,TV8,Televizyon dizisi,Dram,Ahmet KöşeoğluGökhan KorkusuzSedef KayaMünevve...,Ece Tahtalıoğlu PertezEmrah Şendur,Selin SezginErol GedikGece Işık Demirel,...,İnci Gülen OarrJulia Berköz,Stellar YapımSaran Studios,Yayın bilgileri,TV8,Devam ediyor,,50 dakika,576i (16:9 SDTV)1080i (HDTV),Stereo,14 Şubat 2022 - günümüz
4,Erkek Severse,12,1,Yayında,beIN CONNECT,İnternet dizisi,Romantik komedi,Aslı Zengin,Ömür Atay,Alperen DuymazBüşra DeveliYasemin AllenGörkem ...,...,Faruk Turgut,Gold Film,Yayın bilgileri,,Devam ediyor,Necmettin Akdeniz,45 dakika,,,20 Ocak 2022 - günümüz
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
686,Çemberimde Gül Oya,40,1,Final,Kanal D,Televizyon dizisi,DramPolitik,Sertaç ErginNihan KüçükuralKerim CeylanFikret ...,Çağan Irmak,Selda AlkorÖzge ÖzberkMehmet Ali NuroğluTuba B...,...,Şükrü AvşarBahadır Atay,Avşar Film,Yayın bilgileri,Kanal D,Sona erdi,,75 dakika,,Stereo,3 Eylül 2004 - 1 Temmuz 2005
687,Çocuklar Ne Olacak,1,26,Final,Star TV,Televizyon dizisi,Aile Komedi Duygusal,Metin Açıkgöz,Raşit Çelikezer,Ayşecan TatariFurkan KızılayÖzgür OzanZeyno Gü...,...,Birol Güven,,Yayın bilgileri,Star TV (2004-2005),Sona erdi,,,,,15 Eylül 2004 - 6 Mayıs 2005
688,Dadı,3,61,Final,Show TV/Star TV,Televizyon dizisi,Komedi Sit-com,Erol Hızarcı,Fatih Aksoy Ebru Yalçın Yonca Güzelpınar,Gülben Ergen Kenan Işık Haldun Dormen Seray Se...,...,Sibel Tuna,Med Yapım,Yayın bilgileri,Show TV (2001) Star TV (2002),Sona erdi.,,45 dakika,,Stereo,5 Ocak 2001 - 28 Ekim 2002
689,Deli Yürek,113,4,Final,Show TV / atv,Televizyon dizisi,Aksiyon Dram Politik,Ömer Lütfi MeteRaci ŞaşmazBahadır ÖzdenerGüliz...,Osman Sınav,Kenan İmirzalıoğluZeynep Tokuş Melda BekcanDem...,...,Mustafa Şevki Doğan,Sinegraf,Yayın bilgileri,Show TV (1998-2001)atv (2002),Sona erdi,Fırat ŞenolKemal ŞanlıMurat ÜstünTevfik Şenol,60 dakika,,,5 Ekim 1998 - 24 Haziran 2002


In [14]:
final_table=final_table[['Ad', 'Tür', 'Durumu_x',  'Bölüm sayısı', 'Sezonsayısı', 'Yapım şirketi', 
       'TV kanalı veyayayınlandığı platform', 'Yayın tarihi', 'Gösterim süresi', 'Senarist', 
       'Yönetmen', 'Başrol', 'Besteci', 'Yapımcı', 'Görüntü yönetmeni','Format']]


final_table['Bölüm sayısı'] = final_table['Bölüm sayısı'].map(lambda x: str(x).replace('(bölümleri listesi)', ''))

final_table

Unnamed: 0,Ad,Tür,Durumu_x,Bölüm sayısı,Sezonsayısı,Yapım şirketi,TV kanalı veyayayınlandığı platform,Yayın tarihi,Gösterim süresi,Senarist,Yönetmen,Başrol,Besteci,Yapımcı,Görüntü yönetmeni,Format
0,Adı Sevgi,Dram,Yakında,-,1,Koliba Film,atv,,,Filiz Alpgezmen Murat Can Tura,Sadullah Celen,Yunus Emre Yıldırımer Gizem Güneş,Engin Arslan,Ata Türkoğlu,,Televizyon dizisi
1,Aşkın Yolculuğu:Hacı Bayram-ı Veli,TarihîKurgu,,3,,Tekden Film,,11 Şubat 2022 - günümüz,120 dakika,İsa Yıldız (1-)Fatma Nur Güldalı (1-) Ali Ozan...,Kamil Aydın (1-),Burak Sevinç,Gürkan Çakıcı,Kemal Tekden,Murat Karabina,Televizyon dizisi
2,Baba,AileDramAksiyon,Yayında,2,1,Ay Yapım,Show TV,15 Şubat 2022 - günümüz,120 dakika,Gökhan HorzumEkin Atalar,Çağrı Bayrak,Haluk BilginerTolga Sarıtaş,Güldiyar Tanrıdağlı,Kerem Çatay,,Televizyon dizisi
3,Canım Annem,Dram,YayındaGünlük dizi,10,1,Stellar YapımSaran Studios,TV8,14 Şubat 2022 - günümüz,50 dakika,Ahmet KöşeoğluGökhan KorkusuzSedef KayaMünevve...,Ece Tahtalıoğlu PertezEmrah Şendur,Selin SezginErol GedikGece Işık Demirel,Murat Evgin,İnci Gülen OarrJulia Berköz,,Televizyon dizisi
4,Erkek Severse,Romantik komedi,Yayında,12,1,Gold Film,beIN CONNECT,20 Ocak 2022 - günümüz,45 dakika,Aslı Zengin,Ömür Atay,Alperen DuymazBüşra DeveliYasemin AllenGörkem ...,Tuna Hizmetli,Faruk Turgut,Necmettin Akdeniz,İnternet dizisi
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
686,Çemberimde Gül Oya,DramPolitik,Final,40,1,Avşar Film,Kanal D,3 Eylül 2004 - 1 Temmuz 2005,75 dakika,Sertaç ErginNihan KüçükuralKerim CeylanFikret ...,Çağan Irmak,Selda AlkorÖzge ÖzberkMehmet Ali NuroğluTuba B...,,Şükrü AvşarBahadır Atay,,Televizyon dizisi
687,Çocuklar Ne Olacak,Aile Komedi Duygusal,Final,26,26,,Star TV,15 Eylül 2004 - 6 Mayıs 2005,,Metin Açıkgöz,Raşit Çelikezer,Ayşecan TatariFurkan KızılayÖzgür OzanZeyno Gü...,,Birol Güven,,Televizyon dizisi
688,Dadı,Komedi Sit-com,Final,61,61,Med Yapım,Show TV/Star TV,5 Ocak 2001 - 28 Ekim 2002,45 dakika,Erol Hızarcı,Fatih Aksoy Ebru Yalçın Yonca Güzelpınar,Gülben Ergen Kenan Işık Haldun Dormen Seray Se...,Hasan Baran,Sibel Tuna,,Televizyon dizisi
689,Deli Yürek,Aksiyon Dram Politik,Final,113,4,Sinegraf,Show TV / atv,5 Ekim 1998 - 24 Haziran 2002,60 dakika,Ömer Lütfi MeteRaci ŞaşmazBahadır ÖzdenerGüliz...,Osman Sınav,Kenan İmirzalıoğluZeynep Tokuş Melda BekcanDem...,Bora EbeoğluCengiz Onural,Mustafa Şevki Doğan,Fırat ŞenolKemal ŞanlıMurat ÜstünTevfik Şenol,Televizyon dizisi


In [15]:
final_table.to_csv("Turkish_TV_Series_Dataset.csv", encoding='utf-8', index=False, header=True)