In [1]:
import os
import csv

input_file = '../data/raw_data/football_teams.csv'
output_file = '../data/processed_data/football_teams_cleaned.csv'

try:
    os.makedirs(os.path.dirname(output_file), exist_ok=True)

    with open(input_file, mode='r', encoding='utf-8-sig') as infile, open(output_file, mode='w', newline='', encoding='utf-8-sig') as outfile:
        reader = csv.DictReader(infile)
        writer = csv.DictWriter(outfile, fieldnames=reader.fieldnames)
        
        writer.writeheader()
        valid_id = 1
        
        for row in reader:
            if (
                row['team_name'] == 'N/A' or
                row['team_info_link'] == 'N/A' or
                row['img_path'] == 'N/A' or
                row['total_squad_value'] == 'N/A'
            ):
                continue
            
            row['team_id'] = valid_id
            valid_id += 1
            writer.writerow(row)
    
    print(f"Temizlenmiş veri seti oluşturuldu: {output_file}")

except FileNotFoundError:
    print(f"Hata: {input_file} bulunamadı. Lütfen dosya yolunu kontrol edin.")
except Exception as e:
    print(f"Beklenmeyen bir hata oluştu: {e}")


Temizlenmiş veri seti oluşturuldu: ../data/processed_data/football_teams_cleaned.csv


In [2]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/football_teams.csv"
df = pd.read_csv(file_path)

# team_id sütununu 1'den başlayacak şekilde yeniden oluştur
df['team_id'] = range(1, len(df) + 1)

# Yenilenmiş DataFrame'i tekrar CSV olarak kaydet
output_path = "../data/raw_data/football_teams.csv"
df.to_csv(output_path, index=False)

print(f"team_id güncellendi ve dosya {output_path} konumuna kaydedildi.")


team_id güncellendi ve dosya ../data/raw_data/football_teams.csv konumuna kaydedildi.


## Raw Player for Scraping Players Data - FMInside.com

In [1]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/footballers.csv"
df = pd.read_csv(file_path)

# Sadece istenen sütunları seç
selected_columns = ['footballer_id', 'footballer_name']
df = df[selected_columns]

# Yenilenmiş DataFrame'i tekrar CSV olarak kaydet
output_path = "../data/processed_data/players_raw.csv"
df.to_csv(output_path, index=False)

print(f"Sadece {selected_columns} sütunları seçildi ve dosya {output_path} konumuna kaydedildi.")

Sadece ['footballer_id', 'footballer_name'] sütunları seçildi ve dosya ../data/processed_data/players_raw.csv konumuna kaydedildi.


## Players Dataset - Data Cleaning

In [1]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/players.csv"
df = pd.read_csv(file_path)

# Sadece istenen sütunları seç
selected_columns = ['player_id', 'footballer_id', 'footballer_name', 'rating', 'potential', 'position_acronym']
df = df[selected_columns]

# Tekrar eden 'footballer_id' değerlerini bul
duplicated_footballers = df[df['footballer_id'].duplicated(keep=False)]

# Sonuçları göster
print(duplicated_footballers)

      player_id  footballer_id footballer_name  rating  potential  \
37           38             38    Filip Kostić      73       78.0   
38           39             38    Filip Kostić      34       34.0   
72           73             74      João Mário      71       78.0   
73           74             74      João Mário      71       79.0   
74           75             74      João Mário      49       55.0   
...         ...            ...             ...     ...        ...   
1854       1855           1516      Emre Demir      38        NaN   
1855       1856           1516      Emre Demir      37       40.0   
1900       1901           1578    Mehmet Güneş      38       47.0   
1901       1902           1578    Mehmet Güneş      18       23.0   
1902       1903           1578    Mehmet Güneş      10       30.0   

          position_acronym  
37            WBL, ML, AML  
38                      ST  
72    MC, MR, ML, AML, AMC  
73                      DR  
74            AMR, AML, ST

In [2]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/players.csv"
df = pd.read_csv(file_path)

# Sadece istenen sütunları seç
selected_columns = ['player_id', 'footballer_id', 'footballer_name', 'rating', 'potential', 'position_acronym']
df = df[selected_columns]

# Tekrar eden 'footballer_id' değerlerini bul
duplicated_footballers = df[df['footballer_id'].duplicated(keep=False)]

# Tekrar eden benzersiz 'footballer_id' sayısını bul
unique_duplicated_footballer_ids = duplicated_footballers['footballer_id'].nunique()

# Sonucu göster
print(f"Tekrar eden benzersiz 'footballer_id' sayısı: {unique_duplicated_footballer_ids}")


Tekrar eden benzersiz 'footballer_id' sayısı: 115


In [5]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/players.csv"
df = pd.read_csv(file_path)

# Sadece istenen sütunları seç
selected_columns = ['player_id', 'footballer_id', 'footballer_name', 'rating', 'potential', 'position_acronym']
df = df[selected_columns]

# Tekrar eden 'footballer_id' değerlerini bul
duplicated_footballers = df[df['footballer_id'].duplicated(keep=False)]

# Benzersiz tekrar eden 'footballer_id' listesi
unique_duplicated_ids = duplicated_footballers['footballer_id'].unique()

# Her bir tekrar eden 'footballer_id' için ilgili satırları göster
for footballer_id in unique_duplicated_ids:
    print(f"\n--- footballer_id: {footballer_id} ---")
    print(duplicated_footballers[duplicated_footballers['footballer_id'] == footballer_id])

# Manuel işlem yapmak için veriyi CSV olarak kaydedebilirsiniz
output_file_path = "../data/processed_data/duplicate_players.csv"
duplicated_footballers.to_csv(output_file_path, index=False)
print(f"Manuel inceleme için dosya kaydedildi: {output_file_path}")



--- footballer_id: 38 ---
    player_id  footballer_id footballer_name  rating  potential  \
37         38             38    Filip Kostić      73       78.0   
38         39             38    Filip Kostić      34       34.0   

   position_acronym  
37     WBL, ML, AML  
38               ST  

--- footballer_id: 74 ---
    player_id  footballer_id footballer_name  rating  potential  \
72         73             74      João Mário      71       78.0   
73         74             74      João Mário      71       79.0   
74         75             74      João Mário      49       55.0   
75         76             74      João Mário      21       22.0   

        position_acronym  
72  MC, MR, ML, AML, AMC  
73                    DR  
74          AMR, AML, ST  
75                    DC  

--- footballer_id: 93 ---
    player_id  footballer_id footballer_name  rating  potential  \
92         93             93    Stefan Savic      71       78.0   
93         94             93    Stefan Savic  

In [8]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/raw_data/players.csv"
df = pd.read_csv(file_path)

# Kontrol edilecek 'player_id' değerleri
player_ids_to_keep = [
    38, 73, 93, 126, 126, 136, 146, 153, 179, 182, 204, 283, 293, 295, 314, 339, 355, 376,
    382, 402, 408, 418, 427, 471, 486, 518, 553, 554, 581, 601, 614, 629, 643, 652, 667, 707,
    724, 730, 736, 757, 765, 771, 785, 794, 800, 818, 888, 894, 934, 956, 964, 989, 1011,
    1027, 1031, 1036, 1054, 1077, 1084, 1095, 1106, 1120, 1124, 1153, 1160, 1168, 1177, 1188,
    1223, 1235, 1256, 1261, 1277, 1319, 1328, 1334, 1345, 1358, 1365, 1414, 1422, 1452, 1459,
    1474, 1514, 1519, 1530, 1540, 1545, 1572, 1588, 1625, 1635, 1657, 1679, 1696, 1703, 1705,
    1711, 1747, 1750, 1761, 1771, 1782, 1797, 1800, 1808, 1815, 1823, 1853, 1903
]

# Tekrar eden 'footballer_id' değerlerini bul
duplicated_footballers = df[df['footballer_id'].duplicated(keep=False)]

# Tekrar edenler arasında sadece verilen 'player_id' değerlerini tut
filtered_duplicated_footballers = duplicated_footballers[
    duplicated_footballers['player_id'].isin(player_ids_to_keep)
]

# Tekrar etmeyen 'footballer_id' satırlarını ekle
unique_footballers = df[~df['footballer_id'].duplicated(keep=False)]

# Sonuçları birleştir ve footballer_id'ye göre sırala
final_df = pd.concat([filtered_duplicated_footballers, unique_footballers])
final_df = final_df.sort_values(by='footballer_id', ascending=True)

# Sonuçları kaydet
output_file_path = "../data/processed_data/filtered_players.csv"
final_df.to_csv(output_file_path, index=False)

print(f"Filtrelenmiş ve sıralanmış veri kaydedildi: {output_file_path}")


Filtrelenmiş ve sıralanmış veri kaydedildi: ../data/processed_data/filtered_players.csv


In [9]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/processed_data/filtered_players.csv"
df = pd.read_csv(file_path)

# Sadece istenen sütunları seç
selected_columns = ['player_id', 'footballer_id', 'footballer_name', 'rating', 'potential', 'position_acronym']
df = df[selected_columns]

# Tekrar eden 'footballer_id' değerlerini bul
duplicated_footballers = df[df['footballer_id'].duplicated(keep=False)]

# Tekrar eden benzersiz 'footballer_id' sayısını bul
unique_duplicated_footballer_ids = duplicated_footballers['footballer_id'].nunique()

# Sonucu göster
print(f"Tekrar eden benzersiz 'footballer_id' sayısı: {unique_duplicated_footballer_ids}")


Tekrar eden benzersiz 'footballer_id' sayısı: 0


In [10]:
import pandas as pd

# CSV dosyasını oku
file_path = "../data/processed_data/filtered_players.csv"
df = pd.read_csv(file_path)

# Mevcut 'footballer_id' değerlerini al
existing_footballer_ids = df['footballer_id'].unique()

# 1'den 1585'e kadar olan 'footballer_id' değerlerini oluştur
all_footballer_ids = set(range(1, 1586))

# Eksik olan 'footballer_id' değerlerini bul
missing_footballer_ids = sorted(all_footballer_ids - set(existing_footballer_ids))

# Sonucu yazdır
print(f"Toplam eksik 'footballer_id' sayısı: {len(missing_footballer_ids)}")
print("Eksik 'footballer_id' değerleri:")
print(missing_footballer_ids)


Toplam eksik 'footballer_id' sayısı: 217
Eksik 'footballer_id' değerleri:
[70, 71, 78, 91, 110, 121, 130, 136, 150, 152, 154, 168, 183, 194, 197, 198, 199, 203, 221, 247, 268, 273, 285, 290, 302, 308, 338, 342, 357, 370, 386, 387, 395, 404, 409, 425, 430, 451, 464, 503, 511, 530, 533, 534, 539, 544, 547, 550, 558, 575, 576, 582, 583, 609, 610, 623, 624, 635, 640, 644, 647, 649, 650, 651, 660, 661, 674, 679, 687, 692, 694, 698, 703, 705, 707, 709, 710, 715, 722, 731, 737, 745, 748, 754, 758, 766, 768, 772, 776, 782, 785, 791, 804, 811, 826, 827, 834, 836, 837, 843, 851, 852, 863, 873, 874, 877, 878, 884, 889, 892, 894, 896, 900, 910, 912, 921, 928, 934, 935, 936, 939, 940, 946, 947, 956, 959, 961, 962, 968, 971, 972, 973, 980, 994, 1004, 1014, 1015, 1017, 1029, 1044, 1047, 1052, 1061, 1067, 1070, 1077, 1090, 1103, 1109, 1110, 1111, 1114, 1117, 1156, 1167, 1169, 1170, 1174, 1177, 1180, 1189, 1190, 1214, 1229, 1239, 1248, 1270, 1290, 1295, 1301, 1319, 1330, 1336, 1337, 1341, 1351, 1353, 1