In [9]:
import pandas as pd
import glob

df_list = []

number_of_chunks = len(glob.glob("train/data*.csv"))
for i in range(number_of_chunks):
    df_list.append(
        pd.read_csv(f"train/data_{i}.csv", sep="|", engine="python", quotechar='"', on_bad_lines="warn")
    )
train_df = pd.concat(df_list, axis=0)

test_df = pd.read_csv("test/data.csv", sep="|")

In [2]:
numeric_sem_types = [
    "ввп",
    "вес",
    "возраст",
    "высота",
    "год",
    "количество",
    "население",
    # "период",
    "площадь",
    # "продолжительносmaskть",
    "размер",
    "расстояние",
]

In [None]:
mask = test_df["label"] == numeric_sem_types[4]
test_df[mask]

In [3]:
numeric_mask = test_df["label"].isin(numeric_sem_types)
test_df[numeric_mask]

Unnamed: 0,table_id,column_id,label_id,label,column_data
1,dataset/Dataset/data/2377813/table_3,0,22,год,2005 2005 2005 2005 2005 2006 2006 2007 2007 2...
10,dataset/Dataset/data/3376091/table_0,0,22,год,1961—1963 1978—1991 1980—1982 2011 2012—2013
16,dataset/Dataset/data/8768180/table_2,0,22,год,2018
18,dataset/Dataset/data/4235173/table_0,0,22,год,2003 2003 2003 2004 2004 2004 2005 2005 2005 2...
22,dataset/Dataset/data/4464249/table_50,5,15,вес,"33,3 кг"
...,...,...,...,...,...
72028,dataset/Dataset/data/688561/table_0,1,52,количество,1 2
72036,dataset/Dataset/data/4330260/table_0,1,22,год,1979 1980 1981 1982 1983 1984 1985 1986 1987 1...
72042,dataset/Dataset/data/1498917/table_4,0,22,год,1981 1991 2001 2013 2016 2018
72046,dataset/Dataset/data/7779067/table_0,1,22,год,1942 1943 1947 1949 1950 1951 1952 1953 1955 1...


## Statistics

In [64]:
def get_stats(df: pd.DataFrame) -> dict:
    stats = dict()
    
    stats["columns"] = df.shape[0]
    stats["tables"] = df["table_id"].unique().shape[0]
    stats["columns_per_table"] = stats["columns"] / stats["tables"]

    count_table_size = {}
    for table_id, table in df.groupby("table_id"):
        num_cols = table.shape[0]
        if num_cols in count_table_size:
            count_table_size[num_cols] = count_table_size[num_cols] + 1
        else:
            count_table_size[num_cols] = 1
    stats["most_frequent_column_size"] = {k: v for k, v in sorted(count_table_size.items(), key=lambda item: item[1], reverse=True)[:10]}
    stats["least_frequent_column_size"] = {k: v for k, v in sorted(count_table_size.items(), key=lambda item: item[1], reverse=True)[-10:]}

    stats["most_frequent_labels"] = df["label"].value_counts()[:10].to_dict()
    stats["least_frequent_labels"] = df["label"].value_counts()[-10:].to_dict()

    return stats

In [53]:
train_df

Unnamed: 0,table_id,column_id,label_id,label,column_data
0,dataset/Dataset/data/1000006/table_0,0,145,театр,Театр им. Евгения Вахтангова (Москва) Театр им...
1,dataset/Dataset/data/1000006/table_0,1,110,пьеса,Дневник Анны ФранкФрэнсис Гудрич и Альберт Хак...
2,dataset/Dataset/data/1000006/table_0,4,101,примечание,видеофрагмент видеофрагмент телеспектакль виде...
3,dataset/Dataset/data/1000006/table_1,2,73,название,"Кулагин и партнёры Люба, дети и завод… Врачебн..."
4,dataset/Dataset/data/1000006/table_1,0,22,год,2004—2013 2006 2006 2006 2008 2007 2007 2008 2...
...,...,...,...,...,...
65198,dataset/Dataset/data/999985/table_0,7,66,место,1 2 2 1 1 3 3 2 1
65199,dataset/Dataset/data/999987/table_0,6,118,результат,7½ из 9 Нокаут-система 6½ из 9 8 из 11 6½ из 1...
65200,dataset/Dataset/data/999987/table_0,0,22,год,2002 2004 2010 2012 2012 2013 2014 2016 2018
65201,dataset/Dataset/data/999987/table_0,7,66,место,1 2 2 1 1 3 3 2 1


In [67]:
test_df

Unnamed: 0,table_id,column_id,label_id,label,column_data
0,dataset/Dataset/data/5340234/table_0,0,49,клуб,Алмалык Андижан Бунёдкор Бухара Динамо Коканд ...
1,dataset/Dataset/data/2377813/table_3,0,22,год,2005 2005 2005 2005 2005 2006 2006 2007 2007 2...
2,dataset/Dataset/data/881108/table_3,2,72,награда,Лауреат XI Всесоюзного кинофестиваля в Ереване...
3,dataset/Dataset/data/1013249/table_2,4,144,сценарист,Дж. Майкл Стражински Дж. Майкл Стражински Ларр...
4,dataset/Dataset/data/6867415/table_3,0,87,период,04.1945 — 07.1945 07.1945 — 1947 1947 — 1977 1...
...,...,...,...,...,...
72062,dataset/Dataset/data/3058088/table_0,2,73,название,Поступление Тусовщики Экстази Целуя Джессику С...
72063,dataset/Dataset/data/7996420/table_5,2,73,название,«Сад смерти»(англ. «Garden of death») Семейств...
72064,dataset/Dataset/data/8783283/table_2,3,66,место,6.0
72065,dataset/Dataset/data/2366647/table_12,1,25,группа,"«Heart of Glass» Blondie Джейми, Илиза, и Касс..."


In [65]:
get_stats(train_df)

{'columns': 1369282,
 'tables': 674101,
 'columns_per_table': 2.031271278339596,
 'most_frequent_column_size': {1: 285300,
  2: 188171,
  3: 126987,
  4: 52601,
  5: 16504,
  6: 2992,
  7: 640,
  8: 262,
  9: 183,
  18: 108},
 'least_frequent_column_size': {33: 3,
  27: 2,
  20: 2,
  39: 2,
  34: 2,
  28: 1,
  29: 1,
  21: 1,
  40: 1,
  37: 1},
 'most_frequent_labels': {'год': 237494,
  'название': 176217,
  'место': 107291,
  'дата': 100346,
  'команда': 77572,
  'результат': 54445,
  'примечание': 50195,
  'актер': 40242,
  'страна': 38003,
  'турнир': 34298},
 'least_frequent_labels': {'журнал': 94,
  'животное': 92,
  'роман': 92,
  'префектура': 90,
  'фирма': 89,
  'борец': 88,
  'дорога': 88,
  'музей': 86,
  'колледж': 85,
  'цитата': 81}}

In [66]:
get_stats(test_df)

{'columns': 72067,
 'tables': 68932,
 'columns_per_table': 1.0454796030871003,
 'most_frequent_column_size': {1: 65905, 2: 2925, 3: 98, 4: 2, 5: 2},
 'least_frequent_column_size': {1: 65905, 2: 2925, 3: 98, 4: 2, 5: 2},
 'most_frequent_labels': {'год': 12376,
  'название': 9343,
  'место': 5699,
  'дата': 5290,
  'команда': 4113,
  'результат': 2938,
  'примечание': 2643,
  'актер': 2152,
  'страна': 1968,
  'турнир': 1788},
 'least_frequent_labels': {'структура': 3,
  'флаг': 3,
  'лес': 3,
  'префектура': 3,
  'цитата': 2,
  'спорт': 2,
  'работодатель': 2,
  'фирма': 2,
  'закон': 2,
  'дорога': 1}}

In [1]:
# sem_types = pd.read_csv("sem_types.csv")
# i = 20 + 20 + 20
# sem_types["label"].to_list()[i:i+20]