In [1]:
import pandas as pd
import csv
import re
import numpy as np
import scipy as sp

import matplotlib.pyplot as plt
import seaborn as sns

pd.options.display.max_columns = 300
pd.options.display.max_rows = 300

%matplotlib inline

In [2]:
from modules import rename_dict as labels_names

In [3]:
df = pd.read_msgpack("../data/full_df.msgpack")

In [5]:
df["eth_group_to_code"].unique()

array(['тибетец', 'монгол', 'помор', 'калмык', 'украинец', 'кавказец',
       'сибиряк', 'жид', 'славянин', 'горец', 'великоросс', 'другой',
       'чукча', 'еврей', 'вепс', 'пермяк', 'цыган', 'узбек', 'тува',
       'грузин', 'азиат', 'хальмг', 'швед', 'татарин', 'русский', 'росс',
       'россиянин', 'крымчанин', 'чеченец', 'русскоязычный', 'немец',
       'москаль', 'поляк', 'австриец', 'казак', 'азербайджанец',
       'армянин', 'эскимос', 'таджик', 'черножопый', 'хохол', 'коми',
       'нерусь', 'уралец', 'басурманин', 'хач', 'дагестанец', 'карел',
       'осетин', 'итальянец', 'ингуш', 'перс', 'дигорец', 'грек', 'турок',
       'беларус', 'чурка', 'американец', 'казах', 'вайнах', 'ойрат',
       'абрек', 'адыг', 'кабардинец', 'узкоглазый', 'эстонец', 'русин',
       'монголоид', 'афганец', 'манси', 'японец', 'молдаванин', 'мариец',
       'бурят', 'европеец', 'западенец', 'аварец', 'кацап', 'француз',
       'гуцул', 'китаец', 'лезгин', 'латыш', 'ненец', 'прибалт',
       'испане

Можно аггрегировать по этноязыковым критериям: тюрки, славяне, персы и др.

Важно, что укрупнение должно строиться относительно взгляда россиян на них. Для россиян есть 
* народы из постсоветского пространства
    * Народы Кавказа
        * кавказец
        * горец
        * грузин
        * чеченец
        * азербайджанец
        * армянин
        * черножопый (и в средней Азии)
        * хач
        * дагестанец
        * осетин
        * ингуш
        * дигорец
        * чурка
        * вайнах
        * абрек?
        * адыг
        * кабардинец
        * аварец
        * лезгин
        * алан
        * даргинец
        * черкес
        * балкарец
        * карачаевец
        * кударец
        * лакец
        * абазин
        * абхаз
        * сван
        * мегрел
    * Тюркские народы до Урала
        * калмык
        * хальмг
        * татарин
        * ойрат
        * чуваш
        * башкир
        * кумык (или Кавказ)
        * ногаец (или Кавказ)
    * Прибалты (Балтийцы + Прибалтийско-финские народы)
        * эстонец
        * латыш
        * прибалт
        * литовец
        * карел
        * вепс
        * помор?
        * финн
    * Фино-угры
        * мариец
        * хант
        * манси
        * черемис
        * угр
        * удмурт
        * чухонец
        * саам
        * чудь
        * мордва
        * эрзя
        * мокша
    * Монголоиды за Уралом
        * тува
        * коми
        * монголоид
        * бурят
        * хакас
        * тунгус
        * алтаец
        * шорец
    * Дальний Восток
        * камчадал
        * нанаец
        * тунгус (Монголоиды за Уралом)
        * эвенк
        * коряк
        * алеут
    * Народы Крайнего Севера?
        * ненец
        * чукча (Дальний Восток)
        * эскимос (Дальний Восток)
        * якут (Монголоиды за Уралом, Дальний Восток)
    * Южные славяне, балканы
        * молдаванин
        * румын
        * македонец
        * серб
        * болгарин
        * албанец
        * мамалыжник
        * босниец
        * хорват
        * словак
        * черногорец
        * словенец
    * Западные славяне
        * поляк
        * чех
    * Восточные славяне
        * великоросс
        * украинец
        * русский
        * казак
        * хохол
        * москаль
        * росс
        * беларус
        * русин
        * западенец
        * кацап
        * гуцул
        * русня
        * малорос
        * салоед
        * русак
    * Среднеазиаты
        * узбек
        * таджик
        * чурка (и в кавказе)
        * казах
        * киргиз
        * туркмен
        * уйгур
        * чучмек
        * среднеазиат
        * джамшан
    * Другие малочисленные народы
* Народы не из РФ
    * «Коренная» Европа
        * немец
        * австриец
        * итальянец
        * грек
        * европеец
        * француз
        * испанец
        * швед
        * норвежец
        * англичанин
        * венгр (или угры)
        * мадьяр (или угры)
        * скандинав
        * ирландец
        * исландец
        * португалец
        * швейцарец
        * голландец
        * датчанин
        * бельгиец
        * киприот
        * фламандец
        * шотландец
    * Новый Свет
        * американец
        * мексиканец
        * латиноамериканец
        * канадец
        * кубинец
        * новозеландец
        * австралиец
        * перуанец
        * бразилец
        * аргентинец
    * Ближний Восток
        * перс
        * сириец
        * израильтянин
        * турок
        * курд
        * осман
        * иранец
        * ассириец
        * еврей
        * ливанец
        * палестинец
        * египтянин
        * фарси
        * ливиец
        * саудовец
        * пуштун
        * иракец
    * Восточная Азия
        * японец
        * китаец
        * кореец
        * южнокореец
        * маньчжур
        * северокореец
        * хань
        * монгол
    * Юго-Восточная Азия
        * вьетнамец
        * таец
        * филиппинец
        * малаец
    * Южная Азия
        * пакистанец (Большой Ближний Восток)
        * индиец
        * афганец (Большой Ближний Восток)
        * тибетец
    * Африка
        * эфиоп
        * алжирец (Большой Ближний Восток)
        * бербер
        * африканец
        * негр
        * зулус
        * темнокожий (не только в африке)
* Исторические
    
* Непонятно
    * сибиряк
    * жид
    * славянин
    * другой
    * пермяк — нет
    * цыган
    * азиат
    * россиянин
    * крымчанин
    * русскоязычный
    * нерусь
    * уралец
    * басурманин
    * узкоглазый
    * варяг
    * инородец
    * евразиец
    * кет
    * ксенофобия
    * папуас
    * гастарбайтер
    * нацмен
    * восточноевропеец
    * метис
    * караим
    * гагауз
    * тюрк
    * ариец
    * северянин
    * мулат
    * абориген
    * ашкенази
    * южанин