In [7]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
%matplotlib inline

In [8]:
original_dir = 'names'  # папка с исходными файлами
DATA_PATH = original_dir # 'C:\\names' 

In [9]:
# Откроем файл на чтение для проверки, выведем первые пять строк
open('names\yob1880.txt','r').readlines()[:5]

['Mary,F,7065\n',
 'Anna,F,2604\n',
 'Emma,F,2003\n',
 'Elizabeth,F,1939\n',
 'Minnie,F,1746\n']

In [10]:
names = pd.read_csv(os.path.join(DATA_PATH, 'yob1880.txt'), names=['Name','Pol','Count'])
# Запросим начало таблицы, чтобы убедиться, что всё работает.
names.head()

Unnamed: 0,Name,Pol,Count
0,Mary,F,7065
1,Anna,F,2604
2,Emma,F,2003
3,Elizabeth,F,1939
4,Minnie,F,1746


In [11]:
# Функция возвращает набор данных [имя, пол, кол.] по годам.
def all_years(years):
    all_years = [] # список, куда загрузим данные из всех файлов
    for year in range(1880, 2016+1):
        all_years.append(pd.read_csv(f'names\yob{year}.txt',
                        names = ['Name', 'Pol', 'Count'])
        ) # столбцы Name, Pol, Count
        all_years[-1]['Year'] = year # столбец Year
        all_names = pd.concat(all_years) # набор данных = конкатенации списка с помощью функции pd.concat().
    return all_names

In [12]:
all_years([1880])

Unnamed: 0,Name,Pol,Count,Year
0,Mary,F,7065,1880
1,Anna,F,2604,1880
2,Emma,F,2003,1880
3,Elizabeth,F,1939,1880
4,Minnie,F,1746,1880
5,Margaret,F,1578,1880
6,Ida,F,1472,1880
7,Alice,F,1414,1880
8,Bertha,F,1320,1880
9,Sarah,F,1288,1880


In [13]:
# Функция загружает указанные года и выводит ТОП-3 популярных имен. 
def get_top3(years):
    # сгруппируем данные по Name, суммируем кол-во данного Name
    group_names = all_years(years).groupby(['Name']).Count.sum().to_frame()
    # отсортируем по кол-ву и выведем 3 самых популярных имен
    top_names = group_names.sort_values('Count', ascending=False).head(3)
    # выведем список ТОП-3
    list_top_names = top_names.index.tolist()
    return list_top_names

In [14]:
get_top3([1880])

['James', 'John', 'Robert']

In [15]:
get_top3([1900, 1950, 2000])

['James', 'John', 'Robert']

In [40]:
# Функция возвращает динамику изменения количества имен за указанные года в разрезе полов.
def change_quantity_names(years):
    quantity_names = {}
    group_years = all_years(years)
    # сгруппируем данные по Year, суммируем кол-во данного Year
    dynamic_names_female = group_years[group_years.Pol=='F'].groupby('Year').Count.sum().to_frame()['Count']
    dynamic_names_male = group_years[group_years.Pol=='M'].groupby('Year').Count.sum().to_frame()['Count']
    # выведем в список
    quantity_names['F'] = dynamic_names_female.index.tolist()
    quantity_names['M'] = dynamic_names_male.index.tolist()
    return quantity_names

In [41]:
change_quantity_names([1900, 1950, 2000])

{'F': [1880,
  1881,
  1882,
  1883,
  1884,
  1885,
  1886,
  1887,
  1888,
  1889,
  1890,
  1891,
  1892,
  1893,
  1894,
  1895,
  1896,
  1897,
  1898,
  1899,
  1900,
  1901,
  1902,
  1903,
  1904,
  1905,
  1906,
  1907,
  1908,
  1909,
  1910,
  1911,
  1912,
  1913,
  1914,
  1915,
  1916,
  1917,
  1918,
  1919,
  1920,
  1921,
  1922,
  1923,
  1924,
  1925,
  1926,
  1927,
  1928,
  1929,
  1930,
  1931,
  1932,
  1933,
  1934,
  1935,
  1936,
  1937,
  1938,
  1939,
  1940,
  1941,
  1942,
  1943,
  1944,
  1945,
  1946,
  1947,
  1948,
  1949,
  1950,
  1951,
  1952,
  1953,
  1954,
  1955,
  1956,
  1957,
  1958,
  1959,
  1960,
  1961,
  1962,
  1963,
  1964,
  1965,
  1966,
  1967,
  1968,
  1969,
  1970,
  1971,
  1972,
  1973,
  1974,
  1975,
  1976,
  1977,
  1978,
  1979,
  1980,
  1981,
  1982,
  1983,
  1984,
  1985,
  1986,
  1987,
  1988,
  1989,
  1990,
  1991,
  1992,
  1993,
  1994,
  1995,
  1996,
  1997,
  1998,
  1999,
  2000,
  2001,
  2002,
  2003,
  2