# Программирование на Python 

# Основы работы в `pandas`


*Автор: Паршина Анастасия, НИУ ВШЭ (tg: @aaparshina)*

*Дополнила: Лика Капустина, НИУ ВШЭ (tg: @lika_kapustina)*

## Содержание

[Основы работы в `pandas`](#par1):
1. [Получение базовой информации о датафрейме](#par1.0)
1. [Фильтрация, сортировка](#par1.1);
2. [Создание новых признаков](#par1.2);
2. [Задача №1](#task1)
3. [Меры центральной тенденции и меры разброса](#par1.3);
4. [Группировка и агрегация данных](#par1.4);
5. [Задача №2](#task2);
6. [Дополнительные материалы](#parlast)

Давайте скачаем файлик [по ссылке](https://github.com/aaparshina/PROG_22-23/blob/main/DATA/wine.csv). Для этого нам нужно нажать `Raw` и затем комбинацию `Ctrl+S` или `Cmd+S`.

[Источник данных - Kaggle](https://www.kaggle.com/datasets/jarredpriester/california-wine-production-19802020).

**Производство вин в Калифорнии 1980 - 2020 гг.**

Данные содержат следующие признаки:

* `Year` - Год
* `County` - Округ, где произвели вино
* `CountyCode` - Номер округа
* `HarvestedAcres` - Собранные акры винограда
* `Yield` - Урожайность на акр
* `Production` - Произведенная продукция (в тоннах)
* `Price` - Цена в долларах за тонну продукции

## Основы работы в `pandas` <a name="par2"></a>

В этом разделе мы, очевидно, и близко не сможем разобрать вообще все. Попробуем сформулировать содержательные вопросы к нашим данным и посмотреть, с помощью каких интрументов возможно их проанализировать.

Обратите внимание – сейчас мы с вами будем работать с тем же файлом `.csv` что и на предыдущем семинаре (`PROG_07_upd.ipynb`). Однако, `pandas` представляет нам более удобные возможности по обработке и анализу наших данных.

In [7]:
import pandas as pd # импортируем pandas

data = pd.read_csv('https://raw.githubusercontent.com/aaparshina/PROG_22-23/main/DATA/wine.csv')
data.head() # первые 5 строк файла

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
0,2020,1,Alameda,2530.0,5.14,13000.0,1497.69
1,2020,5,Amador,5360.0,2.31,12400.0,1318.31
2,2020,9,Calaveras,579.0,3.06,1770.0,1325.99
3,2020,11,Colusa,747.0,6.02,4500.0,684.67
4,2020,13,ContraCosta,1940.0,4.69,9090.0,751.27


**Коротко разберем основной синтаксис `pandas`:**

* `data` - обращение к датафрейму `data`;
* `data['column']` - обращение к колонке `column` датафрейма `data`;
* `data['column'].method()` - применение метода `method` к колонке `column` в датафрейме `data`.

**Запомните: когда работаете с колонками – используете квадратные скобки `[]`, когда работаете с методами - круглые `.()`.**

In [12]:
data # обращаемся к всему датафрейму

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
0,2020,1,Alameda,2530.0,5.14,13000.0,1497.69
1,2020,5,Amador,5360.0,2.31,12400.0,1318.31
2,2020,9,Calaveras,579.0,3.06,1770.0,1325.99
3,2020,11,Colusa,747.0,6.02,4500.0,684.67
4,2020,13,ContraCosta,1940.0,4.69,9090.0,751.27
...,...,...,...,...,...,...,...
1310,1980,95,Solano,1138.0,3.99,4544.0,315.00
1311,1980,97,Sonoma,23639.0,3.34,78941.0,506.00
1312,1980,99,Stanislaus,17950.0,8.80,157900.0,183.00
1313,1980,107,Tulare,15159.0,8.88,134600.0,170.00


In [10]:
data['County'] # обращаемся к одному столбцу

0           Alameda
1            Amador
2         Calaveras
3            Colusa
4       ContraCosta
           ...     
1310         Solano
1311         Sonoma
1312     Stanislaus
1313         Tulare
1314           Yolo
Name: County, Length: 1315, dtype: object

In [14]:
data['County'].unique() # используем метод .unique() к столбцу 'County'

array(['Alameda', 'Amador', 'Calaveras', 'Colusa', 'ContraCosta',
       'ElDorado', 'Fresno', 'Kern', 'Kings', 'Lake', 'Madera', 'Marin',
       'Mendocino', 'Merced', 'Monterey', 'Napa', 'Nevada', 'Placer',
       'Riverside', 'Sacramento', 'SanBenito', 'SanBernardino',
       'SanDiego', 'SanJoaquin', 'SanLuisObispo', 'SanMateo',
       'SantaBarbara', 'SantaClara', 'SantaCruz', 'Shasta', 'Solano',
       'Sonoma', 'Stanislaus', 'Tehama', 'Tulare', 'Yolo', 'Mariposa',
       'Trinity', 'Mono', 'SanLuisObisp', 'Yuba', 'Glenn'], dtype=object)

<h3>Получение базовой информации о датафрейме</h3><a name='par1.0'></a>

Кратко обсудим, как можно получить базовую информацию о датафрейме:
* `df.shape` - возвращает кортеж (число строк, число столбцов в датафрейме);
* `df.dtypes` - возвращает информацию о типах данных в колонках;
* `df.columns` - возвращает названия колонок;
* `df.index` - возвращает значения, находящиеся в индексе;
* `df.isnull().sum()` - возвращает информацию о пропущенных значениях в колонках;
* `df.info()` - возвращает сводку о датафрейме.

In [47]:
data.shape # возвращает кортеж: (число строк, число столбцов)

(1315, 7)

In [49]:
data.dtypes # возвращает информацию о типах данных в колонках

Year                int64
CountyCode          int64
County             object
HarvestedAcres    float64
Yield             float64
Production        float64
Price             float64
dtype: object

In [51]:
data.isnull().sum() # возвращает информацию о числе пропущенных значений в колонках

Year               0
CountyCode         0
County             0
HarvestedAcres    13
Yield             49
Production        37
Price             37
dtype: int64

In [55]:
data.info() # возвращает сводную информацию о датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1315 entries, 0 to 1314
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Year            1315 non-null   int64  
 1   CountyCode      1315 non-null   int64  
 2   County          1315 non-null   object 
 3   HarvestedAcres  1302 non-null   float64
 4   Yield           1266 non-null   float64
 5   Production      1278 non-null   float64
 6   Price           1278 non-null   float64
dtypes: float64(4), int64(2), object(1)
memory usage: 72.0+ KB


**1.0 Сколько всего колонок в нашем датафрейме?**

In [52]:
data.shape[0] # обращаемся по индексу к первому значению кортежа, получаем ответ

1315

### Фильтрация, сортировка<a name="par1.1"></a>

Первые задачи, с которыми вы столкнетесь при работе с данными в `pandas` – задачи фильтрации и сортировки.

**1.1 Сколько всего округов, где производят вино?**

In [9]:
data['County'].unique() # .unique() выдает уникальные значения в столбце

array(['Alameda', 'Amador', 'Calaveras', 'Colusa', 'ContraCosta',
       'ElDorado', 'Fresno', 'Kern', 'Kings', 'Lake', 'Madera', 'Marin',
       'Mendocino', 'Merced', 'Monterey', 'Napa', 'Nevada', 'Placer',
       'Riverside', 'Sacramento', 'SanBenito', 'SanBernardino',
       'SanDiego', 'SanJoaquin', 'SanLuisObispo', 'SanMateo',
       'SantaBarbara', 'SantaClara', 'SantaCruz', 'Shasta', 'Solano',
       'Sonoma', 'Stanislaus', 'Tehama', 'Tulare', 'Yolo', 'Mariposa',
       'Trinity', 'Mono', 'SanLuisObisp', 'Yuba', 'Glenn'], dtype=object)

In [35]:
len(data['County'].unique()) # можем подсчитать их число

42

**1.2 Сколько всего округов когда-либо производило больше 500 000 тонн продукции?**

Далее синтаксис такой: `датафрейм[условие, по которому фильтруем][столбец, который используем]`.

**Для фильтрации используются те же логические операторы, которые мы с вами обсуждали**:
* `>` - больше;
* `>=` - больше или равно;
* `<` - меньше;
* `<=` - меньше или равно;
* `==` - равно;
* `!=` - неравно.
* `not` - отрицает предыдущий результат: `not False` это `True`, `not True` это `False`.

In [15]:
data['Production'] > 500000 # обращаемся к одному столбцу и задаем логическое выражение: значение больше 500 000

0       False
1       False
2       False
3       False
4       False
        ...  
1310    False
1311    False
1312    False
1313    False
1314    False
Name: Production, Length: 1315, dtype: bool

In [16]:
# фильтруем! Мы отбираем только те строки, где значения выше равные True
data[data['Production'] > 500000]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
6,2020,19,Fresno,56900.0,12.13,690000.0,362.14
23,2020,77,SanJoaquin,91200.0,6.67,608000.0,560.71
42,2019,19,Fresno,53500.0,13.83,740000.0,343.65
60,2019,77,SanJoaquin,95900.0,7.11,682000.0,546.14
80,2018,19,Fresno,59500.0,12.92,769000.0,373.14
...,...,...,...,...,...,...,...
893,1994,39,Madera,49706.0,10.18,506242.0,163.00
918,1993,19,Fresno,61022.0,10.93,667100.0,182.00
922,1993,39,Madera,50308.0,10.28,517405.0,185.00
947,1992,19,Fresno,77293.0,10.67,825100.0,195.00


In [18]:
data[data['Production'] > 500000]['County'].unique() # получили уникальные значения

array(['Fresno', 'SanJoaquin', 'Madera'], dtype=object)

In [38]:
len(data[data['Production'] > 500000]['County'].unique()) # посчитали число

3

**2. Сравните производство округа Калаверас (Calaveras) в 2000 и 2020 годах. Верно ли, что цена за тонну продукции увеличилась на 325 долларов?**

**Фильтрация с использованием нескольких логических условий требует, чтобы каждое условие вы помещали в новые мягкие скобки: `(условие 1) * (условие 2) и т.д.`.**

**Логическое *И* `&`**:
* `data[(data['first_column'] == first_value) & (data['second_column') == second_value)]` покажет те строки, в которых значение в колонке **`first_column` равно `first_value`** **И** значение в колонке **`second_column` равно `second_value`**.

**Логическое *ИЛИ* `|`**:
* `data[(data['first_column'] == first_value) | (data['second_column') == second_value)]` покажет те строки, в которых значение в колонке **`first_column` равно `first_value`** **ИЛИ** значение в колонке **`second_column` равно `second_value`**.


In [23]:
# Как работает логическое "И"?
# Выведем строки для округов за 2000 год, в котором Production больше 50 тысяч;
data[(data['Year'] == 2000) & (data['Production'] > 50000)]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
705,2000,19,Fresno,75139.0,11.12,835310.0,177.0
706,2000,29,Kern,46809.0,8.86,414680.0,187.0
709,2000,39,Madera,56410.0,9.92,559563.0,186.0
712,2000,45,Mendocino,12838.0,4.53,58106.0,1514.0
713,2000,47,Merced,14437.0,9.32,134583.0,288.0
714,2000,55,Napa,32365.0,4.23,136962.0,2464.0
717,2000,67,Sacramento,25024.0,7.1,177670.0,536.0
721,2000,77,SanJoaquin,80711.0,7.74,624800.0,473.0
722,2000,79,SanLuisObispo,18801.0,5.39,101430.0,1328.0
727,2000,97,Sonoma,42220.0,4.52,190789.0,2043.0


In [24]:
# Как работает логическое "ИЛИ"? 
# Выведем строки за 2000 или 2001 год.
data[(data['Year'] == 2000) | (data['Year'] == 2001)]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
670,2001,1,Alameda,3023.0,2.91,8797.0,1147.0
671,2001,9,Calaveras,470.0,2.72,1280.0,1200.0
672,2001,17,ElDorado,1244.0,2.87,3570.0,1209.0
673,2001,19,Fresno,76393.0,8.37,639180.0,167.0
674,2001,29,Kern,42511.0,7.12,302500.0,159.0
...,...,...,...,...,...,...,...
727,2000,97,Sonoma,42220.0,4.52,190789.0,2043.0
728,2000,105,Trinity,,,140.0,1204.0
729,2000,107,Tulare,27688.0,10.42,288490.0,207.0
730,2000,113,Yolo,9496.0,6.86,65143.0,627.0


Вернемся к вопросу: **2. Сравните производство округа Калаверас (Calaveras) в 2000 и 2020 годах. Верно ли, что цена за тонну продукции увеличилась на 325 долларов?**

In [22]:
# здесь у нас несколько условий для фильтрации
data[((data['Year'] == 2000) | (data['Year'] == 2020)) & (data['County'] == 'Calaveras')]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
2,2020,9,Calaveras,579.0,3.06,1770.0,1325.99
703,2000,9,Calaveras,470.0,3.6,1690.0,1000.0


**3. В каком году округ Колуса (Colusa) произвел наибольшее/наименьшее количество продукции?**

Отсортировать столбец нам поможет метод `.sort_values()` (обязательно в нем прописываем `by = ` т.е. столбец, по которому фильтруем).

Методы `.tail()` и `.head()` выдают нам низ и верх таблицы (мы указали 1, значит выдаст одну строку снизу и одну строку сверху).

In [42]:
data[data['County'] == 'Colusa'].sort_values(by = 'Production').tail(1)

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
291,2012,11,Colusa,2450.0,10.29,25200.0,594.56


In [43]:
data[data['County'] == 'Colusa'].sort_values(by = 'Production').head(1)

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price
3,2020,11,Colusa,747.0,6.02,4500.0,684.67


<h3>2. Создание новых признаков<a name='par1.2'></a></h3>

**4. Создайте столбец с выручкой округа (количество продукции в тоннах умножаем на цену за тонну). Какой округ заработал больше остальных в 1999 году?**

Для того чтобы создать новую колонку, мы обращаемся к новому столбцу в квадратных скобках:
* `data['new_column'] = выражение`.

Новые колонки можно создать самыми разными способами:
* `data['new_column'] = 0` - присвоить `0` всем значениям в колонке;
* `data['new_column'] = data['first_column'] + data['second_column']` - присвоить сумму по колонкам `first_column` и `second_column` (работают и другие операции - вычитание, умножение, деление и пр.;
* `data['new_column'] = data['first_column'].apply(function)` - присвоить результат применения функции `function` к колонке `first_column`;
* `data['new_column'] = data['first_column'].apply(lambda x: function(x))` - - присвоить результат применения функции `function` к колонке `first_column`;


In [34]:
data['Production'].apply(lambda x: x > 25000) # пример применения анонимной функции к колонке

0       False
1       False
2       False
3       False
4       False
        ...  
1310    False
1311     True
1312     True
1313     True
1314    False
Name: Production, Length: 1315, dtype: bool

In [26]:
data['Production'] * data['Price'] # выражение 

0       19469970.0
1       16347044.0
2        2347002.3
3        3081015.0
4        6829044.3
           ...    
1310     1431360.0
1311    39944146.0
1312    28895700.0
1313    22882000.0
1314     1349176.0
Length: 1315, dtype: float64

In [44]:
# Новая колонка Value = значению Production, умноженной на Price
data['Value'] = data['Production'] * data['Price']
data.head()

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
0,2020,1,Alameda,2530.0,5.14,13000.0,1497.69,19469970.0
1,2020,5,Amador,5360.0,2.31,12400.0,1318.31,16347044.0
2,2020,9,Calaveras,579.0,3.06,1770.0,1325.99,2347002.3
3,2020,11,Colusa,747.0,6.02,4500.0,684.67,3081015.0
4,2020,13,ContraCosta,1940.0,4.69,9090.0,751.27,6829044.3


По умолчанию `.sort_values()` сортирует от меньшего к большему, но если указать `ascending = False`, то будет наоборот.

In [45]:
data[data['Year'] == 1999].sort_values(by = 'Value', ascending = False).head(1)

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
752,1999,77,SanJoaquin,82012.0,6.69,548800.0,523.0,287022400.0


<h3><center><b>Задача №1: фильтрация, сортировка, создание новых признаков</b></center></h3><a name='task1'></a>
    
Датасет, с которым мы с вами будем работать – это информация о преподавателях ОП "Политология" в Вышке. Предварительно данные были отфильтрованы: исключены преподаватели дисциплин по английскому языку. Данные собраны со страниц преподавателей в Вышки и актуальны на январь 2024 года.

Прочитайте датасет по ссылке и сохраните его в переменную `tutors`. 

**Датасет имеет следующие колонки:**
* `name` - ФИО преподавателя;
* `is_master` – указана ли на личной странице у преподавателя магистерская степень или нет (1/0);
* `is_candidat` – указана ли на личной странице у преподавателя степень кандидата наук/PhD или нет (1/0);
* `year_start_in_hse` – год старта работы в Высшей школе экономики;
* `interests` – профессиональные интересы;
* `languages` - иностранные языки, которые знает преподаватель;
* `n_of_publications` - число публикаций преподавателя;
* `unique_courses` - название уникальных преподаваемых курсов;
* `link` - ссылка на страницу преподавателя на сайте Вышки.

In [104]:
tutors = pd.read_csv('https://raw.githubusercontent.com/lika1kapustina/POLIT_24/main/tutors.csv')

**1.1 Вы проходите практику во внутреннем аналитическом подразделении Вышки. Руководитель практики поручил вам задачу написать код, который позволит обрабатывать информацию о преподавателях Вышки и генерировать автоматический отчет. Напишите код, печатающий следующую информацию:**

* Число преподавателей, начавших работу в Вышке в 2023 году;
* Число преподавателей, у которых есть степень кандидата наук/PhD;
* Число преподавателей, у которых есть больше 5 публикаций или степень кандидата наук/PhD.

**Главное условие: вы не должны вписывать значения в f-строки вручную.**

**Пример:** если ваша задача – напечатать информацию о числе строк в датафрейме, для её решения вы можете напечатать:

```print(f"Число строк в датафрейме: {df.shape[0]}"```

Писать ```print(f"Число строк в датафрейме: 57")``` – некорректно.

In [None]:
print(f"Число преподавателей, начавших работу в Вышке в 2023 году: {#ВАШ ОТВЕТ ТУТ}")
print(f"Число преподавателей, у которых есть степень кандидата наук/PhD: {#ВАШ ОТВЕТ ТУТ}")
print(f"Число преподавателей, у которых есть больше 5 публикаций или степень кандидата наук/PhD {#ВАШ ОТВЕТ ТУТ}")

**1.2 После того, как вы успешно справились с задачей, руководитель практики предложил вам обработать ваши данные и вывести дополнительную информацию о преподавателях:**

* **Напишите функцию, которая позволяет подсчитать число иностранных языков, которые знает преподаватель**;

* **Сохраните результат вычислений в новую колонку `n_of_languages`;**

* **Используя метод `.value_counts()`, выведите информацию о распределении числа иностранных языков.**

*Подсказка: обратите внимание, что строка с информацией о языках разделена запятой без пробела.*

*Подсказка: справка по методу `.value_counts()` доступна по [ссылке](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html)*.

In [122]:
# YOUR CODE HERE

**1.3 <font color='blue'>Задача со звездочкой – для тех, кто быстро решил предыдущие</font> Подумайте, как на основе имеющегося датафрейма можно получить переменную `gender`? Предположим, что в ней могут быть три значения: "мужской", "женский", и "не идентифицировано". Используйте именнованную или анонимную функцию и сохраните результат в новую колонку `gender`.**

In [None]:
# YOUR CODE HERE

### Меры центральной тенденции и меры разброса <a name="par1.3"></a>

Вернемся к обсуждению датасета `data` о производстве вина в Калифорнии.

**Мера центральной тенденции – статистическая величина, позволяющая характеризовать целый набор данных одним числом. Есть следующие меры центральной тенденции:**

* `.mean()` - среднее значение: рассчитывается как сумма значений, деленная на число значений;
* `.median()` - медиана: значение, меньше которого и больше которого находится равное число наблюдений (по половине);
* `.mode()` - мода: наиболее частое значение переменной.

**Другие значения, которые можно получить, обратившись к колонке:**
* `.min()` - минимальное значение;
* `.max()` - максимальное значение.

**5. Какова средняя урожайность на акр в 2020 году?**

In [56]:
data[data['Year'] == 2020]['Yield'].mean()

5.260833333333333

**6. Выберите только 2015 год. Найдите выбросы по переменной, отвечающей за количество собранных акров винограда, используя межквартильный размах. Какие округи попадают в выбросы?**

--- 
**Межквартильный размах** – мера вариативности распределения величины. Рассчитывается на основании расстояния между первым (уровень 0.25) и третьим (уровень 0.75) квантилями. Значения, находящиеся за пределами 1.5 межквартильных расстояний от первого и третьего квантиля, считаются **выбросами**.

**Квантиль** – значение, которое заданная случайная величина не превышает с какой-то вероятностью. *Например: для переменной `year_start_in_hse` первый квантиль (уровень 0.25) равен 2011: это означает, что 25% преподавателей начали работать до 2011 года или в 2011 году. Соответственно, 75% преподавателей начали работать после 2011 года.*

**Выбросы** – нетипичные наблюдения. *Например, если в какой-то стране рост ВВП в 2024 году составил 30%, а обычно составлял 2-3%, это значение скорее всего может быть отмечено как выброс.*

In [48]:
data_15 = data[data['Year'] == 2015]
q1 = data_15['HarvestedAcres'].quantile(0.25) # квантиль уровня 0.25: 25% значений не превышают
q3 = data_15['HarvestedAcres'].quantile(0.75)

iqr = q3-q1

bottom = q1 - 1.5 * iqr
top = q3 + 1.5 * iqr

data_15[data_15['HarvestedAcres'] > top]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
207,2015,77,SanJoaquin,97900.0,6.23,610000.0,576.15,351451500.0


**7. Посчитайте среднее и медиану по цене за тонну до и после удаления выбросов (предыдущий пункт). Как изменились меры?**

In [49]:
no_outliners = data_15[data_15['HarvestedAcres'] <= top]

print(data_15['HarvestedAcres'].mean(), data_15['HarvestedAcres'].median())
print(no_outliners['HarvestedAcres'].mean(), no_outliners['HarvestedAcres'].median())

15939.657142857142 4120.0
13529.058823529413 3725.0


**8. В каком году и каким округом было произведено максимальное/минимальное количество продукции?**

In [50]:
data[data['Production'] == data['Production'].max()]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
436,2008,19,Fresno,69631.0,14.94,1040100.0,250.93,260992293.0


In [51]:
data[data['Production'] == data['Production'].min()]

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
1225,1983,57,Nevada,,,23.0,500.0,11500.0


**9. Верно ли, что округ Фресно (Fresno) с 1980 года стабильно производит продукцию больше медианного показателя?**

In [52]:
med = data[data['Production'] > data['Production'].median()]
med[med['County'] == 'Fresno']

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value
6,2020,19,Fresno,56900.0,12.13,690000.0,362.14,249876600.0
42,2019,19,Fresno,53500.0,13.83,740000.0,343.65,254301000.0
80,2018,19,Fresno,59500.0,12.92,769000.0,373.14,286944660.0
117,2017,19,Fresno,59700.0,13.32,795000.0,361.02,287010900.0
153,2016,19,Fresno,75500.0,10.0,755000.0,382.85,289051750.0
189,2015,19,Fresno,60200.0,12.79,770000.0,312.55,240663500.0
223,2014,19,Fresno,58700.0,11.24,660000.0,391.95,258687000.0
257,2013,19,Fresno,54571.0,13.12,716000.0,409.68,293330880.0
293,2012,19,Fresno,86700.0,10.38,900000.0,385.48,346932000.0
329,2011,19,Fresno,68900.0,13.13,905000.0,335.5,303627500.0


**10. В столбце Yield заполните пропущенные значения нулями. Затем создайте новый признак со значением 0 или 1, где 0 — урожайность ниже среднего значения, а 1 — урожайность выше среднего. Каких округов больше? Какой округ во все года попадал в категорию 0 (урожайность ниже среднего значения)?**

**Справка:** `.fillna()` – метод `pandas`, позволяющий заменить значения `NA` на определенное значение: можно заменить на 0, на среднее значение по столбцу, на строку, и так далее. Документация доступна по [ссылке](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html).

In [53]:
data['Yield'] = data['Yield'].fillna(0)
data['Yield_0_1'] = data['Yield'].apply(lambda x: 0 if x < data['Yield'].mean() else 1)
data.head()

Unnamed: 0,Year,CountyCode,County,HarvestedAcres,Yield,Production,Price,Value,Yield_0_1
0,2020,1,Alameda,2530.0,5.14,13000.0,1497.69,19469970.0,1
1,2020,5,Amador,5360.0,2.31,12400.0,1318.31,16347044.0,0
2,2020,9,Calaveras,579.0,3.06,1770.0,1325.99,2347002.3,0
3,2020,11,Colusa,747.0,6.02,4500.0,684.67,3081015.0,1
4,2020,13,ContraCosta,1940.0,4.69,9090.0,751.27,6829044.3,0


In [54]:
data['Yield_0_1'].value_counts()

0    838
1    477
Name: Yield_0_1, dtype: int64

In [55]:
data[data['Yield_0_1'] == 0]['County'].value_counts()

Napa             41
Sonoma           40
Calaveras        40
SanDiego         39
SanBernardino    39
Amador           38
SanBenito        37
Riverside        37
SantaClara       37
SantaCruz        36
Nevada           35
Mendocino        35
Alameda          34
Lake             34
SantaBarbara     34
ElDorado         32
Mariposa         30
Monterey         29
SanMateo         28
Placer           28
SanLuisObispo    27
Solano           25
Marin            22
Trinity          20
Yuba             14
Shasta           12
ContraCosta       7
Tehama            2
Mono              2
SanLuisObisp      1
SanJoaquin        1
Yolo              1
Sacramento        1
Name: County, dtype: int64

<h3>Группировка и агрегация данных</h3><a name='par1.4'></a>

`pandas` позволяет нам считать разные меры центральной тенденции и другие статистики не только в разрезе колонок, но и на основе группировки по какому-то признаку. *Например, если данные по вину организованы так, что представляют записи о производстве вина в разных округах, мы можем сгруппировать их по округу и получить информацию о среднем производстве вина за все годы.*

**Синтаксис `.groupby()` выглядит следующим образом:**

* `датасет.groupby('признак, по которому группируем')['колонка, которая нас интересует'].метод()`

Справка по `.groupby()` доступна по [ссылке](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

**11. Какой округ Калифорнии за 1980-2020 года в среднем производила больше всего вина?**

In [141]:
data.groupby('County')['Production'].mean().sort_values()

County
Mono                 83.000000
Mariposa             94.933333
Trinity             163.666667
Marin               225.318182
Yuba                303.785714
Shasta              398.083333
Placer              495.678571
Tehama              618.666667
SantaCruz           948.527778
Nevada              979.405405
SanDiego           1138.195122
Calaveras          1237.125000
ElDorado           3981.757576
SanBernardino      4422.658537
SantaClara         5098.486486
Glenn              5906.000000
ContraCosta        6986.363636
Alameda            8030.975610
Riverside          8551.487805
Amador             9803.589744
SanBenito         12894.512195
Solano            13089.926829
Colusa            16540.000000
Lake              23012.536585
Kings             30788.292683
SantaBarbara      53273.666667
Yolo              53633.146341
Mendocino         55905.205128
SanLuisObispo     92229.270270
Merced           117435.414634
Napa             127186.926829
Sacramento       133651.658537
S

**Если вы хотите посчитать сразу несколько статистик на основе группирующего признака, используйте метод `.agg()`:**

**Синтаксис использования `.agg()` может сильно отличаться. Один из возможных вариантов:**

* `датафрейм.groupby('признак, по которому группируем')['признак, который нас интересует'].agg(['первое значение', 'второе значение'])`

Справка по `.agg()` и все варианты синтаксиса доступны по [ссылке](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.core.groupby.DataFrameGroupBy.agg.html).

**12. Какие максимальные и минимальные значения производства вина для округов Калифорнии?**

In [144]:
data.groupby('County')['Production'].agg(['min', 'max'])

Unnamed: 0_level_0,min,max
County,Unnamed: 1_level_1,Unnamed: 2_level_1
Alameda,3253.0,18100.0
Amador,2957.0,18200.0
Calaveras,40.0,3200.0
Colusa,4500.0,25200.0
ContraCosta,1410.0,12900.0
ElDorado,278.0,7020.0
Fresno,280300.0,1040100.0
Glenn,5906.0,5906.0
Kern,190000.0,452000.0
Kings,6215.0,63100.0


<h3>Задача №2</h3><a name='task2'></a>

Вернитесь к датасету `tutors` с информацией о преподавателях ОП "Политология".

**2.1 Представим, что ваша практика продолжается. Руководитель практики сообщил вам, что ему нужен код, генерирующий автоматический отчет в следующем формате:**

* Доля преподавателей с кандидатской степенью/PhD;
* Среднее число публикаций у преподавателя;
* Медианный год старта работы в Вышке;
* Самое часто встречающееся имя преподавателя.

**Главное условие: вы не должны вписывать значения в f-строки вручную.**

**Пример:** если ваша задача – напечатать информацию о числе строк в датафрейме, для её решения вы можете напечатать:

```print(f"Число строк в датафрейме: {df.shape[0]}"```

In [None]:
print(f"Доля преподавателей с кандидатской степенью/PhD: {#ВАШ ОТВЕТ ТУТ}")
print(f"Среднее число публикаций у преподавателя: {#ВАШ ОТВЕТ ТУТ}")
print(f"Медианный год старта работы в Вышке: {#ВАШ ОТВЕТ ТУТ}")
print(f"Самое популярное имя преподавателя: {#ВАШ ОТВЕТ ТУТ}")

**2.2 После предыдущей задачи вам приходит последняя на сегодня: проанализировать данные о преподавателях в гендерном разрезе**. Вам нужно **посчитать** и **описать результаты словами** для следующего признака:

* Число публикаций – минимальное, максимальное значение, среднее и медиана.

In [None]:
# YOUR CODE HERE

<font color=blue>Подумайте и поррасуждайте в тексте, почему в ячейке выше вы наблюдаете такие значения – с какими явлениями это может быть связано?. Как вы думаете, кто попал в категорию "не идентифицировано"?</font>

**Ваш ответ тут.**

## Дополнительные материалы <a name="parlast"></a>

+ Про открытие файлов в Python [PythonRU](https://pythonru.com/osnovy/fajly-v-python-vvod-vyvod)
+ Как работают кодировки текста. [Статья на Хабр](https://habr.com/ru/post/478636/)
+ [Документация `pandas`](https://pandas.pydata.org/docs/reference/general_functions.html)
+ [100 pandas puzzles: упражнения на работу с pandas](https://github.com/ajcr/100-pandas-puzzles)