# Привет! Это твоя личная инструкция по Pandas ;)


Документация [Pandas](https://pandas.pydata.org/pandas-docs/stable/)

!!! Прежде чем переходить по ссылкам, необходимо запустить две нижние ячейки с импортом pandas и загрузкой файла-образца, на котором будут разобраны мини-задачки

In [2]:
import pandas as pd
import numpy as np

In [3]:
students_performance =  pd.read_csv('StudentsPerformance.csv')

## Содержание

#### [1. Беглый анализ файла. Простейшие статистики](#Беглый-анализ-файла.-Простейшие-статистики)
   * Как посмотреть числовые статистики: mean, std, min, max
   * Как посмотреть, какие встречаются типы данных

#### [2. Отбор нужных строк и столбцов в датафрейме по их номерам или названиям](#Отбор-нужных-строк-и-столбцов-в-датафрейме-по-их-номерам-или-названиям)
   * Как обратиться по индексам строк и столбцов
   * Как обратиться по именам строк и столбцов

#### [3. Создание нового датафрейма](#Создание-нового-датафрейма)
   * Создание нового датафрейма ограничением имеющегося
   * Создание нового датафрейма с помощью объединения серий
   * Создание нового датафрейма с помощью имеющегося словаря
   * Создание нового датафрейма с помощью имеющегося двумерного массива

#### [4. В чем разница между Pandas.Dataframes и Pandas.Series](#В-чем-разница-между-Pandas.Dataframes-и-Pandas.Series)
#### [5. Быстрое переименовывание стоблцов. Быстрый отбор по названиям](#Быстрое-переименовывание-столбцов)
   * Как проставить нижнее подчеркивание ко всем столбцам, или переименовать поудобнее
   * Как обратиться только к столбцам с соответствующей меткой в названии

#### [6. Фильтрация данных](#Фильтрация-данных)
   * Стандартная фильтрация посредством **.loc**
   * Как оставить значения по столбцу выше среднего (или другой статистики)
   * Объединение ограничений
   * [Метод query](#Фильтрация-с-помощью-метода-query)

#### [7. Группировка и агрегация данных](#Группировка-и-агрегация-данных)
   * Агрегация данных по группе
   * Многоуровневое индексирование
   * Поиск топ-элементов по группам
   
#### [8. Добавление и удаление новых столбцов в датафрейм](#Добавление-и-удаление-новых-столбцов)
   * Добавление столбцов и строк. Удаление
   * Множественное изменение

#### [9. Изменение данных (замена наблюдений)](#Изменение-данных)
   * Заполнение всех пропущенных значений нулями
   * Заполнение значений с условием на медианные или средние
   * Удаление дубликатов

### Беглый анализ файла. Простейшие статистики

Как правило, первое действие при работе с данными - визуальный просмотр того, что вообще имеем :) Стандартное действие - просмотр шапки из первых n строк с помощью метода **pd_dataframe.head(n)**

In [7]:
students_performance.head(5)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Ответы на многие простейшие числовые статистики дает метод **pd_dataframe.describe()**

In [8]:
students_performance.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


Конечно же, полезно знать, с какими типами данным нам придется работать. Поможет атрибут **.dtypes**

In [9]:
students_performance.dtypes 

gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object

Интересует объем таблицы? Воспользуйся атрибутом **.shape** (размер таблицы) или **.size** (число ячеек)

In [16]:
a = students_performance.shape
b = students_performance.size
print(a)
print(b)

c = students_performance.shape[0]
d = students_performance.shape[1]
print(c)
print(d)

(1000, 8)
8000
1000
8


### Отбор нужных строк и столбцов в датафрейме по их номерам или названиям

Отбор необходимых строк и столбцов, используя их порядковые номера (отбор по индексам, помогает **iloc**)
В примере ниже запросим отобрать первые три столбца и первые две строки

In [17]:
students_performance.iloc[0:2, 0:3]

Unnamed: 0,gender,race/ethnicity,parental level of education
0,female,group B,bachelor's degree
1,female,group C,some college


Вообще говоря, можно перечислить строки и столбцы в списке:

P.S. Можно обращаться к строкам или столбцам с помощью отрицательных индексов

In [19]:
students_performance.iloc[[0, 3, 10], [0, 5, -1]]

Unnamed: 0,gender,math score,writing score
0,female,72,74
3,male,47,44
10,male,58,52


В pandas есть абсолютно идентичный способ обратиться к необходимым столбцам и строкам, работающий по их именам (**loc**)

In [27]:
students_performance.loc[[2, 5, 7], ["gender", "lunch"]]

Unnamed: 0,gender,lunch
2,female,standard
5,female,standard
7,male,free/reduced


In [20]:
students_performance.index # коллекция с индексом все строк

RangeIndex(start=0, stop=1000, step=1)

In [21]:
students_performance.columns # названия колонок

Index(['gender', 'race/ethnicity', 'parental level of education', 'lunch',
       'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

In [16]:
students_performance.get_dtype_counts() # серия с числом колонок каждого типа

int64     3
object    5
dtype: int64

### Создание нового датафрейма

Если мы хотим создать маленький датафрейм из того, что у нас уже есть, мы можем это сделать с помощью обычного присваивания и различных ограничений, например, **iloc** 

In [24]:
students_performance_with_names = students_performance.iloc[[0, 3, 4, 7, 8]]
students_performance_with_names

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67


Можем поменять индексы строк на конкретные имена с помощью **index**

In [25]:
students_performance_with_names.index = ["Cersei", "Tywin", "Gregor", "Joffrey", "Ilyn Payne"]

In [28]:
students_performance_with_names

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
Cersei,female,group B,bachelor's degree,standard,none,72,72,74
Tywin,male,group A,associate's degree,free/reduced,none,47,57,44
Gregor,male,group C,some college,standard,none,76,78,75
Joffrey,male,group B,some college,free/reduced,none,40,43,39
Ilyn Payne,male,group D,high school,free/reduced,completed,64,64,67


Убедимся, что **loc** работает со строками по именам

In [29]:
students_performance_with_names.loc[["Cersei", "Joffrey"], ["gender", "writing score"]] # loc работает по именам

Unnamed: 0,gender,writing score
Cersei,female,74
Joffrey,male,39


Создание датафрейма как **объединение серий**:

In [38]:
my_series_1 = pd.Series([1, 2, 3], index=["First", "Second", "Third"])
my_series_2 = pd.Series([4, 5, 6], index=["First", "Second", "Third"])
pd.DataFrame({"col_name_1": my_series_1, "col_name_2": my_series_2})

Unnamed: 0,col_name_1,col_name_2
First,1,4
Second,2,5
Third,3,6


In [39]:
my_series_3 = pd.Series([10, 20, 30])
my_series_4 = pd.Series([40, 50, 60])
pd.DataFrame({"scores": my_series_3, "points": my_series_4})

Unnamed: 0,scores,points
0,10,40
1,20,50
2,30,60


Создание датафрейма с помощью имеющегося **словаря**. Конечно же, внутрь **pd.DataFrame** можно засунуть переменную со словарем

In [23]:
my_data = pd.DataFrame({"type": ["A", "A", "B", "B"], "value": [10, 14, 12, 23]})
my_data

Unnamed: 0,type,value
0,A,10
1,A,14
2,B,12
3,B,23


Создание датафрейма с помощью имеющегося **двумерного массива**. Конечно же, внутрь **pd.DataFrame** можно засунуть переменную с двумерным массивом

In [24]:
my_data_2 = pd.DataFrame([['A', 10], ['A',14], ['B',12], ['B', 23]], columns = ['type', 'value'])
my_data_2

Unnamed: 0,type,value
0,A,10
1,A,14
2,B,12
3,B,23


### В чем разница между Pandas.Dataframes и Pandas.Series

Попытаемся взять только первый столбец из датафрейма, увидим, что структура вывода совершенно иная.

In [None]:
students_performance_with_names = students_performance.iloc[[0, 3, 4, 7, 8]]

In [30]:
students_performance_with_names.iloc[:, 0]

Cersei        female
Tywin           male
Gregor          male
Joffrey         male
Ilyn Payne      male
Name: gender, dtype: object

Как видим, у таблицы и столбца - разные типы данных. Таким образом, многомерный массив - это датафрейм, а одномерные массивы - это серии. Pandas датафреймы состоят из серий.

In [31]:
print(type(students_performance_with_names)) # это датафрейм
print(type(students_performance_with_names.iloc[:, 0])) # это серия - это одномерный массив

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


Создадим еще одну серию (массив значений с именами для значений) с помощью **.Series**. Каждая из серий имеет ключ - название столбца. Еще раз подытожим: пандовский датафрейм - это объединение серий

In [33]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [32]:
pd.Series([1, 2, 3], index=["Cersei", "Tywin", "Gregor"]) # создадим серию (массив значений с именами для значений)
# т.о. пандовский датафрейм - это объединение серий (каждая из которых имеет ключ - название столбца)

Cersei    1
Tywin     2
Gregor    3
dtype: int64

Можно создать датафрейм как объединение серий! Таким образом, датафрейм имеет аналогию со словарем!

In [34]:
my_series_1 = pd.Series([1, 2, 3], index=["Cersei", "Tywin", "Gregor"])
my_series_2 = pd.Series([4, 5, 6], index=["Cersei", "Tywin", "Gregor"])

In [35]:
pd.DataFrame({"col_name_1": my_series_1, "col_name_2": my_series_2})


Unnamed: 0,col_name_1,col_name_2
Cersei,1,4
Tywin,2,5
Gregor,3,6


А теперь важный момент. Если мы обратимся к pandas датафрейму как ко словарю, то, в зависимости от того, как мы это сделаем, мы можем получить разные типы данных. В примерах ниже: **df["gender"]** даст нам серию, а **df[["gender"]]** - датафрейм из одного столбца

In [36]:
students_performance_with_names["gender"]

Cersei        female
Tywin           male
Gregor          male
Joffrey         male
Ilyn Payne      male
Name: gender, dtype: object

In [37]:
students_performance_with_names[["gender"]]

Unnamed: 0,gender
Cersei,female
Tywin,male
Gregor,male
Joffrey,male
Ilyn Payne,male


### Быстрое переименовывание столбцов

Способ 1: достаточно долгий, им нужно пользоваться, когда нужны уникальные названия

In [49]:
students_performance_1 = students_performance.rename(columns = 
                                                  {"parental level of education": "parental_level_of_education",
                                                   "test preparation course": "test_preparation_course",
                                                   "math score": "math_score",
                                                   "reading score": "reading_score",
                                                   "writing score": "writing_score"})

In [50]:
students_performance_1

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Конечно же, все можно записать в одну строчку, если нужно просто удалить пробелы

In [57]:
students_performance_1.columns = [x.replace(" ", "_") for x in students_performance.columns]

In [58]:
students_performance_1

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Допустим, необходимо работать только с теми столбцами, у которых в названии есть определенная метка. Например, в нашем файле столбцы, имеющие в названии **score** являются численными, хочется быстро обратиться только к ним.

Если обернуть пандовский датафрейм в **list**, мы получим список всех столбцов

In [64]:
list(students_performance)

['gender',
 'race/ethnicity',
 'parental level of education',
 'lunch',
 'test preparation course',
 'math score',
 'reading score',
 'writing score']

In [65]:
score_columns = [i for i in list(students_performance) if "score" in i]

In [66]:
students_performance[score_columns].head()

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75


А вообще есть еще сугубо пандовский способ. Кстати, если после "(like="score")" добавить axis=0, фильтрация будет происходить по строкам.

In [70]:
students_performance.filter(like="score").head()

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75


### Фильтрация данных

**.loc** позволяет работать не только с названиями и индексами, но и с булевыми значениями. Таким образом, **.loc** позволяет проделывать некоторые фильтрации. В примере ниже оставим строки, в которых **gender == female**

В примере ниже **students_performance.gender** - это пандовская серия

In [41]:
students_performance.loc[students_performance.gender == "female"].head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


Необязательно тащить весь датафрейм, можно ограничиться двумя необходимыми столбцами (ниже **"gender"** и **"writing score"**)

In [42]:
students_performance.loc[students_performance.gender == "female", ["gender", "writing score"]].head()

Unnamed: 0,gender,writing score
0,female,74
1,female,88
2,female,93
5,female,78
6,female,92


Оставим только те строки, в которых значение по **writing_score** больше среднего

In [43]:
mean_writing_score = students_performance["writing score"].mean()
students_performance.loc[students_performance["writing score"] > mean_writing_score].head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78


Пример **объединения** ограничений. Второй способ предполагает введение новой переменной, так тоже можно!

При этом! Поскольку ограничивая пандовские серии, мы также получаем серии, у нас не сработают **or, and**, нужно работать с **&, |**

In [None]:
students_performance[(students_performance['writing score'] > 80) & (students_performance.gender == 'female')].head(5)

In [None]:
# можно через введение новой переменной
abc = (students_performance['writing score'] > 80) & (students_performance.gender == 'female')
students_performance[abc].head(5)

Узнаем долю студентов из датасета, у которых в столбце **lunch** указано **free/reduced**

1) **len** конечно же работает!

2) метод **value_counts**

3) **shape[0]**

In [44]:
len(students_performance.loc[students_performance["lunch"] == "free/reduced"])/len(students_performance)

0.355

In [47]:
# немного неудобно, что формат вывода - не число
students_performance['lunch'].value_counts(normalize=True)

standard        0.645
free/reduced    0.355
Name: lunch, dtype: float64

In [46]:
(students_performance.loc[students_performance["lunch"] == "free/reduced"]).shape[0]/(students_performance).shape[0]

0.355

In [48]:
# методы поэстетичнее
students_performance.groupby('lunch').mean()

Unnamed: 0_level_0,math score,reading score,writing score
lunch,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
free/reduced,58.921127,64.653521,63.022535
standard,70.034109,71.654264,70.823256


#### Фильтрация с помощью метода query

Обратите внимание! Чтобы метод query работал, необходимо, чтобы названия столбцов не имели пробелов! 
Это в целом хорошая практика, теперь к ним можно обращаться как к сериям - через точку

In [None]:
students_performance_1.columns = [x.replace(" ", "_") for x in students_performance.columns]

In [60]:
students_performance_1.query("writing_score > 74").head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


In [62]:
students_performance_1.query("writing_score > 74 & gender == 'female'").head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
15,female,group C,some high school,standard,none,69,75,78


Конечно же, часто нужна будет переменная: для этого можем ввести ее и при запросе ограничения использовать символ @

In [63]:
writing_score_query = 99
students_performance_1.query("writing_score > @writing_score_query").head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
106,female,group D,master's degree,standard,none,87,100,100
114,female,group E,bachelor's degree,standard,completed,99,100,100
165,female,group C,bachelor's degree,standard,completed,96,100,100
179,female,group D,some high school,standard,completed,97,100,100
377,female,group D,master's degree,free/reduced,completed,85,95,100


### Группировка и агрегация данных

In [4]:
students_performance_1 = students_performance.rename(columns = 
                                                  {"parental level of education": "parental_level_of_education",
                                                   "test preparation course": "test_preparation_course",
                                                   "math score": "math_score",
                                                   "reading score": "reading_score",
                                                   "writing score": "writing_score"})

Начнем сразу с практического примера: посчитаем значения math_score, reading_score и wrirting_score в зависимости от принадлежности к гендеру.

In [71]:
students_performance_1.groupby("gender").mean()

Unnamed: 0_level_0,math_score,reading_score,writing_score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,63.633205,72.608108,72.467181
male,68.728216,65.473029,63.311203


Функция **aggregate** позволяет с помощью заданной ей словаря задать по каким столбцам и что мы хотим узнать

In [74]:
students_performance_1.groupby("gender").aggregate({"math_score": "mean", "reading_score": "mean"})

Unnamed: 0_level_0,math_score,reading_score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,63.633205,72.608108
male,68.728216,65.473029


Можем сделать **gender** тоже столбцом, с помощью аргумента **as_index=False**

In [75]:
students_performance_1.groupby("gender", as_index=False) \
    .aggregate({"math_score": "mean", "reading_score": "mean"})

Unnamed: 0,gender,math_score,reading_score
0,female,63.633205,72.608108
1,male,68.728216,65.473029


Единственное, что осталось неудобным - это то, что в названии столбцов непонятно, какой смысл заложен в агрегации. Переименуем столбцы с помощью **rename**

In [76]:
students_performance_1.groupby("gender", as_index=False) \
    .aggregate({"math_score": "mean", "reading_score": "mean"}) \
    .rename(columns = {"math_score": "mean_math_score", "reading_score": "mean_reading_score"})

Unnamed: 0,gender,mean_math_score,mean_reading_score
0,female,63.633205,72.608108
1,male,68.728216,65.473029


Сам датафрейм при этом, конечно же, не изменится

In [77]:
students_performance_1.head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Ничего не мешает группировать данных по нескольким столбцам: для этого в **groupby** засунем **list**

In [6]:
mean_scores = students_performance_1.groupby(["gender", "race/ethnicity"], as_index=False) \
    .aggregate({"math_score": "mean", "reading_score": "mean"}) \
    .rename(columns = {"math_score": "mean_math_score", "reading_score": "mean_reading_score"})
mean_scores

Unnamed: 0,gender,race/ethnicity,mean_math_score,mean_reading_score
0,female,group A,58.527778,69.0
1,female,group B,61.403846,71.076923
2,female,group C,62.033333,71.944444
3,female,group D,65.248062,74.046512
4,female,group E,70.811594,75.84058
5,male,group A,63.735849,61.735849
6,male,group B,65.930233,62.848837
7,male,group C,67.611511,65.42446
8,male,group D,69.413534,66.135338
9,male,group E,76.746479,70.295775


Посмотрим на датафрейм, если мы не добавим после **groupby** атрибут **as_index=False**

In [10]:
mean_scores = students_performance_1.groupby(["gender", "race/ethnicity"]) \
    .aggregate({"math_score": "mean", "reading_score": "mean"}) \
    .rename(columns = {"math_score": "mean_math_score", "reading_score": "mean_reading_score"})
mean_scores

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_math_score,mean_reading_score
gender,race/ethnicity,Unnamed: 2_level_1,Unnamed: 3_level_1
female,group A,58.527778,69.0
female,group B,61.403846,71.076923
female,group C,62.033333,71.944444
female,group D,65.248062,74.046512
female,group E,70.811594,75.84058
male,group A,63.735849,61.735849
male,group B,65.930233,62.848837
male,group C,67.611511,65.42446
male,group D,69.413534,66.135338
male,group E,76.746479,70.295775


Такой датафрейм не слишком удобен, так как теперь для обращения к нему необходимо использовать **сдвоенный индекс**

In [8]:
mean_scores.loc[[('female', 'group A'), ('female', 'group B')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_math_score,mean_reading_score
gender,race/ethnicity,Unnamed: 2_level_1,Unnamed: 3_level_1
female,group A,58.527778,69.0
female,group B,61.403846,71.076923


Однако есть и преимущества! Допустим хотим узнать сколько **уникальных** оценок на пересечении двух групп. Обратите внимание, что структура объекта ниже - сгруппированная пандовская серия.

In [12]:
students_performance_1.groupby(["gender", "race/ethnicity"]).math_score

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000198D973BCC0>

In [13]:
students_performance_1.groupby(["gender", "race/ethnicity"]).math_score.nunique()

gender  race/ethnicity
female  group A           29
        group B           51
        group C           59
        group D           53
        group E           44
male    group A           38
        group B           43
        group C           56
        group D           49
        group E           38
Name: math_score, dtype: int64

Если подавать значения для **ключей** в виде **списка**, то можно, во-первых, выводить несколько статистик для одной переменной, а, во-вторых, колонки **будут иметь названия в соответствии со статистикой**.

In [16]:
students_performance_1.groupby('gender', as_index=False) \
.aggregate({'math_score': ['mean', 'count', 'std'],'reading_score': ['std', 'min', 'max']})

Unnamed: 0_level_0,gender,math_score,math_score,math_score,reading_score,reading_score,reading_score
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,std,std,min,max
0,female,63.633205,518,15.491453,14.378245,17,100
1,male,68.728216,482,14.356277,13.931832,23,100


Новая задача. Выведем топ-5 математиков-девушек и топ-5 математиков юношей. Воспользуемся методом **sort_values**, сортирующий значения. При этом, если задать **ascending=False**, сортировка произойдет в обратном порядке

In [14]:
students_performance_1.sort_values(["gender", "math_score"], ascending=False) \
    .groupby('gender').head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
149,male,group E,associate's degree,free/reduced,completed,100,100,93
623,male,group A,some college,standard,completed,100,96,86
625,male,group D,some college,standard,completed,100,97,99
916,male,group E,bachelor's degree,standard,completed,100,100,100
306,male,group E,some college,standard,completed,99,87,81
451,female,group E,some college,standard,none,100,92,97
458,female,group E,bachelor's degree,standard,none,100,100,100
962,female,group E,associate's degree,standard,none,100,100,100
114,female,group E,bachelor's degree,standard,completed,99,100,100
263,female,group E,high school,standard,none,99,93,90


### Добавление и удаление новых столбцов

Создание новой колонки! Обратите внимание, что серии можно складывать!

In [18]:
students_performance_1['total_score'] = students_performance_1.math_score + students_performance_1.reading_score + students_performance_1.writing_score
students_performance_1.head()
# Можно просуммировать несколько колонок так (вдруг у нас 50 скоров?) df.filter(like = 'score').sum(axis=1)
# sum(axis=1) суммирует колонки построчно, а не строки по колонкам, как стоит по умолчанию (axis=0)

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score
0,female,group B,bachelor's degree,standard,none,72,72,74,218
1,female,group C,some college,standard,completed,69,90,88,247
2,female,group B,master's degree,standard,none,90,95,93,278
3,male,group A,associate's degree,free/reduced,none,47,57,44,148
4,male,group C,some college,standard,none,76,78,75,229


Можно просуммировать несколько колонок так (вдруг у нас 50 скоров?) **df.filter(like = 'score').sum(axis=1)**.

Здесь **sum(axis=1)** суммирует колонки построчно, а не строки по колонкам, как стоит по умолчанию (axis=0)

In [20]:
students_performance_1 = students_performance_1.assign(total_score_log = np.log(students_performance_1.total_score),
    opa = students_performance_1.math_score / students_performance_1.writing_score)
students_performance_1.head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score,total_score_log,opa
0,female,group B,bachelor's degree,standard,none,72,72,74,218,5.384495,0.972973
1,female,group C,some college,standard,completed,69,90,88,247,5.509388,0.784091
2,female,group B,master's degree,standard,none,90,95,93,278,5.627621,0.967742
3,male,group A,associate's degree,free/reduced,none,47,57,44,148,4.997212,1.068182
4,male,group C,some college,standard,none,76,78,75,229,5.433722,1.013333


Метод **assign** позволяет проводить множественные изменения

Разберем также удаление столбцов. Важно: **axis=1** удаляет именно столбец, а не строку

In [22]:
students_performance_1.drop(['total_score', 'lunch'], axis=1).head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,test_preparation_course,math_score,reading_score,writing_score,total_score_log,opa
0,female,group B,bachelor's degree,none,72,72,74,5.384495,0.972973
1,female,group C,some college,completed,69,90,88,5.509388,0.784091
2,female,group B,master's degree,none,90,95,93,5.627621,0.967742
3,male,group A,associate's degree,none,47,57,44,4.997212,1.068182
4,male,group C,some college,none,76,78,75,5.433722,1.013333


### Изменение данных

Для работы создадим игрушечный датафрейм

In [25]:
change_data = pd.DataFrame({"type": ["A", "A", "B", "B", "D", "E", "A", "C", "B", "B"],
                            "value": [10, 14, 12, 23, -10, 0, 11, -5, -7, 50],
                            "score": [1, 2, None, None, 1, 1, 0, 2, None, 2]})
change_data

Unnamed: 0,type,value,score
0,A,10,1.0
1,A,14,2.0
2,B,12,
3,B,23,
4,D,-10,1.0
5,E,0,1.0
6,A,11,0.0
7,C,-5,2.0
8,B,-7,
9,B,50,2.0


Заменим нулями пропущенные значения в столбце **score**. Воспользуемся методом **fillna()**

In [27]:
change_data = change_data.fillna(0)
change_data

Unnamed: 0,type,value,score
0,A,10,1.0
1,A,14,2.0
2,B,12,0.0
3,B,23,0.0
4,D,-10,1.0
5,E,0,1.0
6,A,11,0.0
7,C,-5,2.0
8,B,-7,0.0
9,B,50,2.0


Заменим теперь все отрицательные значения в столбце **value** на медианные положительные. Это распространенная задача замены значений на средние или медианные при каких-то условиях. Рассмотрим несколько вариантов решений

In [32]:
med = change_data.query('value >= 0')['value'].median()
change_data.loc[change_data.value < 0, 'value'] = med
change_data

# change_data.value = change_data.value.where(change_data.value >= 0, change_data.value[my_stat.value >= 0].median())
# change_data.loc[change_data.value<0, 'value']=change_data.query("value>=0").value.median()
# change_data.loc[change_data["value"] < 0, "value"] = change_data.loc[change_data["value"] >= 0, "value"].median()

Unnamed: 0,type,value,score
0,A,10.0,1.0
1,A,14.0,2.0
2,B,12.0,0.0
3,B,23.0,0.0
4,D,12.0,1.0
5,E,0.0,1.0
6,A,11.0,0.0
7,C,12.0,2.0
8,B,12.0,0.0
9,B,50.0,2.0


Удалим дубликаты типов по столбцу **type**

In [33]:
change_data.drop_duplicates(subset = "type", inplace=True)
change_data

Unnamed: 0,type,value,score
0,A,10.0,1.0
2,B,12.0,0.0
4,D,12.0,1.0
5,E,0.0,1.0
7,C,12.0,2.0
