# Как очистить данные с помощью Python

## Введение

Огромная часть науки о данных включает получение необработанных данных и приведение их в форме, готовую для анализа. Некоторые подсчитали, что специалисты по данным тратят 80% своего времени на очистку и обработку данных и только 20% своего времени на их фактический анализ или построение моделей на их основе.

Получив необработанные данные, нам необходимо выполнить ряд действий, прежде чем мы будет готовы их проианализировать, в том числе
- Диагностика "чистоты" данных - сколько очистки данных нам придется сделать
- Изменение формы данных - получение правильных строк и столбцов для эффективного анализа
- Изменение типов значений - как мы исправляем столбец, в котором числовые значения храняться в виде строк
- Удаление или заполнение пропущенных значений - как мы работаем с неполными или отсутствующими данными
- Манипулирование строками для лучше представления данных

Мы рассмотрим методы, которые специалисты по обработке данных используют для достижения этих целей, рассмотрев некоторые "нечистые" наборы данных и попытавшись привести их в хорошее, чистое состояние

In [1]:
# мы привели пример данных, представляющих результаты экзаменов 1000 студентов онлайн-курса по математике
# С этим DataFrames трудно работать. Они разделены на несколько таблиц, и значения плохо поддаются анализу. Попробуйте подумать о том, как бы вы построили график среднего балла жкзамена в зависимости от возраста учеников в классе.
# Далее мы попытаемся очистить данные

import pandas as pd

students0 = pd.read_csv('./files/file0.csv')
students1 = pd.read_csv('./files/file1.csv')

print(students0.head())

   Unnamed: 0          full_name gender_age Fractions Probability       grade
0           0     Barrett Feragh        M14       76%         72%   9th grade
1           1    Llewellyn Keech        M14       83%         87%  12th grade
2           2  Delilah Sowthcote        F16       90%         79%  10th grade
3           3       Terrell Geri        M15       80%         86%  11th grade
4           4     Gram Hallewell        M14       67%         78%  10th grade


## Диагностика данных

Мы часто описываем данные, которые легко анализировать и визуализировать, как "аккуратные данные". Что значит иметь аккуратные данные?

Чтобы данные были аккуратными, они должны иметь:
- Каждая переменная как отдельный столбец
- Каждая строка как отдельное наблюдение

Наприме, нам хотелось бы изменить форму таблицы следующим образом

![](./img/1_1.png)

В таблицу, которая выглядит примерно так

![](./img/1_2.png)

Первым шагом диагностики порядка набора данных является использование *`pandas`* функции для его исследования и проверки.

Вы видели большинство функций, которые мы часто используем для диагностики набора данных для очистки. Некоторые из самых полезных:
- *`.head()`* - отобразит первые N строк. По умолчанию 5
- *`.info()`* - отобразит сводную таблицу с общей информацией
- *`.describe()`* - отобразит сводную таблицу статистики
- *`.columns`* - отобразит названия столбцов таблицы
- *`.value_counts()`* - отобразит отдельные значения для столбца

In [2]:
# загрузим данные в переменные
df1 = pd.read_csv('./files/df1.csv')
df2 = pd.read_csv('./files/df2.csv')

In [3]:
# выведите на экран первые 5 строк данный наборов
print(df1.head())
print(df2.head())

  Grocery Item  Cake Recipe  Pancake Recipe  Cookie Recipe
0         Eggs            2               3              1
1         Milk            1               2              1
2        Flour            2               1              2
  Grocery Item          Recipe  Number
0         Eggs     Cake Recipe       2
1         Milk     Cake Recipe       1
2        Flour     Cake Recipe       2
3         Eggs  Pancake Recipe       3
4         Milk  Pancake Recipe       2


In [5]:
# изучите набор данных чтобы определить какой из них больше подходит для анализа и является чистым
df2.describe()

Unnamed: 0,Number
count,9.0
mean,1.666667
std,0.707107
min,1.0
25%,1.0
50%,2.0
75%,2.0
max,3.0


## Работа с несколькими файлами

Часто одни и те же данные хранятся в нескольких файлах.

Допустим, у нас есть множество файлов, следующих структуре имени файла: *`file1.csv, file2.csv, file3.csv`* и так далее. Сила Pandas в основном в возможности манипулировать большими объемами структурированных данных. Мы хотим иметь возможность собрать всю необходимую информацию в одну таблицу, чтобы можно было анализировать совокупные данные.

Мы можем объединить использование *`glob`* библиотеки Python для работы с файлами с pandas чтобы лучше организовать эти данные. *`glob`* можно открыть несколько файлов, используя сопоставление подстановочных знаков в стиле оболочки, чтобы получить имена файлов

```python
import glob
import pandas as pd

files = glob.glob('file*.csv')

df_list = []
for filename in files:
    data = pd.read_csv(filename)
    df_list.append(data)

df = pd.concat(df_list)

print(files)
```

Этот код проходит по любому файлу, который начинается с *`file`* и имеет расширение *`.csv`*. Он открывает каждый файл, считывает данные в DataFrame, а затем объединяет все эти DataFrame вместе.

In [6]:
# для проведения практической части в директории files были созданы 10 файлов exams0-9.csv
import glob

# создаем переменную где будут храниться имена файлов
student_files = glob.glob('./files/exams*.csv')

# выведем на экран значение переменной
print(student_files)

['./files\\exams0.csv', './files\\exams1.csv', './files\\exams2.csv', './files\\exams3.csv', './files\\exams4.csv', './files\\exams5.csv', './files\\exams6.csv', './files\\exams7.csv', './files\\exams8.csv', './files\\exams9.csv']


In [7]:
# создадим пустой список
df_list = []

# используя цикл for пройдите по списку имен файлов и создайте из них dataframe-ы
for file in student_files:
    df_list.append(pd.read_csv(file))

In [8]:
# объедините все dataframe в переменной df_list и запишите результирующее значение в переменную
students = pd.concat(df_list)

# выведите на экран длину результирующего dataframe-а и несколько его строк
print(len(students))
print(students.head())

1000
   id        full_name gender_age fractions probability       grade
0   0   Barrett Feragh        M14       76%         72%   9th grade
1   1  Llewellyn Keech        M14       83%         NaN  12th grade
2   2  Llewellyn Keech        M14       83%         NaN  12th grade
3   3     Terrell Geri        M15       80%         86%  11th grade
4   4   Gram Hallewell        M14       67%         78%  10th grade


## Изменение данных

Так как мы хотим
- Каждая переменная как отдельный столбец
- Каждая строка как отдельное наблюдение

Мы хотели бы изменить форму таблицы следующим образом

![](./img/1_3.png)

В таблицу, которая выглядит примерно так

![](./img/1_4.png)

*`pd.melt()`* для этого преобразования мы можем использовать *`.melt()`* принимает DataFrame и столбцы для распаковки

```python
df = pd.melt(frame=df, id_vars="Account", value_vars=["Checking","Savings"], value_name="Amount", var_name="Account Type")
```

Параметры, которые вы предоставляете
- *`frame`*: DataFrame, который вы хотите *`melt`*
- *`id_vars`*: столбец(ы) старого DataFrame для сохранения
- *`value_vars`*: столбец(ы) старого DataFrame, которые вы хотите превратить в переменные
- *`value_name`*: как назвать столбец нового DataFrame, в котором храняться значения
- *`var_name`*: как назвать столбец нового DataFrame, в котором храняться переменные

Имена по умолчанию могут работать в определенных ситуациях, но лечше всегда иметь данные, которые говорят сами за себя. Таким образом, мы часто используем *`.columns()`* для переименования столбцов после плавления

```python
df.columns(["Account", "Account Type", "Amount"])
```

In [9]:
# для выполнения практической работы воспользуйтесь наборов данных files/students.csv
# возьмите от туда только некоторые солбцы 'full_name', 'gender_age','fractions','probability','grade'

# загружаем данные из файла
students = pd.read_csv('./files/students.csv')
students = students[['full_name', 'gender_age','fractions','probability','grade']]

# выведем часть данных на экран
print(students.head())

           full_name gender_age fractions probability       grade
0     Moses Kirckman        M14       69%         89%  11th grade
1    Timofei Strowan        M18       63%         76%  11th grade
2       Silvain Poll        M18       69%         77%   9th grade
3     Lezley Pinxton        M18       NaN         72%  11th grade
4  Bernadene Saunper        F17       72%         84%  11th grade


в наборе данных есть два столбца fractions и probabilities данные столбцы содержат информацию по оценке за экзамен

необходимо сделать каждую строку наблюдением, поэтому мы хотим преобразовать эту таблицу так, чтобы она выглядела следующим образом

![](./img/1_5.png)

Используйте *`pd.melt()`* для создания новой таблицы (все еще называемой students), которая следует этой структуре.

In [11]:
students = pd.melt(frame=students, id_vars=['full_name','gender_age','grade'], value_vars=['fractions', 'probability'], value_name='score', var_name='exam')
print(students)

              full_name gender_age       grade         exam score
0        Moses Kirckman        M14  11th grade    fractions   69%
1       Timofei Strowan        M18  11th grade    fractions   63%
2          Silvain Poll        M18   9th grade    fractions   69%
3        Lezley Pinxton        M18  11th grade    fractions   NaN
4     Bernadene Saunper        F17  11th grade    fractions   72%
...                 ...        ...         ...          ...   ...
1995     Wilie Stillert        F14   9th grade  probability   69%
1996     Gertie Flicker        F15  11th grade  probability   86%
1997       Yettie Labes        F14  12th grade  probability   82%
1998     Lock McGuinley        M18  10th grade  probability   84%
1999       Bebe Lebbern        F15  12th grade  probability   91%

[2000 rows x 5 columns]


## Работа с дублями

Часто мы видим дублирующиеся строки данных в DataFrames, с которыми работаем. Это может произойти из-за ошибки в сборе данных или в сохранении и загрузке данных.

Для проверки на наличие дубликатов мы можем использовать функцию pandas *`.duplicated()`*, которая вернет ряд, сообщающий нам, какие строки являются дубликатами.

Допустим, у нас есть DataFrame *`fruits`*, представляющий эту таблицу

![](./img/1_6.png)

Если мы вызовем *`fruits.duplicated()`*, то получим следующую таблицу

![](./img/1_7.png)

Мы видим, что строка 2, которая представляет собой *`'apple'`* с ценой *`'$0.75'`* и 95 калориями, является дублирующей строкой. Каждое значение в этой строке такое же, как и в другой строке.

Мы можем использоват функцию pandas *`.drop_duplicates()`* для удаления всех строк, которые являются дубликатами другой строки.

Если мы вызовем *`friuts.drop_duplicates()`*, то получим таблицу

![](./img/1_8.png)

Строка *`'apple'`* была удалена, потому что она была точно такой же, как другая строка. Но две *`'peach'`* строки остались, потому что есть разница в столбце цены.

Если бы мы хотели удалить все строки с повторяющимся значеиям в столбце элемента, мы могли бы указать *`subset`*:

```python
fruits = fruits.drop_duplicates(subset=['item'])
```

По умолчанию сохраняется первое вхождение дубликата

![](./img/1_9.png)

Убедитесь, что столбцы, их которых вы удаляете дубликаты, - это именно те, где дубликаты не должны быть. *`price`* Например, вам не захочется удалять дубликаты, если столбец является подмножеством, потому что это нормально, если несколько стоваров стоят одинаково.

In [None]:
# Похоже что в процессе сбора данных некоторые строки могла быть записаны дважды. Используйте .duplicated() функцию на students DataFrame, чтобы создать объект Series с именем duplicates.

duplicates = students.duplicated()

# распечатайте .value_counts() чтобы увидеть сколько строк являются точными дубликатами
print(duplicates.value_counts())

False    1976
True       24
Name: count, dtype: int64


In [14]:
# перезапишите значение переменной students в котором не будут храниться дубликаты
students = students.drop_duplicates()

In [15]:
# проверьте есть ли дубликаты теперь
print(students.duplicated().value_counts())

False    1976
Name: count, dtype: int64


## Разделение по индексу

В попытке получить чистые данные мы хотим убедиться, что каждый столбец представляет один тип измерения. Часто в одном столбце записывается несколько измерений, и мы хотим разделить их, чтобы можно было провести индивидуальный анализ каждой переменной.

Допустим у нас есть столбец "день рождения" с данными в формате ММДДГГГ. Другими словами "11011993" представляет день рождения 1 ноября 1993 года. Мы хотим разделить эти данные на день, месяц и год, чтобы можно было использовать эти столбцы как отдельные признаки.

В этом случае мы значем точную структуру этих строк. Первые два символа всегда будут соответствовать месяцу, вторые два - дню, а остальная часть строки всегда будет соответствовать году. Мы можем легко разбить данные на три отдельных столбцы, разделив строки с помощью *`.str`*:

```python
# Create the 'month' column
df['month'] = df.birthday.str[0:2]

# Create the 'day' column
df['day'] = df.birthday.str[2:4]

# Create the 'year' column
df['year'] = df.birthday.str[4:]
```

Первая команда берет вервые два символа каждого значения в *`birthday`* столбце и помещает их в *`month`* столбец. Вторая команда берет вторые два символа каждого значения в столбце и помещает их в *`day`* столбец. Третья команда берет остаток каждого значения в *`birthday`* столбце и помещает их в *`year`* столбец.

Это преобразует следующую таблицу

![](./img/1_10.png)

В таблицу типа

![](./img/1_11.png)

In [None]:
# распечатайте столбцы DataFrame students
print(students.columns)

Index(['full_name', 'gender_age', 'grade', 'exam', 'score'], dtype='object')


In [19]:
# похоже что столбец gender_age содержит информацию о gender и age
# распечатайте пару строк набора 
print(students.head())

           full_name gender_age       grade       exam score
0     Moses Kirckman        M14  11th grade  fractions   69%
1    Timofei Strowan        M18  11th grade  fractions   63%
2       Silvain Poll        M18   9th grade  fractions   69%
3     Lezley Pinxton        M18  11th grade  fractions   NaN
4  Bernadene Saunper        F17  11th grade  fractions   72%


In [24]:
# давайте создадим новый столбец и назовем его gender который будет хранить первый символ столбца gender_age
students['gender'] = students.gender_age.str[0]

# выведем на экран результат
print(students.head())

           full_name gender_age       grade       exam score gender
0     Moses Kirckman        M14  11th grade  fractions   69%      M
1    Timofei Strowan        M18  11th grade  fractions   63%      M
2       Silvain Poll        M18   9th grade  fractions   69%      M
3     Lezley Pinxton        M18  11th grade  fractions   NaN      M
4  Bernadene Saunper        F17  11th grade  fractions   72%      F


In [25]:
# теперь выделим значение age из столбца gender_age
students['age'] = students.gender_age.str[1:]

print(students.head())

           full_name gender_age       grade       exam score gender age
0     Moses Kirckman        M14  11th grade  fractions   69%      M  14
1    Timofei Strowan        M18  11th grade  fractions   63%      M  18
2       Silvain Poll        M18   9th grade  fractions   69%      M  18
3     Lezley Pinxton        M18  11th grade  fractions   NaN      M  18
4  Bernadene Saunper        F17  11th grade  fractions   72%      F  17


In [26]:
list(students.columns)

['full_name', 'gender_age', 'grade', 'exam', 'score', 'gender', 'age']

In [27]:
# теперь колонка gender_age нам не нужна пересоберите dataframe без колонки gender_age
students = students[['full_name', 'grade', 'exam', 'score', 'gender', 'age']]

## Разделение по символам

Допустим, у нас есть столбец под названием "тип" с записями данных в формате *`"admin_US"`* или *`"user_Kenya"`*. Как мы уже видели, этот столбец на самом деле содержит два типа данных. Один, похоже, тип пользователя (со значениями вроде "администратор" или "пользователь"), а другой, похоже, страна, в которой находится этот пользователь (со значениями вроде "США" или "Кения").

Мы больше не можем просто разделить по первым 4 символам, потому что *`admin`* и *`user`* имеют разную длину. Вместо этого мы знаем, что хотим разделить по *`"_"`*. Используя это, мы можем разделить этот столбец на два отдельных, более чистых столбца:

```python
# Split the string and save it as `string_split`
string_split = df['type'].str.split('_')
 
# Create the 'usertype' column
df['usertype'] = string_split.str.get(0)
 
# Create the 'country' column
df['country'] = string_split.str.get(1)
```

Это преобразует следующую таблицу

![](./img/1_12.png)

В таблицу типа

![](./img/1_13.png)

In [28]:
# имена студентов храняться в столбце под названием full_name
# разделите данные на два новых столбца first_name и last_name
# для начала создайте объект класса series с именем name_split и разделите данные в столбец по " "
name_split = students.full_name.str.split(' ')

print(name_split)

0          [Moses, Kirckman]
1         [Timofei, Strowan]
2            [Silvain, Poll]
3          [Lezley, Pinxton]
4       [Bernadene, Saunper]
                ...         
1995       [Wilie, Stillert]
1996       [Gertie, Flicker]
1997         [Yettie, Labes]
1998       [Lock, McGuinley]
1999         [Bebe, Lebbern]
Name: full_name, Length: 1976, dtype: object


In [None]:
# теперь создайте столбец с именем first_name, который будет содержать первый элемент name_split
students['first_name'] = name_split.str.get(0)

print(students.head())

           full_name       grade       exam score gender age first_name
0     Moses Kirckman  11th grade  fractions   69%      M  14      Moses
1    Timofei Strowan  11th grade  fractions   63%      M  18    Timofei
2       Silvain Poll   9th grade  fractions   69%      M  18    Silvain
3     Lezley Pinxton  11th grade  fractions   NaN      M  18     Lezley
4  Bernadene Saunper  11th grade  fractions   72%      F  17  Bernadene


In [33]:
# теперь создайте столбец с именем last_name, который будет содержать второй элемент name_split
students['last_name'] = name_split.str.get(1)

print(students.head())

           full_name       grade       exam score gender age first_name  \
0     Moses Kirckman  11th grade  fractions   69%      M  14      Moses   
1    Timofei Strowan  11th grade  fractions   63%      M  18    Timofei   
2       Silvain Poll   9th grade  fractions   69%      M  18    Silvain   
3     Lezley Pinxton  11th grade  fractions   NaN      M  18     Lezley   
4  Bernadene Saunper  11th grade  fractions   72%      F  17  Bernadene   

  last_name  
0  Kirckman  
1   Strowan  
2      Poll  
3   Pinxton  
4   Saunper  


## Рассматриваем типы

Каждый столбец DataFrame может содержать элементы одного и того же *`типа данных`* или *`dtype`*. Типы dtype, которые использует pandas, следующие: float, int, bool, datetime, timedelta, categiry и object. Чтобы увидеть типы каждого столбца DataFrame, мы можем использовать `print(df.dtypes)`

Для такого DataFrame

![](./img/1_14.png)

Атрибут *`.dtypes`* будет

```text
item        object
price       object
calories     int64
dtype: object
```

Мы видим, что сам *`dtype`* атрибут *`dtypes`* - это *`object`*! Это *`Series`* объект, с которым вы уже работали. Объекты Series составляют все DataFrames.

Мы видим, что *`price`* столбец состоит из *`object`*s, что, вероятно, затрудник наш анализ цены. Мы рассмотрим, как преобразовать столбцы в числовые значения в следующих нескольких упражнениях.

In [34]:
# давайте рассмотрим dtypes в students таблице. 
# распечатайте атрибут dtypes
print(students.dtypes)

full_name     object
grade         object
exam          object
score         object
gender        object
age           object
first_name    object
last_name     object
dtype: object


In [35]:
# Если бы мы захотели построить диаграмму рассеяния age по сравнению со средним баллом за экзамен, смогли бы мы сделать это с помощью такого типа данных?
# Попробуйте распечатать среднее значение score столбца students
print(students.score.mean())

TypeError: can only concatenate str (not "int") to str

## Анализ строк

Иногда нам нужно изменить строки в наших DataFrames, чтобы преобразовать их в более значимые метрики. Например, в нашей таблице фруктов из предыдущего примера

![](./img/1_15.png)

Мы видим, что *`'price'`* столбец на самом деле состоит из строк, представляющих суммы в долларах. Этот столбец можно было бы гораздо лушче представить в числах с плавающей точкой, чтобы мы могли взять среднее значение, рассчитать другие соповкупные статистики или сравнить разные фрукты друг с другом по цене

Во-первых, мы можем использовать то, что знаем о регулярных выражениях, чтобы избавиться от всех знаков доллара

```python
friut.price = fruit['price'].replace('[\$,]', '', regex=True)
```

Затем мы можем спользовать функцию pandas *`.to_numeric()`* для преобразования строк, содержащих числовые значения, в целые числа или числа с плавающей точкой

```python
fruit.price = pd.to_numeric(fruit.price)
```

Теперь у нас есть DataFrame, который выглядит следующим образом

![](./img/1_16.png)

In [36]:
# в последнем управжении мы увидели, что найти среднее значение столбца score сложно, если данные храняться в виде object символов, а не чисел.
# Используйте регулярное выражения, чтобы убрать значи % из score столбца
students.score = students['score'].replace('[%]', '', regex=True)
print(students.score)

0        69
1        63
2        69
3       NaN
4        72
       ... 
1995     69
1996     86
1997     82
1998     84
1999     91
Name: score, Length: 1976, dtype: object


In [None]:
# преобразуйте score столбец в числовой тип с помощью pd.to_numeric() функции
students.score = pd.to_numeric(students.score)

print(students.head())

           full_name       grade       exam  score gender age first_name  \
0     Moses Kirckman  11th grade  fractions   69.0      M  14      Moses   
1    Timofei Strowan  11th grade  fractions   63.0      M  18    Timofei   
2       Silvain Poll   9th grade  fractions   69.0      M  18    Silvain   
3     Lezley Pinxton  11th grade  fractions    NaN      M  18     Lezley   
4  Bernadene Saunper  11th grade  fractions   72.0      F  17  Bernadene   

  last_name  
0  Kirckman  
1   Strowan  
2      Poll  
3   Pinxton  
4   Saunper  


## Больше разбора строк

Иногда мы хотим провести анализ чисел, скрытых в строковых значениях. Мы можем использовать regex для извлечения этих числовых данных из строк, в которых они заключены. Предположим, у нас есть этот DataFrame, *`df`* представляющий режим тренировки

![](./img/1_17.png)

Было бы полезно разделить данные *`"30 lunges"`* на два столбца с кол-ом повторений, *`"30"`* и типом упражнения, *`"lunges"`*. Затем мы могли бы сравнить увеличение кол-ва выполненных выпадов с течением времени.

Для извлечения чисел из строки мы можем использовать *`.str.split()`* функцию pandas:

```python
split_df = df['exerciseDescription'].str.split('(\d+)', expand=True)
```

что приведет к такому DataFrame *`split_df`*:

![](./img/1_18.png)

Затем мы можем назначить столбцы из этого DataFrame исходному *`df`*:

```python
df.reps = pd.to_numeric(split_df[1])
df.exercise = split_df[0].replace('[\- ]', '', regex=True)
```

Теперь ваш *`df`* вид выглядит так

![](./img/1_19.png)

In [38]:
# распечатайте первые несколько строк столбца grade students таблицы
print(students.grade.head())

0    11th grade
1    11th grade
2     9th grade
3    11th grade
4    11th grade
Name: grade, dtype: object


In [42]:
# как можно заметить каждое значение столбца состоит из чисел и нескольких слов
# давайте сократим это до простой числовой оценки. Возможно, мы хотим сделать линейную регрессию на этих данных, что потребует числовых входных данных.
# Используйте регулярное выражение для извлечения числа из каждой строки grade и сохранения этих значений обратно в grade столбец.

students['grade'] = students['grade'].str.split('(\d+)', expand=True)[1]

print(students)

              full_name grade         exam  score gender age first_name  \
0        Moses Kirckman    11    fractions   69.0      M  14      Moses   
1       Timofei Strowan    11    fractions   63.0      M  18    Timofei   
2          Silvain Poll     9    fractions   69.0      M  18    Silvain   
3        Lezley Pinxton    11    fractions    NaN      M  18     Lezley   
4     Bernadene Saunper    11    fractions   72.0      F  17  Bernadene   
...                 ...   ...          ...    ...    ...  ..        ...   
1995     Wilie Stillert     9  probability   69.0      F  14      Wilie   
1996     Gertie Flicker    11  probability   86.0      F  15     Gertie   
1997       Yettie Labes    12  probability   82.0      F  14     Yettie   
1998     Lock McGuinley    10  probability   84.0      M  18       Lock   
1999       Bebe Lebbern    12  probability   91.0      F  15       Bebe   

      last_name  
0      Kirckman  
1       Strowan  
2          Poll  
3       Pinxton  
4       S

  students['grade'] = students['grade'].str.split('(\d+)', expand=True)[1]


In [43]:
# распечатайте типы данных таблицы students
print(students.dtypes)

full_name      object
grade          object
exam           object
score         float64
gender         object
age            object
first_name     object
last_name      object
dtype: object


In [44]:
# преобразуйте тип данных столбца grade в числовое представление
students.grade = pd.to_numeric(students.grade)

In [45]:
# вычислите среднее значение столбца grade и сохраниете значение в переменную
avg_grade = students.grade.mean()
print(avg_grade)

10.620445344129555


## Отсутствующие значения

У нас часто есть данные с отсутствующими элементами, как результат проблемы с процессом сбора данных или ошибок в способе хранения данных. Отсутствующие элементы обычно отображаются как *`NaN`* (или не число) значения

![](./img/1_20.png)

Значение *`num_guests`* для 3-й строки отсутствует, а *`bill`* значение для 5-й строки. Некоторые вычисления, которые мы делаем, просто пропускают *`NaN`* значения, но некоторые вычисления или визуализации, которые мы пытаемся выоплнить, прерываются при обнаружении значения *`NaN`*

В большинстве случаев мы используем один из двух методов для решения проблемы пропущенных значений

### Метод 1: удалить все строки с отсутствующими

*`.dropna()`* для этого мы можем использовать указанный метод

```python
bill_df = bill_df.gropna()
```

Это команда создаст DataFrame без неполных строк

![](./img/1_21.png)

Если бы мы хотели удалить все строки со *`NaN`* значеним только в столбце *`num_guests`*, мы могли бы указать *`subset`*

```python
bill_df = bill_df.dropna(subset=['num_guests'])
```

### Метод 2: заполните пропущенные значения средним значеним столбца или каким-либо другим сокупным значением

*`.fillna()`* для этого используется такой метод

```python
bill_df = bill_df.fillna(value={'bill':bill_df.bill.mean(), 'num_guests':bill_df.num_guests.mean()})
```

Эта команда приведет к созданию DataFrame с соответствующим средним значеним столбца на месте исходного *`NaN`*

![](./img/1_22.png)

In [46]:
# Получите среднее значение столбца оценок. Сохраните его score_mean и распечатайте
score_mean = students.score.mean()

print(score_mean)

77.69657422512235


In [48]:
# Предположим, что все, у кого нет баллов за экзамен, пропустили тест. Мы хотим заменить все NaN на балл 0. Давайте сделаем это со столбцов score

students.score = students.score.fillna(value=0)

print(students)

              full_name  grade         exam  score gender age first_name  \
0        Moses Kirckman     11    fractions   69.0      M  14      Moses   
1       Timofei Strowan     11    fractions   63.0      M  18    Timofei   
2          Silvain Poll      9    fractions   69.0      M  18    Silvain   
3        Lezley Pinxton     11    fractions    0.0      M  18     Lezley   
4     Bernadene Saunper     11    fractions   72.0      F  17  Bernadene   
...                 ...    ...          ...    ...    ...  ..        ...   
1995     Wilie Stillert      9  probability   69.0      F  14      Wilie   
1996     Gertie Flicker     11  probability   86.0      F  15     Gertie   
1997       Yettie Labes     12  probability   82.0      F  14     Yettie   
1998     Lock McGuinley     10  probability   84.0      M  18       Lock   
1999       Bebe Lebbern     12  probability   91.0      F  15       Bebe   

      last_name  
0      Kirckman  
1       Strowan  
2          Poll  
3       Pinxton

In [49]:
# снова расчитайте среднее значение и сохраните значение в переменную score_mean_2

score_mean_2 = students.score.mean()

print(score_mean_2)

72.30971659919028
