# **Ознакомление с данными**

## Цели

- получение, загрузка даннных различными способами (загрузка csv из онлайн источника)
- Получить информацию о данных с помощью библиотеки Pandas, сделать выводы о датасете, привести его в рабочий вид

# Важность ознакомления с данными

Ознакомление с датасетом различными методами типа "info()", "describe()"является важным шагом в анализе данных, так как эти методы предоставляют информацию о структуре и содержании датасета.

Метод "info()" позволяет получить общую информацию о датасете, включая количество строк и столбцов, типы данных в каждом столбце и количество ненулевых значений в каждом столбце. Эта информация может помочь определить, есть ли пропущенные значения в датасете, и какие типы данных используются в каждом столбце.

Метод "describe()" предоставляет статистическую информацию о числовых столбцах датасета, включая количество, среднее значение, стандартное отклонение, минимальное и максимальное значения, а также квартили. Эта информация может помочь понять распределение данных в каждом столбце и выявить выбросы и аномалии.

В целом, использование этих методов позволяет получить общее представление о датасете и его содержании, что может помочь в выборе подходящих методов анализа и моделирования данных. 

**Кроме того, эти первоначальные методы ознакомления с данными, их типами, их логикой могут помочь выявить проблемы с данными, такие как пропущенные значения или выбросы, которые могут потребовать дополнительной обработки, воизбежание искажения дальнейших результатов анализа.**


<h1 id="data_acquisition">Сбор данных</h1>
<p>
Существуют различные форматы наборов данных: 
.csv, .json, .xlsx и т.д. Набор данных может храниться в разных местах, на вашей локальной машине или иногда в Интернете.
<br>


В этом разделе вы узнаете, как загрузить набор данных в наш Jupyter Notebook.
В нашем случае это база данных автомобилей и их показателей, находящаяся онлайн, в csv 

<ul>
    <li>Источник данных: <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork971-2022-01-01" target="_blank">https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data</a></li>
    <li>Тип файла, в которых хранятся данные: csv</li>
</ul>
Библиотека Pandas - полезный инструмент, который позволяет нам считывать различные наборы данных в кадр данных; наши платформы Jupyter notebook имеют встроенную библиотеку Pandas, так что все, что нам нужно сделать, это импортировать Pandas без установки.
</p>


In [2]:
#установить конкретную версию библиотек, используемых в лаборной работе, если таковые не установлены
#! mamba install pandas==1.3.3  -y
#! mamba install numpy=1.21.2 -y

In [3]:
# импортировать необходимые библиотеки
import pandas as pd
import numpy as np

<h1>Чтение данных</h1>

Мы используем функцию <code>pandas.read_csv()</code> для чтения файла csv. 
In скобках мы помещаем путь к файлу вместе с кавычками, чтобы pandas считывала файл в кадр данных с этого адреса. Путь к файлу может быть как URL, так и адресом вашего локального файла.

Поскольку данные не содержат заголовков, мы можем добавить аргумент <code>headers = None</code> внутри метода <code>read_csv()</code>, чтобы pandas не устанавливал автоматически первую строку в качестве заголовка.

Набор данных также можно присвоить любой переменной, которую вы создадите.

Данный датасет является объектом, находящимся в облаке (IBM Cloud). для бесплатного хранения данных можно пройти по ссылке <a href="https://cocl.us/DA101EN_object_storage">HERE</a>

In [4]:
# импорт pandas 
import pandas as pd

# Прочитайте онлайн-файл по указанному выше URL в переменную
other_path = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/Data%20files/auto.csv"
# присвойте его переменной "df". или любой другой понятной переменной  с помощью метода для чтения csv, 
# пометив, что файл не имеет заголовков (иначе заголовком станет первая строка)
df = pd.read_csv(other_path, header = None)

<h1>Итак:</h1>

1. <code>other_path</code> - это переменная, которая содержит путь к файлу CSV, который мы хотим загрузить.

2. <code>pd.read_csv()</code> - это метод Pandas, который используется для загрузки данных из файла CSV. В данном случае, мы загружаем данные из файла, расположенного по пути, указанному в переменной other_path.

3. <code>header=None</code> - это параметр метода <code>read_csv()</code>, который указывает, что загружаемый файл CSV не содержит заголовка столбцов. Если этот параметр не указан, то первая строка файла CSV будет использована в качестве заголовка столбцов.

4. <code>df</code> - это переменная, которая содержит объект DataFrame, в который были загружены данные из файла CSV.

После чтения набора данных мы можем использовать метод <code>dataframe.head(n)</code>, чтобы проверить верхние <code>n</code> строк набора данных, где <code>n</code> - целое число. 

В отличие от <code>dataframe.head(n)</code>, <code>dataframe.tail(n)</code> покажет вам нижние <code>n</code> строк датафрейма.


In [5]:
# ознакомимся с данными, просмотрев 5 первых строк датасета с помощью dataframe.head() 
# (в данном случае, наш обьект данных называется коротко df а не dataframe)
print("Напечатаем первые 5 строк датасета") 
df.head(5)

Напечатаем первые 5 строк датасета


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Мы видим, что нет наименований столбцов, есть какие то вопросительные знаки, вероятно это пропущенные знаячения

In [6]:
# посмотрим на датасет с обратной стороны
print("Напечатаем последние 5 строк датасета") 
df.tail(5)

Напечатаем последние 5 строк датасета


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Вопрос номер #1: </h1>
<b>Проверьте нижние 10 рядов данных "DF".</b>
</div>


In [7]:
print("Напечатаем последние 10 строк датасета") 
df.tail()


Напечатаем последние 10 строк датасета


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


<h2>Добавим заголовки</h2>
<p>
Если взглянуть на заголовки, то они как будто индексирую столбцы, панда автоматически устанавливает их начиная с 0
<p>
Чтобы лучше описать наши данные, введем заголовок.Эта информация доступна по адресу этого датасета (документация обычно прилагается): <a href="https://archive.ics.uci.edu/ml/datasets/Automobile?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork971-2022-01-01" target="_blank">https://archive.ics.uci.edu/ml/datasets/Automobile</a>.
</p>
<p>
Таким образом, мы должны добавить заголовки вручную.
</p>
<p>
В первую очередь мы должны создать список заголовков и присвоить его переменной (например headers)
Далее мы используем метод <code>dataframe.columns = headers</code>(в нашем случае <code>df.columns = headers</code>) для замены существующих заголовков (индексев столбцов)
</p>


In [8]:
# Создадим список заголовков
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

#  распечатаем для проверки
print("headers\n", headers)

headers
 ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Заменим текущие заголовки столбцов присвоив переменную содержащую список заголовков с помощью метода **df.columns**


In [9]:
df.columns = headers
# снова ознакомимся с результатом 
df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


Итак, все получилось, заголовки присутствуют, но мы все еще видим знак "?" это NaN (пропущенные значения), которые нужно либо удалить, либо заменить на среднестатистические. 

<code>dropna()</code> может удалить пропущенные значения

<code>replace()</code> - заменить


In [10]:
# создадим новую переменную в которую положим предыдущий обьект df, заменяя значения "?" на значение NaN из библиотеки нумпай (np)
df1 = df.replace('?', np.NaN)


Значение **NaN (Not a Number)** из библиотеки NumPy представляет собой специальное значение, которое используется для обозначения отсутствия или некорректности данных в массивах NumPy и объектах Pandas.

Особенности значения **NaN** включают:

1. NaN не равно ни одному другому значению, включая само себя. Это означает, что любое сравнение с NaN всегда будет возвращать False.

2. Любая математическая операция с NaN также возвращает NaN. Например, если вы попытаетесь выполнить операцию 1 + NaN, результатом будет NaN.

3. NaN может быть обнаружен с помощью функции <code>isnan()</code> из библиотеки NumPy. Эта функция возвращает массив булевых значений, указывающих, является ли каждый элемент массива NaN или нет.

4. NaN может быть удален из массива с помощью функции <code>nan_to_num()</code> из библиотеки NumPy. Эта функция заменяет все значения NaN в массиве на **ноль**.

5. NaN может быть обработан с помощью функций <code>isnull()</code> и <code>fillna()</code> из библиотеки Pandas. Функция <code>isnull()</code> возвращает массив булевых значений, указывающих, является ли каждый элемент объекта DataFrame NaN или нет. Функция <code>fillna()</code> заменяет все значения NaN в объекте DataFrame на заданное значение.

**Мы можем отбросить недостающие значения по столбцу "цена" следующим образом:**

Метод <code>dropna()</code> используется для удаления строк или столбцов, содержащих пропущенные значения. В данном случае, параметр <code>subset=["price"]</code> указывает, что мы хотим удалить только те строки, в которых значение столбца **"price"** пропущено. Параметр <code>axis=0</code> указывает, что мы хотим удалить **строки, а не столбцы.**

Результат удаления строк сохраняется в новом обьекте DataFrame под именем переменной **df**. Метод <code>head(10)</code> используется для вывода первых 10 строк из нового DataFrame df.

In [11]:
# удалим строки с пропущенной ценой (по оси 0 - строка, по оси 1 - столбец) и сохраним в переменную df
df = df1.dropna(subset = ["price"], axis = 0)
# просмотрим 10 строк данных
df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


**Теперь мы успешно прочитали необработанный набор данных и добавили правильные заголовки в данные.**


 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Вопрос #2: </h1>
<b>Найдите заголовки таблицы датасета.</b>
</div>


In [12]:
# распечатаем наименования столбцов датасета (в jupiter это можно сделать без команды принт)
print(df.columns)

Index(['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration',
       'num-of-doors', 'body-style', 'drive-wheels', 'engine-location',
       'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
       'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke',
       'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg',
       'highway-mpg', 'price'],
      dtype='object')


<h2>Сохранение датасета</h2>
<p>
Соответственно, Pandas позволяет нам сохранить набор данных в формате csv. Используя метод <code>dataframe.to_csv()</code> (в нашем случае обьект df), можно добавить путь и имя файла вместе с кавычками в скобках.
</p>
<p>
Для пример, сохраним dataframe <b>df</b> как <b>automobile.csv</b> на наш компьютер, я буду использовать следующий синтаксис, где <code>index = False</code> что обозначает что имена строк не будут прочитаны.
</p>


In [22]:
save_path = "C:/Users/admin/Desktop/automobile.csv"
df.to_csv(save_path, index=False)

Мы также можем прочитать и сохранить другие форматы файлов.Мы можем использовать подобные функции, как **`pd.read_csv()`** and **`df.to_csv()`** для других форматов данных. Функции(метода) указаны в таблице ниже:


<h2>Чтание/Сохранение других форматов данных</h2>

| Формат данных|      чтение      |     Сохранение  |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |


<h1 id="basic_insight">Основные сведения о наборе данных</h1>
<p>
После считывания данных в кадр Pandas пришло время исследовать набор данных.<br>

Существует несколько способов получить основные сведения о данных, которые помогут нам лучше понять наш набор данных.
</p>


<h2>Типы данных</h2>
<p>
Данные имеют различные типы.<br>

Основными типами, хранящимися во фреймах данных Pandas, являются <b>object</b>, <b>float</b>, <b>int</b>, <b>bool</b> и <b>datetime64</b>. Для того чтобы лучше изучить каждый атрибут, нам всегда полезно знать тип данных каждого столбца. В библиотеке Pandas:
</p>


In [13]:
# Просмотрим, какие типы данных содержит наш датасет
df.dtypes


symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

Возвращается Серия с типом данных каждого столбца.


In [14]:
# проверить тип данных фрейма данных "df" по .dtypes можно и с помощью принта
print(df.dtypes)

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object


<p>
Как показано выше, ясно видно, что тип данных столбца "symboling" и "curb-weight" это <code>int64</code>, "normalized-losses" это <code>object</code>, и "wheel-base" это <code>float64</code>, и тд.
</p>
Тип данных "object" для этих столбцов указывает на то, что они содержат нечисловые данные, например, строки. 

В то время как int64 и  float64 - числовые данные, просто поддающиеся любому виду анализа

<p>
Типы данных могут быть изменены если они не логичны и плохо поддаются исследованию (например столбцу с количеством дверей автомобиля присвоен строковый тип данных)
</p>


<h2>Описание данных</h2>
Если мы хотим получить статистическую сводку по каждому столбцу, например, количество, среднее значение столбца, стандартное отклонение столбца и т.д., мы используем метод описания:
<code>dataframe.describe()</code> 

в нашем случае мы сохранили наш фрейм данных в обьект с именем **df**, а не dataframe


Этот метод предоставляет различные сводные статистические данные, исключая значения <code>NaN</code> (Not a Number) и категориальные значения (например, наименования автомобилей).


In [15]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,0.840796,98.797015,174.200995,65.889055,53.766667,2555.666667,126.875622,10.164279,25.179104,30.686567
std,1.254802,6.066366,12.322175,2.101471,2.447822,517.296727,41.546834,4.004965,6.42322,6.81515
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.8,64.1,52.0,2169.0,98.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.5,66.6,55.5,2926.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.0,59.8,4066.0,326.0,23.0,49.0,54.0


Метод <code>describe()</code> возвращает сводную статистику для числовых столбцов DataFrame. Он включает следующие показатели:

- count: количество непропущенных значений в каждом столбце
- mean: среднее значение каждого столбца
- std: стандартное отклонение каждого столбца
- min: минимальное значение каждого столбца
- 25%: первый квартиль (25% квантиль) каждого столбца
- 50%: медиана (50% квантиль) каждого столбца
- 75%: третий квартиль (75% квантиль) каждого столбца
- max: максимальное значение каждого столбца


* count показывает, сколько значений присутствует в каждом столбце,

* mean показывает среднее значение. 

* std показывает, насколько значения в столбце разбросаны относительно среднего значения, 

* min и max показывают, какие значения являются наименьшими и наибольшими в столбце. 

* Квартили (25%, 50%, 75%) показывают, как распределены значения в столбце относительно среднего значения. Эти показатели могут помочь выявить выбросы и аномалии в данных, а также понять, какие значения являются типичными для каждого столбца.

<p>
Так или иначе, этот метод показывает статистическую сводку всех столбцов с числовым типом (int, float).

Например, атрибут "symboling" имеет 205 значений, среднее значение этого столбца - 0,83, стандартное отклонение - 1,25, минимальное значение - -2, 25-й процентиль - 0, 50-й процентиль - 1, 75-й процентиль - 2 и максимальное значение - 3.
<br>

Однако, что если мы хотим также проверить все столбцы, включая не числовые или те, которые имеют тип object?

<br><br>

Мы можем добавить новый аргумент <code>include = "all"</code> внутри скобок для того. чтобы увидеть объекты нечислового типа. 

</p>


In [16]:
# описать весь датасет, включая нечисловые значения "df" 
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,164.0,201,201,201,199,201,201,201,201.0,...,201.0,201,197.0,197.0,201.0,199.0,199.0,201.0,201.0,201.0
unique,,51.0,22,2,2,2,5,3,2,,...,,8,38.0,36.0,,58.0,22.0,,,186.0
top,,161.0,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,8921.0
freq,,11.0,32,181,165,113,94,118,198,,...,,92,23.0,19.0,,19.0,36.0,,,2.0
mean,0.840796,,,,,,,,,98.797015,...,126.875622,,,,10.164279,,,25.179104,30.686567,
std,1.254802,,,,,,,,,6.066366,...,41.546834,,,,4.004965,,,6.42322,6.81515,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,98.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


**Сейчас метод представляет статистическую сводку по всем столбцам, включая атрибуты, типизированные для объектов.**

Теперь мы можем увидеть, сколько существует уникальных значений, какое из них является главным и какова частота главных значений в колонках с объектными атрибутами.

Некоторые значения в таблице выше отображаются как "NaN". Это потому, что эти значения недоступны для определенного типа столбцов.

- **unique:** это количество уникальных значений в каждом столбце. Например, если мы анализируем столбец "цвет" в DataFrame, то unique покажет, **сколько различных цветов присутствует** в этом столбце.

- **top**: это наиболее часто встречающееся значение в каждом столбце. Например, если мы анализируем столбец "авто" в DataFrame, то **top** покажет, какой автомобиль встречается чаще всего в этом столбце.

- **freq:** это частота наиболее часто встречающегося значения в каждом столбце. Например, если мы анализируем столбец "авто" в DataFrame, то **freq** покажет, сколько раз наиболее часто встречающийся авто встречается в этом столбце.

Эти показатели могут помочь понять, какие значения наиболее типичны для каждого столбца, а также выявить выбросы и аномалии в данных.

## РАЗМЕБЕМ СТОЛБЕЦ "make" (автопроизводитель)

Результаты метода describe() для столбца "make" следующие:

- **count**: 201 - это количество непропущенных значений в столбце "make". Это означает, что в столбце есть 201 запись, которые содержат значение.
- **unique**: 22 - это количество уникальных значений в столбце "make". Это означает, что в столбце есть 22 различных производителя автомобилей.
- **top**: "toyota" - это наиболее часто встречающееся значение в столбце "make". Это означает, что больше всего автомобилей в DataFrame принадлежат к производителю "Toyota".
- **freq**: 32 - это частота наиболее часто встречающегося значения в столбце "make". Это означает, что в столбце "make" 32 записи содержат значение "Toyota".

Из этих результатов можно сделать вывод, что в DataFrame **присутствуют автомобили от 22 различных производителей**, причем **большинство из них (32 записи) принадлежат к производителю "Toyota"**. Эти результаты могут помочь понять, какие производители автомобилей наиболее популярны в данном наборе данных.

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Вопрос #3: </h1>

<p>
Вы можете выбрать столбцы фрейма данных, указав имя каждого столбца. Например, вы можете выбрать три столбца следующим образом:

</p>
<p>
    <code>dataframe[[' column 1 ',column 2', 'column 3']]</code>
</p>
<p>
Где "column" - это имя колонки, dataframe - имя переменной, в которой хранится наш объект данных (наше имя df), примениv метод ".describe()" для получения статистики этих колонок следующим образом:

</p>
<p>
    <code>dataframe[[' column 1 ',column 2', 'column 3'] ].describe()</code>
</p>

Применим метод ".describe()" к столбцам 'length' и 'compression-ratio' для получения сводки по этим отдельным столбцам.

</div>


In [17]:
df[['compression-ratio','length']].describe()


Unnamed: 0,compression-ratio,length
count,201.0,201.0
mean,10.164279,174.200995
std,4.004965,12.322175
min,7.0,141.1
25%,8.6,166.8
50%,9.0,173.2
75%,9.4,183.5
max,23.0,208.1


<h2>Информация</h2>
Другой метод, который вы можете использовать для проверки вашего набора данных, это <code>dataframe.info()</code>


Он предоставляет краткую сводку о вашем DataFrame (df). 

Этот метод печатает информацию о DataFrame (df), включая тип индекса dtype и столбцы, значения non-null и использование памяти.




In [18]:
# посмотритм на информацию о "df" с помощью этого метода
df.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       199 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non

Метод `info()` возвращает информацию о DataFrame, включая количество записей, количество столбцов, типы данных в каждом столбце и количество непропущенных значений в каждом столбце. Результаты метода `info()` включают следующие показатели:

- `RangeIndex` или `Int64Index`: это индекс DataFrame, который показывает **количество строй (записей)** в DataFrame.
- `Data columns`: это список столбцов DataFrame, включая название каждого столбца и количество непропущенных значений в каждом столбце.
- `dtypes`: это список типов данных в каждом столбце DataFrame.
- `memory usage`: это количество памяти, используемое DataFrame.

Кроме того, метод `info()` также выводит общее количество записей в DataFrame и количество столбцов.

Например, результаты метода `info()` могут выглядеть следующим образом:

```
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   name     1000 non-null   object 
 1   age      1000 non-null   int64  
 2   gender   1000 non-null   object 
 3   city     1000 non-null   object 
 4   salary   1000 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 39.2+ KB
```


Из этих результатов можно узнать, что DataFrame содержит 1000 записей и 5 столбцов (столбец с типом float64(1) + столбец с типом int64(1) + три столбца с типом object(3)). Типы данных в столбцах включают `float64`, `int64` и `object`. Количество непропущенных значений в каждом столбце равно 1000, что означает, что в DataFrame нет пропущенных значений. Количество памяти, используемое DataFrame, равно 39.2+ KB.

**Наши результаты:**

<code><class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204

dtypes: float64(5), int64(5), object(16)
memory usage: 42.4+ KB</code>

В данном случае DataFrame имеет 201 строку и индекс типа "Int64Index". DataFrame имеет 26 столбцов, из которых 5 столбцов имеют тип "float64", 5 столбцов - тип "int64" и 16 столбцов - тип "object". Типы данных "float64" и "int64" представляют числовые данные, а тип данных "object" представляет нечисловые данные, такие как строчные типы данных.

Значение "использование памяти" указывает на объем памяти, используемой DataFrame. В данном случае DataFrame использует 42,4+ КБ памяти. Это значение может быть полезно для оптимизации использования памяти при работе с большими наборами данных.

### Так же мы можем заметить, что в некоторых столбцах непропущеных значений меньше, чем количество строк в датасете.

В данном случае DataFrame содержит **201 строку**, но в некоторых столбцах отсутствуют значения. Например, столбец **"normalized-losses"** имеет только **164 ненулевых значения**, а столбец **"num-of-doors"** имеет 199 ненулевых значений и тп. Это означает, что в этих столбцах отсутствуют значения для некоторых строк, что может плохо сказаться на будущем анализе данных.

В целом, эта информация говорит о том, что в наборе данных могут быть пропущенные значения, которые необходимо обработать соответствующим образом перед проведением любого анализа или моделирования. Важно тщательно продумать способ обработки отсутствующих значений, поскольку различные подходы могут оказать значительное влияние на результаты анализа.

# ИТАК
Ознакомление с данными закончено. Были сделаны следующие шаги:

- добавлены заголовки столбцов
- у нас есть три типа данных (float64(5 столбцов), int64(5 столбцов), object(16 столбцов))
- в датасете все еще есть пропущенные значения, так же мы обработали пропущенные значения, которые ранее обозначались знаком ? на значения NaN
- удалили строки с пропущенной ценой, так как это наша самая важная и целевая переменная (предикат) (изначально было 204 строки, осталось 201)
- на текущий мотент датасет содержит 201 одну строку
- всего 26 столбцов
- существуют проблемы с типами данных, так как некоторые столбцы, по логике содержащие числовые типы данных, таких как "bore" имеют тип данных обьект - то есть строковый тип

**у нас имеются следующие стобцы**

0. "symboling" - оценка риска автомобиля, выраженная целым числом от -3 до 3. Чем выше число, тем выше риск.
1. "normalized-losses" - нормализованные потери в виде процента от средней стоимости автомобиля. Это числовой столбец, но содержит пропущенные значения.
2. "make" - марка автомобиля. Это строковый столбец.
3. "fuel-type" - тип топлива, используемый автомобилем. Это строковый столбец.
4. "aspiration" - тип наддува двигателя. Это строковый столбец.
5. "num-of-doors" - количество дверей на автомобиле. Это строковый столбец, но содержит пропущенные значения.
6. "body-style" - тип кузова автомобиля. Это строковый столбец.
7. "drive-wheels" - тип привода автомобиля. Это строковый столбец.
8. "engine-location" - расположение двигателя на автомобиле. Это строковый столбец.
9. "wheel-base" - расстояние между передней и задней осью автомобиля. Это числовой столбец.
10. "length" - длина автомобиля. Это числовой столбец.
11. "width" - ширина автомобиля. Это числовой столбец.
12. "height" - высота автомобиля. Это числовой столбец.
13. "curb-weight" - вес автомобиля без пассажиров и груза. Это числовой столбец.
14. "engine-type" - тип двигателя автомобиля. Это строковый столбец.
15. "num-of-cylinders" - количество цилиндров в двигателе автомобиля. Это строковый столбец.
16. "engine-size" - объем двигателя автомобиля. Это числовой столбец.
17. "fuel-system" - система питания автомобиля. Это строковый столбец.
18. "bore" - диаметр цилиндра в двигателе автомобиля. Это числовой столбец, но содержит пропущенные значения.
19. "stroke" - ход поршня в двигателе автомобиля. Это числовой столбец, но содержит пропущенные значения.
20. "compression-ratio" - соотношение объема цилиндра к объему камеры сгорания в двигателе автомобиля. Это числовой столбец.
21. "horsepower" - мощность двигателя автомобиля в лошадиных силах. Это числовой столбец, но содержит пропущенные значения.
22. "peak-rpm" - максимальная частота вращения коленчатого вала двигателя автомобиля. Это числовой столбец, но содержит пропущенные значения.
23. "city-mpg" - расход топлива в городе в милях на галлон. Это числовой столбец.
24. "highway-mpg" - расход топлива на шоссе в милях на галлон. Это числовой столбец.
25. "price" - цена автомобиля. Это числовой столбец, но содержит пропущенные значения.

Эти параметры описывают различные характеристики автомобилей, которые могут быть полезны при анализе и моделировании данных. Например, параметры, связанные с двигателем, могут быть важными при прогнозировании мощности и расхода топлива, 

а параметры, связанные с размерами автомобиля, могут быть важными при прогнозировании цены.



## Практический тест: понимание данных

**Вопрос 1**: Каждый столбец содержит:

A. [ ] другой подержанный автомобиль

B. [X] атрибут или функцию

## Практический тест: пакеты Python для науки о данных

**Вопрос 1**: Какое описание лучше всего описывает библиотеку Pandas?


A. [ ] Включает в себя функции для некоторых сложных математических задач, перечисленных на слайде, а также визуализацию данных.

B. [X] Предлагает структуру данных и инструменты для эффективной обработки и анализа данных. Он обеспечивает быстрый доступ к структурированным данным. Основным инструментом Pandas является двумерная таблица, состоящая из меток столбцов и строк, которые называются DataFrame. 
Он предназначен для обеспечения простой функции индексации.

C. [ ] Использует массивы в качестве входных и выходных данных. Его можно распространить на объекты для матриц, и с небольшим изменением кода разработчики смогут выполнять быструю обработку массивов.

## Практический тест: импорт и экспорт данных в Python

**Вопрос 1**: Некоторые распространенные кодировки...

А. [X] csv

Б. [X]xlsx

C. [ ] Панды

**Вопрос 2**: Что следующий метод делает с фреймом данных? df : df.head(12)

A. [X] Показать первые 12 строк фрейма данных.

B. [ ] Показывает 12 нижних строк фрейма данных.

## Практический тест: начало работы с данными в Python

**Вопрос 1**. Чтобы включить сводку по всем столбцам, какой параметр должен быть установлен для описания метода?

А. [Х]df.describe(include=“all”)

Б. [ ]df.describe(include=“None”)

**Итог урока**
На этом уроке вы узнали, как:

Определите бизнес-проблему : посмотрите на данные и примите решение на высоком уровне о том, какой анализ следует провести.

Импорт и экспорт данных в Python : как импортировать данные из нескольких источников данных с помощью библиотеки Pandas и как экспортировать файлы в разные форматы.

Анализ данных в Python : как провести вводный анализ в Python, используя такие функции, как dataframe.head()просмотр первых нескольких строк набора данных, dataframe.info()просмотр имен столбцов и типов данных.


## Импорт наборов данных

Тест с оценками: импорт наборов данных

**Вопрос 1**: Что мы хотим предсказать на основе набора данных?

А. [Х] цена

Б. [ ] цвет

C. [ ] производителя


**Вопрос 2**: Выберите библиотеки, которые вы будете использовать для этого курса:

А. [X] панды

B. [] матплотлиб

C. [] scikit-learn

**Вопрос 3**: Какую задачу выполняет следующая команда?

df.to_csv("A.csv")

A. [X] Сохраните фрейм данных dfв CSV-файл с именем"A.csv"

B. [ ] загрузить данные из CSV-файла с именем «A» в фрейм данных

C. [ ] изменить имя столбца на"A.csv"

**Вопрос 4**. Рассмотрим сегмент следующего фрейма данных:

In [19]:
df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430



# Какой тип колонки "производитель"?

А. [ ] int64

Б. [ ] float64

C. [X] object

**Вопрос 5**: Как бы вы сгенерировали описательную статистику для всех столбцов фрейма данных df?

А. [ ]df.describe()

Б. [Х]df.describe(include = "all")

С. [ ]df.info