<a href="https://colab.research.google.com/github/ordevoir/Data_Analysis/blob/main/pandas_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Данные

**Данные** (*Data*) - представление информации в формализованном виде, пригодном для хранения, передачи или обработки.

**Неструктурированные данные** (*Unstructured Data*) - информация, которая либо не имеет заранее определенной модели данных, либо не организована заранее определенным образом. Примерами неструктурированных данных могут быть изображения, видео или аудиофайлы, текстовые документы (в частности, PDF-документы), в которых содержатся даты, числа или факты.

**Структурированные данные** (*Structured Data*) - хорошо организованное представление информации, которое имеет определенную структуру. Структурированные данные обычно существуют в виде таблиц, баз данных и прочих формах, в которых заранее определена модель данных (не путать со структурами данных: одна и те же структурированные данные могут храниться посредством разных структур данных).

**Анализ данных** (*Data Analysis*) - это процесс, который включает в себя сбор, обработку, изучение и интерпретацию данных с целью извлечения полезной информации и принятия решений.

## Элементы структурированных данных

Можно выделить два основных **типа данных** (*data types*), которые участвуют в формированиии структурированных данных: числовые и категориальные; в иных терминах можно было бы использовать слова **количественные** (*quantitative*) и **качественные** (*qualitative*).

**Числовые** (*numerical*) данные имеют две формы: **непрерывную** (*continuous*) или **дискретную** (*discrete*). С числовыми данными можно производить арифметические манипуляции, между значениями легко определить способ измерения расстояния. Имеет смысл вычислять среднее от значений и тд.

**Категориальные** (*categorical*) данные как правило принимают значение из ограниченного и фиксированного множества. Различают номинальны  и порядковые категориальные данные.

**Номинальные** (*nominal*) данные группируются во взаимоисключающие описательные категории, между которыми нет отношения порядка. Примерами могут быть такие признаки как цвет волос, группа крови или политические предпочтения. Несмотря на то, что группы крови могут быть представлены в виде чисел, они не имеют арифметического значения, и нет смысла сравнивать их по величине.

**Порядковые** (*ordinal*) отличаются от номинальных тем, что в категориях есть естественный порядок, например, уровень образования, уровень дохода, тяжесть состояния больного. Принципиальное отличие порядковых данных от числовых в том, что для них не определена шкала, в соответствии с которой можно было бы говорить о расстоянии, между значениями. Поэтому арифметические операции и поиск среднего значения не имеет большого смысла.

---

# [Pandas]("https://pandas.pydata.org/)

Pandas – это библиотека Python, которая предоставляет инструменты для анализа структурированных данных. Основными структурами в Pandas являются [`DataFrame`](https://pandas.pydata.org/docs/reference/frame.html) и [`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).
- `DataFrame` – это двумерная таблица, которая содержит данные различных типов.  
- `Series` представляет собой единственную колонку с данными.

Эти структуры данных также содержат названия для строк и колонок.

Pandas также предоставляет инструменты для чтения и записи данных из различных источников, таких как CSV, Excel, базы данных, веб-API и т.д.

Установить библиотеку Pandas в Python можно выполнив в терминале

`pip install pandas`

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

---

## Загрузка данных

Загрузим данные из файла data.csv формата CSV (*comma-separated values*), расположенного на локальном диске. Фактически это текстовый файл, в котором задана таблица, строки которой разделены переносом на новую строку, а колонки разделены запятыми. Откройте этот файл в текстовом редакторе и просмотрите его. Убедитесь, что это такие же данные, какие были сгенерированы в файле matplotlib_examples.ipynb. Вы можете также открыть файл data.csv в Microsoft Excel.

Для того, чтобы загрузить данные из файла формата CSV используется функция `read_csv()` в которую передается в качестве аргумента путь к файлу. Функция возвращает объект класса `DataFrame`:

>>```python
>>pd.read_csv('directory/file_name.csv')
>>```

Загрузка данных из локального

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv('drive/MyDrive/Colab Notebooks/data.csv')
print(type(data))

In [None]:
# посмотрим на загруженные данные
data.head()     # просмотр первых пяти строк
# data          # просмотр данных целиком

Загрузка данных из файла, расположенного в репозитории GitHub

In [None]:
housing = pd.read_csv('https://raw.githubusercontent.com/ordevoir/Data_Analysis/main/housing.csv')

## `DataFrame`

В таблице `DataFrame` в строках записаны данные об **оразцах** (*samples*), а колонкам таблицы соответствуют признаки (*features*). В терминах баз данных можно сказать, что в строках расположены **записи** (*records*) об экземплярах, а колонки соответствуют **полям** (*fields*), также используется понятие **атрибут** (*atribute*).

Колонки таблицы умеют названия, соовтетствующие названиям признаков. Традиционные таблицы базы данных содержат колоноку (или несколько колонок) для индексации. Это значительно повышает эффективность некоторых запросов
к базе данных. По умолчанию для объекта `DataFrame` создается автоматический целочисленный индекс, который основывается на порядке следования строк таблицы. В pandas также существует возможность задавать многоуровневые/иерархические индексы с целью повышения эффективности некоторых операций.

## Обзор данных

In [None]:
housing.head()  # вывод первых пяти образцов

При помощи метода `info()` можно увидеть, сколько всего образцов, сколько атрибутов, какое количество непустых значений параметров, какие у них типы данных:

In [None]:
housing.info()  # вывод информации об атрибутах

Статистическое описание атрибутов можно посмотреть при помощи метода `describe()`.<br>

In [None]:
housing.describe()

При помощи метода `value_counts()` можно посмотреть распределение значений для отдельного признака: список принимаемых признак значений, и количество образцов с этим значением. Это полезно, когда принимаемых значений не так много. Обычно это касается категориальных признаков, таких как `ocean_proximity` в данных `housing`. Заметим, что доступ к столбцу признака производится по ключу, подобно тому, как это делается в словарях (dict).

In [None]:
housing['ocean_proximity'].value_counts()

Метод `hist()` позволяет визуализировать распределение значений признака. Сравните значения, полученные в предыдущей ячейке с кодом со значениями на диаграмме:

In [None]:
housing['ocean_proximity'].hist(figsize=(5, 3))

Особенно полезен метод `hist()` для числовых признаков, когда принимаемых значений очень много, и метод `value_counts()` уже не выводит удобные для восприятия данные. Попробуйте вместо `hist()` вызвать метод `value_counts()` и посмотрите результат.

In [None]:
housing['median_income'].hist(bins=12, figsize=(5,3))

Если вызвать метод `hist()` непосредственно у объекта класса `DataFrame`, то будут визуализировано распределение всех числовых признаков:

In [None]:
housing.hist(bins=15, figsize=(15, 10))

## Series

Если извлечь из объекта `DataFrame` данные одного из атрибутов (столбец), получим объект `Series`.

In [None]:
s = housing['latitude']
type(s)

In [None]:
s.info()