Исключения (exceptions) - ещё один тип данных в python. Исключения необходимы для того, чтобы сообщать программисту об ошибках.

Для обработки исключений используется конструкция try - except.

## Считывание текстовых файлов

Файл — ещё один тип данных, с которым работает Python. 

Встроенная функция open создает объект файла, который обеспечивает связь с файлом, размещенным в компьютере. После вызова функции open можно выполнять операции чтения и записи во внешний файл, используя методы полученного объекта.

Файлы не являются ни числами, ни последовательно- стями или отображениями – для задач работы с файлами они предоставляют одни только методы.

In [None]:
some_input = open("<файл_с_текстом.txt>", mode="rt", encoding="utf8", errors="strict", newline="\n")  

## Задача 1. Поиск и частотный анализ хэш-тэгов в текстах социальных медиа.

**Дано**:

Файл с текстами. Каждый текст записан в отдельной строке. Кодировка файла utf-8. 

Тексты могут содержать **#хэштеги** и **@упоминания**.

Пример текста:

>RT @maaj19: سَمِعْنَا وَ أطَعْنَا #gd #gd#fdfd @allah

**Цель**

Извлечь из текстов хэштэги и упоминания и посчитать их распределение. Определить самые популярные хэштэги и упоминания.

**Задачи**

* Считать файл с текстами. Сохранить тексты в список.
* Написать функцию get_entities(), которая принимает два аргумента. Первый аргумент типа str — обязательный. Через него передаётся текст. Второй аргумент — опциональный. От него зависит, будет функция возвращать список хэштэгов или список упоминаний.
* Создать структуру, которая будет связывать номер текста с содержащимися в нём сущностями.
* Посчитать распределение хэштэгов и упоминани, определить популярные.

In [13]:
result_hash = []
with open("tweets_preprocessed.txt", "rt") as file_object:
    for num, line in enumerate(file_object):
        result_hash.append((num + 1, get_entities(line, "hashtags")))

NameError: name 'get_entities' is not defined

In [5]:
len(result_hash)

0

In [10]:
import pandas as pd
df = pd.read_excel("/Users/hun/Google Drive/Teaching/Python for Data Scientists/Lesson 2. Практические задания + numpy/how-isis-uses-twitter/tweets.xlsx")

In [11]:
with open("tweets_preprocessed.txt", "wt") as file_object:
    for i, t in df.sample(1000)["tweets"].iteritems():
        file_object.write(t.replace("\n", " ").replace("\r", " ") + "\n")

In [49]:
def get_entities(string, mode="hashtags"):
    '''
    Находит хештэги или упоминания в строках.
    
    Args:
        string: строка с текстом твита
        mode: режим поиска хэштеги, в случае или "hashtags"
            упоминания в случае "mentions"
    Returns:
        Возвращает список с искомыми сущностями
        
    Raises:
        ValueError в случае, если указан неправильный режим поиска.
    '''
    result = []
    if mode == "hashtags":
        divider = "#"
    elif mode == "mentions":
        divider = "@"
    else:
        # ValueError
        raise Exception(
            "Недопустимое значение параметра mode. Возможные значения 'hashtags' или 'mentions'"
        )
    for token in string.split():
        if token.startswith(divider):
            if len(token.split(divider)) > 2:
                tokens = token.split(divider)
                tokens.pop(0)
                for sub_token in tokens:
                    result.append(divider + sub_token)
            else:
                result.append(token)
    return result

In [50]:
sample_str = "RT @maaj19: سَمِعْنَا وَ أطَعْنَا #gd #gd#fdfd @allah"

In [51]:
get_entities(sample_str, mode="mentions")

['@maaj19:', '@allah']

In [38]:
print(get_entities.__doc__)


    Находит хештэги или упоминания в строках.
    
    Args:
        string: строка с текстом твита
        mode: режим поиска хэштеги, в случае или "hashtags"
            упоминания в случае "mentions"
    Returns:
        Возвращает генератор с искомыми сущностями
        
    Raises:
        ValueError в случае, если указан неправильный режим поиска.
    


Разные стили docstring: https://stackoverflow.com/questions/3898572/what-is-the-standard-python-docstring-format

# Загрузка данных из csv

In [127]:
import csv
from urllib.request import urlopen

Мы будем работать с классическим набором данных **Boston house pricing**. Они имеет следующие поля:

* **crim** - per capita crime rate by town
* **zn** - proportion of residential land zoned for lots over 25,000 sq.ft.
* **indus** - proportion of non-retail business acres per town.
* **chas** - Charles River dummy variable (1 if tract bounds river; 0 otherwise)
* **nox** - nitric oxides concentration (parts per 10 million)
* **rm** - average number of rooms per dwelling
* **age** - proportion of owner-occupied units built prior to 1940
* **dis** - weighted distances to five Boston employment centres
* **rad** - index of accessibility to radial highways
* **tax** - full-value property-tax rate per \$10,000
* **ptratio** - pupil-teacher ratio by town
* **black** - $1000(B_{k} - 0.63)^2$ where $B_{k}$ is the proportion of blacks by town
* **lstat** - % lower status of the population
* **medv** - Median value of owner-occupied homes in $1000's

In [159]:
url = "https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/MASS/Boston.csv"

In [300]:
res = urlopen(url)
data_for_csvreader = res.read().decode('utf-8').splitlines()
data_for_csvreader = data_for_csvreader[1:]

In [301]:
csv_reader = csv.DictReader(
    data_for_csvreader,
    delimiter=",",
    fieldnames=[
        '_id', 'crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad',
        'tax', 'ptratio', 'black', 'lstat', 'medv'
    ])

Стандартные величины рассчитываются по следующей формуле:

$$z = {x- \mu \over \sigma},$$
где $\mu$ — среднее значение случайной величины, а $\sigma$ — среднее квадратическое отклонение (стандартное отклонение на основании несмещённой оценки дисперсии).

Среднее квадратическое отклонение рассчитывается по формуле 
$$S_0=\sqrt{\frac{n}{n-1}S^2},$$
где $S^2$ — выборочная дисперсия, равная $$S^2=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}$$.

![График плотности вероятности нормального распределения и процент попадания случайной величины на отрезки, равные среднеквадратическому отклонению](https://upload.wikimedia.org/wikipedia/commons/3/37/Standard_deviation_diagram_%28decimal_comma%29.svg)

In [306]:
def get_mean(l: "Список чисел"):
    return sum(l) / len(l)


def get_sample_variance(l: "Список чисел"):
    x_mean = get_mean(l)
    return sum([(x_i - x_mean)**2 for x_i in l]) / len(l)


def get_standart_deviation(l: "Список чисел"):
    s2 = get_sample_variance(l)
    return (len(l) / (len(l) - 1) * s2)**0.5


def scale(l: "Список чисел"):
    mean = get_mean(l)
    sd = get_standart_deviation(l)
    return [((x_i - mean) / sd) for x_i in l]

In [303]:
var = []
for row in csv_reader:
    var.append(float(row["crim"]))

In [304]:
min(var)

0.00632

In [307]:
max(scale(var))

9.92410961023358

In [271]:
mean(var)

3.6135235573122535

In [274]:
get_sample_variance(var)

37363.221990529986

In [228]:
get_standart_deviation(var)

193.48697260727673

In [278]:
max(scale(var))**0.5

9.431729650615711

# Numpy

In [59]:
import numpy as np

## numpy arrays

Массивы бывают 1 ли 2-х мерные.

Создадим одномерный массив из списка при помощи функции array

Создадим двумерный массив из списка при помощи функции array. Обратите внимание на скобки.

Но проще создавать массивы при помощи функции arange.

Для создания специфических массивов надо использовать специальные функции. Нарпимер, zeros создаёт массив нулей.

А функция ones создаёт массив единиц.

Для создания двуменых массивов необходимо передать функции кортеж, первый элемент которого обозначат количество строк, а второй — столбцов.

Для создания массива с необходимым количеством линейнораспределённых элементов из заданного промежутка используется функция linspace

Для создания единично матрицы используется функция eye. Ей можно задавать смещение.

Также можно создавать массивы со случайными числами при помощи функции rand() модуля random.

Для получения случайных чисел из нормального распределения используем функцию randn() из модуля random. Для создания матрицы случайных чисел надо передать функции два числа, не кортеж.

Получить случайный номер можено при помощи функции randint модуля random.

Попробуем узнавать различную информацию о массивах и производить  манипуляции с ними при помощи свойств и методов массивов. Для тестовых целей создадим два массива.

In [61]:
arr = np.arange(25)

In [63]:
ranarr = np.random.randint(0, 50, 10)

Размерность массива можно узнать при помощи функции свойства shape.

Свойство dtype возващяет тип переменной.

Трансформируем одномерный массив arr в двумерный 5×5 при помощи функции reshape

Также можно находить максимум и минимум при помощи методов max, min, argmax, argmin.

## Индексация массивов
[:]

## Броадкастинг

## Присваивание по ссылке
.copy()

## Индексирование и выбор двумерных массивов

In [71]:
arr_2d = np.arange(5, 126, 5).reshape(5, 5)
arr_2d

array([[  5,  10,  15,  20,  25],
       [ 30,  35,  40,  45,  50],
       [ 55,  60,  65,  70,  75],
       [ 80,  85,  90,  95, 100],
       [105, 110, 115, 120, 125]])

## Выбор по условию

## Базовые операции в numpy
+, -, *, /, **, sqrt, exp, sin, log, max, mix, https://docs.scipy.org/doc/numpy-1.13.0/reference/ufuncs.html

Деление на 0. nan, inf

## Задание по numpy

Create an array of the integers from 10 to 50

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50])

#### Create an array of all the even integers from 10 to 50

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48, 50])

#### Create a 3x3 matrix with values ranging from 0 to 8

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

#### Create a 3x3 identity matrix

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

#### Use NumPy to generate a random number between 0 and 1

array([ 0.50859864])

Use NumPy to generate an array of 25 random numbers sampled from a standard normal distribution

array([ 0.83544214,  0.82361062,  0.55236229,  0.25372352,  1.31272531,
        0.17114215,  1.6015891 ,  0.05378159,  0.84818659,  0.19994513,
        0.6527722 , -0.79569314,  0.99138722, -0.42127478,  0.57082049,
        1.63465268, -0.58826152, -1.29230805,  0.13886913, -0.53790921,
        0.25621214, -0.05533424,  0.80780796,  0.02341042, -0.12596769])

#### Create the following matrix:

array([[ 0.01,  0.02,  0.03,  0.04,  0.05,  0.06,  0.07,  0.08,  0.09,  0.1 ],
       [ 0.11,  0.12,  0.13,  0.14,  0.15,  0.16,  0.17,  0.18,  0.19,  0.2 ],
       [ 0.21,  0.22,  0.23,  0.24,  0.25,  0.26,  0.27,  0.28,  0.29,  0.3 ],
       [ 0.31,  0.32,  0.33,  0.34,  0.35,  0.36,  0.37,  0.38,  0.39,  0.4 ],
       [ 0.41,  0.42,  0.43,  0.44,  0.45,  0.46,  0.47,  0.48,  0.49,  0.5 ],
       [ 0.51,  0.52,  0.53,  0.54,  0.55,  0.56,  0.57,  0.58,  0.59,  0.6 ],
       [ 0.61,  0.62,  0.63,  0.64,  0.65,  0.66,  0.67,  0.68,  0.69,  0.7 ],
       [ 0.71,  0.72,  0.73,  0.74,  0.75,  0.76,  0.77,  0.78,  0.79,  0.8 ],
       [ 0.81,  0.82,  0.83,  0.84,  0.85,  0.86,  0.87,  0.88,  0.89,  0.9 ],
       [ 0.91,  0.92,  0.93,  0.94,  0.95,  0.96,  0.97,  0.98,  0.99,  1.  ]])

Создайте массив класса np.ndarray ширины 4 и высоты 3 с двойками на главной диагонали и единицами на первой диагонали над главной, т.е. воплощение матрицы

array([[ 2.,  1.,  0.,  0.],
       [ 0.,  2.,  1.,  0.],
       [ 0.,  0.,  2.,  1.]])

Повторите вывод

In [87]:
mat = np.arange(1, 26).reshape(5, 5)
mat

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

20

array([[12, 13, 14, 15],
       [17, 18, 19, 20],
       [22, 23, 24, 25]])

array([[ 2],
       [ 7],
       [12]])

array([21, 22, 23, 24, 25])

#### Get the sum of all the columns in mat

array([55, 60, 65, 70, 75])