# Считывание текстовых файлов

Файл — ещё один тип данных, с которым работает Python. 

Встроенная функция open создает объект файла, который обеспечивает связь с файлом, размещенным в компьютере. После вызова функции open можно выполнять операции чтения и записи во внешний файл, используя методы полученного объекта.

Файлы не являются ни числами, ни последовательно- стями или отображениями – для задач работы с файлами они предоставляют одни только методы.

In [None]:
some_input = open("<файл_с_текстом.txt>", mode="rt", encoding="utf8", errors="strict", newline="\n")  

# Задача 1. Поиск и частотный анализ хэш-тэгов в текстах социальных медиа.

**Дано**:

Файл с текстами. Каждый текст записан в отдельной строке. Кодировка файла utf-8. 

Тексты могут содержать **#хэштеги** и **@упоминания**.

Пример текста:

>RT @maaj19: سَمِعْنَا وَ أطَعْنَا #gd #gd#fdfd @allah

**Цель**

Извлечь из текстов хэштэги и упоминания и посчитать их распределение. Определить самые популярные хэштэги и упоминания.

**Задачи**

* Считать файл с текстами. Сохранить тексты в список.
* Написать функцию get_entities(), которая принимает два аргумента. Первый аргумент типа str — обязательный. Через него передаётся текст. Второй аргумент — опциональный. От него зависит, будет функция возвращать список хэштэгов или список упоминаний.
* Создать структуру, которая будет связывать номер текста с содержащимися в нём сущностями.
* Посчитать распределение хэштэгов и упоминани, определить популярные.

In [2]:
def get_entities(string, mode="hashtags"):
    '''
    Находит хештэги или упоминания в строках.
    
    Args:
        string: строка с текстом твита
        mode: режим поиска хэштеги, в случае или "hashtags"
            упоминания в случае "mentions"
    Returns:
        Возвращает список с искомыми сущностями
        
    Raises:
        ValueError в случае, если указан неправильный режим поиска.
    '''
    result = []
    if mode == "hashtags":
        divider = "#"
    elif mode == "mentions":
        divider = "@"
    else:
        # ValueError
        raise Exception(
            "Недопустимое значение параметра mode. Возможные значения 'hashtags' или 'mentions'"
        )
    for token in string.split():
        if token.startswith(divider):
            if len(token.split(divider)) > 2:
                tokens = token.split(divider)
                tokens.pop(0)
                for sub_token in tokens:
                    result.append(divider + sub_token)
            else:
                result.append(token)
    return result

Обычно, когда надо открыть файл, быстро считать из него данные и сразу закрыть, используют не методы open и close, т. к. за ними бывает сложно уследить (можно забыть закрыть файл, например), и создают контекст работы с файлом при помощи функции with. Очень кратко про управление контекстом при помощи with можно почитать [здесь](https://pythonworld.ru/osnovy/with-as-menedzhery-konteksta.html), а более подробно [тут](http://blog.jetfix.ru/post/kak-rabotaet-operator-with-python). Ну и, разумеется, в [документации](https://docs.python.org/3/reference/compound_stmts.html#with).

In [6]:
result_hash = []
with open("tweets_preprocessed.txt", "rt") as file_object:
    for num, line in enumerate(file_object):
        result_hash += get_entities(line, "hashtags")

In [4]:
sample_str = "RT @maaj19: سَمِعْنَا وَ أطَعْنَا #gd #gd#fdfd @allah"

In [5]:
get_entities(sample_str, mode="mentions")

['@maaj19:', '@allah']

Разные стили docstring: https://stackoverflow.com/questions/3898572/what-is-the-standard-python-docstring-format

In [7]:
from collections import Counter

In [8]:
Counter(result_hash).most_common()

[('#ISIS', 98),
 ('#Syria', 59),
 ('#IS', 42),
 ('#IslamicState', 24),
 ('#Iraq', 19),
 ('#Aleppo', 15),
 ('#AmaqAgency', 15),
 ('#Turkey', 13),
 ('#USA', 13),
 ('#Breaking', 13),
 ('#BreakingNews', 11),
 ('#Iraq|i', 10),
 ('#YPG', 9),
 ('#Sinai', 9),
 ('#Libya', 8),
 ('#Palmyra', 8),
 ('#Russia|n', 7),
 ('#Sirte', 7),
 ('#PhotoReport', 7),
 ('#Homs', 7),
 ('#Fallujah', 7),
 ('#BREAKING', 7),
 ('#Peshmerga', 6),
 ('#Baghdad', 6),
 ('#Assad', 6),
 ('#Mosul', 6),
 ('#Aleppo.', 6),
 ('#SAA', 5),
 ('#Brussels', 5),
 ('#Damascus', 5),
 ('#Iraqi', 5),
 ('#Caliphate_News', 5),
 ('#FSA', 5),
 ('#US', 5),
 ('#Syria|n', 5),
 ('#Idlib', 5),
 ('#WilayatBarqah', 5),
 ('#Saudi', 4),
 ('#Yemen', 4),
 ('#Bagdad.', 4),
 ('#Russia', 4),
 ('#Syria.', 4),
 ('#Kirkuk', 3),
 ('#Egypt|ian', 3),
 ('#Egypt', 3),
 ('#IRAQ', 3),
 ('#Anbar', 3),
 ('#WilayatNinawa', 3),
 ('#WilayatArRaqqah', 3),
 ('#BREAKING:', 3),
 ("#Assad's", 3),
 ('#WilayatAlFallujah', 3),
 ('#DeirEzzor', 3),
 ('#Gaza.', 3),
 ('#Misrata', 3),


# Расчёт шкалированных значений

In [10]:
import csv

Мы будем работать с классическим набором данных **Boston house pricing**, в котором представлены данные о ценах на недвижимость в различных частях города. 

Имеются следующие поля:

* **Первое поле содержит номер строки**. У него нет заголовка.
* **crim** - per capita crime rate by town
* **zn** - proportion of residential land zoned for lots over 25,000 sq.ft.
* **indus** - proportion of non-retail business acres per town.
* **chas** - Charles River dummy variable (1 if tract bounds river; 0 otherwise)
* **nox** - nitric oxides concentration (parts per 10 million)
* **rm** - average number of rooms per dwelling
* **age** - proportion of owner-occupied units built prior to 1940
* **dis** - weighted distances to five Boston employment centres
* **rad** - index of accessibility to radial highways
* **tax** - full-value property-tax rate per \$10,000
* **ptratio** - pupil-teacher ratio by town
* **black** - $1000(B_{k} - 0.63)^2$ where $B_{k}$ is the proportion of blacks by town
* **lstat** - % lower status of the population
* **medv** - Median value of owner-occupied homes in $1000's

**<span style="color: blue">Задача: найти номера районов, в которых уровень преступности на душу населения (поле crim) значимо выше</span>**.



Найдём значения переменной crim, которые значимо выделяются. Для этого рассчитаем z-значения.

Z-оценка (Z-тест) рассматривает определенную выборку данного набора данных и позволяет определить количество стандартных отклонений от среднего значения. Если z-оценка какого-то значения случайной величины больше 1.96, то при условии нормального распределения, с уверенностью в 95% можно говорить, что это значение значимо больше остальных. Если меньше -1.96 — то значимо меньше.

Чтобы найти Z-оценку выборки, нужно вычислить среднее значение, дисперсию и стандартное отклонение выборки. Чтобы вычислить Z-оценку, необходимо вычесть среднее значение из чисел выборки, а затем полученный результат разделить на стандартное отклонение.

Говоря точнее, z-значения рассчитываются по следующей формуле:

$$z = {x- \mu \over \sigma},$$
где $\mu$ — среднее значение случайной величины, а $\sigma$ — среднее квадратическое отклонение (стандартное отклонение на основании несмещённой оценки дисперсии).

Среднее квадратическое отклонение рассчитывается по формуле 
$$S_0=\sqrt{\frac{n}{n-1}S^2},$$
где $S^2$ — выборочная дисперсия, равная $$S^2=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}$$.

![График плотности вероятности нормального распределения и процент попадания случайной величины на отрезки, равные среднеквадратическому отклонению](https://upload.wikimedia.org/wikipedia/commons/3/37/Standard_deviation_diagram_%28decimal_comma%29.svg)

In [16]:
# нотация вида 'аргумент: тип данных' -- это новинка последней версии питона.
# Не влияет на выполнение программы, просто напоминание для программиста, что ожидает получить функция.

def get_mean(l: "Список чисел"):
    return sum(l) / len(l)


def get_sample_variance(l: "Список чисел"):
    x_mean = get_mean(l)
    return sum([(x_i - x_mean)**2 for x_i in l]) / len(l)


def get_standart_deviation(l: "Список чисел"):
    s2 = get_sample_variance(l)
    return (len(l) / (len(l) - 1) * s2)**0.5


def scale(l: "Список чисел"):
    mean = get_mean(l)
    sd = get_standart_deviation(l)
    return [((x_i - mean) / sd) for x_i in l]

In [11]:
f = open("Boston.csv", "rt")
next(f) # Пропускаем первую строку, которая содержит заголовки

csv_reader = csv.DictReader(
    f,
    delimiter=",",
    fieldnames=[
        '_id', 'crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad',
        'tax', 'ptratio', 'black', 'lstat', 'medv'
    ])


In [12]:
var = []
for row in csv_reader:
    var.append(float(row["crim"]))

In [13]:
f.close()

In [14]:
min(var)

0.00632

In [62]:
get_mean(var)

3.6135235573122535

In [63]:
get_sample_variance(var)

73.84035966507902

In [64]:
get_standart_deviation(var)

8.601545105332487

In [17]:
scale(var)

[-0.41936692921321594,
 -0.41692666996409716,
 -0.4169289951277457,
 -0.41633840356102236,
 -0.4120740534296418,
 -0.4166313741807355,
 -0.4098372459997683,
 -0.40329656065648944,
 -0.3955433024705089,
 -0.4003331395864543,
 -0.393956378280396,
 -0.40644483223658173,
 -0.4091989885782503,
 -0.34688692796163834,
 -0.3459336108657463,
 -0.34716245985398764,
 -0.2975736947220617,
 -0.3289320142677887,
 -0.32678007531108605,
 -0.33572149212145885,
 -0.27457085074728116,
 -0.32104505917201837,
 -0.27681695883174884,
 -0.30518860567095546,
 -0.33287781697932234,
 -0.3223820282699158,
 -0.3419866455723884,
 -0.30898559790898406,
 -0.33023526849278256,
 -0.3035586659533449,
 -0.28863576565716165,
 -0.26260439603018754,
 -0.2587364863008792,
 -0.2862048070626369,
 -0.23259815914607332,
 -0.41264139335988004,
 -0.40877348363057164,
 -0.41078475018653904,
 -0.39975068609250075,
 -0.4168894673457209,
 -0.4161965685784628,
 -0.4052857381577959,
 -0.4036511481128883,
 -0.4015747769747625,
 -0.405837

In [22]:
for row_num, z_score in enumerate(scale(var)):
    if z_score > 1.96:
        print("Строка №{}: z-score = {}".format(row_num, z_score))

Строка №378: z-score = 2.3291950687170546
Строка №380: z-score = 9.92410961023358
Строка №386: z-score = 2.415877169533775
Строка №387: z-score = 2.2069960931692343
Строка №398: z-score = 4.038608879833916
Строка №400: z-score = 2.491712381930163
Строка №403: z-score = 2.463298882145283
Строка №404: z-score = 4.408007628673841
Строка №405: z-score = 7.476247075984146
Строка №406: z-score = 1.9883260778444358
Строка №410: z-score = 5.5248534839661
Строка №413: z-score = 2.911369543032787
Строка №414: z-score = 4.898256758145447
Строка №417: z-score = 2.595705326110094
Строка №418: z-score = 8.128839131395221
Строка №427: z-score = 3.9584023597783164
Строка №440: z-score = 2.143519125564715
