# Студент (введите свои ФИО и номер группы)

# Лабораторная - Преступление в Сан-Франциско - Вариант "A"
### Задачи

Продемонстрируйте свои знания о Data Analysis Lifecycle с использованием заданного набора данных и с применением инструментов Python и Jupyter Notebook

#### Часть 1: Импорт Python пакетов
#### Часть 2: Загрузка данных
#### Часть 3: Подготовка данных
#### Часть 4: Анализ данных
#### Часть 5. Визуализация данных

### История / Cценарий

В этой лабораторной работе вы импортируете некоторые пакеты Python, необходимые для анализа набора данных, которые содержат в себе информацию о преступлениях в Сан-Франциско. Затем при помощи Python и Jupyter Notebook вы подготовите эти данные для анализа, проанализируете их, построите графики, и поделитесь своими результатами.

### Необходимые ресурсы

* 1 ПК с доступом в Интернет
* Raspberry Pi версии 2 или выше
* Библиотеки Python: pandas, numpy, matplotlib, folium, datetime, и csv
* Файл данных: Map-Crime_Incidents-Previous_Three_Months.csv

## Часть 1: Импорт Python пакетов

В этой части вы импортируете следующие пакеты Python, необходимые для остальной части этой лабораторной работы.
#### numpy 
NumPy - это фундаментальный пакет для научных вычислений в Python. Он содержит, среди прочего, мощный инструмент для создания N-мерных массивов  и сложные (широковещательные) функции.
#### pandas 
Pandas - библиотека с открытым исходным кодом, лицензированная BSD, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
#### matplotlib
Matplotlib - это графическая библиотека для языка программирования Python и его расширения NumPy.
#### folium 
Folim - это библиотека для создания интерактивной карты.

In [None]:
# Ячейка для кода № 1
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import folium 

## Часть 2: Загрузка данных

В этой части вы загрузите набор данных о преступлениях в Сан-Франциско и пакеты Python, необходимые для анализа и визуализации.

#### Шаг 1: Загрузите данные о преступлениях в Сан-Франциско в кадр данных.
На этом этапе вы импортируете данные о преступлениях в Сан-Франциско из файла значений, разделенных запятыми (csv), в кадр данных

In [None]:
# Ячейка для кода № 2
# Это должен быть локальный путь
dataset_path = './Data/Map-Crime_Incidents-Previous_Three_Months.csv'

# считывание исходного набора данных (в формате значений, разделённых запятыми) в кадр данных
SF = pd.read_csv(dataset_path)

Для просмотра первых пяти строк файла csv используется команда `head` в Linux.

In [None]:
# Ячейка для кода № 3
!head -n 5 ./Data/Map-Crime_Incidents-Previous_Three_Months.csv

#### Шаг 2. Просмотрите импортированные данные.

a) Набрав имя переменной кадра данных в ячейку, вы можете визуализировать верхнюю и нижнюю строки структурированным способом.

In [None]:
# Ячейка для кода № 4
pd.set_option('display.max_rows', 10) #Визуализировать 10 строк 
SF

b) Используйте функцию `columns` для просмотра имени переменных в кадре данных.

In [None]:
# Ячейка для кода № 5
SF.columns

Сколько переменных содержится в кадре данных SF (игнорируйте индекс)?

c) Используйте функцию `len`, чтобы определить количество строк в наборе данных.

In [None]:
# Ячейка для кода № 6
len(SF)

## Часть 3: Подготовка данных

Теперь, когда вы загрузили данные в рабочую среду и определили какой хотите провести анализ, настало время подготовить данные для анализа.


#### Шаг 1: Извлеките месяц и день из поля «Дата».

`lambda` - это ключевое слово Python для определения так называемых *анонимных функций*. `lambda` позволяет вам указать функцию в одной строке кода, не используя `def` и не определяя для нее конкретное имя. Синтаксис для выражения `lambda`:

`lambda` *параметры* : *выражение*.

В дальнейшем функция `lambda` используется для создания встроенной функции, которая выбирает только цифры месяца из переменной Date, и `int` для преобразования строкового представления в целое число. Затем используется функция `apply` из пакета *pandas* для применения этой функции ко всему столбцу (на практике, `apply` неявно определяет цикл `for` и передает по очереди строки в функцию `lambda`).  Такая же процедура может быть выполнена для Дня. 

In [None]:
# Ячейка для кода № 7
SF['Month'] = SF['Date'].apply(lambda row: int(row[0:2]))
SF['Day'] = SF['Date'].apply(lambda row: int(row[3:5]))

Чтобы проверить, что эти две переменные были добавлены в кадр данных SF, используйте функцию `print`  для печати некоторых значений из этих столбцов и `type`, чтобы проверить, что эти новые столбцы содержат действительно числовые значения.

In [None]:
# Ячейка для кода № 8
print(SF['Month'][0:2])
print(SF['Day'][0:2])

In [None]:
# Ячейка для кода № 9
print(type(SF['Month'][0]))

#### Шаг 2. Удалите переменные из кадра данных SF.

a) В столбце `IncidntNum` содержится много клеток с NaN. В этом случае это означает, что данные отсутствуют. Кроме того, функция `IncidntNum` не передаёт никакого значения на анализ. Этот столбец можно удалить из кадра данных. Одним из способов удаления нежелательных переменных в кадре данных является использование функции `del`.

In [None]:
# Ячейка для кода № 10
del SF['IncidntNum']

b) Аналогично, атрибут `Location` не будет участвовать в этом анализе. Поэтому его можно удалить из кадра данных. 
<p>В качестве альтернативы вы можете использовать функцию `drop` в кадре данных, указав, что *axis* равна 1 (0 для строк) и что для команды не требуется сохранение результата в другом значении (*inplace = True* ).

In [None]:
# Ячейка для кода № 11
SF.drop('Location', axis=1, inplace=True )

c) Убедитесь, что столбцы удалены.

In [None]:
# Ячейка для кода № 12
SF.columns

## Часть 4: Анализ данных

Теперь, когда данные в кадре данных готовы, настало время их проанализировать. 

#### Шаг 1. Суммируйте переменные для получения статистической информации.

a) Используйте функцию `value_counts`, чтобы суммировать по типу количество совершенных преступлений, а затем функцию `print`, чтобы отобразить содержимое переменной *CountCategory*.

In [None]:
# Ячейка для кода № 13
CountCategory = SF['Category'].value_counts()
print(CountCategory)

b) По умолчанию подсчеты упорядочены в порядке убывания. Значение необязательного параметра *ascending* может быть установлено как *True*, чтобы отменить это поведение.

In [None]:
# Ячейка для кода № 14
SF['Category'].value_counts(ascending=True)

Преступления какого типа были совершены чаще всего?

c) Вложив две функции в одну команду, вы можете получить тот же результат уложившись в одну строку
кода.

In [None]:
# Ячейка для кода № 15
print(SF['Category'].value_counts(ascending=True))

**Проблемный вопрос**: В каком из PdDistrict было больше всего случаев сообщения о преступлении? Напишите Python команду(ы)
подтверждающие ваш ответ.

In [None]:
# Ячейка для кода № 16
# Возможный код для проблемного вопроса
print(SF['PdDistrict'].value_counts(ascending=True))

#### Шаг 2: Выделите данные в более мелкие кадры данных.

a) Логическое индексирование может использоваться для выбора только строк, для которых выполняется заданное условие. Например, следующий код извлекает только преступления, совершенные в августе, и сохраняет результат в новом кадре данных.

In [None]:
# Ячейка для кода № 17
AugustCrimes = SF[SF['Month'] == 8]
AugustCrimes

Сколько преступных инцидентов было в августе? 

Сколько краж было зарегистрировано в августе?

In [None]:
# Ячейка для кода № 18
# Возможный код вопроса: Сколько краж были зарегистрировано в августе?
AugustCrimes = SF[SF['Month'] == 8]
AugustCrimesB = SF[SF['Category'] == 'BURGLARY']
len(AugustCrimesB)

b) Чтобы создать подмножество кадра данных SF за определенный день, используйте операнд функции `query`, чтобы сравнить Месяц и День одновременно.

In [None]:
# Ячейка для кода № 19
Crime0704 = SF.query('Month == 7 and Day == 4')
Crime0704

In [None]:
# Ячейка для кода № 20
SF.columns

## Part 5: Представление данных

Визуализация и представление данных дает мгновенный обзор, который может быть не очевидным просто
глядя на необработанные данные. Кадр данных SF содержит координаты долготы и широты, которые можно использовать для
нанесения данных на график.

#### Шаг 1: Постройте график кадра данных SF с использованием переменных X и Y.

a) Используйте функцию `plot()` для построения кадра данных SF. Используйте необязательный параметр для построения графика в красном цвете и установки формы маркера в виде круга с помощью *ro* .

In [None]:
# Ячейка для кода № 21
plt.plot(SF['X'],SF['Y'], 'ro')
plt.show()

b) Определите количество полицейских районов, затем создайте словарь *pd_districts*, чтобы связать их строки с целым числом

In [None]:
# Ячейка для кода № 22
pd_districts = np.unique(SF['PdDistrict'])
pd_districts_levels = dict(zip(pd_districts, range(len(pd_districts))))
pd_districts_levels

c) Используйте `apply` и `lambda`, чтобы добавить id полицейского департамента в новый столбец кадра данных.

In [None]:
# Ячейка для кода № 23
SF['PdDistrictCode'] = SF['PdDistrict'].apply(lambda row: pd_districts_levels[row])

d) Используйте только что созданный *PdDistrictCode* для автоматического изменения цвета

In [None]:
# Ячейка для кода № 24
plt.scatter(SF['X'], SF['Y'], c=SF['PdDistrictCode'])
plt.show()

#### Шаг 2: добавьте пакет Map, чтобы улучшить график.

На Шаге 1 вы создали простой сюжет, который показывает, где происходили инциденты с преступностью в округе SF. Этот график
полезен, но `folium` предоставляет дополнительные функции, которые позволят вам наложить этот график на карту OpenStreet. 

a) `Folium` требует указания цвета маркера с использованием шестнадцатеричного значения. По этой причине мы используем пакет *colors* и выбираем необходимые цвета.

In [None]:
# Ячейка для кода № 25
from matplotlib import colors
districts = np.unique(SF['PdDistrict'])
print(list(colors.cnames.values())[0:len(districts)]) 

b) Создайте цветной словарь для каждого полицейского района.

In [None]:
# Ячейка для кода № 26
color_dict = dict(zip(districts, list(colors.cnames.values())[0:-1:len(districts)])) 
color_dict

c) Создайте карту, используя средние значения координат SF Data, чтобы центрировать карту (используя `mean`). Чтобы уменьшить время вычисления, используется переменная *plotEvery* для ограничения количества построенных данных. Задайте ей значение 1, чтобы построить все строки (может потребоваться много времени, чтобы визуализировать карту).

In [None]:
# Ячейка для кода № 27
# Создание карты
map_osm = folium.Map(location=[SF['Y'].mean(), SF['X'].mean()], zoom_start = 12)
plotEvery = 50
obs = list(zip( SF['Y'], SF['X'], SF['PdDistrict'])) 

for el in obs[0:-1:plotEvery]: 
    
    folium.CircleMarker(el[0:2], color=color_dict[el[2]], fill_color=el[2],radius=10).add_to(map_osm)
    

In [None]:
# Ячейка для кода № 28
map_osm

<font size='0.5'>&copy; 2017 Cisco and/or its affiliates. All rights reserved. This document is Cisco Public.<font>