В этом проекте мы будем изучать данные о загрязненности воздуха в городах. А именно, по представленному двумерному массиву NumPy с данными измерений загрязнений (столбцы) для нескольких городов (строки) мы найдем города с загрязнением выше среднего. Полученные при чтении этого раздела навыки пригодятся вам при поиске аномальных значений в различных наборах данных.

Индекс качества воздуха (Air Quality Index, AQI) служит для оценки опасности вредного воздействия на здоровье и часто применяется для сравнения качества воздуха в различных городах. В следующем однострочнике мы будем исследовать AQI четырех городов: Гонконга, Нью-Йорка, Берлина и Монреаля.
Данный однострочник выявляет города, загрязненные выше среднего, то есть такие, максимальное значение AQI которых выше общего среднего значения по всем измерениям всех городов.
Важная составляющая нашего решения: поиск элементов в массиве NumPy, удовлетворяющих заданному условию.
Это распространенная задача в data science, с которой вы будете сталкиваться очень часто.

Итак, разберемся, как найти элементы массива, удовлетворяющие определенному условию. NumPy предоставляет функцию nonzero() для поиска индексов элементов в массиве, которые не равны нулю.

In [2]:
import numpy as np

x = np.array([[1, 0, 0], [0, 2, 2], [3, 0, 0]])
print(np.nonzero(x))

(array([0, 1, 1, 2], dtype=int64), array([0, 1, 2, 0], dtype=int64))


In [3]:
print(x >= 1) 
# проверяем с помощью булевых операторов

[[ True False False]
 [False  True  True]
 [ True False False]]


In [4]:
## Данные: измерения индекса качества воздуха, AQI (строка = город)
X = np.array(
[[ 42, 40, 41, 43, 44, 43 ], # Гонконг
[ 30, 31, 29, 29, 29, 30 ], # Нью-Йорк
[ 8, 13, 31, 11, 11, 9 ], # Берлин
[ 11, 11, 12, 13, 11, 12 ]]) # Монреаль

cities = np.array(["Hong Kong", "New York", "Berlin", "Montreal"])

### logic 

poll = set(cities[np.nonzero(X > np.average(X))[0]])

print("it's very bad Sity",poll)

it's very bad Sity {'Berlin', 'Hong Kong', 'New York'}


мы вызываем коллекцию из элементов соотвествующих переменной города, в которой мы "находим" датасет, в  котором не нулевые элементы сравниваются с средним по датасету, и вызываем только те, кто соотвествуют булеву значению 0.

In [5]:
print(X > np.average(X))

[[ True  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [False False  True False False False]
 [False False False False False False]]


Напомним, что значение True языка Python представлено значением 1 типа integer, а False — 0. На самом деле тип объектов True и False — bool — является подклассом int. Таким образом, каждое булево значение является также и целочисленным значением. Благодаря этому мы можем воспользоваться функцией nonzero() для поиска всех удовлетворяющих условию индексов строк и столбцов, вот так:

In [6]:
print(np.nonzero(X > np.average(X)))

(array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2], dtype=int64), array([0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 2], dtype=int64))


мы можем воспользоваться для извлечения символьных названий городов из нашего строкового массива с помощью расширенного доступа по индексу (advanced indexing) — методики доступа по индексу, позволяющей описывать не непрерывную последовательность индексов массива, Таким образом можно обращаться к произвольным элементам данного массива NumPy, указывая последовательность либо целых чисел (выбираемых индексов), либо булевых значений (для выбора тех индексов, для которых соответствующее булево значение равно True):

In [7]:
print(cities[np.nonzero(X > np.average(X))[0]])

['Hong Kong' 'Hong Kong' 'Hong Kong' 'Hong Kong' 'Hong Kong' 'Hong Kong'
 'New York' 'New York' 'New York' 'New York' 'New York' 'New York'
 'Berlin']


Как видите, в полученной последовательности строковых значений немало повторов, поскольку в числе измерений AQI Гонконга и Нью-Йорка много значений выше среднего.
Осталось только убрать эти повторы. Для этого мы преобразуем нашу последовательность во множество Python, в котором по определению отсутствуют дублирующиеся значения, и получим краткую сводку названий всех городов, степень загрязнения воздуха в которых превышает средние значения AQI.

In [8]:
print(set(cities[np.nonzero(X > np.average(X))[0]]))

{'Berlin', 'Hong Kong', 'New York'}


Как найти человека с максимальным доходом после уплаты налогов в группе людей при заданных годовых зарплатах и ставках налогообложения?

In [9]:
import numpy as np
#data
alice = [99, 101, 103]
bob = [110, 108, 105]
tim = [90, 88, 85]
salaries = np.array([alice, bob, tim])
taxation = np.array([[0.2, 0.25, 0.22],
[0.4, 0.5, 0.5],
[0.1, 0.2, 0.1]])
#logic
uppend = np.max(salaries - salaries * taxation)
salaries1 = np.array(["alice", "bob", "tim"])
print(uppend)
print(set(salaries1[np.nonzero(np.max(uppend))]))

81.0
{'alice'}


переделываем задание из прошлых глав 
,была проблема с выводом, пока не выяснилось 
что нужно "спаивать" для вывода "сет"
непосредственно строки и цифры 