# Практика
Используемые библиотеки

In [2]:
import pandas as pd
import numpy as np
import requests # for web-download
import io # for web-download
import re # for data processing


## Загрузка DataFrame
### Задача 1
На основании данных портала "Открытые данные России" о результатах Химического анализа родника в Нескучном саду https://data.gov.ru/opendata/7708660670-rodnik-neskuchniy-sad
средствами библиотеки __Pandas__ сформируйте поле выводов по каждому анализирумомому параметру.
Например, по показателю _pH_ получен результат _8.4 единицы pH_ при нормативе от _6 до 9 единиц pH_. Т.о. по данному показателю результат анализа в норме.
Для решения задачи необходимо программно "прочитать и понять" значение столбца "Норматив" и выделенное численное значение сравнить с нормативом согласно логике норматива. Например, __6 >= pH >= 9__.
В итоговом DataFrame столбец "Показатель" сделайте индексным.


Загзрузка DataFrame выполняется непосредственно c сайта "Открытые данные России" https://data.gov.ru/opendata/7708660670-rodnik-neskuchniy-sad/data-20160608T1215-structure-20160608T1215.csv (см. код ниже).


In [3]:
headers={
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
}
def get_content(url):
    with requests.Session() as req:
        req.headers.update(headers)
        r = req.get(url).content
    return r

url ="https://data.gov.ru/opendata/7708660670-rodnik-neskuchniy-sad/data-20160608T1215-structure-20160608T1215.csv"
s = get_content(url)
df=pd.read_csv(io.StringIO(s.decode('UTF8')))


### Если не работает загрузка on-line
#df=pd.read_csv("Химический анализ родника в Нескучном саду.csv", sep=';')
display(df)

Unnamed: 0,Показатель,Единица измерений,Результат анализа,Норматив
0,pH,единицы pH,8.4,в пределах 6-9
1,Запах,баллы,1,не более 2-3
2,Цветность,градусы,б/цвета,не более 30
3,Жёсткость,мг-эквл/дм3,9.199999999999999,в пределах 7-10
4,Аммиак и аммоний-ион (по азоту),мг/дм3,0.42,"не более 1,5"
5,Нитриты (по NO2),мг/дм3,0.017,"не более 3,3"
6,Нитраты (по NO3),мг/дм3,24,не более 45
7,Фосфаты (P),мг/дм3,0.36,"не более 3,5"
8,Хлориды (Cl),мг/дм3,200,не более 350
9,Сульфаты (SO4),мг/дм3,189.5,не более 500


In [99]:
# функция для проверка возможности преобразования строки в число
def is_number(s):
    try:
        float(s)
        return True
    except ValueError:
        return False

     
conclusion=[]
# проходим построкам датафрейма   
# в цикле формируем столбец с выводами
for index, row in df.iterrows():
    # получаем результат анализа
    res_an=row['Результат анализа']
    
    # если результат анализа в число преобразовать невозможно, вывод - не определено (в строке 2 датафрейма)
    if not is_number(res_an):
        conclusion.append('не определено')
        continue
        
    # получаем строку с нормативом, заменяем в ней запятую на точку и расщепляем
    norm=row['Норматив'].replace(',', '.').split()
    
    # если в нормативе "не более" при этом норматив задан одним числом
    if (norm[0]+norm[1]=='неболее') & (norm[2].find('-')==-1):
        # если результат не превосходит норматива
        if float(res_an)<=float(norm[2]):
            conclusion.append('норма')
        else:
            conclusion.append('не норма')
            
    # если в нормативе "не более" при этом норматив задан диапазоном
    if (norm[0]+norm[1]=='неболее') & (norm[2].find('-')!=-1):
        # расщепляем границы дмапазона
        norm1,norm2=norm[2].split('-')
        # если результат не превосходит верхней границы
        if float(res_an)<=float(norm2):
            conclusion.append('норма')
        else:
            conclusion.append('не норма')
            
    # если в нормативе "в пределах"
    if (norm[0]+norm[1]=='впределах') :
        # расщепляем границы дмапазона
        norm1,norm2=norm[2].split('-')
        # если результат лежит в границах
        if float(norm1)<=float(res_an)<=float(norm2):
            conclusion.append('норма')
        else:
            conclusion.append('не норма')
        
# добавляем в датафрейм столбец Вывод
df["Вывод"] = conclusion
# делаем индексным столбец Показатель
df.set_index('Показатель')
display(df)


Unnamed: 0,Показатель,Единица измерений,Результат анализа,Норматив,Вывод
0,pH,единицы pH,8.4,в пределах 6-9,норма
1,Запах,баллы,1,не более 2-3,норма
2,Цветность,градусы,б/цвета,не более 30,не определено
3,Жёсткость,мг-эквл/дм3,9.199999999999999,в пределах 7-10,норма
4,Аммиак и аммоний-ион (по азоту),мг/дм3,0.42,"не более 1,5",норма
5,Нитриты (по NO2),мг/дм3,0.017,"не более 3,3",норма
6,Нитраты (по NO3),мг/дм3,24,не более 45,норма
7,Фосфаты (P),мг/дм3,0.36,"не более 3,5",норма
8,Хлориды (Cl),мг/дм3,200,не более 350,норма
9,Сульфаты (SO4),мг/дм3,189.5,не более 500,норма


## Теория вероятности. События

Требуется сгенерировать необходимые выборки и произвести по ним расчеты

### Задача 2
В ящике 5 апельсинов и 4 яблока. Наудачу выбираются 3 фрукта. Какова вероятность, что все три фрукта – апельсины?

В интернете полученный аналитически ответ 0.119. Подтверждается ли он эксперементально?


In [100]:
import random
# создаем ящик с 5 апельсинами и 4 яблоками
B = ['апельсин']*5 + ['яблоко']*4
# задаем число экспериментов
N=100000
A=0
for i in range(N):
    # осуществляем выборку объема 3
    V = random.sample(B,k=3)
    if (V[0]=='апельсин') & (V[1]=='апельсин') & (V[2]=='апельсин'):
        A+=1
p=A/N
print("Оценка вероятности того, что все три фрукта - апельсины ",p)


Оценка вероятности того, что все три фрукта - апельсины  0.11896


Ответ подтверждается эксперементально

### Задача 3
Мастер, имея 10 деталей, из которых 3 – нестандартных, проверяет детали одну за другой, пока ему не попадется стандартная. Какова вероятность, что он проверит ровно две детали?


В интернете полученный аналитически ответ 7/30 или 0.23333. Подтверждается ли он эксперементально?

In [101]:
# задаем число экспериментов
N=100000
A2=0
for i in range(N):
    # создаем ящик с 3 нестандартными и 7 стандартными деталями
    B = ['нестандартная']*3 + ['стандартная']*7
    # берем первую деталь
    d=random.choice(B)
    # если первая деталь стандартная, идем на конец цикла
    if d=='стандартная':
        continue
    # если первая деталь нестандартная создаем ящик с 2 нестандартными и 7 стандартными деталями
    else:
        B = ['нестандартная']*2 + ['стандартная']*7
        # берем вторую деталь
        d=random.choice(B)
        # если вторая деталь стандартная увеличиваем на один число благоприятных исходов
        if d=='стандартная':
            A2+=1
p=A2/N
print("Оценка вероятности того, что мастер проверит ровно две детали ",p)
        

Оценка вероятности того, что мастер проверит ровно две детали  0.23246


Ответ подтверждается эксперементально