## Работа с пропусками в данных
## Prediction of missing values:

In the earlier methods to handle missing values, we do not use correlation advantage of the variable containing the missing value and other variables. Using the other features which don’t have nulls can be used to predict missing values.
The regression or classification model can be used for the prediction of missing values depending on nature (categorical or continuous) of the feature having missing value.
```
Here 'Age' column contains missing values so for prediction of null values the spliting of data will be,
y_train: rows from data["Age"] with non null values
y_test: rows from data["Age"] with null values
X_train: Dataset except data["Age"] features with non null values
X_test: Dataset except data["Age"] features with null values
```
```Python
from sklearn.linear_model import LinearRegression
import pandas as pd

data = pd.read_csv("train.csv")
data = data[["Survived", "Pclass", "Sex", "SibSp", "Parch", "Fare", "Age"]]

data["Sex"] = [1 if x=="male" else 0 for x in data["Sex"]]

test_data = data[data["Age"].isnull()]
data.dropna(inplace=True)

y_train = data["Age"]
X_train = data.drop("Age", axis=1)
X_test = test_data.drop("Age", axis=1)

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
```

- Pros:
Gives a better result than earlier methods
Takes into account the covariance between missing value column and other columns.
- Cons:
Considered only as a proxy for the true values


### Imputation using Deep Learning Library — Datawig
This method works very well with categorical, continuous, and non-numerical features. Datawig is a library that learns ML models using Deep Neural Networks to impute missing values in the datagram.

```Python
Install datawig library,
pip3 install datawig
```

Datawig can take a data frame and fit an imputation model for each column with missing values, with all other columns as inputs.
Below is the code to impute missing values in the Age column

```Python
import pandas as pd
pip install datawig
import datawig

data = pd.read_csv("train.csv")

df_train, df_test = datawig.utils.random_split(data)

#Initialize a SimpleImputer model
imputer = datawig.SimpleImputer(
    input_columns=['Pclass','SibSp','Parch'], # column(s) containing information about the column we want to impute
    output_column= 'Age', # the column we'd like to impute values for
    output_path = 'imputer_model' # stores model data and metrics
    )

#Fit an imputer model on the train data
imputer.fit(train_df=df_train, num_epochs=50)

#Impute missing values and return original dataframe with predictions
imputed = imputer.predict(df_test)
```

- Pros:
Quite accurate compared to other methods.
It supports CPUs and GPUs.
- Cons:
Can be quite slow with large datasets.

### Conclusion:
Every dataset has missing values that need to be handled intelligently to create a robust model. In this article, I have discussed 7 ways to handle missing values that can handle missing values in every type of column. There is no thump rule to handle missing values in a particular manner, the method which gets a robust model with the best performance. One can use various methods on different features depending on how and what the data is about. Having a domain knowledge about the dataset is important, which can give an insight into how to preprocess the data and handle missing values.

### Pandas не позволяет менять индексы, но можно сделать это через values
```Python
df.index.values[5] = 20
```

### Apply обращение к столбцам
```Python
df['АиБ'] = df[['А', 'Б']].apply(lambda x: x['А'] + x['Б'], axis=1)
```

# Подбор параметров:

``` Python
# регрессия
CV_model = GridSearchCV(estimator=LogisticRegression(), 
                            param_grid={'C': [100, 10, 1, 0.1, 0.01, 0.001]},
                            cv=5, 
                            scoring='roc_auc',
                            n_jobs=-1, 
                            verbose=10)
CV_model.fit(X, y)
print('Лучший результат', CV_model.best_score_,'при С=',CV_model.best_params_['C'])


# catboost

model = CatBoost()

grid = {'learning_rate': [0.03, 0.1, 0.2],
        'custom_metric': ['AUC:hints=skip_train~false'],
        'depth': [2, 4, 6],
        'l2_leaf_reg': [ 2, 3, 5],
        'n_estimators': [50, 100, 200]}

grid_search_result = model.grid_search(grid, 
                                       X=X, 
                                       y=y, 
                                       plot=False)
grid_search_result['params']

# еще

from catboost import CatBoostClassifier

X_train, X_test, y_train, y_test = train_test_split(data.loc[:,feature_cols], data.loc[:,target_col], test_size=0.2, stratify = data.loc[:,target_col],random_state=42)

clf = GridSearchCV(estimator=CatBoostClassifier(), param_grid={'iterations':[8,16], 'learning_rate':[0.1, 0.5, 1], 'depth':[2,4,8,12]
                                                               , 'cat_features':[cat_cols]}, scoring = 'roc_auc', n_jobs=-1)

clf.fit(X_train, y_train)

print('Параметр {}'.format(clf.best_params_))
print('Качество {}'.format(clf.best_score_))



# lgb

grid = {'learning_rate': [0.03, 0.1, 0.2, 0.3, 0.5, 5],
        'num_leaves': [2, 4, 6, 10, 40, 60],
        'max_bin': [ 2, 300, 500],
        'max_depth': [3, 5, 10, 20],
        'n_estimators': [50, 100, 200, 500],
        'metric': ['auc'],
        'feature_fraction': [0.2, 0.5, 0.7]}

lgb_estimator = lgb.LGBMClassifier(verbose_eval=20, 
                                   early_stopping_rounds=10)

g_lgbm = GridSearchCV(estimator=lgb_estimator, param_grid=grid, n_jobs = -1, cv= 3)

lgb_model = g_lgbm.fit(X=train[features], y=train[target_col], eval_set = (valid[features], valid[target_col]))
g_lgbm.best_params_


# проверяем качество 

print('Score train ROC AUC =', roc_auc_score(train[target_col], best_model.predict(train[features])))

fpr, tpr, thresholds = roc_curve(train[target_col], best_model.predict(train[features]))
roc_auc= auc(fpr, tpr)
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

```

### Правильное отображение прогресса в ноутбуке
```Python
from tqdm.auto import tqdm, trange
```

### Сохранение состояния ноутбука на определенной ячейке и работа с этого места после перезагрузки ядра

```Python

import dill
dill.dump_session('notebook_env.db')


import dill
dill.load_session('notebook_env.db')


```

### Создать таблицу Pandas в которой пропуски
```Python
pd.DataFrame.from_dict(d, orient='index').fillna(0).T
```

### Посмотреть картинку
```Python
import cv2
img = cv2.imread('f.jpg')
img_cvt=cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.figure(figsize=(12, 8))
plt.imshow(img_cvt)
plt.show()
```

### Показать картинку в ноутбуке
```Python

from IPython.display import Image
Image('img/picture.png')

![title](img/picture.png)


from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "http://my_site.com/my_picture.jpg")

PATH = "/Users/reblochonMasque/Documents/Drawings/"
Image(filename = PATH + "My_picture.jpg", width=100, height=100)

<img src="subdirectory/MyImage.png",width=60,height=60>

![alt text](test.gif "Title")
```

### Показать картинку в ноутбуке в колабе в таблице
```Python

# создадим для примера картинку в рабочей папке колаба

from PIL import Image, ImageDraw
text = "Hello, PIL!!!"
color = (100, 5, 120)
img = Image.new('RGB', (100, 50), color)
imgDrawer = ImageDraw.Draw(img)
imgDrawer.text((10, 20), text)
img.save("pil-basic-example.png")
Image.open('pil-basic-example.png')


# покажем ее в таблице


from IPython.core.display import display, HTML
import base64
import pandas as pd

df = pd.DataFrame({"A":[1,2,3,4,5], "B":[10,20,30,40,50]})

with open('pil-basic-example.png', 'rb') as fd:
    b64 = base64.b64encode(fd.read()).decode('ascii')
    df.loc[:,'img'] = f'<img src="data:image;base64,{b64}" />'
display(HTML(df.to_html(escape=False)))
```

### Встроить картинку в ноутбук

Сначала кодируем картинку в Base64, например здесь
https://www.base64-image.de/

Далее копируем код в Markdown ячейку:
```python
![](полученный код)





## Ютьюб в ноутбуке

```Python
from IPython.display import YouTubeVideo
YouTubeVideo('ewkSI2cuyoQ')
```

# GitHub
### Гитхаб не по паролю, а по SSH ключу

```Bash
cd ~                 #переходим в корень
ssh-keygen -t rsa    #создаем ключ (лучше проверить может уже создан), на все вопросы enter.

# на сайте гита в настройках добавляем SSH ключ те копируем содержимое файла ~/.ssh/id_rsa.pub в гит

# заменяя username/reponame на свои
git remote set-url origin git+ssh://git@github.com/username/reponame.git # выполняем команду в папке репозитория

#или для новых репозиториев
git init
git remote add origin git@git@github.com/username/reponame.git
git remote set-url origin git+ssh://git@github.com/username/reponame.git


git remote show origin #проверяем в путях теперь вместо http должно быть git+ssh
#теперь git push без ввода пароля
```

### Если нужно удалить файл и его упоминания из всех комитов в репозитории (случайно залитый пароль итд)

```Bash
git filter-branch --force --index-filter 'git rm --cached --ignore-unmatch файлспаролем.txt' --prune-empty --tag-name-filter cat -- --all

git push origin --force --all #принудительный пуш. 
#После всех проделанных изменений всем остальным кто работал с этим репозиторием, необходимо сделать rebase. Либо удалить свой локальный репозиторий и склонировать его ещё раз.

#еще:

#BFG Repo-Cleaner - это более простая и легкая альтернатива git-filter-branch для удаления нежелательных файлов из git репозитория. Например, чтобы удалить файл .environment:

bfg --delete-files .environment
# BFG даже может просмотреть все файлы в репозитории на наличие паролей и заменить их на **REMOVED**:

bfg --replace-text my_passwords.txt
#В результате выполнения этой команды, каждый файл в каждом коммите будет просмотрен и если в нем будет найден пароль из файла my_passwords.txt, то он будет заменен на **REMOVED**.
```

### Принудительно сделать PULL из репозитория, с удалением всех локальных изменений 
```
git fetch origin main
git reset --hard origin/main
```
или

```
git stash
git pull
git stash drop

```

## Selenium in Google colab

```Python
!apt -q install chromium-chromedriver
!pip -q install selenium
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',options=options)
# wd.get("https://www.google.com")
# print(wd.page_source) 
```

## Shut down Google colab

```Python

```

## Deleting from memory

```Python

for var_name in ('data', 'model', 'dec', 'data2', 'enc', 'data3'):
    try:
        del globals()[var_name]
    except KeyError:
        pass
torch.cuda.empty_cache()
```

## Генераторы

In [1]:
# из списков в список
inputs = [
    [1, 2, 3, 9, 0],
    [1, 2, 0, 9, 0],
    [0, 0, 3, 9, 0],
]

n = [n for line in inputs for n in line]
n

[1, 2, 3, 9, 0, 1, 2, 0, 9, 0, 0, 0, 3, 9, 0]

In [2]:
# списки списков
inputs = [
    [1, 2, 3, 9, 0],
    [1, 2, 0, 9, 0],
    [0, 0, 3, 9, 0],
]

mask = [[1 if n != 0 else 0 for n in line] for line in inputs]
[print(i) for i in mask];

[1, 1, 1, 1, 0]
[1, 1, 0, 1, 0]
[0, 0, 1, 1, 0]


In [3]:
# генераторы словарей

d = {x: x**2 + 1 for x in range(5)}
print(d)

d = {x: 'Z' for x in 'ABC'}
print(d)

d = {}.fromkeys('ABC', 'Z')
print(d)

d = {x: y for x, y in zip('ABC', range(3))}
print(d)
print()

d = {x: [y % 2 for y in range(10)] for x in 'ABC'}
[print(i, d[i]) for i in d];

print()
d = {'ABCDE'[i]: [i % 2]*5 for i in range(5)}
[print(i, d[i]) for i in d];

{0: 1, 1: 2, 2: 5, 3: 10, 4: 17}
{'A': 'Z', 'B': 'Z', 'C': 'Z'}
{'A': 'Z', 'B': 'Z', 'C': 'Z'}
{'A': 0, 'B': 1, 'C': 2}

A [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
B [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
C [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]

A [0, 0, 0, 0, 0]
B [1, 1, 1, 1, 1]
C [0, 0, 0, 0, 0]
D [1, 1, 1, 1, 1]
E [0, 0, 0, 0, 0]


## Работа с командной строкой

### Пример рекурсивной конвертации звуковых файлов

```Python
import glob
import os
import subprocess
# !pip3 install sox
# !apt-get install sox

print("Converting .sph to .wav...")
sph_list = glob.glob(data_dir + '/an4/**/*.sph', recursive=True)
for sph_path in sph_list:
    wav_path = sph_path[:-4] + '.wav'
    cmd = ["sox", sph_path, wav_path]
    subprocess.run(cmd)
    os.remove(sph_path)
```

## Декораторы

 ```Python
def method_friendly_decorator(method_to_decorate):
    def wrapper(self, good_lie):
        good_lie -= 3
        return method_to_decorate(self, good_lie)
    return wrapper

class Lucy:
     def __init__(self):
        self.age = 32
     
     def sayYourAge(self, lie):
        print(f'Мне {self.age + lie}.')
        
     @method_friendly_decorator   
     def sayYourAge2(self, lie):   
        print(f'Но выгляжу я на {self.age + lie}.')
        print(f'Шучу. Ха-Ха. Мне {self.age}.')

lie = -3
l = Lucy()
l.sayYourAge(lie)
l.sayYourAge2(lie)

>>>Мне 29.
>>>Но выгляжу я на 26.
>>>Шучу. Ха-Ха. Мне 32.
```

```Python

# Decorator: Trying to connect 3 times or quit
def retry(times=3):
    def tryIt(func):
        def f(*args, **kwargs):
            attempts = 0
            while attempts < times:
                try:
                    time.sleep(1)
                    return func(*args, **kwargs)
                except:
                    time.sleep(2)
                    attempts += 1
            print(f"Function '{func.__name__}' has been tried for {times} times, but not worked")
            quit()
        return f
    return tryIt

```



## Простая таблица в Markdown

* Один из аргументов в функции `dataset_preprocessing_utils.create_padded_buckets` &ndash; `bucket_info` &ndash; словарь, где для конкретной длины последовательности указано до какой длины нужно делать паддинг. Для данного бэйзлайна возьмем простое разбиение на 43 бакета: 
| Длина последовательности | Длина после паддинга |
| :-: | :-: 
| 1 &ndash; 40 | без изменений |
| 41 &ndash; 45 | 45 |
| 46 &ndash; 50 | 50 |
| 51 &ndash; 58 | 58 |

# Работа с LINUX

### Искать фразу рекурсивно в корневой директории, выводит файлы где содержится фраза.

```
grep -Ril "text-to-find-here" /
i stands for ignore case (optional in your case).
R stands for recursive.
l stands for "show the file name, not the result itself".
/ stands for starting at the root of your machine. 
```
(или в текущей директории ./)

и
```
grep -rnw '/path/to/somewhere/' -e 'pattern'
-r or -R is recursive,
-n is line number, and
-w stands for match the whole word.
-l (lower-case L) can be added to just give the file name of matching files.
-e is the pattern used during the search
```

### Поставить в автозагрузку linux bash python скрипт 

создаем виртуальное окружение в директории проекта(можно создать в файле start.sh)
```
python3 -m venv venv
```
Имеем баш файл start.sh(создаем его в папке проекта) который активирует виртуальную среду и 
запускает проект app.py

start.sh:

```bash
                                                                
#!/usr/bin/bash

activate () {
  source /путь до виртуального окружения/bin/activate
}
activate
pip install -r requirements.txt
python3 app.py

```

Делаем его исполняемым chmode +x start.sh

В папке /etc/systemd/system создаем файл our_program.service:

```bash
[Unit]
Description=имя программы
After=network.target

[Service]
User=имя юзера из под которого будет работать скрипт
Type=simple
WorkingDirectory=/полный путь до директории с app.py и start.sh/
ExecStart=/полный путь/start.sh

[Install]
WantedBy=multi-user.target

```

Далее sudo reboot(перегружаем сервер)
или 

```bash
sudo systemctl daemon-reload
sudo systemctl enable our_program.service
sudo systemctl start our_program.service
```

Проверяем все ли работает правильно, если нет читаем ошибки 

```bash
sudo systemctl status our_program.service 
```

### Usefull linux comands 
### BASH

- Ctrl + R - search through shell's history (to find old command)
- command && command && command - run many commands (&& - AND, || - OR)  
- command > filename - write stdout to file
- command >> filename - append stdout to file
- command | tee filename - same as command > filename ('tee -a' append to file)
- command > out 2> error - write stdout to 'out' and stderr to 'error'
- command &> out - write all to 'out'
- grep -A 5 'text' filename - find text in filename and shows 5 lines after(-B before, -C middle) 

### VIM

- ESC :wq - save and exit
- ESC dd - del line
- ESC I - editing


### MC Midnight Commander:

- Alt O - opens the directory in terminal where you are.
- Alt I - opens the active panel's directory on the other panel.
- Alt S - search in names of dirs\files panel 
