In [40]:
import pandas as pd
import matplotlib as mpl
import os
import requests
from tqdm import tqdm
import numpy as np
import random
tqdm.pandas()

<center>Contents:</center><a class="anchor" id="contents"></a>

1. [Read & Import data](#import)

*1.1. Create random DataFrame*

2. [Merge, join, concatenate](#join)

2. [Analysis](#analysis)

3. [Computing acceleration and preprocessing](#preprocessing)

4. [Other](#other)

## Read & Import data
<a class="anchor" id="import"></a>

[оглавление](#contents) | [дальше>](#join)

Some topics:

[How upload to notebook files from github (medium.com)](https://medium.com/towards-entrepreneurship/importing-a-csv-file-from-github-in-a-jupyter-notebook-e2c28e7e74a5)

### Create random DataFrame:

In [41]:
random_created_df = pd.DataFrame(np.random.randint(0, 100, size=(1000, 4)),
                                 columns=['a', 'b', 'c', 'd'])
random_created_df.shape

(1000, 4)

In [42]:
random_created_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       1000 non-null   int32
 1   b       1000 non-null   int32
 2   c       1000 non-null   int32
 3   d       1000 non-null   int32
dtypes: int32(4)
memory usage: 15.8 KB


In [43]:
random_created_df.describe(include='all').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
a,1000.0,50.733,28.460353,0.0,28.0,51.5,75.0,99.0
b,1000.0,48.383,28.349321,0.0,23.0,49.0,72.0,99.0
c,1000.0,49.293,29.459243,0.0,24.0,49.0,75.0,99.0
d,1000.0,48.317,29.267304,0.0,22.0,47.0,73.25,99.0


### insert 10% NaN values

In [44]:
random_created_df = random_created_df.mask(np.random.random(random_created_df.shape) < .1)
random_created_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       888 non-null    float64
 1   b       902 non-null    float64
 2   c       876 non-null    float64
 3   d       907 non-null    float64
dtypes: float64(4)
memory usage: 31.4 KB


In [45]:
random_created_df.describe(include='all').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
a,888.0,50.467342,28.547535,0.0,27.75,51.0,75.0,99.0
b,902.0,48.034368,28.490627,0.0,23.0,48.0,72.0,99.0
c,876.0,49.795662,29.675818,0.0,24.0,50.0,75.0,99.0
d,907.0,48.37817,29.223869,0.0,22.0,47.0,74.0,99.0


### add column with random text:

In [46]:
%%time

def function_to_apply(i):
    first = requests.get(f'https://random-word-api.herokuapp.com/word').json() # Random Word API
    
#     add word
#     second = requests.get(f'https://random-word-api.herokuapp.com/word').json()
#     third = requests.get(f'https://random-word-api.herokuapp.com/word').json()

    return first[0]
#     return " ".join([first[0], second[0], third[0]])

random_created_df['words'] = random_created_df['d'].apply(function_to_apply)

KeyError: 0

In [47]:
random_created_df.sample(2)

Unnamed: 0,a,b,c,d
488,16.0,20.0,38.0,99.0
394,8.0,88.0,48.0,67.0


## Merge, join, concatenate
<a class="anchor" id="join"></a>

[<назад](#import) | [оглавление](#contents) | [дальше>](#analysis)

Some topics:

[Работа с большими наборами данных](https://habr.com/ru/company/ruvds/blog/442516/)

[Управление памятью](https://habr.com/ru/company/mailru/blog/336156/)

## Glue few tables to one:

In [None]:
# показать путь к текщей директории
os.getcwd()

# указываем путь к папке с файлами, которые хотим объединить

folder = r'C:\\Users\\Asus\\GKU\\2505\\all_audio' # insert abs path

# создаем список с названиями файлов
files_names = os.listdir(folder)

#формируем список путей к файлам
files = [os.path.join(folder,f) for f in files_names] 

all_file_frames = [] #сюда будем добавлять прочитанную таблицу 

# цикл сборки таблиц в список
for f in files:
    print('Reading %s'%f)
    tab = pd.read_excel(f)
    all_file_frames.append(tab)

# склеиваем все таблицы в списке
all_frame = pd.concat(all_file_frames,axis=0) #  axis=0 если нужно добавить таблицу снизу и axis=1 если нужно слева

In [None]:
# Change Pandas Column Names to Lower Case

df= df.rename(columns=str.lower)

## Analysis
<a class="anchor" id="analysis"></a>

[<назад](#join) | [оглавление](#contents) | [дальше>](#preprocessing)

Some topics:

## Computing acceleration and preprocessing
<a class="anchor" id="preprocessing"></a>

[<назад](#analysis) | [оглавление](#contents)

Some topics:

In [48]:
random_created_df.shape

(1000, 4)

In [49]:
# find rows with equal values
random_created_df['equal 4th'] =  random_created_df.iloc[:,0:5].nunique(axis = 1).eq(1)
random_created_df['equal 4th'].value_counts()

False    998
True       2
Name: equal 4th, dtype: int64

In [50]:
# replace some values to  1

for n in list(range(1,1001)):
    if n % 5 == 0:
        random_created_df.loc[n] = 1

In [51]:
random_created_df['equal 4th'] =  random_created_df.iloc[:,0:5].nunique(axis = 1).eq(1)
random_created_df['equal 4th'].value_counts()

False    800
True     201
Name: equal 4th, dtype: int64

In [None]:
# Всем добрый день!
# Помогите решить задачку. Имею следующий формат учета продаж.
# Необходимо посчитать тотал по каждому клиенту. 
# В Power Query задачку решил, в питоне не получается.


# df = pd.read_excel('/.../Новая таблица.xlsx')
# pd.DataFrame.from_records(
#     df.apply(lambda x: {value:x[idx+1] for idx, (col_name, value) in enumerate(zip(df.columns, x)) if 'customer' in col_name.lower()}, axis=1).values
#     ).sum(axis=0)

In [None]:
report.eq(report.iloc[:,5:10], axis=0).all(1)

# create custom describe

In [24]:
w_df = random_created_df.copy()

show_percent_dict = {}

for _ in w_df.columns.tolist():
    percent = (w_df[w_df[_].isna()].shape[0] / w_df.shape[0]) * 100
    show_percent_dict[_] = percent

show_percent_dict = dict(sorted(show_percent_dict.items(), key=lambda x: x[1], reverse=True))
    
print(f'Всего строк в наборе данных: {w_df.shape[0]}\n')

for k,v in show_percent_dict.items():  
    v = str(int(v)) + '%'
    print(f'{v} - доля пропусков в столбце {k}')

Всего строк в наборе данных: 100000

10% - доля пропусков в столбце c
9% - доля пропусков в столбце d
9% - доля пропусков в столбце a
9% - доля пропусков в столбце b


In [None]:
# convert to date from string

# нормализуем и форматируем все даты
datecols = [col for col in pp.columns if re.search('(?i)Дат(а|у)', col)]
gooddatecols = []
baddatecols = []
for datecol in datecols:
  if pp[datecol].dtypes == 'datetime64[ns]':
    gooddatecols.append(datecol)
  else:
    baddatecols.append(datecol)
    
def normalize_date(series):
  def trydate(arg):
    try:
      if pd.isna(arg): return pd.NaT
      if type(arg) == datetime.datetime:
        return pd.to_datetime(arg).normalize()
      elif type(arg) == str:
        match = re.search(r'\d{2}(.)\d{2}\1\d{4}', arg)
        if match:
          delimiter = match.group(1)
          try: return pd.to_datetime(match.group(), format=f'%d{delimiter}%m{delimiter}%Y')
          except: return False
        else: return arg
    except: 
      return False
  if series.name in gooddatecols:
    return series.dt.normalize()
  else:
    return series.apply(trydate)

for datecol in datecols:
  pp[datecol] = normalize_date(pp[datecol])








%%time
for _ in all_frame.columns.tolist():
    if 'Дата' in _:
        all_frame[_] = pd.to_datetime(all_frame[_], errors='ignore') 

all_frame.to_excel(f'направления_к_онколгу_из_облака_BD_1194_на_ОТ_РАЗРАБОВ_{today}.xlsx', index=False)

## Чтение и быстрое преобразование данных:

#### 1. `value_counts` и `select_dtypes` сэкономит кучу времени:

* `df.dtypes.value_counts()`


* `df.select_dtypes(include = ['float64', 'int64'])`

Полезные аргументы `value_counts`:

* `normalize = True` – проверить частоту вместо подсчёта.


* `dropna = False` – включить пропущенные значения в статистику.


* `df['c'].value_counts().reset_index()` – преобразовать таблицу статистики в объект Pandas DataFrame.


* `df['c'].value_counts().reset_index().sort_values(by='index')` – показывать статистику, отсортированную по уникальным значениям в столбце 'c' вместо количества.

#### 2. `map` - команда для простого преобразования данных.
Определяете словарь, в котором «ключами» являются старые значения, а «значениями» – новые значения:

`level_map = {1: 'high', 2: 'medium', 3: 'low'}`

`df['c_level'] = df['c'].map(level_map)`

#### <font color='red'>Как это использовать?</font>

`all_doc.applymap(type)['BIRTH_DATE'].value_counts()
bad = all_doc[all_doc['BIRTH_DATE'].map(lambda x: type(x) == str)]
good = all_doc[all_doc['BIRTH_DATE'].map(lambda x: type(x) != str)]
all_doc_2 = bad.append(good, ignore_index=True)`

#### 3.1.  Выборка и фильтрация:

конечно можно решать задачи через `loc` `iloc`

`data.loc[:,"User"]`

`data.iloc[:5,0]`

В SQL используем SELECT * FROM… WHERE ID в («A001», «C022»,…) и получаем записи с конкретными идентификаторами. Если хотите сделать то же с помощью Python библиотеки Pandas, используйте:


`df_filter = df['ID'].isin(['A001','C022',...])`

`df[df_filter]`


#### 3.2. [numpy.where](https://numpy.org/doc/stable/reference/generated/numpy.where.html) для работы со значениями:

`numpy.where(data['Revenue']>400,1,0)`

`numpy.where(data['Revenue']<data['Expense'],1,2)`

#### [3.3. Еще 3 полезных метода](https://m.habr.com/ru/company/ruvds/blog/479276/)

## Решение задач из мира Excel

[источник](https://habr.com/ru/company/ruvds/blog/500426/)

#### 0. Рукотворные ID:

`
all_audio['дата рождения2'] = all_audio['дата рождения'].dt.strftime('%d.%m.%Y')
all_audio['ФИО_строкой'] = all_audio['фамилия'] + all_audio['имя'] + all_audio['отчество'] + all_audio['дата рождения2']
all_audio['ФИО_строкой'] = all_audio['ФИО_строкой'].str.replace('.','',regex=False)
all_audio['ФИО_строкой'] = all_audio['ФИО_строкой'].str.replace(' ','',regex=False)
all_audio['ФИО_строкой'] = all_audio['ФИО_строкой'].str.replace('-','',regex=False)
all_audio['ФИО_строкой'] = all_audio['ФИО_строкой'].str.upper()
`

#### и удаление дубликатов по сценарию:

`rez_true = rez2.sort_values('дата и время приема', ascending=False)
rez_true = rez_true.drop_duplicates(subset='idn', keep='first')`

#### 1. Тернарный оператор (конструкция `if`) для создания нового признака/столбца на основе значений уже имеющиегося. Реализация с помощью `list comprehension`:

`sales['MoreThan500'] = ['Yes' if x > 500 else 'No' for x in sales['Sales']]`

#### 2. `VLOOKUP (ВПР)`, решается с помощью функции [`merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html):

`sales = pd.merge(sales, states, how='left', on='City')`

1. Первый аргумент метода merge — это исходный датафрейм.


2. Второй аргумент — это датафрейм, в котором мы ищем значения.


3. Аргумент `how` (`left, right, outer, inner`, default=`inner`) указывает на то, как именно мы хотим соединить данные.


4. Аргумент `on` указывает на переменную, по которой нужно выполнить соединение (тут ещё можно использовать аргументы `left_on` и `right_on`, нужные в том случае, если интересующие нас данные в разных датафреймах названы по-разному).

#### 3. Pivot table:


`sales.pivot_table(index = 'City', values = 'Sales', aggfunc = 'sum')`

1. Здесь мы используем метод `sales.pivot_table`, сообщая pandas о том, что мы хотим создать сводную таблицу, основанную на датафрейме sales.


2. Аргумент `index` указывает на столбец, по которому мы хотим агрегировать данные.


3. Аргумент `values` указывает на то, какие значения мы собираемся агрегировать.


4. Аргумент `aggfunc` задаёт функцию, которую мы хотим использовать при обработке значений (`mean, max, min...`).

#### 4. [Styling](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)

#### 5. Заменить PowerQwery:

**было:** входящий формат данных (один айди - несколькострок, меняются 2 последних признака)
<img src="photo_2020-05-27_12-16-44.jpg" style="width: 1000px"/>


**стало:** сделать сводную по дате на признак динамики
<img src="photo_2020-05-27_12-16-52.jpg" style="width: 1000px"/>
    
    
    
`
table = pd.pivot_table(a,
                       values=['статус пациента', 'Динамика заболевания'],
                       index=['сцепка', 'id_emias','полис омс'],
                       lumns=['Дата звонка'], aggfunc=lambda x: ' '.join(x),
                       aggfunc='first') #если на пересечении только одно текстовое значение
`

#### 6. [Смещение данных `shift`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html)


Есть DataFrame. Есть колонка Date, и 2 колонки со значениями Col1 и Col2.
Задача: нужно запилить колонку Col3, которая в случае, если значение col1 == 1 и col2 == 1  (тут я все сделал, это просто), либо если значение из df['col2'].iloc[x]  == 1 и df['col1'].iloc[x+1] == 1, то проставляется 1 в Col3.


**Пример: в таблице ниже за 01/05/20 в Col2 стоит 1,  а за 01/06/20 в Col1 стоит 1, то нужно в новой колонке Col3 поставить 1 на дате 01/05/20.**


<img src="3th.jpg" style="width: 400px"/>


`if df['col1']== 1 and  df['col2'].shift(1) ==1: 1`

#### 7. `crosstab`

In [None]:
pd.crosstab(a,b)

## Ускорения расчетов `pandas`:

In [15]:
del df, new_df

In [40]:
# считаем среднюю длину слова
def mean_word_len(line):
    count = [len(i) for i in line.split()]
    res = sum(count) / len(count)
    return res

def compute_avg_word(df):
    return df['words'].apply(mean_word_len)

In [48]:
%timeit compute_avg_word(new_df)

1.24 ms ± 12.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


#### 1. Multiprocessing (default pack)

In [46]:
import multiprocessing
from multiprocessing import Pool

# поределяем кол-во ядер процессора
multiprocessing.cpu_count()

4

In [47]:
pool = Pool(multiprocessing.cpu_count())

In [50]:
def apply_parallel(df, func):
    # делим датафрейм на части
    df_split = np.array_split(df, n_cores)
    # считаем метрики для каждого и соединяем обратно
    df = pd.concat(pool.map(func, df_split))
    return df

In [None]:
%timeit apply_parallel(new_df, compute_avg_word)

* Ускорение в 2-3 раза;


* Использовать распараллеливание на маленьких данных — плохая идея, т.к накладные расходы на межпроцессорное взаимодействие превышают выигрыш по времени.

#### Создадим 2-ую таблицу в 100 000 строк и 4 колонки, заполненную случайными числами от 0 до 100:

In [5]:
104818 / 239930

0.4368690868169883

In [4]:
df2 = pd.DataFrame(np.random.randint(0,100,size=(100000, 4)),columns=['a', 'b', 'c', 'd'])
df2.shape[0]

100000

In [None]:
# функция для создания новой колонки
def multiply(x):
    return x * 5

In [5]:
# наша функция
%timeit df2['new_col'] = df2['a'].apply(multiply)

62.6 ms ± 8.87 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [6]:
# встроенная имплементация Pandas
%timeit df2['new_col'] = df2['a'] * 5

1.24 ms ± 24.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [8]:
# возводим значения строки в квадрат и берем их среднее 
def square_mean(row):
    row = np.power(row, 2)
    return np.mean(row)

In [10]:
# применение:
%timeit df2['new_col'] = df.apply(square_mean, axis=1)

  This is separate from the ipykernel package so we can avoid doing imports until


17.8 s ± 3.96 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### 2.  [`numba`](https://habr.com/ru/post/503726/)

* Возможно добиться ускорения в тысячи раз;


* Можно использовать далеко не везде, в основном для оптимизации математических операций;


* Поддерживает не все возможности `python` и `numpy`.

In [None]:
import numba

In [7]:
# наша функция с оптимизированная `numba`
@numba.vectorize
def multiply_numba(x):
    return x * 5

# мы отдаем весь вектор значений, чтобы numba сам провел оптимизацию цикла
%timeit df2['new_col'] = multiply_numba(df2['a'].to_numpy())

767 µs ± 350 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [12]:
# numba не умеет работать с примитивами pandas (Dataframe, Series и тд.)
# поэтому мы даем ей двумерный массив numpy
@numba.njit
def square_mean_numba(arr):
    res = np.empty(arr.shape[0])
    arr = np.power(arr, 2)
    for i in range(arr.shape[0]):
        res[i] = np.mean(arr[i])
    return res

In [13]:
# применение:
%timeit df['new_col'] = square_mean_numba(df.to_numpy())

9.4 ms ± 162 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### 3. [`pandarallel`](https://habr.com/ru/post/498904/)

In [5]:
from pandarallel import pandarallel
pandarallel.initialize(progress_bar=True)

INFO: Pandarallel will run on 4 workers.
INFO: Pandarallel will use standard multiprocessing data transfer (pipe) to transfer data between the main process and workers.


[Выполним данную задачу](#create_df)[<font color='red'> функциями `pandarallel`:</font>](https://github.com/nalepae/pandarallel/blob/master/docs/examples.ipynb)

In [24]:
# df["sample-word"] = df.sample_column.parallel_apply(function_to_apply)