In [117]:
import random
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

**concat() - горизонталь**

Соединение по `горизонтали`:
 * Индексы должны быть одинаковыми
 * Указать axis=1 для соединения `по горизонтали`

In [67]:
a = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))
b = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('CD'))
c = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('EF'))
frames = [a, b, c]
pd.concat(frames, axis=1)

Unnamed: 0,A,B,C,D,E,F
0,1,2,10,20,100,200
1,4,5,40,50,400,500
2,7,8,70,80,700,800


**concat() - NaN**
* Разные имена столбцов
* Разные индексы


In [66]:
a1 = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'), index=['v', 5, 'FF'])
b1 = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('CD'), index=list('abc'))
c1 = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('EF'), index=[70, 80, 'w'])
frames = [ a1, b1, c1]
pd.concat(frames, axis=1)

Unnamed: 0,A,B,C,D,E,F
v,1.0,2.0,,,,
5,4.0,5.0,,,,
FF,7.0,8.0,,,,
a,,,10.0,20.0,,
b,,,40.0,50.0,,
c,,,70.0,80.0,,
70,,,,,100.0,200.0
80,,,,,400.0,500.0
w,,,,,700.0,800.0



**concat() - вертикаль** 
* Условие:
    * `одинаковые` имена столбцов
    * индексы `любые`

In [34]:
a = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'), index=['v', 5, 'FF'])
b = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('AB'))
c = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('AB'))

frames = [a, b, c]
pd.concat(frames)

Unnamed: 0,A,B
v,1,2
5,4,5
FF,7,8
0,10,20
1,40,50
2,70,80
0,100,200
1,400,500
2,700,800


**concat() DF - Series - горизонталь**
* Индексы одинаковые

In [49]:
a1 = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))
s2 = pd.Series(["_0", "_1", "_2"])

pd.concat([a1, s2], axis=1)

Unnamed: 0,A,B,0
0,1,2,_0
1,4,5,_1
2,7,8,_2


**concat() DF - Series**
* Индексы `разные`

In [50]:
a1 = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'), index=['v', 5, 'FF'])
s2 = pd.Series(["_0", "_1", "_2"])

pd.concat([a1, s2], axis=1)

Unnamed: 0,A,B,0
v,1.0,2.0,
5,4.0,5.0,
FF,7.0,8.0,
0,,,_0
1,,,_1
2,,,_2


**concat() DF - Series** -> *вертикаль*
* Индексы `разные` или `одинаковые` результат один
* Имена столбцов `одинаковые`

In [61]:
a1 = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))

s1 = pd.Series(["_0", "_1", "_2"], name='A')
s2 = pd.Series(["_0", "_10", "_20"], name='B')

pd.concat([a1, s1, s2], axis=0)

Unnamed: 0,A,B,0
0,1.0,2.0,
1,4.0,5.0,
2,7.0,8.0,
0,,,_0
1,,,_1
2,,,_2
0,,,_0
1,,,_10
2,,,_20


**concat() DF - несколько Series** -> *горизонталь*
* Индексы  `одинаковые` если нет то `NaN`
* Имена столбцов `одинаковые` или `разные` результат один

In [65]:
a1 = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))

s1 = pd.Series(["_0", "_1", "_2"], name='AA')
s2 = pd.Series(["_0", "_10", "_20"], name='BB')

pd.concat([a1, s1, s2], axis=1)

Unnamed: 0,A,B,AA,BB
0,1,2,_0,_0
1,4,5,_1,_10
2,7,8,_2,_20


**concat() - MultiIndex - вертикаль**
* Условие:
    * `одинаковые` имена столбцов
    * индексы `любые`

In [129]:
a = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))
b = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('AB'), index=['v', 5, 'FF'])
c = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('AB'), index=['vV', 55, 'std'])
frames = [a, b, c]
# pd.concat(frames, axis=1)

# 👉 Мультииндексы соответствуют определённым DF: "x" - a, "y" - b, "z" - c
pd.concat(frames, keys=["x", "y", "z"], axis=0)

Unnamed: 0,Unnamed: 1,A,B
x,0,1,2
x,1,4,5
x,2,7,8
y,v,10,20
y,5,40,50
y,FF,70,80
z,vV,100,200
z,55,400,500
z,std,700,800


**concat() - MultiIndex - loc**
* `Извлекаем нужный блок по MultiIndex`
* Условие:
    * `одинаковые` имена столбцов
    * индексы `любые`

In [75]:
a = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))
b = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('AB'), index=['v', 5, 'FF'])
c = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('AB'), index=['vV', 55, 'std'])
frames = [a, b, c]
# pd.concat(frames, axis=1)

result = pd.concat(frames, keys=["x", "y", "z"])
result.loc["y"]

Unnamed: 0,A,B
v,10,20
5,40,50
FF,70,80


**Series transform в DF**

In [81]:
s1 = pd.Series(["_0", "_1", "_2"])
s1.to_frame(name='Теперь DF')

Unnamed: 0,Теперь DF
0,_0
1,_1
2,_2


**concat() - вертикаль**

In [83]:
df1 = pd.DataFrame(
     {
         "A": ["A0", "A1", "A2", "A3"],
         "B": ["B0", "B1", "B2", "B3"],
         "C": ["C0", "C1", "C2", "C3"],
         "D": ["D0", "D1", "D2", "D3"],
     },
     index=[0, 1, 2, 3],
 )
 

df2 = pd.DataFrame(
     {
         "A": ["A4", "A5", "A6", "A7"],
         "B": ["B4", "B5", "B6", "B7"],
         "C": ["C4", "C5", "C6", "C7"],
         "D": ["D4", "D5", "D6", "D7"],
     },
     index=[4, 5, 6, 7],
 )
 

df3 = pd.DataFrame(
     {
         "A": ["A8", "A9", "A10", "A11"],
         "B": ["B8", "B9", "B10", "B11"],
         "C": ["C8", "C9", "C10", "C11"],
         "D": ["D8", "D9", "D10", "D11"],
     },
     index=[8, 9, 10, 11],
 )
 

frames = [df1, df2, df3]

pd.concat(frames)



Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


**Appending rows to a DataFrame**

In [86]:
s2 = pd.Series([0.1, 0.2, 0.3, 0.4], index=["A", "B", "C", "D"])

result = pd.concat([df1, s2.to_frame().T], ignore_index=True)

result


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,0.1,0.2,0.3,0.4


**merge - join - DF**

In [113]:
import pandas as pd

a = pd.DataFrame([[1, 2], [4, 5], [7, 8]], columns=list('AB'))
b = pd.DataFrame([[10, 20], [40, 50], [70, 80]], columns=list('CD'))
c = pd.DataFrame([[100, 200], [400, 500], [700, 800]], columns=list('EF'))

pd.merge(a, c, how='left', left_on='A', right_on='E')



Unnamed: 0,A,B,E,F
0,1,2,,
1,4,5,,
2,7,8,,


**DF - StandardScaler - Имена**
*  Что бы `сохранить` имена после `стандартизации` нужно:
    * Имена `явно` указать при `повторном создании DF` 

In [130]:
df_train = pd.DataFrame({'One': [0.0001, 0.0002, 0.0003], 'Two': [1, 2, 3], 'Three': [100, 200, 300]})
df_test =  pd.DataFrame({'One': [0.01, 0.02, 0.03], 'Two': [10, 20, 30], 'Three': [1000, 2000, 3000]})

# 👉 scale - возвращает ndarray
scale = StandardScaler()
scale.fit_transform(df_train)
scale.transform(df_test)
# 👉 Извлекаем имена из исходного df_test, index - явный, синхронизация индексов
df_test_scale = pd.DataFrame(scale.transform(df_test), columns=df_test.columns, index=df_test.index)
df_test_scale



Unnamed: 0,One,Two,Three
0,120.024997,9.797959,9.797959
1,242.499485,22.045408,22.045408
2,364.973972,34.292856,34.292856
