In [1]:
import pandas as pd
import numpy as np

In [2]:
def basic_check(df):
    '''
    読み込んだデータフレームの
    ・行と列の長さ
    ・各カラムの欠損値の数
    ・各カラムのデータの型
    ・データフレームのレコード先頭から5行、末尾から5行
    を確認する
    '''
    print('行と列の長さ\n{}'.format(df.shape))
    print('-'*50)
    print('各カラムの欠損値の数\n{}'.format(df.isnull().sum()))
    print('-'*50)
    print(df.info())
    display(df.head(), df.tail())

In [3]:
df = pd.read_excel('文字列の長さが異なるカラムを含むテーブル.xlsx', dtype='object')
df['correct_code_id'] = ['00101', '00102', '08103', '70104', '00105', '00106', '60107', '00108', '00109', '00100']
basic_check(df)

行と列の長さ
(10, 3)
--------------------------------------------------
各カラムの欠損値の数
id                 0
code_id            0
correct_code_id    0
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
id                 10 non-null object
code_id            10 non-null object
correct_code_id    10 non-null object
dtypes: object(3)
memory usage: 320.0+ bytes
None


Unnamed: 0,id,code_id,correct_code_id
0,1,101,101
1,2,102,102
2,3,103,8103
3,4,104,70104
4,5,105,105


Unnamed: 0,id,code_id,correct_code_id
5,6,106,106
6,7,107,60107
7,8,108,108
8,9,109,109
9,10,110,100


In [4]:
df['文字の長さ'] = df['code_id'].map(lambda x: len(x))
df

Unnamed: 0,id,code_id,correct_code_id,文字の長さ
0,1,101,101,5
1,2,102,102,5
2,3,103,8103,4
3,4,104,70104,4
4,5,105,105,5
5,6,106,106,5
6,7,107,60107,3
7,8,108,108,5
8,9,109,109,5
9,10,110,100,5


In [5]:
def replace_strings_by_string_length(df, threshold=5):
    '''文字の長さが閾値未満の要素のみ別のカラムの要素に置き換える関数'''
    
    if df['文字の長さ'] < threshold:
        df['new_code_id'] = df['correct_code_id']
    else:
        df['new_code_id'] = df['code_id']
    
    return df

In [6]:
df = df.apply(replace_strings_by_string_length, axis=1)
df

Unnamed: 0,id,code_id,correct_code_id,文字の長さ,new_code_id
0,1,101,101,5,101
1,2,102,102,5,102
2,3,103,8103,4,8103
3,4,104,70104,4,70104
4,5,105,105,5,105
5,6,106,106,5,106
6,7,107,60107,3,60107
7,8,108,108,5,108
8,9,109,109,5,109
9,10,110,100,5,110


In [7]:
df = df.drop(['code_id', 'correct_code_id', '文字の長さ'], axis=1).rename(columns={'new_code_id':'code_id'})
df

Unnamed: 0,id,code_id
0,1,101
1,2,102
2,3,8103
3,4,70104
4,5,105
5,6,106
6,7,60107
7,8,108
8,9,109
9,10,110
