# Day 2

## Part I

首先读取输入，然后做相应处理，为了简单起见，这里还是使用Pandas包来读取输入文件。然后对得到的DataFrame进行各种数据预处理：

In [1]:
import pandas as pd

def read_input() -> pd.DataFrame:
    df = pd.read_csv('input.txt', sep=' ', header=None)
    # 初始读取的DataFrame只有三列，设置其列label
    df.columns = ['range', 'char', 'code']
    
    # 下面首先处理数据中range的m-n部分
    ranges = df.range.str.split('-')
    # 将m转换成整数变为df的一个新的列 least
    df['least'] = ranges.apply(lambda x: int(x[0]))
    # 将n转换成整数变为df的一个新的列 most
    df['most'] = ranges.apply(lambda x: int(x[1]))
    # range 列已经没用了，从df中删除
    del df['range']
    
    # 最后处理 char 列，去除后面的冒号
    df.char = df.char.str.rstrip(':')
    
    return df

看一看读取出来的DataFrame是否满足要求：

In [2]:
df = read_input()
df.head()

Unnamed: 0,char,code,least,most
0,j,vrfjljjwbsv,1,7
1,j,jjjjjjjjjjjj,1,10
2,s,jfxssvtvssvsbx,9,13
3,d,ddvddnmdnlvdddqdcqph,10,12
4,b,bbbbbbbbbrbnb,11,12


然后使用collections.Counter来统计code列中含有char字符的数量，并判断是否符合 $[least, most]$ 区间，通过定义一个函数来完成：

In [3]:
from collections import Counter
def part1_valid(row: pd.Series) -> bool:
    return row['least'] <= Counter(row['code'])[row['char']] <= row['most']

简单做两个测试：

In [4]:
assert(part1_valid(df.iloc[0]))

assert(not part1_valid(df.iloc[998]))

下面使用DataFrame的apply方法，然后利用布尔遮盖获得满足条件的行的个数：

In [5]:
valid_codes = df.apply(part1_valid, axis=1)
valid_codes[valid_codes].count()

580

## Part II

定义一个新的函数用来判断第二个问题的准则，这里使用了异或运算，当两者不同时，才会为真：

In [6]:
def part2_valid(row: pd.Series) -> bool:
    least_valid = row['code'][row['least']-1] == row['char']
    most_valid = row['code'][row['most']-1] == row['char']
    return bool(least_valid ^ most_valid)

简单做两个测试：

In [7]:
assert(part2_valid(df.iloc[0]))

assert(not part2_valid(df.iloc[1]))

同样方式，获得满足条件的行数：

In [8]:
valid_codes = df.apply(part2_valid, axis=1)
valid_codes[valid_codes].count()

611