[LLama] Failed to evaluate `truthfulqa`

### What

Failed to evaluate "truthfulqa" benchmark using `lm_eval` package. The benchmark needs `generate` method at least. 
1. To make transformers `generate`  (from `GenerateMixin`) usable (without kv-cache it's very slow)  we need to support `DynamicCache` from `transformers` (right now it's just a list of kv-tuples). 
2. Or we need to reimplement `generate`.