如何运行¶

我们继续以Llama-2-7b-hf这个模型为例，进行使用说明的详细解释，我们完成一次测评分四步走。

首先在FinEval/code文件夹下放置数据集，并命名为data。
下载测评模型权重。

修改评测脚本code/run_eval.sh的参数。

运行下面命令，进行修改配置文件

vi run_eval.sh

运行上述命令后，配置文件内容如下。

export PROJ_HOME=$PWD
export KMP_DUPLICATE_LIB_OK=TRUE

# Llama-2-7b-hf模型
# 修改模型名称确定模型权重加载方式，此处默认有五种加载方式，llama,bloom,auto,moss,chatglm,baichuan，一二代模型均支持
model_type=llama 
# 通过huggingface下载的模型权重的位置，此处采用相对位置路径，如果模型路径下载至其他位置，可以使用绝对路径。
model_path=/Llama-2-7b-hf 
# 模型结果生成的目录名称，如果以下参数do_save_csv格式为True,模型运行信息将保存在一个文件夹中，文件夹命名为目录生成名称。
exp_name=Llama-2-7b-hf

exp_date=$(date +"%Y%m%d%H%M%S")
echo "exp_date": $exp_date
output_path=$PROJ_HOME/output_dir/${exp_name}/$exp_date
echo "output_path": $output_path

python eval.py \
    --model_type  ${model_type} \
    --model_path ${model_path} \
    ${lora_model:+--lora_model "$lora_model"} \
    --cot False \
    --few_shot True \
    --with_prompt False \
    --ntrain 5 \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --do_save_csv True \
    --do_test False \
    --gpus 0 \ # 测评进行的显卡编号
    --only_cpu False \ # 默认为False，如果为True将使用cpu进行评估，速度会减慢，不推荐使用cpu进行评估。
    --output_dir ${output_path}

运行评测脚本code/run_eval.sh
```
bash run_eval.sh
```
运行评测脚本后，将会产生每个科目具体的分数以及总的加权分数。