Eval Runner

Eval Runner

LLM-AS-JUDGE

Configuration

Feature / Test Name

System Prompt

Model

Test Cases

Results

–

◈

No eval running

configure prompt + test cases, then run

Metrics

Pass Rate

–

awaiting results

Avg Score

–

0-100 scale

Distribution

pass border fail

Tests Run

0

0 pending