Eval-Anything

A comprehensive evaluation framework for assessing the safety and capabilities of multimodal large language models across diverse modalities.

PKU-Alignment

GitHub

Broad Modality Coverage: Evaluates across text, image, video, speech, and action (embodied) modalities.
50+ Integrated Benchmarks: Aggregates a wide range of open-source datasets alongside custom-developed ones.
Structured Safety Taxonomy: 5 core evaluation dimensions and 35 sub-dimensions for fine-grained safety measurement.
Embodied Safety Evaluation: Uniquely addresses execution safety, trajectory safety, and hardware safety for robotic agent scenarios.