Benchmark - a JuanRafap Collection

JuanRafap 's Collections

Dataset

Agent

Library

Models

Benchmark

updated 3 days ago

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Paper • 2505.13227 • Published May 19 • 45
facebook/natural_reasoning

Viewer • Updated Feb 21 • 1.15M • 1.3k • 508
nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 15.4k • 293
Search Arena: Analyzing Search-Augmented LLMs

Paper • 2506.05334 • Published 27 days ago • 17
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Paper • 2506.07977 • Published 23 days ago • 39
google/frames-benchmark

Viewer • Updated Oct 15, 2024 • 824 • 2.28k • 213
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Paper • 2506.11928 • Published 19 days ago • 22
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published 14 days ago • 11
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published 16 days ago • 90
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Paper • 2506.11763 • Published 19 days ago • 60
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Paper • 2506.09049 • Published 22 days ago • 33
yandex/alchemist

Viewer • Updated 26 days ago • 3.35k • 1.52k • 41

	
		OSZAR »