SWE-bench

A **benchmark** that evaluates AI models on their ability to resolve real-world GitHub issues from popular open-source Python repositories. (Ch. 3)