{
  "lastScan": "2026-02-18T08:00:00Z",
  "version": "2.1.0",
  "models": {
    "anthropic/claude-opus-4-6": {
      "provider": "anthropic",
      "name": "Claude Opus 4.6",
      "addedAt": "2026-02-18",
      "pricing": { "input": 15.00, "output": 75.00, "unit": "1M tokens" },
      "context": 200000,
      "strengths": ["deep reasoning", "novel problems", "hard search", "complex coding", "computer use"],
      "weaknesses": ["most expensive", "slower", "loses to Sonnet on office tasks"],
      "benchmarks": {
        "swe-bench": 80.8,
        "terminal-bench-2": 62.7,
        "osworld": 72.7,
        "arc-agi-2": 75.2,
        "gpqa-diamond": 74.5,
        "gdpval-aa": 1559,
        "finance-agent": 62.0,
        "mcp-atlas": 60.3,
        "hle": 26.3,
        "math-500": 97.6
      },
      "routeTo": ["deep-reasoning", "novel-problems", "hard-coding", "hard-search"],
      "tier": "premium"
    },
    "anthropic/claude-sonnet-4-6": {
      "provider": "anthropic",
      "name": "Claude Sonnet 4.6",
      "addedAt": "2026-02-18",
      "pricing": { "input": 3.00, "output": 15.00, "unit": "1M tokens" },
      "context": 1000000,
      "strengths": ["office tasks", "finance", "computer use", "tool coordination", "coding", "1M context"],
      "weaknesses": ["weaker on novel reasoning vs Opus", "5× more expensive than Gemini Pro"],
      "benchmarks": {
        "swe-bench": 79.6,
        "terminal-bench-2": 59.1,
        "osworld": 72.5,
        "arc-agi-2": 58.3,
        "gpqa-diamond": 74.1,
        "gdpval-aa": 1633,
        "finance-agent": 63.3,
        "mcp-atlas": 61.3,
        "hle": 19.1,
        "math-500": 97.8,
        "pace-insurance": 94.0
      },
      "routeTo": ["computer-use", "office-finance", "standard-coding", "tool-use"],
      "tier": "mid"
    },
    "anthropic/claude-haiku-4-5": {
      "provider": "anthropic",
      "name": "Claude Haiku 4.5",
      "addedAt": "2026-02-18",
      "pricing": { "input": 1.00, "output": 5.00, "unit": "1M tokens" },
      "context": 200000,
      "strengths": ["fast", "cheap for Claude", "good for simple tasks"],
      "weaknesses": ["significantly weaker on complex tasks"],
      "benchmarks": {},
      "routeTo": ["simple-tasks", "classification", "extraction"],
      "tier": "economy"
    },
    "google/gemini-2.5-pro": {
      "provider": "google",
      "name": "Gemini 2.5 Pro",
      "addedAt": "2026-02-18",
      "pricing": { "input": 1.25, "output": 10.00, "unit": "1M tokens" },
      "context": 1000000,
      "strengths": ["strong reasoning", "1M context", "cost efficient", "multimodal"],
      "weaknesses": ["weaker on coding vs Claude", "no computer use capability"],
      "benchmarks": {
        "swe-bench": 75.0
      },
      "routeTo": ["background-research", "summarization", "multimodal"],
      "tier": "mid"
    },
    "google/gemini-2.5-flash": {
      "provider": "google",
      "name": "Gemini 2.5 Flash",
      "addedAt": "2026-02-18",
      "pricing": { "input": 0.18, "output": 0.75, "unit": "1M tokens" },
      "context": 1000000,
      "strengths": ["extremely cheap", "fast", "1M context", "good for high volume"],
      "weaknesses": ["weaker reasoning", "not for complex tasks"],
      "benchmarks": {},
      "routeTo": ["drafts", "summaries", "formatting", "high-volume"],
      "tier": "economy"
    },
    "openai/gpt-4o": {
      "provider": "openai",
      "name": "GPT-4o",
      "addedAt": "2026-02-18",
      "pricing": { "input": 5.00, "output": 15.00, "unit": "1M tokens" },
      "context": 128000,
      "strengths": ["multimodal", "good general reasoning", "function calling"],
      "weaknesses": ["weak computer use (38.2%)", "more expensive than Sonnet for less capability"],
      "benchmarks": {
        "osworld": 38.2,
        "gpqa-diamond": 73.8,
        "gdpval-aa": 1524,
        "finance-agent": 60.7,
        "math-500": 97.4
      },
      "routeTo": ["general-purpose-fallback"],
      "tier": "mid"
    },
    "openai/gpt-5.2": {
      "provider": "openai",
      "name": "GPT-5.2",
      "addedAt": "2026-02-18",
      "pricing": { "input": null, "output": null, "unit": "1M tokens" },
      "context": 128000,
      "strengths": ["strong coding", "good reasoning"],
      "weaknesses": ["very weak computer use (38.2%)", "pricing unclear"],
      "benchmarks": {
        "swe-bench": 77.0,
        "terminal-bench-2": 46.7,
        "osworld": 38.2,
        "gpqa-diamond": 73.8,
        "gdpval-aa": 1524,
        "finance-agent": 60.7,
        "hle": 20.3,
        "math-500": 97.4
      },
      "routeTo": [],
      "tier": "premium"
    },
    "xai/grok-4.1-fast": {
      "provider": "xai",
      "name": "Grok 4.1 Fast",
      "addedAt": "2026-02-18",
      "pricing": { "input": 0.20, "output": 0.50, "unit": "1M tokens" },
      "context": 131072,
      "strengths": ["extremely cheap", "fast", "good for simple tasks"],
      "weaknesses": ["limited benchmark data", "content reliability questions"],
      "benchmarks": {},
      "routeTo": ["simple-tasks", "drafts"],
      "tier": "economy"
    },
    "openrouter/deepseek/deepseek-v3.2": {
      "provider": "openrouter",
      "name": "DeepSeek V3.2",
      "addedAt": "2026-02-18",
      "pricing": { "input": 0.14, "output": 0.28, "unit": "1M tokens" },
      "context": 128000,
      "strengths": ["cheapest quality option", "strong for price", "good coding"],
      "weaknesses": ["limited availability", "data privacy concerns for some users"],
      "benchmarks": {},
      "routeTo": ["drafts", "summaries", "simple-coding", "high-volume"],
      "tier": "economy"
    }
  },
  "routingRules": {
    "computer-use": { "model": "anthropic/claude-sonnet-4-6", "reason": "72.5% OSWorld — 34pt gap over GPT, hard rule" },
    "deep-reasoning": { "model": "anthropic/claude-opus-4-6", "reason": "75.2% ARC-AGI-2, 26.3% HLE — uniquely capable" },
    "office-finance": { "model": "anthropic/claude-sonnet-4-6", "reason": "1633 Elo GDPval-AA — beats everything incl Opus" },
    "standard-coding": { "model": "anthropic/claude-sonnet-4-6", "reason": "79.6% SWE-bench, near-Opus at 5× cheaper" },
    "hard-coding": { "model": "anthropic/claude-opus-4-6", "reason": "62.7% Terminal-Bench — meaningful gap over Sonnet" },
    "drafts-summaries": { "model": "cheapest-available", "reason": "quality tolerance is high, save tokens" },
    "hard-search": { "model": "anthropic/claude-opus-4-6", "reason": "84.0% BrowseComp vs Sonnet's 74.7%" }
  },
  "modes": {
    "performance": {
      "main": "anthropic/claude-opus-4-6",
      "subagents": "anthropic/claude-sonnet-4-6"
    },
    "balanced": {
      "main": "anthropic/claude-sonnet-4-6",
      "subagents": "google/gemini-2.5-pro"
    },
    "economy": {
      "main": "google/gemini-2.5-pro",
      "subagents": "google/gemini-2.5-flash"
    }
  }
}