Showing 1–15 of 50

#0051

Coding Agent testing on Claude Code

Queued Position 02

Target Model

openai/gpt-4o

Scenario Set

Coding Agent Scenarios

Status

Waiting to start...

#0050

Unnamed Scan 5

12m 33s Started 12m ago

Target Model

anthropic/claude-sonnet-4-5

Scenario Set

Alpha Scenario Group

Status

In Progress 25%

#0048

Tool Call Violation Tests

Error Failed 2h ago

Target Model

openai/gpt-5

Scenario Set

Tool Call Violations

Status

TimeoutError

#0047

Prompt Injection Stress Test

Error Failed 5h ago

Target Model

google/gemini-2.0-flash

Scenario Set

Injection Scenarios

Status

AuthenticationError

#0046

Extreme Edge Case Sweep

Error Failed 1d ago

Target Model

anthropic/claude-opus-4

Scenario Set

Extreme Coding Cases

Status

RateLimitError

#0045

IT Support Agent

30 min Started 29 days ago

Target Model

openai/o3-mini

Scenario Set

IT Support Agent Scenarios

Status

9 Vulnerable

1 Secure

#0044

Customer Support Agent

26 min Started 7h ago

Target Model

google/gemini-2.5-pro

Scenario Set

Customer Support Scenarios

Status

9 Vulnerable

1 Secure

#0043

Coding Agent

30 min Started 8h ago

Target Model

claude-haiku-4-5

Scenario Set

Coding Agent Scenarios

Status

5 Vulnerable

5 Secure

#0042

Sales Lead Agent

48 min Started 9h ago

Target Model

o3-mini

Scenario Set

Sales Lead Agent Scenarios

Status

11 Vulnerable

0 Secure

#0041

Unnamed Scan 2

51m 14s Started 10h ago

Target Model

openai/gpt-4o

Scenario Set

Custom

Status

7 Vulnerable

3 Secure

#0040

Unnamed Scan 1

55m 39s Started 11h ago

Target Model

openai/gpt-4o

Scenario Set

Custom

Status

9 Vulnerable

1 Secure

#0039

Social Engineering Scenarios

9m 51s Started 12h ago

Target Model

anthropic/claude-sonnet-4-5

Scenario Set

Social Engineering

Status

4 Vulnerable

6 Secure

#0038

Data Exfiltration via Code

7m 22s Started 13h ago

Target Model

openai/gpt-4o

Scenario Set

Coding Agent Scenarios

Status

3 Vulnerable

7 Secure

#0037

Memory Poisoning Tests

5m 44s Started 14h ago

Target Model

google/gemini-2.0-flash

Scenario Set

Memory Scenarios

Status

6 Vulnerable

4 Secure

#0036

Agentic Loop Exploits

3m 57s Started 15h ago

Target Model

anthropic/claude-opus-4

Scenario Set

Agentic Exploits

Status

3 Vulnerable

7 Secure