MAI-2024-0038 | Mend Vulnerability Database

Vulnerability DatabaseMAI-2024-0038

MAI-2024-0038

Published:May 16, 2026

Updated:May 16, 2026

The GPT-4V model is susceptible to a vulnerability within its facial recognition safety protocols, enabling automated jailbreaking attacks. These attacks utilize Large Language Models (LLMs) to circumvent safety mechanisms and provoke unintended facial identification responses. The technique, known as "AutoJailbreak," employs iterative prompt optimization through an LLM "red-teaming" model, significantly enhancing the likelihood of successful exploitation. This vulnerability targets deficiencies in GPT-4V's prompt processing and safety alignment, allowing adversaries to bypass identity recognition restrictions. Mitigation steps: **For AI Developers:** * Enhance safety mechanisms to increase resilience against prompt manipulation techniques such as AutoJailbreak. * Implement robust filtering systems for potentially harmful inputs, including images. **For Model Trainers/Fine-tuners:** * Develop advanced methods for detecting and mitigating adversarial prompts. * Explore advanced defense strategies to improve cost-effectiveness and reduce reliance on computationally expensive verification methods beyond LLM-based input/output evaluation.

Related Resources (1)

https://arxiv.org/abs/2407.16686

Do you need more information?

CVSS v4

Base Score:

8.2

Attack Vector

NETWORK

Attack Complexity

HIGH

Attack Requirements

NONE

Privileges Required

NONE

User Interaction

NONE

Vulnerable System Confidentiality

HIGH

Vulnerable System Integrity

NONE

Vulnerable System Availability

NONE

Subsequent System Confidentiality

NONE

Subsequent System Integrity

NONE

Subsequent System Availability

NONE

CVSS v3

Base Score:

5.9

Attack Vector

NETWORK

Attack Complexity

HIGH

Privileges Required

NONE

User Interaction

NONE

Scope

UNCHANGED

Confidentiality

HIGH

Integrity

NONE

Availability

NONE

AIVSS

Base Score:

5.4