Cite This Research

BibTeX entries, data access, and responsible disclosure

BibTeX Citations

Use the following entries to cite Failure-First research in academic work. Click any block to copy.

Framework

@misc{failurefirst2025framework,
  title = {Failure-First Embodied AI: A Framework for
          Characterizing Adversarial Failure in
          Embodied AI Systems},
  author = {Wedd, Adrian},
  year = {2025},
  url = {https://failurefirst.org},
  note = {Version 0.13, dataset v0.2}
}

Dataset

@misc{failurefirst2025dataset,
  title = {Failure-First Embodied AI Adversarial
          Scenario Dataset},
  author = {Wedd, Adrian},
  year = {2025},
  url = {https://github.com/adrianwedd/failure-first},
  note = {142,307+ scenarios, 661 failure classes,
         19 domains, JSONL format}
}

Methodology

@misc{failurefirst2026methodology,
  title = {Adversarial Evaluation Methodology for
          Embodied AI Safety},
  author = {Wedd, Adrian},
  year = {2026},
  url = {https://failurefirst.org/research/methodology/},
  note = {Multi-phase evaluation: scenario construction,
         multi-model evaluation, failure classification}
}

Moltbook Research

@misc{failurefirst2026moltbook,
  title = {Multi-Agent Attack Surface Analysis:
          Empirical Study of AI Agent Interactions
          on Moltbook},
  author = {Wedd, Adrian},
  year = {2026},
  url = {https://failurefirst.org/research/moltbook/},
  note = {1,497 posts classified against 34+ attack
         patterns using regex and LLM semantic analysis}
}

Data Access

Public Data

The following are freely available:

JSON Schemas for all dataset formats (single-agent, multi-agent, episode)
Attack taxonomy with 346+ pattern categories and descriptions
Failure mode taxonomy with recursive failure classifications
Recovery mechanism taxonomy
Benchmark pack configurations (YAML)
Evaluation tools (validators, linters, benchmark runners)
Aggregate results and metrics (this site)

Public Repository

Research Data (By Request)

The following require a research data access request. This data is maintained in a private repository to prevent misuse of operational attack content:

Full adversarial scenario datasets (JSONL with specific prompts)
Model evaluation traces (per-scenario input/output)
Moltbook corpus with classified posts
Compression tournament results with specific prompts
Multi-agent scenario scripts with full actor dialogues

To request access, contact research@failurefirst.org with your institutional affiliation and intended use.

Public Metadata

Machine-readable metadata for the dataset and research program:

Dataset Summary (v0.2)

FormatJSONL (newline-delimited JSON)

Schema versionv0.2 (single-agent), v0.1 (multi-agent, episode)

Total scenarios142,307+

Failure classes661

Domains19 (humanoid robotics, warehouse, medical, collaborative manufacturing, etc.)

Attack patterns346+ across 7 categories

Models evaluated258 (API and local via Ollama/OpenRouter)

Multi-agent scenarios50 (4 actor roles, 5 environments)

Moltbook corpus1,497 posts (regex + LLM classified)

Data snapshotMarch 2026

Responsible Disclosure

If you discover a vulnerability in a deployed AI system using insights from this research, please follow responsible disclosure practices. See our responsible disclosure page for guidance.

License

The Failure-First framework, tools, and public documentation are released under the MIT License. Research data access is granted on a case-by-case basis for legitimate AI safety research purposes.

GitHub Repository Responsible Disclosure Contact Us