Глоссарий корпоративного AI

25 терминов governance, архитектуры и рисков используемых в реальных production AI-внедрениях. Для CIO/CTO/архитекторов, не для ML-исследователей. С учётом российского регуляторного контекста (152-ФЗ).

🏗️ Архитектура

Core технические паттерны

RAG (Retrieval-Augmented Generation)

Архитектурный паттерн где LLM получает релевантные документы во время запроса (из vector или hybrid search index) вместо опоры только на training data. RAG — default стартовая архитектура для корпоративных AI-ассистентов потому что grounds ответы в вашем корпусе и поддерживает source citation для compliance.

Fine-tuning

Корректировка весов LLM на domain-specific датасете из сотен-тысяч высококачественных примеров. Используется для consistent task-specific поведения на масштабе. В enterprise-практике fine-tuning добавляется после RAG, не до, и только когда accuracy RAG выходит на плато на узкой задаче.

Embedding (эмбеддинг)

Высокоразмерное векторное представление текста (или изображения, аудио, кода) которое захватывает семантический смысл. Два куска контента с похожим смыслом имеют похожие embeddings. Retrieval-слой каждой RAG-системы зависит от embedding model — выбор embedding имеет больше impact на accuracy RAG чем какой LLM делает generation.

Chunking (чанкинг)

Процесс разбиения исходных документов на меньшие пассажи до embedding. Chunk size, overlap и обработка semantic boundaries — unsung heroes RAG accuracy. Плохая chunking strategy заставит даже лучший LLM выдавать неправильные ответы.

Vector database (векторная БД)

Специализированное хранилище для embedding векторов с approximate nearest-neighbor search. PostgreSQL + pgvector — enterprise default ниже 50М векторов; Qdrant, Weaviate или Milvus когда scale или hybrid (sparse + dense) requirements того требуют. Pinecone — managed cloud, удобно для пилотов, но не подходит для российских ПДн (152-ФЗ требует локализации).

Context window (окно контекста)

Максимальное количество текста (prompt + retrieved context + history + completion) которое LLM может обработать за раз, измеряется в токенах. Большие окна снижают необходимость retrieval но увеличивают cost per call и ухудшают attention к mid-window content ("lost in the middle" феномен). Архитектурный выбор, не просто capacity.

AI agent (AI-агент)

AI-система с tool access — может вызывать APIs, выполнять код, querying базы данных. Агенты переходят от "отвечает на вопросы" к "выполняет действия", что фундаментально меняет risk profile: каждый tool call требует authorization, logging, rollback и human-in-the-loop для high-stakes операций.

Tool use / function calling

Способность LLM вызывать external functions (search, calculator, database query, API call) как часть response. Мост между conversational AI и agentic AI. Каждый exposed tool расширяет attack surface — проектируйте tool catalogs вокруг least privilege.

🛡️ Governance и регулирование

Frameworks, accountability, 152-ФЗ

NIST AI RMF

AI Risk Management Framework опубликованный US National Institute of Standards and Technology в 2023. Voluntary risk-management методология — лучше всего использовать для построения internal AI governance program. Структурирован вокруг четырёх функций: Govern, Map, Measure, Manage.

ISO/IEC 42001

International AI management-system стандарт опубликованный в декабре 2023. Certifiable (auditable), структурно aligned с ISO 27001. Преследуется когда требуется external audit signal для клиентов или регуляторов. SLAtech не держит ISO 42001 как self-cert — это educational discussion фреймворка, не претензия на наличие сертификации.

EU AI Act

EU регуляция (вступает в силу 2025-2026) классифицирующая AI-системы на четыре risk tier: prohibited, high-risk, limited-risk и minimal-risk. High-risk обязательства включают risk management, data governance, technical documentation, logging, human oversight и post-market monitoring. Применяется экстратерриториально: если ваши пользователи или deployments касаются EU — вы в скоупе.

152-ФЗ (российский регуляторный контекст для AI)

Федеральный закон "О персональных данных". Для AI-внедрений три критические точки: статья 18 (локализация ПДн на территории РФ — foreign LLM API недоступны для обработки ПДн), статья 9 (явное информированное согласие на обработку ПДн в AI-системах), ФСТЭК-приказ № 21 (логирование операций включая prompts и model outputs). Архитектура должна это учитывать с первого спринта.

Чек-лист 152-ФЗ (20 контролей) →

Импортозамещение AI

Замена зарубежных foundation models на open-source модели развёрнутые on-prem или в российском cloud. Практические альтернативы: GigaChat (Сбер), YandexGPT, open-source Llama / Mistral / Qwen. Для embedding: BGE-M3, multilingual-e5. Качество для типичных enterprise-задач сопоставимо с GPT-4 при правильной архитектуре.

Human in the loop (HITL)

Архитектура где high-stakes AI-решения маршрутизируются на human reviewer до выполнения. Требуется EU AI Act для high-risk систем. Практически: любое действие которое нельзя дёшево rollback'нуть, любое решение которое влияет на права или финансы человека, любой output отправляемый регулятору должен проходить через HITL.

Audit trail (журнал аудита)

Append-only, cryptographically-signed log inputs, outputs, model version, retrieval sources и human overrides для каждого AI-решения. Требуется GDPR статьёй 22 для автоматизированных решений влияющих на индивидов, EU AI Act для high-risk систем, и процессорами для fraud-detection систем. Без него вы не можете защитить решение постфактум.

Data lineage

Документированная запись где каждый кусок данных AI-системы взялся, когда был ingested, как был трансформирован, и кто имеет access. Требуется для любой production AI-системы; без неё вы не можете ответить на audit-вопросы о том почему модель сказала то что сказала.

AI governance maturity

Измеряется по пяти измерениям: inventory (знаете ли вы каждую AI в production), risk classification (классифицирована ли каждая система по уровням), controls (документированы и enforced), monitoring (drift, hallucination, incident tracked), accountability (named owner per system). Ответ "нет" на любое — это gap, не deferral.

Zero data retention (ZDR)

Vendor commitment (предлагается OpenAI Enterprise, Anthropic и другими) что prompts и completions не сохраняются и не используются для training. Требуется для обработки sensitive data через commercial LLM APIs. Проверяйте contractual basis — "ZDR" как маркетинговая фраза без contractual backing не является control'ом.

⚠️ Риски и контроли

Failure modes и mitigations

Галлюцинация (hallucination)

LLM output который fluent и confident но фактически неправильный или fabricated. Галлюцинации нельзя устранить; их constrain'ят через RAG grounding, требование source citations, low-confidence rejection, scope narrowing и verification steps для high-stakes outputs.

Prompt injection

Класс атак где untrusted content (документ, email, web page) содержит инструкции которые LLM интерпретирует как commands. Защита: обращение с retrieved content как с data а не code, sandboxing tool access, structured outputs валидируемые second pass, никогда не давать LLM-generated content триггерить privileged operations без human review.

Model drift (дрейф модели)

Тихое изменение поведения модели со временем. Два типа: vendor drift — foundation model тихо обновлена провайдером и ведёт себя по-другому на тех же inputs; data drift — ваше input distribution shifted но модель не изменилась. Detected мониторингом output distributions и frozen evaluation set.

Guardrails (защитные слои)

Pre- и post-processing слои вокруг LLM которые блокируют нежелательные inputs (prompt injection, PII leakage) и outputs (offensive content, policy violations, hallucinated entities). Guardrails необходимы но недостаточны — они ловят простые случаи; архитектура ловит сложные.

Rollback / kill switch

Протестированный механизм мгновенно вернуть AI-систему к предыдущей stable version или полностью отключить. Требуется как часть six-control minimum baseline. "Протестированный" — operative слово: rollback который никогда не выполнялся — это не rollback, это wish.

AI observability

Instrumenting AI-системы так чтобы вы могли ответить "что произошло в этом разговоре, почему, и как часто эта pattern происходит?" Включает prompt logging, output logging, retrieval logging, latency metrics, cost metrics, error rates и feedback signals. Большинство production failures очевидны в observability data до того как они появятся в user complaints.

Evaluation (LLM eval)

Измерение делает ли AI то что должна. Production-grade eval имеет три слоя: offline regression на frozen test set (каждый релиз), online quality sampling (human-rated в production), incident-rate tracking (escalations и rejections). Без всех трёх вы не можете сказать улучшил ли model update или регрессировал систему.

Нужно глубже обсудить применимо к вашей системе?

30 минут с архитектором, без оплаты, без sales follow-up.

📅 Записаться на Calendly

Связанные ресурсы: FAQ корпоративного AI (15 Q&A) · Чек-лист 152-ФЗ · Legacy ROI Calculator