Оптимизация использования ИИ для максимизации эффективности и снижения затрат

Introduction

Стратегии, изложенные в этой статье, показывают, как повысить Copilot эффективность и, соответственно, использовать меньше AI credits.

1. Выберите правильную модель для правильной задачи

Выбирая подходящий уровень возможностей для вашей задачи, правильно настраивая рассуждения и используя выбор автоматической модели более дешёвые модели для конкретных нагрузок, вы сможете сохранить качество и значительно снизить потребление токенов.

Выберите правильную модель

Выбор модели — один из самых быстрых способов повысить экономию затрат, но его часто упускают из виду. Распространённая закономерность — по умолчанию выбирать наиболее подходящую модель для каждой задачи, но это часто увеличивает использование токенов без улучшения результата. В некоторых случаях с высокой нагрузкой на выполнение чрезмерное использование моделей рассуждения может снижать качество, поскольку модель может чрезмерно обдумывать задачу или вносить ненужные изменения.

Выбирайте модель на основе задействованной работы:

Модели рассуждения: лучше всего подходят для архитектурных решений, сложной отладки, проектирования системы и задач, требующих более глубокого анализа.
Модели среднего звена: Лучше всего, когда план уже чёткий и агент должен эффективно его реализовать.
Более лёгкие модели: лучше всего подходят для рефакторинга, форматирования, обновления документации и других рутинных, чётко осмысленных изменений.

Используйте столько возможностей, сколько требует задача, и как можно меньше. Возможность сопоставления задач улучшает результаты и напрямую контролирует затраты в масштабе.

Для разбивки по моделям и типам задачи см. Сравнение моделей ИИ с помощью различных задач.

Настройте уровень рассуждения модели

Некоторые модели также поддерживают настраиваемые уровни рассуждения, которые определяют, насколько модель рассуждает перед реакцией. Более высокий уровень может улучшить ответы на сложные задачи, но потребляет больше жетонов и, соответственно, больше кредитов, поэтому по умолчанию стоит использовать обычный уровень и повышать его только для более сложных задач. Доступно настраиваемое рассуждение для Visual Studio Code и Второй пилот CLI для поддерживаемых моделей.

См . раздел AUTOTITLE.

Используйте Выбор автомодели Copilot как стандарт

Выбор автоматической модели выбирает подходящую модель для вас, исходя из цели вашей задачи.

Маленький роутер смотрит на ваш запрос и отправляет его к модели, которая сможет справиться с ним наиболее эффективно, оставляя дорогие модели рассуждения для сложных задач. Это также позволяет избежать моделей, которые быстро расходуют бюджет токенов.

Выбор автоматической модели Также защищает ваш кэш. Он меняет модели только на естественных границах кэша, когда начинается новая сессия или после запуска /compact, никогда не в середине задачи. Чтобы лучше понять, почему это важно, см. пункт 4. Сохрани тайник.

Выбор автоматической модели Также маршрутизация обходит деградированные или загруженные модели, чтобы снизить лимиты скорости и ошибок.

If you are on a paid Copilot plan, you qualify for a 10% discount on model costs while using выбор автоматической модели in Копилот Чат, Второй пилот CLI, приложение GitHub Copilot, or Copilot облачный агент.

Для получения информации о функции и её доступности см. О компании Copilotвыбор автоматической модели.

Используйте более дешёвые модели для Субагентов

Работайте Субагентов на более дешёвых моделях. Субагентов Проводят свою сессию и не наследуют историю разговоров основного агента. Поскольку их контекст ограничен одной целевой задачей, более лёгкая модель часто бывает достаточной — и назначение её не влияет на кэш основного агента так, как переключение модели в середине сессии.

2. Дайте чёткие рекомендации в своих подсказках

Ваш запрос задаёт направление для всего, что делает агент. Когда подсказка расплывчата, агент должен сделать выводы о намерениях, исследовать больше контекста и принимать решения. Это часто приводит к повторным попыткам, смещению объёма и ненужному использованию токенов.

Хорошо структурированные задания обладают тремя качествами:

Чёткое определение задачи. Вместо того чтобы «решить проблему», объясните, в чём проблема, где она возникает и каков ожидаемый исход.
Соответствующий контекст предоставлен заранее. Если вы уже знаете, какие файлы, сервисы, логи, ошибки или входные данные имеют значение, включите их. Это помогает агенту избежать ненужного исследования.
Явное условие остановки. Скажите агенту, как выглядит «готово». Без точки остановки агенты могут продолжать работу за пределами цели, добавляя дополнительные коммиты, рефакторируя несвязанный код или расширяя область действия.

Эти дополнительные рекомендации не увеличивают использование токенов существенно, но могут значительно сократить количество запусков агентов, необходимых для достижения правильного результата.

Для лучших практик по инженерии в подсказках см. Инженерия подсказок для GitHub Copilot Chat.

3. Держите контекст максимально компактным

Copilot отправляет контекст, к которому имеет доступ, в виде входных токенов, и этот контекст складывается: открытые вкладки редактора, прикреплённые файлы и полный диалог длинного разговора считаются контекстом.

Чтобы сохранить контекст под контролем, подумайте о следующем:

Начинайте новый разговор, когда меняете задачу

Длинная нить несёт всю свою историю в каждом новом запросе. Когда переходите к другой задаче, начните новый разговор. Рассмотрим пример.

В Второй пилот CLI употреблении /new (или /clear)
В Копилот Чат, начните новую сессию чата.

Компактные длинные Второй пилот CLI сессии, которые вы хотите продолжать

Когда нужно, чтобы поток продолжался, но он стал большим, заходите /compactВторой пилот CLI , чтобы кратко свести историю и уменьшить окно контекста, при этом по желанию фокусируйте резюме (например, /compact focus on the auth module).

Кроме того, вы можете /context использовать его для проверки текущего потребления в любое время.

См . раздел AUTOTITLE.

Дайте Copilot карту вашего проекта

Хорошо поддерживаемый пользовательский файл инструкций, например файл или AGENTS.md``.github/copilot-instructions.md , даёт агентам структурный обзор вашего репозитория, чтобы им не приходилось читать большое количество файлов только для ориентации. См . раздел AUTOTITLE.

Приносите только те инструменты, которые вам нужны

Большие наборы инструментов (например, полноценный набор инструментов на сервере MCP) дополняют контекст при каждом запросе. Там, где это подходит вашему рабочему процессу, включайте только наборы инструментов, относящихся к задаче.

См . раздел AUTOTITLE.

4. Сохранить кэш

Кэширование позволяет модели ИИ хранить части контекста разговора, чтобы их не нужно было перерабатывать при каждом запросе. В агентном кодировании, где один и тот же большой контекст — системный запрос, содержимое файла, определения инструментов — передаётся многократно на протяжении многих ходов, кэширование оказывает влияние: кэшированная часть предыдущего ответа используется повторно, а не перерабатывается, а кэшированные токены обычно оцениваются в 10% от обычной входной цены. См . раздел AUTOTITLE.

Однако следующие действия делают кэш недействительным, из-за чего весь контекст будет повторно отправлен и выставлен как свежие входные токены:

Меняю модель во время сессии. Другая модель не может повторно использовать кэш другой модели, поэтому следующий запрос перестраивает его с нуля. Выберите модель (или используй Выбор автомодели Copilot) и придерживайтесь её сессии.
Возвращаясь к старой сессии. Кэши истекают после периода бездействия (24 часа для моделей OpenAI и 1 час для большинства других). Если вы долго отсутствовали, начните новую сессию или проведите /compact (в Второй пилот CLI), чтобы заново было краткое резюме, а не полная история.
Изменение рассуждений во время сессии. Изменение уровня рассуждения, размера контекста или набора включённых инструментов и MCP-серверов во время сессии аннулирует кэш. Настройте эти настройки перед началом и оставьте их без изменений на сессию.

5. Установите AI credit лимит сессий

Ограничение сессии AI credit ограничивает объём работы Copilot , выполняемой за одну сессию.

В Второй пилот CLI и Второй пилот SDK, вы можете установить лимит сессии перед началом задачи, и когда лимит достигнут, агент чисто останавливается, уведомляет вас и позволяет выбрать, продолжать или повышать лимит.

AI credit Лимиты сессий наиболее полезны, когда:

Вы хотите ограничить AI credits использование одной сессией, чтобы избежать неожиданных затрат.
Эффективность тюнинга и вы хотите найти минимум AI credits , который всё равно даст хороший результат.

Лимиты сессий — это мягкие лимиты, которые помогают контролировать, сколько AI credits потребляет отдельная задача, но они не заменяют бюджеты пользователей или лимиты расходов, которые определяют ваше общее ежемесячное потребление. Для таких элементов управления см. Бюджеты для выставления счетов на основе использования.

Для информации о том, как установить лимит сессии в Второй пилот CLI, см. Установка лимита AI credit сессии в интерфейс командной строки GitHub Copilot.

6. Исследовать, планировать, а затем внедрять

Одним из самых больших изменений в эффективной работе с агентами стало отказ от выполнения всего за одну сессию. Когда исследования, планирование и реализация происходят одновременно, контекст быстро растёт, и накапливается нерелевантная информация.

Разбейте работу на чёткие этапы:

Исследования: Используйте агент для изучения кодовой базы, выявления релевантных файлов и понимания зависимостей.
План: Создайте подробный, структурированный план или спецификацию перед внесением изменений. Именно здесь модели рассуждения наиболее ценны — всегда планируйте с помощью сильной модели рассуждения, а затем реализуйте работу с более дешёвой моделью.
- В Второй пилот CLI, используйте /plan.
- В Копилот ЧатVisual Studio Code, выберите «Планировать» из выпадающего меню агента или введите plan в окно контекста.
Реализация: Реализуйте в соответствии с планом, используя сфокусированный контекст и модель, подходящую для реализации.

Начало новой сессии между фазами предотвращает перенос ненужного контекста, что может увеличить использование токена и снизить ясность для агента. Каждая фаза должна работать только с необходимостью. Для получения рекомендаций по эффективному определению обхвата сессий см. AUTOTITLE.

7. Используйте полученные знания, чтобы быть более эффективным на каждом шагу

Использование `/chronicle` для генерации инсайтов

В Второй пилот CLI, /chronicle может получить полезные инсайты из истории вашей сессии.

Используйте /chronicle tips для анализа вашей недавней истории сессий и возможностей для более эффективного использования Copilot .
Используйте /chronicle cost-tips это, чтобы понять ваши модели использования токенов и получить информацию о том, как снизить затраты.

См . раздел AUTOTITLE.

Вводите инсайты в файл `copilot-instructions.md`

copilot-instructions.md Файл на уровне репозитория — самый прямой способ закодировать рекомендации, специфичные для вашего репозитория. Индивидуальные и организационные инструкции могут наложиться поверх более широкой согласованности.

Когда /chronicle появляется повторяющийся шаблон — чрезмерное использование инструмента, подсказка, которую постоянно неправильно читают — закодуйте это наблюдение напрямую в вашем copilot-instructions.md файле. Это превращает одноразовое понимание в постоянное руководство, которое применяется на каждой следующей сессии, без необходимости повторять его.

Дополнительные сведения см. в разделе Добавление пользовательских инструкций репозитория для GitHub Copilot.

Держите `copilot-instructions.md` файл конкретным и приземлённым

Постоянные инструкции улучшают согласованность между взаимодействиями агентов, но их ценность полностью зависит от того, как они написаны. Лучшие инструкции короткие, конкретные и основанные на реальном наблюдаемом поведении агента — а не на стандартных лучших практиках, которые звучат хорошо, но не применимы к вашей системе.

Что включить:

Необходимые фреймворки, библиотеки или шаблоны проектирования
Известные подводные камни, которые агент склонен повторять
Ожидания вывода, такие как «быть лаконичным» или «только возвращать код»
Командные конвенции, которым должен следовать агент
Команды сборки, тестирования и волона

Чего следует избегать:

Длинная, общая документация
Руководство, генерируемое ИИ, которое не отражает вашу реальную систему
Разовые предпочтения или редко используемые детали
Перегруженные инструкции, делающие контекст шумным

Следите за обновлением инструкций по мере развития вашей кодовой базы, архитектуры, стандартов и рабочих процессов. Поскольку эти инструкции включены в контекст агента при каждом запуске, даже небольшие улучшения могут снизить количество повторяющихся ошибок и уменьшить потерю использования токенов со временем.

8. Добавить детерминированные ограждение

Агенты не детерминированы и не всегда верны, особенно в многоступенчатых рабочих процессах. Без ограничений мелкие ошибки могут быстро накапливаться: агенты строят на неправильных выходах, отдаляются от цели и делают отладку более дорогой и трудоёмкой.

Детерминированные органы управления вводят чёткие сигналы прохода/отказа:

Юнит-тесты подтверждают, что изменения агента привели к ожидаемому поведению.
Линтеры обеспечивают структуру и последовательность, предотвращая проблемы с форматированием, смещение стиля и избежаемую очистку.
Сканирование безопасности выявляет рискованные закономерности на ранних этапах, до того, как их становится сложнее распустить.

Вместе эти органы управления создают плотную обратную связь: агент вносит изменения, тестирует, делает правило или скан оценивает их, и агент корректирует перед тем, как двигаться дальше. Это предотвращает длинные цепочки неправильных изменений, которые являются одним из главных причин потери токенов.

Команды, инвестирующие в эти ограничения, получают меньше повторных решений, более быстрое выполнение задач и более предсказуемое поведение агентов. Они часто снижают общее потребление токенов, даже если отдельные шаги требуют немного больше токенов заранее.

Дальнейшие действия

Контролируйте и управляйте своими расходами, чтобы максимально эффективно использовать ваши AI credits:

Используйте панель управления и управление бюджетом. Страница «Использование ИИ» https://github.com/settings/billingпод разделом разбивает расход по каждой функции и модели, чтобы вы могли видеть, куда именно идут ваши кредиты, и корректировать соответственно. См . раздел AUTOTITLE.
Перейдите на более высокий лимит. Если вы регулярно приближаетесь к своему месячному лимиту, более высокий тариф может быть экономичнее, чем оплата дополнительного расхода, так как более высокие планы имеют больше AI credit лимита. См. раздел [AUTOTITLE и О индивидуальных планах и преимуществах GitHub Copilot](/copilot/how-tos/manage-your-account/view-and-change-your-copilot-plan).

Оптимизация использования ИИ для максимизации эффективности и снижения затрат

В этой статье