Как хранить неструктурированные данные и не разориться

1729

По прогнозу Gartner, к 2028 году 70% файловых и объектных данных будут размещены в сервисах управления хранилищами. Что это за класс систем и как перейти к нему с текущей инфраструктуры, рассказал Саян Доржиев, MBA, ex-Gartner, эксперт по управлению корпоративными технологиями.

Как хранить неструктурированные данные и не разориться Фото: из личного архива Саяна Доржиева

О других стратегиях хранения данных — в предыдущем материале эксперта, передает inbusiness.kz.

Мне написал сокурсник по MBA, который отвечает за технологии в крупной компании. Он увидел мое выступление на конференции во Франкфурте и попросил срочно увидеться.

Проблема: акционер требует кардинально срезать ИТ-косты и считает, что у них самые высокие затраты в отрасли. Мы посмотрели на цифры, сравнили с данными в базе знаний и выяснили, что расходы даже чуть ниже, чем в сопоставимых компаниях.

В чем же дело? Аналитикам Gartner часто приходится защищать айтишников и доказывать собственникам бизнеса и топ-менеджерам, что высокие ИТ-расходы не всегда вина ИТ-департамента. Часто это результат низкой корпоративной дисциплины самих управленцев при использовании технологий.

Мы всегда говорим, что не бывает ИТ-проектов: все проекты — это бизнес-проекты. Потому что и зарабатывает, и тратит деньги бизнес, даже если расходы фиксируются в ИТ-бюджете.

Эту истину должен исповедовать любой акционер или топ-менеджер, когда к нему приходит CIO с обоснованием ИТ-затрат. В 2026 году он будет просить бюджет на… данные, потому что прогнозируется экспоненциальный рост объема не очень удобного сорта данных — неструктурированных: электронных писем, документов, тикетов поддержки, изображений, видео, аудио.

Бизнес активно использует большие языковые модели, которые сейчас стали называть искусственным интеллектом. Маркетологи, продавцы, продакты, аналитики, кадровики — все так или иначе применяют ИИ. А это радикально меняет объем и вид данных, с которыми приходится иметь дело: наряду с традиционными базами данных возникают специфические категории.

Кроме того, сейчас повышены регуляторные и репутационные риски из-за недостаточного контроля за данными, а средняя стоимость одного инцидента, связанного с утечкой информации, в районе 5 миллионов долларов.

Чтобы ИИ-активность не выросла в проблему, которую потом будет трудно и дорого решать, потратьте немного времени и вникните в тему хранения данных сейчас. Это позволит вам вместе с CIO компетентно спланировать вложения в эту сферу.

Откуда берутся неструктурированные данные

Рост неструктурированных данных напрямую связан с ростом использования ИИ.

Для работы современных моделей компании генерируют и хранят:

  • Векторные эмбеддинги — математические представления информации, необходимые для поиска и работы нейросетей.
  • Контекстную (агентскую) память — данные о прошлых взаимодействиях и решениях ИИ-агентов, которые позволяют им выполнять сложные задачи на протяжении длительного времени.
  • Синтетические данные, созданные самим ИИ для обучения других моделей и тестирования систем в условиях дефицита реальной информации. 

Из-за растущих требований к безопасности и прозрачности компании обязаны отслеживать историю цифрового актива (digital provenance), чтобы понимать, создан контент человеком или ИИ. Также они формируют цепочку происхождения данных (lineage), которая теперь включает не только таблицы, но и конкретные фичи и эмбеддинги, на которых обучалась модель. 

Прогнозы сегодня делаются в реальном времени: вместо статических отчетов ИИ генерирует поток предиктивной аналитики, который встраивается в процесс принятия решений. А еще организации собирают поведенческие паттерны — детализированные данные о предпочтениях клиентов и сотрудников, полученные через глубокий анализ их действий ИИ-ассистентами. 

Храним неструктурированные данные правильно

Чтобы хранить такой объем данных, нужно сильно вложиться: либо построить свои центры обработки данных — а это не каждый может себе позволить, либо купить серверы и нанять дата-кудесников, либо купить еще больше места на серверах провайдера.

Какой из трех путей правильный? Никакой: данные валятся как из рога изобилия, с ростом на 30-50% в год. По прогнозу Gartner (имеется в распоряжении редакции), к 2028 году расходы на внешние системы хранения достигнут 36,3 миллиарда долларов. Постоянное наращивание емкости хранилищ без оптимизации просто вымывает деньги из организации.

Gartner рекомендует провести стратегическую трансформацию подхода к хранению. Не просто складывать все на полку, а анализировать и решать, что хранить, в зависимости от нужд бизнеса. Этот подход уже выработан рынком и получил название DSMS (data storage management service) — сервис управления хранилищами данных. Согласно прогнозу Gartner, к 2028 году объем внедрения DSMS вырастет более чем в два раза.

Такие сервисы обеспечивают сквозную видимость и контроль за жизненным циклом данных: теперь это предмет хранения со сроком годности.

Для DSMS неважно, храните вы все в одном месте или в гибридных и мультиоблачных средах. Они позволяют автоматизировать классификацию информации и интеллектуально распределять ее между разными классами хранения в зависимости от частоты использования. Также DSMS помогают соблюдать нормативные требования за счет встроенных механизмов управления политиками, обнаружения персональных данных и детального аудита.

Ключевая ценность заключается в переходе от бездумного наращивания мощностей к умному управлению данными. Такой подход превращает данные из источника затрат и рисков в защищенный стратегический актив, способный поддерживать новые бизнес-инициативы и аналитические процессы.

Как перейти к новому процессу

Проблема заключается не только в росте объемов данных, но и в изменении доли неструктурированных данных, а значит, усложнении инфраструктуры, которую должны обеспечивать айтишники. Сколько нужно отдельных массивов данных, файловых серверов, облачных хранилищ и edge-устройств? Где данные лежат сейчас и где должны быть завтра: в одном ЦОД, разных ЦОД или еще и в филиалах компании? Как обеспечивать доступ к ним?

Кроме того, данные должны быть доступны ИИ-приложениям из любого места, ведь люди могут работать из любой локации. И все больше данных создается на периферии: непосредственно в том месте, где они нужны, это сокращает количество трафика и, соответственно, косты. Возможности "облака" тоже непрерывно растут, а цены снижаются.

Требуются новые подходы к хранению, чтобы не только правильно организовать инфраструктуру для новых данных, но и оптимизировать работу со старыми и обеспечить их доступность. При этом хорошо бы не выйти за рамки бюджета.

Ответ — гибридное облачное хранилище, которое обеспечивает бесперебойную работу сервисов данных в различных средах: локальных и распределенных дата-центрах, на периферийных устройствах и публичных облачных платформах, а также расширяет возможности визуализации данных и аналитики. Например, Yandex Cloud предоставляет много инструментов визуализации и анализа данных в рамках сервиса Yandex DataLens. 

Айтишники ценят гибрид за то, что он позволяет быстро восстановиться после аварии, нарастить ресурсы для хранения, а потом так же быстро снизить емкости, сделать все то же самое при резко выросшей потребности в вычислениях, переместить данные, управлять ими из любой точки мира и стандартизировать системы хранения.

Выбираем решение

Чтобы максимально эффективно использовать гибридный подход, выберите один из трех путей: корпоративные файловые и объектные платформы, гибридные облачные сервисы для файловых данных или гибридные облачные файловые платформы.

Подход первый. Корпоративные файловые и объектные платформы

В отличие от традиционных систем хранения, корпоративные файловые и объектные платформы проектируются с возможностью интеграции с публичными облачными IaaS-продуктами. Как правило, корпоративные платформы характеризуются модульностью, программно-определяемой распределенной архитектурой и управлением через API.

Поставщики систем хранения для локальных ЦОД расширяют свои возможности для интеграции с несколькими публичными облачными IaaS-провайдерами. При этом некоторые локальные вендоры обладают лишь базовыми возможностями гибридного "облака", такими как резервное копирование в "облако".

Более продвинутые продукты обеспечивают полную интеграцию, позволяя всему программному стеку файловой системы или объектного хранилища работать локально, на периферии и в "облаке". Некоторые локальные файловые системы теперь также работают в публичном "облаке" в качестве полностью управляемых облачных (cloud-native) файловых сервисов или решений для гибридных и мультиоблачных сценариев использования.

Преимущества корпоративных файловых и объектных платформ:

  • Единый поставщик для хранения данных и гибридного облачного управления.
  • Минимальные изменения в операционной модели для работы с хранилищем в "облаке".
  • Использование проверенных локальных решений.

Как правило, такие платформы используются для резервного копирования и аварийного восстановления, временного увеличения емкости и стандартизации данных.

К ограничениям подхода можно отнести зависимость от проприетарных технологий локального поставщика, ограниченные возможности для гибридного "облака" (у некоторых поставщиков) и то, что подход плохо применим для разрозненных сред хранения.

Рекомендации по переходу:

  • Обратитесь к поставщику вашей системы хранения неструктурированных данных и оцените его существующие и планируемые возможности для гибридного облачного хранения.
  • Замените существующие файловые сервисы на корпоративные файловые и объектные платформы, которые обеспечат комплексную интеграцию с несколькими публичными облачными IaaS-сервисами для достижения желаемых бизнес-результатов.
  • Поймите разницу в производительности, стоимости и возможностях между облачными сервисами вашей корпоративной файлово-объектной платформы и ее локальными функциями.

Подход второй. Гибридные облачные сервисы для файловых данных

HCFD-сервисы (hybrid cloud file data) ориентированы на добавление гибридных облачных возможностей к вашим существующим решениям для хранения данных — как локальным, так и облачным. Это позволяет устранить пробелы в мобильности данных, глобальном доступе, переносимости или управлении жизненным циклом при множестве разнородных продуктов для работы с неструктурированными данными.

Преимущества гибридных облачных сервисов для файловых данных:

  • Независимость от платформы: поддержка множества локальных файловых систем и публичных облачных продуктов для хранения.
  • Широкий спектр гибридных облачных сервисов для данных, включая аналитику данных, управление, безопасность и оптимизацию затрат.
  • Высокий темп программных инноваций и расширения числа сервисов.

Подход используется для резервного копирования и аварийного восстановления, временного увеличения емкости и вычислительной мощности, а также глобального управления данными.

Следует учитывать, что некоторые продукты сфокусированы только на одном сценарии использования, в то время как другие предоставляют широкий спектр возможностей. Начинающие поставщики могут иметь ограниченный опыт работы в вашем регионе или отрасли. Кроме того, бывает трудно оправдать дополнительные затраты на гибридные облачные сервисы для данных без четких бизнес-требований и анализа ROI (окупаемости инвестиций).

Рекомендации по переходу:

  • Сформируйте бизнес-обоснование для гибридных облачных сервисов данных так, чтобы оно выходило за рамки сценариев резервного копирования или архивирования и включало оценку новых возможностей и результатов.
  • Выбирайте продукты, которые принесут измеримые преимущества в снижении затрат, рисков или повышении гибкости за счет использования инфраструктуры и платформенных сервисов публичного "облака". К примеру, на платформе Yandex Cloud собраны сервисы для управления разными базами данных.
  • Запрашивайте несколько рекомендаций от конечных пользователей и проводите оценку рисков при работе с новыми поставщиками.

Подход третий. Гибридные облачные файловые платформы

Такие платформы создаются на основе публичного облачного IaaS-сервиса как фундамента для всех файловых сервисов хранения. Эти решения, как правило, связывают публичное облачное хранилище с локальной инфраструктурой путем развертывания решений для кэширования на периферии, при этом постоянные данные централизованно хранятся в публичном облачном IaaS-сервисе. Некоторые решения сосредоточены на передаче и мобильности данных, в то время как другие развертываются в качестве гибридного облачного аналога локальных файловых систем.

Преимущества гибридных облачных файловых платформ:

  • Глобальный доступ к данным и единое пространство имен.
  • Масштабируемость"облака" и экономия на масштабе.
  • Не требуют полной замены оборудования.

Подход используется для временного увеличения емкости и вычислительной мощности, глобального управления данными и файлового сотрудничества, передачи данных, периферийных вычислений и стандартизации систем хранения.

Учитывайте, что возможны высокие затраты на исходящий облачный трафик, а доступность зависит от соглашений об уровне услуг (SLA) публичного облачного IaaS-сервиса. Также оцените, хватит ли производительности для рабочих нагрузок, чувствительных к задержкам.

Рекомендации по переходу:

  • Проведите всестороннее тестирование, чтобы подтвердить новые возможности и оценить производительность гибридного "облака".
  • Рассчитайте долгосрочную совокупную стоимость владения (TCO) для новых гибридных облачных платформ, чтобы обосновать масштабную миграцию файлов. А для миграции используйте специализированные сервисы, такие как Yandex Data Transfer.
  • Выбирайте поставщика, который предоставляет дополнительные сервисы, такие как аналитика данных, защита от кибератак, управление жизненным циклом, глобальный доступ.

Резюмируем:

1. Первый подход: покупаете умный "шкаф", который умеет работать с "облаком" и копирует в него данные для резервирования. При этом все храните на собственных серверах: покупка и обслуживание оборудования на вашей стороне.

2. Второй подход: покупаете сервис, который, как переводчик, помогает общаться разным частям вашей инфраструктуры. Он налаживает обмен данными между новыми и старыми приложениями, офисом и "облаком".

3. Третий подход: храните у себя только кеши, а все остальное — в "облаке". За сортировку, безопасность и сохранность ваших данных отвечает провайдер. Так вы не покупаете оборудование и не тратитесь на его поддержку.

Независимо от выбранного подхода к модернизации ищите более гибкие и перспективные сценарии приобретения и управления. Некоторые поставщики предлагают подписку, модель ценообразования по объему, а также хранилище как услугу (STaaS, Storage-as-a-Service), чтобы вместе с управлением жизненным циклом оборудования предоставить модель потребления, аналогичную публичному "облаку".

Организациям, которым не хватает специалистов по хранению данных, следует рассмотреть модель STaaS или DBaaS (Database-as-a-Service) как замену собственной локальной инфраструктуры хранения. Пример — управляемые базы данных от Yandex Cloud.

Какой бы путь вы ни выбрали, вам удастся сократить затраты или удержать их в рамках и обеспечить управляемость роста ресурсов и расходов. Кроме того, вы будете понимать, почему ИТ дорогой.

Кстати, моему другу удалось доказать, что большая часть неэффективных ИТ-расходов была связана не с ИТ, а с решениями членов правления и других топ-менеджеров. Акционер углубился в непривычную для себя тему — управляемость и прозрачность улучшились.

Если хотите так же — скорее анализируйте свою инфраструктуру и выбирайте путь к гибриду, а значит, к эффективному управлению данными, даже самыми неструктурированными.

Telegram
ПОДПИСЫВАЙТЕСЬ НА НАС В TELEGRAM Узнавайте о новостях первыми
Подписаться
Подпишитесь на наш Telegram канал! Узнавайте о новостях первыми
Подписаться