Главная / О компании / Новости / Идентификация и разрешение проблем с производительностью приложений в гибридных сетях с помощью NETSCOUT

Идентификация и разрешение проблем с производительностью приложений в гибридных сетях с помощью NETSCOUT

« Назад

Идентификация и разрешение проблем с производительностью приложений в гибридных сетях с помощью NETSCOUT  26.01.2021 15:15

В этой статье описывается, как прозрачность работы сети, которую предоставляет NETSCOUT, помогает Forte Data Solutions быстро разрешать вопросы повышения времени отклика веб-приложений для сбора статистики.

С помощью решения NETSCOUT Application Management, опубликованного в AWS Marketplace, компания Forte смогла получить полные данные о нагрузке приложения, времени отклика, ошибках и зависимостях, быстро идентифицировать коренную причину повышения времени отклика и исправить ее.  

NETSCOUT, технологический партнер AWS уровня «advanced», помогает своим клиентам отслеживать и анализировать сетевой трафик для сбора данных, которые необходимы для определения коренной причины проблем с производительностью.

Forte Data Solutions предлагает экспертизу в области миграции баз данных и приложений и веб-приложения для генерирования статистический отчетов о продажах с фильтрацией по времени, продуктам и другим параметрам.

История вопроса

Когда клиенты Forte начали испытывать проблемы со своими веб-приложениями для сбора статистики, это стало большим вызовом для ИТ-команд: вопрос надо было решить очень быстро, пока он не повлиял на конечный результат и не снизил качество предоставляемых этими компаниями услуг.  

Пользователи заявили, что на сохранение работы потребовалось несколько секунд. Это привело к задержке отчетов от нескольких миллисекунд до нескольких секунд, что имело каскадное воздействие на другие приложения, которые зависели от этих отчетов.

В конечном счете, более 50 процентов отчетов клиентов были сильно задержаны, что вызвало неудовольствие пользователей и, соответственно, привело к потере доходов компании Forte и ущербу репутации ее бренда.

Автомасштабирование регулярно превышает лимиты

Статистическое веб-приложение Forte работает на двух веб-серверах, использующих Elastic Load Balancing (ELB), который работает как балансировщик сетевой нагрузки, так и балансировщик загрузки приложений. По мере роста нагрузки на сервер, клиенты ощутили снижение производительности при выполнении запросов, а также нестабильность, периодические зависание приложения и таймауты при создании отчетов.

Поскольку общая нагрузка приложения постоянно росла, данные, хранящиеся в базе данных Oracle и запущенные на многоузловом кластере RAC, установленном на RHEL экземплярах Amazon Elastic Compute Cloud (Amazon EC2), были помещены в группу Auto Scaling Group (Автомасштабирование).

Это позволило легко удовлетворять пики активности за счет автоматического масштабирования новых узлов RAC после превышения пороговых значений использования процессора и оперативной памяти. Группа автоматического масштабирования была настроена как минимум для двух узлов и как максимум для шести.

Рисунок 1 ниже иллюстрирует архитектуру доставки услуг в Forte:

  • Amazon Route 53 направляет пользователей к уровню отчетности веб-приложений Forte, который отвечает за подготовку статистических данных, таких как отчеты о продажах за заданные периоды времени.
  • Сервер уровня отчётности запрашивает уровень базы данных, состоящий из Oracle RAC, который извлекает и сохраняет данные в соответствии с требованиями уровня хранилища с поддержкой AWS NFS.
  • NETSCOUT vSTREAM (не показан на этой диаграмме) отслеживает трафик между каждым уровнем, анализирует его в режиме реального времени и преобразует его в метаданные контекста предоставления сервиса. Эти метаданные используются NETSCOUT для предоставления информации о производительности приложений Forte.
  • ELB обеспечивает гибкость доступа к узлам RAC прозрачно с помощью кругового правила. Это помогает организовать соединение между узлами RAC и приложением.
  • ELB использует TCP-порт 1521, и перенаправление трафика происходит в случае масштабирования или если какой-либо из RAC-узлов перестает отвечать.

NETSCOUT-Hybrid-1

Рисунок 1. Архитектура Forte Data Solutions

Администраторы Forte, отвечающие за AWS, заметили регулярный запуск автомасштабирования, при котором происходило увеличение и уменьшение активных RAC-узлов сверх установленного лимита. Даже дополнительные экземпляры Amazon EC2 постоянно запускались и останавливались, что вызывало частую отправку уведомлений Amazon Cloud Watch.

Кроме того, резервное копирование баз данных задерживалось, В некоторых случаях было неудачным из-за проблем с производительностью базы данных.

Команда ИТ-специалистов Forte попыталась решить эти проблемы, протестировав веб-уровни и скорректировав некоторые параметры Apache, но проблема так и не была решена.

Для решения проблемы масштабирования они внесли несколько изменений, таких как использование новых типов экземпляров Amazon EC2 с большим объемом памяти и вычислительной мощностью процессора. Администраторы базы данных изменили настройки базы данных в соответствии с измененными параметрами Amazon EC2, и эти усилия привели к сокращению количества экземпляров, масштабируемых в процессе работы.

К сожалению, эти изменения не уменьшили частоту запуска и отмены автомасштабирования.  

Как NETSCOUT помогла решить проблему

Forte обратилась в компанию NETSCOUT с просьбой помочь решить проблемы, связанные с замедлением работы инфраструктуры и приложений, нестабильностью и периодическими зависаниями, которые негативно влияют на критически важные для бизнеса функции.

NETSCOUT совместно с Forte внедрила решение NETSCOUT Application Management из AWS Marketplace в соответствующей AWS инфраструктуре. Оно включало в себя агентов vSTREAM с виртуальным nGeniusONE, а мониторинг был сконфигурирован для анализа сетей на портах приложений Apache, Oracle и Java.

Рабочие процессы, отображаемые на панели инструментов nGeniusONE, позволили получить представление о базе данных, сети и приложениях, а также их зависимостях.

NETSCOUT-Hybrid-2

Рисунок 2. Панель инструментов NETSCOUT nGeniusONE

Мониторинг баз данных выявил свидетельства постоянного масштабирования, в то время как веб-мониторинг выявил постоянные задержки на обоих веб-серверах, тем самым исключив RAC-кластер из списка возможных коренных причин.

Анализ сессий приложений показал многочисленные ошибки, связанные с Java и встроенным SQL. Ошибки Java, извлеченные из пакетов, указывали на проблемы, связанные с версиями, которые начали возникать после последних обновлений Java.

NETSCOUT-Hybrid-3

Рисунок 3. Панель инструментов nGeniusONEс разрешением в 5 минут предоставляет подробные данные

Вооруженная этими знаниями, команда ИТ-специалистов Forte смогла вернуться к предыдущей версии Java. Это было сделано с помощью предыдущего снапшота Amazon EC2. Конфигурация и библиотеки Java были успешно восстановлены и возвращены к предыдущей версии на обеих машинах Amazon EC2.

После применения этого исправления ошибки исчезли, и автомасштабирование RAC вернулось к нормальному пороговому использованию двух машин.

Польза для клиента

Решение NETSCOUT для мониторинга позволило компании Forte решать проблемы, связанные с замедлением, нестабильностью, периодическими зависаниями и тайм-аутами, которые причиняли неудобства заказчикам. Теперь их ИТ-команда имеет возможность проактивно контролировать и устранять неполадки в работе приложений в среде AWS.

Рабочие процессы панели инструментов nGeniusONE позволяют ИТ-командам быстро идентифицировать коренную причину проблем, таким образом сокращая среднее время ожидания (MTTK) более чем на 70 процентов и приводя к быстрому решению во время создания отчетов.

Используя решение NETSCOUT, компания Forte достигла ощутимых результатов, в том числе:

- Сократила время ожидания на веб-уровне с секунд до миллисекунд.

- Прекратила ненужное масштабирование узла, обусловленного рабочей нагрузкой, на уровне базы данных, которое происходило каждые 5-7 минут.

- Устранила сотни избыточных ежедневных уведомлений CloudWatch.

Заключение

Эта статья показывает, как прозрачность, предоставляемая NETSCOUT, помогла Forte Data Solutions повысить производительность услуг и улучшить пользовательский опыт для статистических веб-приложений.

Проблемы, с которыми столкнулась компания Forte, включали высокую задержку на веб-уровне, непрерывное масштабирование узлов с превышением установленного предела на уровне базы данных, а также частые уведомления CloudWatch. Традиционные подходы к решению этих проблем, такие как настройка некоторых параметров Apache, использование новых типов экземпляров Amazon EC2 и настройка параметров базы данных, не принесли желаемых результатов.

Используя NETSCOUT Application Management Solution, Forte получила полные данные о нагрузке, задержке, ошибках и зависимостях, а также эффективно определила коренную причину, которая была вызвана ошибками Java и встроенными ошибками, связанными с SQL.

Преимущества для Forte заключались в снижении времени ожидания на веб-уровне с секунд до миллисекунд, остановку ненужного масштабирования узла на основе рабочей нагрузки на уровне базы данных, а также устранение избыточных уведомлений CloudWatch.

Дистрибьютором продуктов и решений NETSCOUT в России является компания Web Control. Чтобы узнать больше о решениях для обеспечения прозрачности работы сети, отправьте сообщение по адресу info@web-control.ru или посетите веб-страницу http://web-control.ru/netscout.

Источник ►