В этой статье описывается, как прозрачность работы сети, которую предоставляет NETSCOUT, помогает Forte Data Solutions быстро разрешать вопросы повышения времени отклика веб-приложений для сбора статистики.
С помощью решения NETSCOUT Application Management, опубликованного в AWS Marketplace, компания Forte смогла получить полные данные о нагрузке приложения, времени отклика, ошибках и зависимостях, быстро идентифицировать коренную причину повышения времени отклика и исправить ее.
NETSCOUT, технологический партнер AWS уровня «advanced», помогает своим клиентам отслеживать и анализировать сетевой трафик для сбора данных, которые необходимы для определения коренной причины проблем с производительностью.
Forte Data Solutions предлагает экспертизу в области миграции баз данных и приложений и веб-приложения для генерирования статистический отчетов о продажах с фильтрацией по времени, продуктам и другим параметрам.
История вопроса
Когда клиенты Forte начали испытывать проблемы со своими веб-приложениями для сбора статистики, это стало большим вызовом для ИТ-команд: вопрос надо было решить очень быстро, пока он не повлиял на конечный результат и не снизил качество предоставляемых этими компаниями услуг.
Пользователи заявили, что на сохранение работы потребовалось несколько секунд. Это привело к задержке отчетов от нескольких миллисекунд до нескольких секунд, что имело каскадное воздействие на другие приложения, которые зависели от этих отчетов.
В конечном счете, более 50 процентов отчетов клиентов были сильно задержаны, что вызвало неудовольствие пользователей и, соответственно, привело к потере доходов компании Forte и ущербу репутации ее бренда.
Автомасштабирование регулярно превышает лимиты
Статистическое веб-приложение Forte работает на двух веб-серверах, использующих Elastic Load Balancing (ELB), который работает как балансировщик сетевой нагрузки, так и балансировщик загрузки приложений. По мере роста нагрузки на сервер, клиенты ощутили снижение производительности при выполнении запросов, а также нестабильность, периодические зависание приложения и таймауты при создании отчетов.
Поскольку общая нагрузка приложения постоянно росла, данные, хранящиеся в базе данных Oracle и запущенные на многоузловом кластере RAC, установленном на RHEL экземплярах Amazon Elastic Compute Cloud (Amazon EC2), были помещены в группу Auto Scaling Group (Автомасштабирование).
Это позволило легко удовлетворять пики активности за счет автоматического масштабирования новых узлов RAC после превышения пороговых значений использования процессора и оперативной памяти. Группа автоматического масштабирования была настроена как минимум для двух узлов и как максимум для шести.
Рисунок 1 ниже иллюстрирует архитектуру доставки услуг в Forte:
- Amazon Route 53 направляет пользователей к уровню отчетности веб-приложений Forte, который отвечает за подготовку статистических данных, таких как отчеты о продажах за заданные периоды времени.
- Сервер уровня отчётности запрашивает уровень базы данных, состоящий из Oracle RAC, который извлекает и сохраняет данные в соответствии с требованиями уровня хранилища с поддержкой AWS NFS.
- NETSCOUT vSTREAM (не показан на этой диаграмме) отслеживает трафик между каждым уровнем, анализирует его в режиме реального времени и преобразует его в метаданные контекста предоставления сервиса. Эти метаданные используются NETSCOUT для предоставления информации о производительности приложений Forte.
- ELB обеспечивает гибкость доступа к узлам RAC прозрачно с помощью кругового правила. Это помогает организовать соединение между узлами RAC и приложением.
- ELB использует TCP-порт 1521, и перенаправление трафика происходит в случае масштабирования или если какой-либо из RAC-узлов перестает отвечать.
Рисунок 1. Архитектура Forte Data Solutions
Администраторы Forte, отвечающие за AWS, заметили регулярный запуск автомасштабирования, при котором происходило увеличение и уменьшение активных RAC-узлов сверх установленного лимита. Даже дополнительные экземпляры Amazon EC2 постоянно запускались и останавливались, что вызывало частую отправку уведомлений Amazon Cloud Watch.
Кроме того, резервное копирование баз данных задерживалось, В некоторых случаях было неудачным из-за проблем с производительностью базы данных.
Команда ИТ-специалистов Forte попыталась решить эти проблемы, протестировав веб-уровни и скорректировав некоторые параметры Apache, но проблема так и не была решена.
Для решения проблемы масштабирования они внесли несколько изменений, таких как использование новых типов экземпляров Amazon EC2 с большим объемом памяти и вычислительной мощностью процессора. Администраторы базы данных изменили настройки базы данных в соответствии с измененными параметрами Amazon EC2, и эти усилия привели к сокращению количества экземпляров, масштабируемых в процессе работы.
К сожалению, эти изменения не уменьшили частоту запуска и отмены автомасштабирования.
Как NETSCOUT помогла решить проблему
Forte обратилась в компанию NETSCOUT с просьбой помочь решить проблемы, связанные с замедлением работы инфраструктуры и приложений, нестабильностью и периодическими зависаниями, которые негативно влияют на критически важные для бизнеса функции.
NETSCOUT совместно с Forte внедрила решение NETSCOUT Application Management из AWS Marketplace в соответствующей AWS инфраструктуре. Оно включало в себя агентов vSTREAM с виртуальным nGeniusONE, а мониторинг был сконфигурирован для анализа сетей на портах приложений Apache, Oracle и Java.
Рабочие процессы, отображаемые на панели инструментов nGeniusONE, позволили получить представление о базе данных, сети и приложениях, а также их зависимостях.
Рисунок 2. Панель инструментов NETSCOUT nGeniusONE
Мониторинг баз данных выявил свидетельства постоянного масштабирования, в то время как веб-мониторинг выявил постоянные задержки на обоих веб-серверах, тем самым исключив RAC-кластер из списка возможных коренных причин.
Анализ сессий приложений показал многочисленные ошибки, связанные с Java и встроенным SQL. Ошибки Java, извлеченные из пакетов, указывали на проблемы, связанные с версиями, которые начали возникать после последних обновлений Java.
Рисунок 3. Панель инструментов nGeniusONEс разрешением в 5 минут предоставляет подробные данные
Вооруженная этими знаниями, команда ИТ-специалистов Forte смогла вернуться к предыдущей версии Java. Это было сделано с помощью предыдущего снапшота Amazon EC2. Конфигурация и библиотеки Java были успешно восстановлены и возвращены к предыдущей версии на обеих машинах Amazon EC2.
После применения этого исправления ошибки исчезли, и автомасштабирование RAC вернулось к нормальному пороговому использованию двух машин.
Польза для клиента
Решение NETSCOUT для мониторинга позволило компании Forte решать проблемы, связанные с замедлением, нестабильностью, периодическими зависаниями и тайм-аутами, которые причиняли неудобства заказчикам. Теперь их ИТ-команда имеет возможность проактивно контролировать и устранять неполадки в работе приложений в среде AWS.
Рабочие процессы панели инструментов nGeniusONE позволяют ИТ-командам быстро идентифицировать коренную причину проблем, таким образом сокращая среднее время ожидания (MTTK) более чем на 70 процентов и приводя к быстрому решению во время создания отчетов.
Используя решение NETSCOUT, компания Forte достигла ощутимых результатов, в том числе:
- Сократила время ожидания на веб-уровне с секунд до миллисекунд.
- Прекратила ненужное масштабирование узла, обусловленного рабочей нагрузкой, на уровне базы данных, которое происходило каждые 5-7 минут.
- Устранила сотни избыточных ежедневных уведомлений CloudWatch.
Заключение
Эта статья показывает, как прозрачность, предоставляемая NETSCOUT, помогла Forte Data Solutions повысить производительность услуг и улучшить пользовательский опыт для статистических веб-приложений.
Проблемы, с которыми столкнулась компания Forte, включали высокую задержку на веб-уровне, непрерывное масштабирование узлов с превышением установленного предела на уровне базы данных, а также частые уведомления CloudWatch. Традиционные подходы к решению этих проблем, такие как настройка некоторых параметров Apache, использование новых типов экземпляров Amazon EC2 и настройка параметров базы данных, не принесли желаемых результатов.
Используя NETSCOUT Application Management Solution, Forte получила полные данные о нагрузке, задержке, ошибках и зависимостях, а также эффективно определила коренную причину, которая была вызвана ошибками Java и встроенными ошибками, связанными с SQL.
Преимущества для Forte заключались в снижении времени ожидания на веб-уровне с секунд до миллисекунд, остановку ненужного масштабирования узла на основе рабочей нагрузки на уровне базы данных, а также устранение избыточных уведомлений CloudWatch.
Дистрибьютором продуктов и решений NETSCOUT в России является компания Web Control. Чтобы узнать больше о решениях для обеспечения прозрачности работы сети, отправьте сообщение по адресу info@web-control.ru или посетите веб-страницу http://web-control.ru/netscout.