Битва синтетичних гігантів – чи можна довіряти тестам продуктивності

18 Тра, 2013

Світ можна умовно розділити на тих, хто вірить у всілякі прикмети, і тих, хто їх заперечує. Як мені здається, прикмети виникли у відповідь на бажання людини отримати точку відліку. Пробігла чорна кішка, перетнула ваш шлях, і значить, чекай біди. Це знак і попередження. У сучасному світі компанії, що виробляють різні товари, намагаються створити свої прикмети і крапки відліку, прив’язати до себе користувачів.

Не так важливо, хто першим почав грати в цю гру, ми стикаємося з наслідками цього щодня і часто мислимо стереотипами. У минулих «Бирюльки» я порушив тему того, що мегапікселі аж ніяк не означають уміння фотографувати, а кінські сили під капотом спортивної машини не показують водійської майстерності того, хто керує цим авто. На жаль, ці банальні думки у багатьох наших читачів викликали не просто відторгнення, а стійке неприйняття. І цьому є цілком буденне пояснення – багато років вони живуть у світі, де панують прикмети, і для них це точка відліку, яку вони прийняли самостійно.

Спробувавши зруйнувати точку відліку, я мимоволі замахнувся на всі їхні світобудову. Яке вони вважають вірним і правильним. Тому дозволю собі знову торкнутися цієї теми, але з іншого кінця – чи важливі тести продуктивності смартфонів і що вони показують.

Не секрет, що багато молодих людей, прикупивши собі новий смартфон, тут же запускають тест продуктивності, щоб подивитися, наскільки їхні модель відрізняється від інших. Ще до появи смартфонів в ту ж гру обожнювали грати користувачі комп’ютерів, мене теж не минула ця забава. Наприклад, в Windows навіть з’явився індекс продуктивності, який оцінював, наскільки комп’ютер хороший для роботи з цією ОС. Ті ж самі віртуальні папуги, які, як правило, позбавлені будь-якого сенсу і спрямування. У часи смартфонів кількість програм, які оцінюють продуктивність кожного з рішень, стало ще більшим, кожен знайде собі бенчмарк за смаком. Але от тільки сенсу в них, як такого, немає, правда, пояснити це середньостатистичному молодій людині вкрай складно. Його цікавить тільки одне питання – мій телефон крутіше, ніж у мого сусіда, чи ні?

Щоб розібратися в суті, давайте спробуємо відповісти на запитання, що роблять все бенчмарки. Вони вимірюють продуктивність процесора, пам’яті, інших підсистем на типових завданнях. Залежно від уміння творців тесту ці завдання можуть бути наближені до реального життя або нескінченно від неї далекі. Але перше, з чим ми стикаємося, це організація сучасних операційних систем, яка видає несистемним додаткам свою персональну пісочницю і набір ресурсів, обмежуючи можливості таких програм. Будь-який сучасний тест на Android вже укладений у свою пісочницю і не отримує всього доступу до ОС. Втім, це і не потрібно, якщо ми оцінюємо те, як можуть працювати сторонні програми, і не будемо говорити, що це має якесь відношення до системи в цілому. Безумовно, якусь кореляцію між тим, як працюють програми в пісочниці, з тим, як працює вся система в цілому, можна провести, але вона аж ніяк не лінійна. Більше того, чим більше програмних надбудов зробив виробник, тим сильніше змінюється продуктивність ОС, а також сторонніх програм, і ніякої синтетичний тест не дозволяє оцінити цю різницю. Її можна представити на око, і тільки.

Іншим обмеженням стає той факт, що більшість тестів просто не враховують вміння заліза. Хочете доказів? Спробуйте запустити на Tegra3 іграшку, призначену для цієї платформи, потім спробуйте зробити те ж саме на іншій платформі. У вас не вийде пограти в цю гру, але ви зможете знайти її аналог, з іншою якістю деталізації і можливостей. Як мені здається, для кінцевого користувача тут стане визначальним чинником не кількість папуг, яке може показати та чи інша платформа, а принципова можливість запустити гру з тим чи іншим якістю. Якщо слідувати логіці, то продуктивність Tegra3 в синтетичних тестах повинна бути максимальною, і через це ігри на ній запускаються, а на інших платформах немає. На жаль, це помилкове судження. Грає роль те, як оптимізовані ігри для конкретної платформи, і те, хто цим займався (NVIDIA вкладає величезні зусилля в оптимізацію ігор для своїх чіпсетів, це її пріоритет).

Тест

Чи означає програш Tegra3 на HTC One X в синтетичному тесті Quadrant Standard того ж Galaxy S3 від Samsung, що це рішення гірше? При тому ж обсязі оперативної пам’яті, а також меншій частоті процесора в Galaxy S3. Боюся, що моя відповідь буде непопулярний – ці результати не означають рівно нічого. Вони говорять про те, що в конкретному тесті, на конкретних синтетичних завданнях один пристрій поступається іншому. Але як це впливає на реальний досвід користувачів? Завантажується чи це пристрій довше? Можливо, що камера запускається не так швидко або знімки зберігаються цілі століття? Запитання можна множити, але відповіді в синтетичних тестах ми не знайдемо. Вони просто не призначені для цього, це синтетичне вимір цілком віртуальних параметрів, які не говорять, по більшій мірі, ні про що. Сучасний смартфон складається з безлічі компонентів, вплив кожного з них на загальну продуктивність велике. Але це тільки частина правди. Інша частина в тому, що просто вимір в синтетичному тесті не дозволяє судити про що-небудь, дуже важлива трактування цих вимірів, того, що ви порівнюєте, а головне, навіщо.

Залишимо на час осторонь синтетичні тести. Питання на загальну кмітливість і кмітливість. Ви справляєте якийсь продукт, є лідером ринку. На вас з усіх боків нападають конкуренти, деякі з них амбітні і створюють дуже непогані конкуруючі рішення. Щоб довести свою перевагу, ви випускаєте синтетичний тест, який в папуг показує перевагу ваших продуктів і зовсім не враховує особливості реалізації продуктів конкурентів. Чи можна вважати такий тест чесним і справедливим? На мій погляд, це позбавлено сенсу, незважаючи на те, що компанія спочатку могла вважати свої наміри чесними і відкритими і не переслідувати будь-які приховані цілі.

Відносність будь-якого синтетичного тесту повинна бути зрозуміла будь-якому, хто запускає його. Це віртуальні папуги, які можуть описувати тільки відносні зміни на одній і тій же системі. Наприклад, продуктивність рішення до і після оновлення прошивки. Або продуктивність з включеним режимом енергозбереження і без нього. Але це не універсальний засіб для порівняння різних апаратів і систем. Почнемо з того, що тестів, які могли б однаково успішно порівняти iPhone, iPad, Android, WP7 (7.5) та інші ОС, просто не існує. Сама природа синтетичних тестів така, що вони не можуть працювати однаково успішно на різних платформах. Винятком стають тести продуктивності браузерів, для них універсальна оцінка можлива в теорії. На практиці і тут виникає безліч підводних каменів (від розміру екрану мобільного пристрою до оптимізації виробниками).

Виходить, що тести не потрібні? З одного боку, все так, і вони не дають універсальної відповіді, який апарат краще, а який гірше. Вони дають додаткову інформацію, яку можна і потрібно трактувати, щоб зрозуміти відмінності апаратів. Але судити про продуктивність пристрою тільки на підставі тесту не можна. Наприклад, якщо вірити синтетичним тестах, то HTC One X з S4 Qualcomm дуже непоганий, але застосування інших тестів дає зовсім інший результат. І кому вірити?

Дивіться, на першій картинці – Tegra3 і максимальна деталізація, на другий – S4 Qualcomm і менша кількість деталей. Продуктивність в грі при цьому однакова. І хто краще?

Гра

Гра

Основний висновок варто робити з ігор та їх якості – а аж ніяк не по віртуальних папугам. Хоча для когось, крім ігор, це може бути продуктивність в звичайних офісних додатках, те, що не вимірюється сьогодні ніким у світі смартфонів. На жаль, довіряти просто числах в бенчмарках не можна, вони занадто відносні. Сподіваюся, що після цієї невеликої замітки ви завжди будете думати, а що значать ті чи інші числа, а головне, про що вони говорять. Наскільки якісні тести і що вони можуть вам розповісти. Чомусь всі користувачі за замовчуванням вважають, що тести написані геніями і враховують всі можливості сучасного заліза. На жаль, це не так.

З тієї ж опери

6 Коментарів

  1. arakul
    Травень 19, 2013

    Мені здається, що немає необхідності порівнювати таких гігантів)) Одна група людей просто довіряє стало, на протязі довгого часу одній марці, інша іншій… таким чином тестуй продукцію , не тестуй, якщо людина мала айфон 4 , і хоче міняти його то ясно що вона опиратиметься на свій лосвід і візьме айфон 5 з високою вірогідністю)) Тестуй не тестуй, а імя кожного з брендів говорить саом за себе!!!

  2. vitamin
    Травень 20, 2013

    Накосячили с 3й тегрой, народ и производитель не простит!!!
    Когда 3я тегра вышла говорили “Супер инопланетные разработки, мощнось over9000 быстрее тегры 2″ на деле не у всех HD видео воспроизводит….

  3. Zig
    Травень 27, 2013

    Я думаю что все производители классные . Ихний продукт имеет большой спрос. У меня на компютере nvidia и я очень доволен. а телефон galaxy тоже доволен

  4. Самуил
    Червень 03, 2013

    Результаты тестов в чём-то схожи на результаты социологических исследований в Украине – результат вроде бы на лицо, но верить в его объективность как-то не хочется – лучше, на мой взгляд, живая практика !

  5. roger
    Червень 12, 2013

    Тут то и спорить не очем,достойная вещь,розработчикам спасибо.

  6. Porox
    Червень 19, 2013

    Полностью согласен с высказыванием Самуила, пока лично на практике не провериш каждый из девайсов говорить о привосходстве какого либо из них не стоит. Качество графики это не главное достоинство, важнее качество железок самого девайса.

Прокоментувати