MFLOPS: Definisi, Sejarah, dan Peran Vital dalam Komputasi Modern

Pendahuluan: Memahami Kekuatan Operasi Titik Mengambang

Dalam dunia komputasi, kinerja sering kali diukur dengan metrik yang kompleks, dan salah satu yang paling fundamental sekaligus historis adalah FLOP, atau Floating-point Operations (Operasi Titik Mengambang). FLOP adalah satuan dasar untuk mengukur kemampuan sistem dalam melakukan perhitungan matematika yang melibatkan angka-angka non-integer, seperti bilangan desimal yang sangat besar atau sangat kecil. Operasi jenis ini, yang sangat penting dalam simulasi ilmiah, grafis 3D, dan pemodelan kompleks, membutuhkan presisi tinggi.

MFLOPS, yang merupakan singkatan dari Mega Floating-point Operations Per Second, mewakili kemampuan sebuah sistem untuk mengeksekusi satu juta operasi titik mengambang setiap detiknya. Meskipun pada era superkomputer modern kita telah bergerak ke skala GIGA (GFLOPS), TERA (TFLOPS), dan bahkan PETA (PFLOPS), pemahaman mendalam tentang MFLOPS tetap krusial. MFLOPS adalah fondasi historis yang memungkinkan kita memahami evolusi eksponensial dalam daya komputasi selama beberapa dekade terakhir. Metrik ini bukan sekadar angka; ia adalah cerminan langsung dari arsitektur perangkat keras, efisiensi perangkat lunak, dan batasan fisika semikonduktor.

Evolusi dari MFLOPS menuju skala yang lebih besar mencerminkan Hukum Moore, namun juga menyoroti perubahan radikal dalam desain prosesor, khususnya transisi dari pemrosesan skalar tunggal ke pemrosesan vektor, paralelisme masif, dan, yang paling signifikan, munculnya unit pemrosesan grafis (GPU) sebagai mesin perhitungan umum. MFLOPS, dalam konteks sejarahnya, adalah tonggak ukur yang dipakai ketika komputer super pertama mulai mendominasi lanskap penelitian ilmiah. Keberhasilan mencapai rentang MFLOPS menandai transisi dari perhitungan diskret sederhana menuju pemodelan realitas yang kompleks dan kontinu.

Definisi Teknis dan Latar Belakang Sejarah MFLOPS

Apa Sebenarnya Operasi Titik Mengambang (FLOP)?

Floating-point merujuk pada representasi bilangan real dalam sistem biner. Berbeda dengan integer (bilangan bulat), bilangan titik mengambang memiliki mantissa (nilai signifikan) dan eksponen, memungkinkan komputer untuk merepresentasikan rentang angka yang jauh lebih luas dengan presisi yang dapat disesuaikan. Operasi FLOP melibatkan operasi aritmatika dasar (penjumlahan, pengurangan, perkalian, pembagian) pada bilangan-bilangan yang diformat sesuai standar IEEE 754.

Pentingnya standar IEEE 754 tidak bisa dilebih-lebihkan. Standar ini memastikan bahwa perhitungan titik mengambang menghasilkan hasil yang konsisten di berbagai platform perangkat keras. Tanpa standardisasi, simulasi ilmiah yang kompleks akan menghasilkan hasil yang berbeda pada setiap mesin. Kinerja MFLOPS diukur berdasarkan operasi yang sesuai dengan presisi tunggal (32-bit) atau presisi ganda (64-bit). Umumnya, presisi ganda digunakan dalam penelitian ilmiah dan teknik, karena menawarkan akurasi yang jauh lebih tinggi, meskipun membutuhkan daya komputasi yang lebih besar, dan akibatnya, MFLOPS yang lebih rendah untuk perangkat keras yang sama.

MFLOPS, sebagai metrik, mulai menjadi populer pada tahun 1970-an dan awal 1980-an, era di mana komputer vektor dan superkomputer pertama, seperti seri Cray, mulai dikembangkan. Sebelum MFLOPS, kinerja sering diukur dalam MIPS (Million Instructions Per Second). Namun, MIPS adalah metrik yang ambigu karena instruksi berbeda memiliki kompleksitas yang sangat bervariasi. MFLOPS menawarkan ukuran kinerja yang lebih terstandarisasi untuk beban kerja yang intensif matematika.

Era Komputer Super dan MFLOPS

Pada dekade 1970-an, mencapai MFLOPS adalah pencapaian monumental. Komputer seperti Cray-1, yang diluncurkan pada tahun 1976, mampu mencapai kinerja puncak sekitar 160 MFLOPS. Mesin-mesin ini dirancang secara khusus untuk komputasi ilmiah dan pertahanan. Keberhasilan mesin ini tidak hanya terletak pada kecepatan clock, tetapi pada arsitektur vektor mereka. Arsitektur vektor memungkinkan satu instruksi untuk memproses banyak data secara bersamaan (misalnya, menambahkan ribuan elemen array sekaligus), sebuah teknik yang menjadi prasyarat untuk kinerja MFLOPS tinggi.

Perlombaan mencapai MFLOPS yang lebih tinggi menjadi pendorong utama inovasi perangkat keras. Para insinyur berfokus pada teknik seperti pipelining instruksi, di mana operasi dibagi menjadi beberapa tahap yang dapat dijalankan secara bersamaan. Pipelining ini memastikan bahwa unit aritmatika dan logika (ALU) selalu sibuk, memaksimalkan penggunaan sumber daya siklus CPU dan secara langsung meningkatkan MFLOPS yang terukur. Tanpa pipelining yang efisien, prosesor akan menghabiskan waktu tunggu yang signifikan, mengurangi kinerja MFLOPS secara drastis.

Pengukuran MFLOPS pada era ini juga mulai menyoroti perbedaan antara kinerja puncak (peak MFLOPS) dan kinerja berkelanjutan (sustained MFLOPS). Kinerja puncak adalah angka teoritis maksimum yang dapat dicapai prosesor jika semua unit pemrosesan titik mengambang beroperasi sempurna pada setiap siklus. Kinerja berkelanjutan, diukur melalui benchmark seperti Linpack, mencerminkan kinerja yang dapat dicapai dalam tugas dunia nyata yang melibatkan akses memori dan I/O. Hampir selalu, kinerja berkelanjutan jauh lebih rendah daripada kinerja puncak, sebuah fakta yang relevan hingga hari ini.

Diagram skema yang menunjukkan evolusi kinerja komputasi dari MFLOPS ke GFLOPS dan TFLOPS.

Anatomi Aritmatika Titik Mengambang dan Presisi

Memahami MFLOPS memerlukan apresiasi terhadap kerumitan perhitungan titik mengambang itu sendiri. Berbeda dengan penambahan integer sederhana, operasi floating-point melibatkan penyesuaian eksponen (penjajaran), penambahan atau pengurangan mantissa, normalisasi hasilnya, dan pembulatan. Setiap langkah ini membutuhkan beberapa siklus jam, menjadikannya instruksi yang relatif mahal.

Presisi Tunggal vs. Presisi Ganda

Dalam konteks MFLOPS, perbedaan antara presisi tunggal (Single Precision, FP32) dan presisi ganda (Double Precision, FP64) sangat penting. FP32 menggunakan 32 bit untuk merepresentasikan angka, menawarkan rentang yang baik dan kecepatan pemrosesan yang tinggi. Banyak aplikasi grafis dan pelatihan model kecerdasan buatan awal menggunakan FP32. Kinerja MFLOPS pada FP32 biasanya jauh lebih tinggi daripada FP64 pada perangkat keras yang sama, karena lebih sedikit data yang harus dipindahkan dan diproses.

Sebaliknya, FP64 menggunakan 64 bit, yang menawarkan akurasi signifikan, krusial untuk simulasi di mana kesalahan pembulatan kecil dapat terakumulasi menjadi kesalahan besar (misalnya, dalam pemodelan iklim jangka panjang atau fisika partikel). Jika sebuah prosesor memiliki kemampuan MFLOPS tertentu, kemampuan MFLOPS FP64-nya mungkin hanya setengah, atau bahkan seperempat, dari kemampuan FP32-nya, karena kompleksitas dan kebutuhan sumber daya dari perhitungan 64-bit yang lebih besar.

Peningkatan MFLOPS sering kali didorong oleh desain unit pemrosesan khusus, dikenal sebagai FPU (Floating-Point Unit). FPU modern dirancang untuk melakukan beberapa operasi titik mengambang dalam satu siklus jam, sering kali melalui teknik yang disebut Fused Multiply-Add (FMA). FMA menggabungkan perkalian dan penjumlahan menjadi satu instruksi, yang secara efektif menggandakan jumlah FLOP yang dapat dieksekusi per siklus. Misalnya, sebuah prosesor yang dapat melakukan satu operasi FMA per siklus secara teknis memberikan dua FLOP per siklus (satu perkalian dan satu penjumlahan), sehingga secara langsung menggandakan nilai MFLOPS puncaknya.

Kerumitan arsitektur ini juga terkait erat dengan sistem memori. Kinerja MFLOPS yang tinggi menjadi sia-sia jika FPU harus terus-menerus menunggu data dari memori utama, sebuah fenomena yang dikenal sebagai "memory bound." Bahkan pada era MFLOPS, para perancang superkomputer harus memasukkan sistem cache yang sangat cepat dan hierarki memori yang canggih untuk memastikan bahwa data selalu tersedia saat FPU siap untuk dioperasikan, memungkinkan mesin untuk mencapai kinerja MFLOPS berkelanjutan yang mendekati puncaknya.

Keterbatasan Non-Linearitas MFLOPS

Salah satu tantangan dalam menggunakan MFLOPS sebagai metrik universal adalah sifat non-linearitasnya terhadap kinerja dunia nyata. Dua prosesor dengan MFLOPS puncak yang sama mungkin berperilaku sangat berbeda tergantung pada bagaimana mereka menangani operasi non-floating-point, seperti cabang kondisional atau akses memori. Program yang memiliki rasio tinggi antara operasi floating-point dan operasi non-floating-point (misalnya, pemrosesan sinyal digital) akan mendapatkan manfaat langsung dari MFLOPS yang tinggi. Namun, program yang berat pada akses basis data atau I/O akan melihat MFLOPS puncak yang rendah, karena waktu dihabiskan untuk menunggu data, bukan melakukan perhitungan.

Meskipun demikian, MFLOPS menyediakan dasar komparatif yang kuat, terutama dalam komunitas komputasi berkinerja tinggi (HPC). Komputer yang bersaing dalam simulasi fluida, peramalan cuaca, atau desain obat farmasi sangat mengandalkan kemampuan MFLOPS mesin mereka. Pada dasarnya, MFLOPS mengukur "otot" perhitungan murni sebuah sistem, terlepas dari seberapa baik sistem tersebut berinteraksi dengan dunia luar atau sistem operasi.

Evolusi Skala: Dari Mega ke Exa

MFLOPS adalah langkah awal dalam perlombaan kecepatan komputasi. Seiring berjalannya waktu dan teknologi semikonduktor semakin maju, metrik ini cepat diungguli. Era komputer pribadi (PC) pada tahun 1980-an dan 1990-an mendorong kinerja dari MFLOPS ke GFLOPS. Prosesor seperti Intel Pentium mulai menembus batas GFLOPS (Giga FLOPS, satu miliar operasi per detik) di akhir 90-an dan awal 2000-an.

Transisi ke Skala yang Lebih Tinggi

GFLOPS (GigaFLOPS): 10⁹ FLOPS. Skala kinerja yang dicapai oleh CPU kelas atas dan GPU mainstream di awal milenium.
TFLOPS (TeraFLOPS): 10¹² FLOPS (Satu triliun operasi per detik). Menjadi standar untuk konsol game modern dan superkomputer kecil.
PFLOPS (PetaFLOPS): 10¹⁵ FLOPS. Skala yang dicapai oleh superkomputer besar (Top500) di akhir 2000-an.
EFLOPS (ExaFLOPS): 10¹⁸ FLOPS. Target utama komputasi super saat ini, dicapai oleh sistem seperti Frontier.

Meskipun GFLOPS, TFLOPS, PFLOPS, dan EFLOPS adalah kelipatan eksponensial dari MFLOPS, mereka semua mewarisi konsep pengukuran inti yang sama. Perubahan skala ini sebagian besar didorong oleh dua faktor utama: kepadatan transistor yang meningkat (Hukum Moore) dan peningkatan paralelisme, terutama melalui penggunaan GPU.

MFLOPS, GFLOPS, dan TFLOPS sering kali dibandingkan tanpa melihat konteksnya. Penting untuk dicatat bahwa ketika membandingkan kinerja, kita harus selalu membandingkan jenis presisi yang sama. Sebuah sistem yang menghasilkan 10 TFLOPS FP32 mungkin hanya menghasilkan 5 TFLOPS FP64. Untuk aplikasi HPC yang sangat sensitif terhadap presisi, MFLOPS FP64 adalah standar pengukuran yang paling ketat dan penting, bahkan jika angka mentahnya lebih rendah.

Peran Paralelisme Massif

Lonjakan dari MFLOPS ke PFLOPS tidak akan mungkin terjadi hanya dengan meningkatkan kecepatan clock CPU tunggal. Kuncinya adalah paralelisme masif. Unit pemrosesan grafis (GPU), yang awalnya dirancang untuk perhitungan grafis (yang sangat bersifat paralel, memproses jutaan piksel secara bersamaan), ternyata sangat efektif untuk perhitungan titik mengambang umum.

GPU modern mengandung ribuan inti pemrosesan, yang masing-masing mungkin hanya memiliki kemampuan MFLOPS individu yang sederhana, tetapi jika digabungkan, mereka dapat mencapai TFLOPS dan PFLOPS. Dalam skenario ini, MFLOPS menjadi ukuran kinerja inti individual (atau 'core MFLOPS'), yang kemudian dikalikan dengan ribuan inti untuk mendapatkan kinerja agregat superkomputer. Struktur ini menunjukkan pergeseran paradigma: dari fokus pada kecepatan instruksi sekuensial (seperti yang diukur oleh MIPS atau MFLOPS awal) menjadi fokus pada lebar pita paralelisme (seperti yang diukur oleh PFLOPS/EFLOPS).

Namun, transisi ini juga menimbulkan tantangan baru yang tidak terlalu mengganggu pada era MFLOPS. Ketika sistem mencapai skala PFLOPS, masalah komunikasi antar node, bandwidth interkoneksi, dan latensi memori mulai mendominasi. Kinerja MFLOPS yang teoritis bisa terhambat secara signifikan oleh kecepatan jaringan data yang menghubungkan ribuan prosesor tersebut. Dalam konteks EFLOPS, ini berarti bahwa MFLOPS yang diukur pada satu node adalah bagian kecil dari masalah; masalah besarnya adalah seberapa cepat node-node tersebut dapat berbagi data perhitungan titik mengambang mereka satu sama lain.

Metrik yang Lebih Spesifik: FLOPS/Watt

Dengan meningkatnya kebutuhan daya, metrik MFLOPS murni telah dilengkapi dengan metrik efisiensi: FLOPS per Watt. Di era MFLOPS, konsumsi daya adalah perhatian sekunder. Namun, ketika komputer mencapai PFLOPS dan EFLOPS, kebutuhan daya menjadi batasan fisik dan ekonomi yang dominan. Sebuah sistem EFLOPS dapat mengonsumsi daya setara kota kecil. Oleh karena itu, kemampuan untuk menghasilkan MFLOPS, GFLOPS, atau TFLOPS sebanyak mungkin per unit energi yang dikonsumsi (FLOPS/Watt) telah menjadi fokus utama dalam desain chip modern, khususnya di pusat data dan superkomputer.

Prosesor modern sering kali mengurangi kecepatan clock (yang mengurangi MFLOPS puncak) demi meningkatkan efisiensi FLOPS/Watt, memastikan bahwa perhitungan titik mengambang dilakukan dengan cara yang paling ramah lingkungan dan ekonomis.

Aplikasi dan Relevansi MFLOPS dalam Komputasi Modern

Meskipun MFLOPS sering diabaikan dalam laporan berita yang fokus pada TFLOPS, hampir semua aplikasi yang membutuhkan perhitungan intensif berbasis FLOPS. Mulai dari simulasi fisik hingga kecerdasan buatan, kinerja titik mengambang adalah pondasi fundamental.

Kecerdasan Buatan dan Pembelajaran Mesin

Kecerdasan Buatan (AI) modern, terutama pembelajaran mendalam (deep learning), adalah mesin yang haus akan FLOPS. Pelatihan model besar (seperti GPT atau model pengenalan gambar) melibatkan jutaan, bahkan miliaran, operasi perkalian matriks secara berulang. Setiap operasi matriks adalah kompilasi dari banyak operasi floating-point.

Meskipun model pelatihan sering kali menuntut TFLOPS atau PFLOPS secara keseluruhan, eksekusi (inferensi) model tersebut di perangkat edge (ponsel, perangkat IoT) sering kali beroperasi pada tingkat MFLOPS atau GFLOPS rendah. Kebutuhan untuk melakukan inferensi yang cepat dan akurat di perangkat kecil mendorong inovasi dalam chip khusus (seperti Neural Processing Units atau Tensor Cores), yang dirancang untuk mengoptimalkan operasi titik mengambang pada presisi yang lebih rendah, seperti FP16 atau bahkan BFLOAT16, untuk mendapatkan MFLOPS yang lebih efisien dalam penggunaan daya.

Grafika Komputer dan Rendering Real-Time

Dunia grafika 3D, termasuk video game dan animasi profesional, sepenuhnya bergantung pada FLOPS. Penghitungan posisi cahaya, bayangan, refleksi, dan tekstur untuk setiap piksel di layar melibatkan operasi floating-point intensif. GPU pada awalnya adalah mesin MFLOPS yang sangat cepat yang disalurkan untuk tugas rendering. Kemampuan GPU modern untuk mencapai TFLOPS merupakan akumulasi dari ribuan inti kecil yang masing-masing melakukan MFLOPS dengan kecepatan tinggi.

Setiap shader unit dalam GPU melakukan operasi floating-point (transformasi vektor, perkalian matriks) pada kecepatan MFLOPS. Total MFLOPS dari semua inti yang bekerja bersama menentukan seberapa realistis dan seberapa cepat lingkungan 3D dapat dirender. Kualitas grafis yang kita nikmati saat ini adalah hasil langsung dari peningkatan MFLOPS yang berkelanjutan dalam unit komputasi grafis.

Simulasi Ilmiah dan Teknik

Bidang seperti dinamika fluida komputasi (CFD), pemodelan cuaca, dan simulasi ledakan nuklir (sejarahnya) adalah konsumen utama MFLOPS (dan sekarang PFLOPS) FP64. Model-model ini memecah realitas fisik menjadi grid diskret dan kemudian menghitung status setiap titik di grid tersebut seiring waktu. Setiap iterasi melibatkan jutaan perhitungan titik mengambang. Kebutuhan presisi absolut dalam ilmu-ilmu ini memastikan bahwa MFLOPS FP64 tetap menjadi standar emas. Bahkan jika kinerja puncak mencapai PFLOPS, kemampuan MFLOPS FP64 yang stabil dan terpercaya sangat penting untuk validitas ilmiah.

Misalnya, dalam peramalan cuaca, peningkatan MFLOPS memungkinkan para ilmuwan untuk menggunakan grid yang lebih halus (resolusi yang lebih tinggi) atau menjalankan model untuk periode waktu yang lebih lama. Peningkatan kecil dalam MFLOPS agregat dapat berarti perbedaan antara ramalan yang berguna dan yang tidak akurat, karena model harus mengatasi akumulasi kesalahan pembulatan.

Metodologi Pengukuran Kinerja MFLOPS

Mengukur MFLOPS secara akurat bukanlah tugas yang mudah. Nilai yang diiklankan oleh produsen perangkat keras sering kali merupakan MFLOPS puncak teoritis. Untuk mendapatkan kinerja MFLOPS yang realistis, diperlukan benchmark standar yang mencerminkan beban kerja praktis.

Benchmark Linpack

Linpack adalah benchmark yang paling terkenal dan paling banyak digunakan untuk mengukur kinerja FLOPS dalam komputasi berkinerja tinggi. Linpack pada dasarnya menyelesaikan sistem persamaan linier padat (matriks). Tugas ini sangat intensif FLOPS dan sangat terstruktur, sehingga cocok untuk arsitektur vektor dan paralel.

Linpack menghasilkan dua nilai kunci: R_peak dan R_max.

R_peak (MFLOPS Puncak Teoritis): Ini adalah nilai MFLOPS yang dihitung berdasarkan spesifikasi perangkat keras (kecepatan clock, jumlah inti, dan kemampuan FLOPS per siklus). Ini adalah batas atas teoretis.
R_max (MFLOPS Maksimal Berkelanjutan): Ini adalah nilai MFLOPS yang sebenarnya dicapai saat menjalankan benchmark Linpack. R_max selalu lebih rendah dari R_peak karena R_max dipengaruhi oleh batasan memori, latensi komunikasi, dan overhead sistem operasi.

Perbedaan antara R_peak dan R_max menunjukkan efisiensi arsitektur dan compiler. Mesin dengan desain yang sangat baik akan memiliki "efisiensi Linpack" yang tinggi, mendekati 90% dari R_peak. Pada masa MFLOPS awal, mencapai 50% efisiensi sudah dianggap sangat baik, mengingat tantangan dalam menyinkronkan unit pemrosesan vektor.

Peran Compiler dan Optimasi Perangkat Lunak

MFLOPS yang terukur sangat bergantung pada kualitas compiler dan optimasi perangkat lunak. Compiler modern harus mampu menganalisis kode sumber dan mengubahnya menjadi instruksi yang memaksimalkan penggunaan FPU, memanfaatkan pipelining, dan menggunakan instruksi vektor khusus (seperti SSE, AVX, atau NEON). Jika compiler gagal mengoptimalkan loop perhitungan, banyak potensi MFLOPS akan terbuang karena FPU yang menganggur.

Selain itu, untuk sistem multi-prosesor yang luas (yang mencapai MFLOPS agregat melalui ribuan CPU), perangkat lunak harus menggunakan model pemrograman paralel yang efisien, seperti MPI (Message Passing Interface) atau OpenMP. Overhead komunikasi antara prosesor dapat secara drastis mengurangi MFLOPS berkelanjutan yang diamati, meskipun setiap prosesor individu mempertahankan MFLOPS puncaknya.

Pengujian MFLOPS juga menunjukkan pentingnya lokalitas data. Ketika data yang dibutuhkan FPU berada di cache L1 atau L2, operasinya berjalan sangat cepat. Namun, jika data harus diambil dari memori utama (DRAM), latensi tinggi akan mengurangi MFLOPS yang terukur secara signifikan. Ini memperkuat gagasan bahwa MFLOPS bukan hanya tentang kecepatan ALU, tetapi tentang keseimbangan antara kecepatan ALU dan kecepatan seluruh hierarki memori.

Faktor-faktor yang Membatasi MFLOPS

Pengejaran kinerja MFLOPS/FLOPS selalu dihadapkan pada kendala fisik dan arsitektural yang mencegah mesin mencapai R_peak teoritisnya. Memahami batasan ini penting untuk desain komputasi berkinerja tinggi.

Bottleneck Memori (Memory Wall)

Masalah paling signifikan yang membatasi MFLOPS adalah batasan memori, yang dikenal sebagai 'Memory Wall'. Unit pemrosesan dapat melakukan MFLOPS pada kecepatan yang luar biasa, tetapi jika bandwidth (kecepatan transfer data) dari memori utama tidak dapat mengimbangi, FPU akan menghabiskan sebagian besar waktunya menunggu data. Rasio antara bandwidth memori dan kemampuan FLOPS (dikenal sebagai Arithmetic Intensity) adalah indikator kritis kinerja sistem.

Untuk mengatasi kendala ini, desainer telah mengintegrasikan cache yang lebih besar dan lebih cepat serta arsitektur memori canggih seperti HBM (High Bandwidth Memory), yang meningkatkan bandwidth memori secara signifikan. Meskipun demikian, untuk algoritma yang memproses set data yang sangat besar dan tidak muat dalam cache (algoritma yang 'memory bound'), MFLOPS yang dicapai akan jauh dari kinerja puncak teoritis.

Panas dan Daya

Hukum fisika menyatakan bahwa setiap perhitungan, termasuk operasi titik mengambang, menghasilkan panas. MFLOPS yang tinggi berarti banyak transistor yang beralih status dengan cepat, yang menyebabkan disipasi daya tinggi. Batasan termal ini memaksa prosesor untuk membatasi kecepatan clock mereka (thermal throttling) atau membatasi jumlah inti yang dapat beroperasi pada MFLOPS penuh secara bersamaan.

Pada skala EFLOPS, sistem pendingin menjadi komponen desain yang lebih kompleks dan mahal daripada unit komputasi itu sendiri. Kebutuhan untuk mengelola panas membatasi seberapa banyak MFLOPS puncak yang dapat dipertahankan secara berkelanjutan oleh sebuah sistem. Ini menjadikan FLOPS/Watt sebagai metrik yang lebih praktis daripada MFLOPS puncak dalam desain skala besar.

Keterbatasan Interkoneksi (Skala Paralel)

Ketika MFLOPS diperoleh dengan menggabungkan ribuan unit pemrosesan (di klaster HPC), kecepatan pertukaran data antar unit (interkoneksi) menjadi kritis. Jika komunikasi terlalu lambat, inti harus berhenti menghitung FLOPS dan menunggu pesan dari inti lain. Ini menciptakan latensi komunikasi yang menggerus efisiensi MFLOPS agregat. Teknologi seperti InfiniBand dan Ethernet berkecepatan tinggi dirancang untuk mengurangi hambatan interkoneksi ini, tetapi mereka tetap menjadi batasan signifikan pada skala komputasi masif, yang jauh melampaui era MFLOPS tunggal.

Masa Depan Kinerja Perhitungan Titik Mengambang

Meskipun kita telah melampaui MFLOPS ke skala ExaFLOPS, perjalanan evolusi perhitungan presisi masih terus berlanjut. Masa depan komputasi berkinerja tinggi berfokus pada dua area utama: transisi ke komputasi non-tradisional dan penggunaan presisi yang lebih adaptif.

Komputasi Presisi Rendah dan AI

Di bidang kecerdasan buatan, telah terjadi pergeseran dari FP64 dan FP32 ke presisi yang sangat rendah, seperti FP16 (setengah presisi), BFLOAT16, dan bahkan integer 8-bit. Meskipun ini mengurangi akurasi sedikit, banyak model AI dapat dilatih dan dijalankan dengan data presisi rendah tanpa kehilangan kualitas yang berarti. Manfaatnya adalah dramatis: chip dapat melakukan lebih banyak operasi (FLOPS) dalam satu siklus dan menggunakan lebih sedikit memori dan daya. Dengan demikian, meskipun angka MFLOPS FP64 dapat stagnan, angka MFLOPS atau GFLOPS pada presisi rendah dapat terus melonjak, khususnya dalam aplikasi AI.

Ini menciptakan bifurkasi dalam definisi kinerja FLOPS. Komunitas ilmiah dan simulasi akan terus menuntut MFLOPS FP64 yang stabil dan andal. Sementara itu, industri AI akan mendorong batas MFLOPS FP16/INT8. Perangkat keras modern, seperti Tensor Cores NVIDIA, dirancang untuk secara cerdas beralih antar mode presisi ini, memberikan MFLOPS yang disesuaikan dengan kebutuhan aplikasi.

Komputasi Kuatum dan MFLOPS

Komputasi kuantum menawarkan potensi revolusioner. Komputer kuantum tidak secara langsung diukur dalam MFLOPS karena mereka tidak melakukan operasi titik mengambang klasik. Kinerja mereka diukur dalam Qubits dan waktu koherensi. Namun, komputer kuantum memerlukan komputer klasik (yang diukur dalam MFLOPS/GFLOPS) untuk mengontrol dan membaca hasilnya. Selain itu, banyak algoritma kuantum, ketika disimulasikan pada komputer super klasik, masih sangat bergantung pada MFLOPS FP64 untuk memproses matriks densitas yang besar dan kompleks.

Meskipun komputasi kuantum mungkin menggantikan FLOPS untuk beberapa masalah (seperti faktorisasi), ia tidak akan menghilangkan kebutuhan akan MFLOPS di masa depan. Sebaliknya, ia akan meningkatkan permintaan akan MFLOPS, karena hasil dari perhitungan kuantum yang sangat spesifik kemudian harus diintegrasikan dan diproses oleh algoritma klasik dalam skala besar.

Peran Edge Computing

Di perangkat edge (misalnya, mobil otonom, drone, dan ponsel), ketersediaan daya sangat terbatas, tetapi kebutuhan untuk perhitungan titik mengambang (seperti pengenalan objek visual) sangat tinggi. Di sinilah MFLOPS, dalam konteks efisiensi daya, kembali menjadi metrik yang paling relevan. Desainer chip harus memastikan bahwa unit pemrosesan spesialis di perangkat edge dapat mempertahankan MFLOPS yang memadai (misalnya, ratusan MFLOPS) sambil mengonsumsi daya dalam rentang milliwatt. MFLOPS/Watt di perangkat edge adalah medan pertempuran inovasi saat ini.

Secara keseluruhan, MFLOPS mungkin telah pensiun sebagai metrik utama untuk mengukur superkomputer tercepat di dunia. Namun, sebagai konsep dasar pengukuran perhitungan presisi, ia tetap tak tergantikan. Evolusi dari MFLOPS tunggal menjadi agregat TFLOPS dan PFLOPS adalah kisah yang mendefinisikan kemajuan teknologi, yang memungkinkan kita beralih dari pemodelan cuaca sederhana hingga penciptaan dunia virtual yang kompleks dan kecerdasan buatan yang transformatif.

Kisah MFLOPS adalah kisah tentang mengatasi batasan fisik. Dimulai sebagai ukuran ambisius untuk mesin mainframe, ia kini menjadi satuan dasar yang tanpa henti membentuk setiap aspek teknologi yang kita gunakan. Setiap pengembang yang mengoptimalkan kode untuk GPU, setiap ilmuwan yang menjalankan simulasi iklim, dan setiap insinyur yang merancang chip ponsel pintar, semuanya, pada akhirnya, sedang berjuang untuk memaksimalkan jumlah Floating-point Operations Per Second—MFLOPS, GFLOPS, atau EFLOPS—yang dapat mereka peroleh dari perangkat keras mereka.

Transisi dramatis dari MFLOPS yang membutuhkan ruang satu ruangan penuh pada tahun 70-an, menjadi MFLOPS yang dapat dicapai oleh mikroprosesor sekecil ujung jari saat ini, adalah bukti nyata dari kekuatan inovasi semikonduktor. Meskipun metrik GFLOPS atau TFLOPS lebih sering disebut, MFLOPS tetap merupakan batu penjuru dari seluruh hirarki pengukuran kinerja komputasi. Tanpa kemampuan inti untuk menghitung jutaan operasi titik mengambang per detik, tidak mungkin ada perhitungan triliunan atau kuadriliun operasi per detik yang mendefinisikan era Exascale saat ini.

Dalam konteks HPC modern, MFLOPS sering dipecah lebih lanjut menjadi sub-kategori yang sangat spesifik, tergantung pada jenis operasi yang dilakukan. Misalnya, MFLOPS untuk operasi penambahan mungkin berbeda dari MFLOPS untuk operasi perkalian, meskipun FMA (Fused Multiply-Add) telah mengaburkan garis ini. Pembuat chip kini merancang unit aritmatika dengan asumsi bahwa algoritma modern akan memiliki rasio perkalian-penjumlahan yang tinggi, sebuah asumsi yang memaksimalkan MFLOPS gabungan, namun mungkin kurang efisien untuk aplikasi yang hanya membutuhkan penambahan atau pembagian.

Pengaruh MFLOPS bahkan merambah ke sistem embedded dan mikrokontroler. Dalam aplikasi industri real-time, seperti kontrol robotika atau sistem navigasi, mikroprosesor yang digunakan harus memiliki MFLOPS yang dijamin dan rendah latensi. Meskipun angkanya mungkin hanya puluhan MFLOPS, keandalan dan konsistensi dari MFLOPS tersebut sangat penting untuk operasi yang aman dan tepat waktu. Kegagalan untuk mempertahankan MFLOPS minimum yang diperlukan dapat menyebabkan kegagalan sistem kritis. Ini menunjukkan bahwa MFLOPS tetap relevan di semua skala, dari yang terkecil hingga yang terbesar.

Dalam sejarah komputasi, MFLOPS berfungsi sebagai barometer utama. Ketika para perancang komputer super era 80-an mengejar peningkatan MFLOPS, mereka secara tidak langsung meletakkan dasar bagi infrastruktur komputasi paralel dan memori yang diperlukan untuk mendukung sistem TFLOPS yang muncul 20 tahun kemudian. Setiap peningkatan arsitektur untuk meraih MFLOPS yang lebih tinggi, seperti penambahan register vektor, perluasan jalur data, atau peningkatan kedalaman pipelining, merupakan pelajaran yang diaplikasikan berulang kali dalam skala yang lebih besar.

Akhirnya, MFLOPS menyoroti tantangan yang berkelanjutan dalam komputasi: mengukur kinerja yang sebenarnya. Karena MFLOPS teoritis (R_peak) hampir selalu lebih tinggi daripada MFLOPS yang dapat dipertahankan (R_max), perbedaan ini menjadi area fokus bagi penelitian perangkat lunak. Tujuan dari setiap compiler, setiap pustaka matematika, dan setiap sistem operasi adalah untuk menjembatani jurang MFLOPS ini. Sejauh mana jurang itu dapat dipersempit, itulah sejauh mana potensi mentah MFLOPS diubah menjadi daya komputasi yang berguna bagi umat manusia.

Meskipun kita kini membicarakan tentang EFLOPS, ini hanyalah kelipatan dari konsep dasar MFLOPS. MFLOPS adalah akar, satuan dasar dari kecepatan, dan pemahaman mendalam tentang Mega Floating-point Operations Per Second adalah kunci untuk memahami bagaimana kita bisa mencapai kuantum kecepatan komputasi saat ini dan di masa depan. MFLOPS adalah warisan keunggulan arsitektural dan mesin penggerak inovasi yang terus berputar.