BIG DATA – DEFINISI, TEKNOLOGI DAN IMPLEMENTASINYA
Big Data yaitu sebuah istilah biasa yang merujuk pada teknologi dan teknik untuk memproses dan menelaah sekumpulan data yang memiliki jumlah yang betul-betul besar, bagus yang berkala , semi berkala dan tidak terpola . Ada banyak tantangan yang akan dihadapi saat berhubungan dengan big data, mulai dari bagaimana data diambil, disimpan, sampai situasi sulit keamanan data.
Meski Istilah big data telah kerap kali didengar dan dinyatakan, masih banyak diantara kita yang bertanya-tanya: Apa yang dimaksud dengan big data? Apa kegunaan big data? Apa saja teknologi big data? Kenapa big data diperlukan dalam bermacam bidang?
Apa Yang Dimaksud Dengan Big Data?
Tak ada definisi yang baku mengenai big data. Kabar garis besar big data ialah sekumpulan data yang memiliki jumlah yang sungguh-sungguh besar atau struktur yang kompleks sehingga teknologi pemrosesan data tradisional tak lagi dapat menanganinya dengan baik. Saat ini istilah big data juga acap kali dipakai untuk menyebut bidang ilmu atau teknologi yang terkait dengan pengolahan dan pemanfaatan data hal yang demikian.
Aspek yang paling penting dari big data sebenarnya bukan sekedar pada berapa besarnya data yang bisa disimpan dan diolah, akan tapi kegunaan atau skor tambah apa yang dapat diperoleh dari data hal yang demikian. Jika kita tak dapat mengekstrak poin tambah tersebut, maka data hanya akan menjadi sampah yang tak bermanfaat. Skor tambah ini bisa dipakai untuk pelbagai hal, seperti meningkatkan kelancaran operasional, akurasi penjualan, peningkatan kwalitas layanan, prediksi atau proyeksi pasar, dan lain sebagainya.
Dalam bidang informatika dikenal sebuah istilah “Garbage in Garbage out” atau usulan sampah akan menghasilkan keluaran sampah juga. Maksudnya adalah bila masukan yang kita berikan ke metode ialah input berkualitas rendah, maka kwalitas outputnya tentu akan rendah juga. Input yang dimaksud di sini yaitu data.
Untuk itu, memutuskan mutu input ataupun output dalam tiap tahap pengolahan data untuk mendapatkan keluaran akhir yang bermutu adalah sebuah kewajiban dalam implementasi big data.
Karakteristik Big Data
Karakteristik Big Data awam disebut dengan singkatan 4V, yakni:
Volume : mengacu pada ukuran data yang perlu diproses. Dikala ini satuan volume data di dunia sudah melampaui zettabyte (1021 byte), malah telah banyak perusahaan atau organisasi yang perlu mengolah data sampai ukuran petabytes perharinya. Volume data yang besar ini akan membutuhkan teknologi pemrosesan yang berbeda dari penyimpanan tradisional.
Velocity : yaitu kecepatan data yang diciptakan. Data yang dijadikan dengan kecepatan tinggi memerlukan teknik pemrosesan yang berbeda dari data transaksi lazim. Contoh data yang diciptakan dengan kecepatan tinggi ialah pesan Twitter dan data dari mesin ataupun sensor.
Variety : Big Data berasal dari beraneka sumber, dan jenisnya termasuk salah satu dari tiga klasifikasi berikut: data terstruktur , semi terpola , dan tidak terprogram . Variasi data yang bervariasi ini membutuhkan kemampuan pemrosesan dan algoritma khusus. Figur data dengan macam tinggi merupakan pemrosesan data sosial media yang terdiri dari teks, gambar, bunyi, ataupun video.
Veracity : merujuk pada kecermatan atau konsistensi data. Data dengan akurasi tinggi akan memberikan hasil analisis yang bermutu. Sebaliknya, data dengan ketepatan rendah mengandung banyak bias, noise dan abnormalitas. Data ini jika tak diolah dengan benar akan menciptakan keluaran yang kurang bermanfaat, bahkan dapat memberikan ilustrasi atau kesimpulan yang keliru. Veracity yaitu tantangan yang cukup berat dalam pengolahan Big Data.
Di samping 4V hal yang demikian, ada juga yang menambahkan satu lagi sehingga menjadi 5V, merupakan value. Value ini tak jarang didefinisikan sebagai potensi skor sosial atau ekonomi yang mungkin diwujudkan oleh data. Keempat karakteristik di atas (volume, velocity, variety dan veracity) perlu diolah dan ditelaah untuk dapat memberikan value atau manfaat bagi bisnis maupun kehidupan. Oleh sebab itu, karakteristik yang kelima ini terkait erat dengan kemampuan kita mengolah data untuk menciptakan output yang bermutu.
Apa Saja Teknologi Big Data?
Perkembangan teknologi big data tidak dapat dilepaskan dari teknologi atau konsep open source. Istilah Big Data terus bergaung seiring dengan pesatnya perkembangan teknologi open source yang mendorongnya. Banyak perusahaan besar mengkontribusikan teknologi big data yang mereka buat dan mereka gunakan ke kelompok sosial open source. Sistem inilah yang kemudian menjadi salah satu pendukung utama berkembangnya big data.
Ada banyak sekali teknologi open source yang populer dalam ekosistem big data, berikut ini beberapa di antaranya:
Apache Hadoop
Apache Hadoop ialah sebuah framework yang memungkinkan untuk melakukan penyimpanan dan pemrosesan data yang besar secara terdistribusi dalam klaster komputer menerapkan model pemrograman simpel. Hadoop terinspirasi dari teknologi yang dimiliki oleh Google seperti Google File System dan Google Map Reduce.
Hadoop menawarkan 3 hal utama yaitu:
1. Selain penyimpanan terdistribusi
Hadoop mempunyai sebuah file sistem yang dinamakan Hadoop Distributed File System atau lebih diketahui dengan HDFS. HDFS yakni cara penyimpanan file atau data terdistribusi dalam klaster Hadoop. HDFS terinspirasi dari Google File System.
2. Framework pemrosesan data secara searah dan terdistribusi
MapReduce ialah model pemrograman untuk melaksanakan pemrosesan data besar secara terdistribusi dalam klaster Hadoop. MapReduce bekerja dan mengolah data-data yang berada dalam HDFS.
3. Resource management terdistribusi
YARN ialah tools yang menangani resource manajemen dan penjadwalan proses dalam klaster Hadoop. YARN mulai diperkenalkan pada Hadoop 2.0. YARN memisahkan antara layer penyimpanan (HDFS) dan layer pemrosesan (MapReduce). Pada mulanya Hadoop hanya mensupport MapReduce sebagai satu-satunya framework komputasi paralel yang dapat berprofesi diatas klaster Hadoop. YARN memungkinkan banyak framework komputasi paralel lain, seperti Spark, Tez, Storm, dll, untuk bekerja diatas klaster Hadoop dan mengakses data-data dalam HDFS.
Apache Hive
Apache Hive merupakan sebuah framework SQL yang berjalan di atas Hadoop. Hive menunjang bahasa pemrograman SQL yang memudahkan untuk menjalankan query dan analisis data berukuran besar di atas Hadoop. Setelah Hadoop, Hive juga dapat diterapkan di atas sistem file terdistribusi lain seperti Amazon AWS3 dan Alluxio.
Dukungan Hive terhadap SQL ini sungguh-sungguh membantu portabilitas aplikasi berbasis SQL ke Hadoop, terutamanya sebagian besar aplikasi data warehouse yang membutuhkan metode penyimpanan ataupun komputasi yang besar.Pada awalnya Hive dikembangkan oleh Facebook untuk diaplikasikan sebagai cara data warehouse mereka. Kecuali didonasikan ke komunitas open source, Hive berkembang dengan cepat dan banyak diadopsi serta dikembangkan oleh perusahaan besar lainnya seperti Netflix dan Amazon.
Pada dasarnya Hive hanya sebuah layer untuk menerjemahkan perintah-instruksi SQL ke dalam framework komputasi terdistribusi. Hive dapat bekerja menerapkan beragam framework yang berjalan diatas Hadoop, seperti MapReduce, Tez maupun Spark.
Apache Spark
Apache Spark yaitu framework komputasi terdistribusi yang dibangun untuk pemrosesan big data dengan kecepatan tinggi.Apache spark memiliki algoritma yang berbeda dengan MapReduce, namun dapat berjalan diatas Hadoop via YARN. Spark menyediakan API dalam Scala, Java, Python, dan SQL, serta bisa diterapkan untuk melakukan pelbagai variasi pengerjaan secara efisien, termasuk pelaksanaan ETL, data streaming, machine learning, komputasi graph, dan SQL.Sesudah HDFS, Spark juga bisa dipakai di atas file system lain seperti Cassandra, Amazon AWS3, dan penyimpanan awan yang lain.Fitur utama Spark adalah komputasi cluster dalam ingatan. Bila memori ini dapat meningkatkan kecepatan pemrosesan aplikasi secara drastis. Untuk kasus tertentu, kecepatan pemrosesan Spark pun dapat mencapai 100 kali dibanding pemrosesan mengaplikasikan disk seperti MapReduce.Jika MapReduce lebih pantas dipakai untuk pemrosesan batch dengan dataset yang sungguh-sungguh besar, maka Spark sungguh-sungguh layak untuk pemrosesan iteratif dan live-streaming, sehingga Spark banyak dimanfaatkan untuk machine learning.Spark ialah salah satu sub project Hadoop yang dimaksimalkan pada tahun 2009 di AMPLab UC Berkeley. Selain tahun 2009, lebih dari 1200 developer sudah berkontribusi pada project Apache Spark.
Setelah 3 teknologi hal yang demikian, sebetulnya masih betul-betul banyak teknologi dan framework big data lainnya yang bersifat open source seperti HBase, Cassandra, Presto, Storm, Flink, NiFi, Sqoop, Flume, Kafka dan lain sebagainya.
Big Data Pipeline
Untuk dapat memberikan poin yang bermanfaat, data patut lewat beragam tingkatan pemrosesan terpenting dahulu. Mulai dari pencatatan/pembuatan, pengumpulan, penyimpanan, pengayaan, analisa dan pemrosesan lebih lanjut, hingga penyajian. Rangkaian progres data ini lazim disebut dengan Data Pipeline.
Info garis besar Big Data Pipeline bisa dibagi menjadi 3, merupakan :
- Data Engineering: tercakup di dalamnya data collection, ingestion, cleansing, transformation dan enrichment.
- Data Analytics / Machine Learning: mencakup feature engineering dan komputasi.
- Data Delivery: penyajian data, termasuk pengaplikasian model dalam aplikasi atau metode, visualisasi, dan lain sebagainya.
Big Data Analytics
Ketika ini jika kita berbincang-bincang mengenai big data, karenanya lazimnya yang dimaksud yakni big data analytics. Sistem ini cukup wajar, karena ketika sebuah proyek big data dimulai, tentu saja hasil akhir yang diharapkan yakni menerima insight yang berguna, yang bisa menolong pengambilan keputusan.
Data Analytics sendiri adalah serangkaian progres untuk menggali kabar atau insight dari kumpulan data. Analisa tersebut dapat berupa pola, korelasi, isu terhangat, dan lain sebagainya. Data analytics seringkali melibatkan teknik dan algoritma pengolahan data yang cukup kompleks seperti data mining ataupun perhitungan statistik.
Dalam Big Data Analytics, tingkat kesulitannya kian besar sebab data yang diproses diperoleh dari bermacam sumber dengan wujud dan tipe yang berbeda-beda, dan ukuran serta kecepatan yang besar pula. Oleh karena itu Big Data Analytics banyak menerapkan teknik dan algoritma yang lebih advance seperti predictive model dan machine learning untuk melihat trend, pola, korelasi dan insight lainnya.
Info umum big data analytics terbagi 4 kelompok ialah:
1. Descriptive Analytics
Analisa ini diterapkan untuk menjawab pertanyaan mengenai apa yang sedang terjadi. Hampir semua organisasi telah mengimplementasikan analitik ragam ini.
2. Diagnostic Analytics
Selain mengenal apa yang terjadi, biasanya pertanyaan selanjutnya adalah mengapa bisa terjadi. Saat ragam ini mengaplikasikan drill-down data untuk mencari alasan lebih mendalam mengenai apa yang sedang terjadi.
3. Predictive Analytics
prediktif memberikan prediksi mengenai apa yang akan terjadi berdasarkan data-data yang ada. Saat macam ini mengaplikasikan teknik dan algoritma machine learning dan artificial intelligence untuk menghasilkan figur prediksi menurut data-data historis.
4. Prescriptive Analytics
Memanfaatkan analisa deskriptif dan prediktif, analisis ragam ini memberikan insight untuk dapat mendapat hasil yang cocok dengan apa yang sudah diprediksikan.
Implementasi Big Data dalam Bisnis
Terpenting manusia dan persaingan bisnis di era yang semakin terbuka ketika ini mewujudkan pengambilan keputusan yang ideal ialah kunci untuk bertahan dalam bisnis. Data yakni salah satu penentu keberhasilan dalam pengambilan keputusan.
Customer Profiling
Pola dan profil pelanggan bisa dipelajari lewat data-data yang diwujudkan oleh pelanggan saat sedang berinteraksi dengan produk, baik secara lantas, melalui web maupun mengaplikasikan aplikasi. Ketika ini data profil pelanggan bisa diperluas lagi dengan menyertakan kabar geolokasi, malahan data-data sosial media yang mereka buat.
Sebut banyak data yang dikumpulkan, serta makin canggihnya pelaksanaan pengolahan data hal yang demikian, karenanya informasi yang jitu dan detil mengenai profil pelanggan bisa diperoleh. Produsen atau penyedia layanan dapat memberikan rekomendasi yang ideal terhadap pelanggan sehingga bisa meningkatkan penjualan ataupun loyalitas pelanggan.
Product Development
Membangun produk dari sebuah inspirasi yang pada akhirnya dapat diterima dengan baik oleh pasar yaitu sebuah tantangan. Big data bisa memberikan insight yang mendalam
untuk mengidentifikasikan keperluan pasar, mengamati reaksi pelanggan melewati komentar pada forum atau sosial media, menilai kinerja penjualan produk di pasar dengan kencang, mengoptimalkan rantai distribusi, sampai mengoptimalkan taktik pemasaran.
Sebut baik pengelolaan data dan semakin cepat ketersediaan bisa akan dapat terus untuk membuat produk yang berkesinambungan sehingga memberikan poin yang bagus di bagi pelanggan dan pengguna.
Price Optimization
Harga dapat menjadi kunci bagi pelanggan untuk memutuskan produk yang akan dibeli. Akan tapi perang harga bahkan dapat memberikan dampak buruk bagi produk itu sendiri. Big data bisa memberikan peta dan pola harga yang ada di pasar, sehingga produsen bisa menetapkan harga yang optimal dan promosi harga yang layak dengan keperluan pasar.
Big Data untuk Telekomunikasi
Telekomunikasi yaitu salah satu sektor yang berharap tak mau seharusnya berurusan dengan big data. Tak lagi saat ini layanan telekomunikasi bisa dibilang ialah jantung dari dunia komputerisasi kita. Seandainya data kerap kali disebut sebagai ‘the new oil’, maka penyedia layanan telekomunikasi seperti memiliki sebuah tambang minyak yang betul-betul produktif.
Ada banyak sekali sumber data yang ada dalam sebuah perusahaan telekomunikasi. Maka saja data operasional jaringan, data transaksi percakapan, data koneksi internet, data pelanggan, dan data produk. Bila semua data-data hal yang demikian bisa diintegrasikan dengan bagus, karenanya akan dapat memberikan insight yang dapat dipakai untuk optimalisasi jaringan, meningkatkan pelayanan, pembuatan produk dan program promosi, serta meningkatkan loyalitas pelanggan.
Big Data untuk Kesehatan
Data dalam bidang kesehatan ialah salah satu contoh big data sebab volume, kompleksitas, keragaman serta tuntutan ketepatan waktunya. Disamping itu layanan kesehatan juga melibatkan banyak sekali pihak, diantaranya ialah pelbagai rumah sakit, lab, klinik, dan asuransi kesehatan. Oleh karena itu bidang kesehatan termasuk sektor yang mempunyai tantangan besar di bidang big data.
Integrasi data, akurasi data dan kecepatan perolehan data yaitu hal yang benar-benar penting dalam bidang kesehatan, karena hal ini menyangkut keselamatan pasien. Tidak cuma itu, jumlah kekuatan medis dan rumah sakit pun masih sungguh-sungguh kurang dibanding dengan potensi pasien, lebih-lebih di masa pandemi seperti dikala ini. Insight yang didapatkan melewati big data bisa diaplikasikan untuk membantu memecahkan situasi sulit hal yang demikian, diantaranya ialah untuk penegakan diagnosa yang lebih akurat, personalisasi obat-obatan, peningkatan pelayanan rumah sakit hingga optimalisasi operasional rumah sakit.
Kecerdasan Buatan (Artificial Intelligence) dan Big Data
Kecuali implementasi big data dalam arti pengelolaan dan analisa data bisa dikerjakan dengan baik, tantangan berikutnya adalah bagaimana dengan data itu kita bisa melatih mesin untuk bisa belajar sehingga dapat berprofesi dan memberikan insight secara otomatis, pesat, dan jitu. Komunitas Artificial Intelligence, Machine Learning dan Deep Learning muncul kembali dan menjadi trend baru di masa sekarang.
Lalu apa perbedaan AI, machine learning dan deep learning? Isu ruang lingkup, deep learning merupakan bagian dari machine learning, dan machine learning ialah komponen dari artificial intelligence. ketiganya yaitu bagaimana membuat mesin atau komputer menjadi cerdas. Tujuan utamanya yaitu untuk mengurangi campur tangan manusia dalam memberikan insight maupun dalam melakukan beraneka profesi manusia.
Artificial intelligence sendiri bukan yakni hal baru, akan tetapi bidang ini mulai berkembang dengan sungguh-sungguh kencang dan menjadi sebuah trend setelah munculnya big data. Sistem ini dikarenakan ketersediaan data yang melimpah, yang sudah dapat ‘ditaklukkan’ dengan big data, yang adalah materi utama bagi mesin untuk belajar dan menjadi cerdas.
Tidak hanya data, teknologi juga mengatur peranan penting bagi perkembangan artificial intelligence. perangkat dan teknologi dengan kinerja yang betul-betul tinggi saat ini telah tersedia secara relatif murah dan terjangkau. Kalau semula artificial intelligence dianggap sebagai sesuatu yang canggih dan hanya dapat digunakan menerapkan teknologi yang tinggi dan mahal, saat ini artificial intelligence sudah dapat diimplementasikan pada bermacam-macam perangkat dan cara yang dipakai sehari-hari.
Big Data Indonesia
idBigData merupakan kelompok sosial big data Indonesia yang dideklarasikan pada tanggal 2 Desember 2014. Pada saat itu big data masih menjadi sebuah hal yang relatif baru di Indonesia. Belum banyak orang yang paham mengenai apa itu big data, apa kegunaannya, dan bagaimana memanfaatkannya. Sosial dibentuknya idBigData sebagai komunitas big data Indonesia bertujuan untuk menjadi wadah berkumpulnya komponen masyarakat dari berjenis-jenis bidang untuk saling bertukar pengetahuan dan pengalaman, serta menjalin berjenis-jenis kerja sama dalam bidang big data serta pemanfaatannya, termasuk di dalamnya data science dan artificial intelligence.