Data Warehouse adalah penyimpanan informasi secara elektronik yang aman oleh sebuah bisnis atau organisasi lain. Tujuan dari Data Warehouse adalah untuk menciptakan kumpulan data historis yang dapat diambil dan dianalisis untuk memberikan wawasan yang berguna dalam operasi organisasi. Data Warehouse adalah komponen penting dari intelijen bisnis. Istilah yang lebih luas itu mencakup infrastruktur informasi yang digunakan bisnis modern untuk melacak keberhasilan dan kegagalan mereka di masa lalu dan menginformasikan keputusan mereka untuk masa depan.
Cara Kerja Data Warehouse
Kebutuhan akan Data Warehouse berkembang ketika bisnis mulai mengandalkan sistem komputer untuk membuat, mengarsipkan, dan mengambil dokumen bisnis yang penting. Konsep data warehousing diperkenalkan pada tahun 1988 oleh peneliti IBM, Barry Devlin dan Paul Murphy. Data warehousing dirancang untuk memungkinkan analisis data historis. Membandingkan data yang dikonsolidasikan dari berbagai sumber yang heterogen dapat memberikan wawasan tentang kinerja perusahaan. Data warehouse dirancang untuk memungkinkan penggunanya menjalankan kueri dan analisis pada data historis yang berasal dari sumber transaksional. Data yang ditambahkan ke gudang tidak berubah dan tidak dapat diubah. Data Warehouse adalah sumber yang digunakan untuk menjalankan analitik pada peristiwa masa lalu, dengan fokus pada perubahan dari waktu ke waktu. Data yang disimpan di gudang harus disimpan dengan cara yang aman, dapat diandalkan, mudah diambil, dan mudah dikelola.
Memelihara Data Warehouse
Ada beberapa langkah tertentu yang dilakukan untuk memelihara data warehouse. Salah satu langkahnya adalah ekstraksi data, yang melibatkan pengumpulan data dalam jumlah besar dari berbagai sumber. Setelah sekumpulan data dikumpulkan, data tersebut akan melalui pembersihan data, yaitu proses menyisir data untuk mencari kesalahan dan mengoreksi atau mengecualikan data yang ditemukan. Data yang telah dibersihkan kemudian dikonversi dari format basis data ke format gudang. Setelah disimpan di gudang, data akan melalui proses penyortiran, konsolidasi, dan peringkasan, sehingga akan lebih mudah digunakan. Seiring waktu, lebih banyak data ditambahkan ke gudang karena berbagai sumber data diperbarui. Buku kunci tentang data warehousing adalah Building the Data Warehouse karya W.H. Inmon, sebuah panduan praktis yang pertama kali diterbitkan pada tahun 1990 dan telah dicetak ulang beberapa kali. Saat ini, bisnis dapat berinvestasi dalam layanan perangkat lunak Data Warehouse berbasis cloud dari perusahaan-perusahaan seperti Microsoft, Google, Amazon, dan Oracle.
Penambangan Data / Data Mining
Bisnis menyimpan data terutama untuk penggalian data. Hal ini melibatkan pencarian pola informasi yang akan membantu mereka meningkatkan proses bisnis.
Sistem penyimpanan data yang baik memudahkan berbagai departemen di dalam perusahaan untuk mengakses data satu sama lain. Sebagai contoh, tim pemasaran dapat menilai data tim penjualan untuk membuat keputusan tentang bagaimana menyesuaikan kampanye penjualan mereka.
5 Langkah Data Mining / Penggalian Data
Proses data mining terbagi menjadi lima langkah:
- Organisasi mengumpulkan data dan memasukkannya ke dalam Data Warehouse.
- Data tersebut kemudian disimpan dan dikelola, baik di server internal maupun di layanan cloud.
- Analis bisnis, tim manajemen, dan profesional teknologi informasi mengakses dan mengatur data.
- Perangkat lunak aplikasi menyortir data.
- Pengguna akhir menyajikan data dalam format yang mudah dibagikan, seperti grafik atau tabel.
Arsitektur Data Warehouse
Merancang data warehouse dikenal sebagai arsitektur data warehouse dan tergantung pada kebutuhan data warehouse, bisa datang dalam berbagai tingkatan. Biasanya ada desain arsitektur tingkat satu, tingkat dua, dan tingkat tiga.
- Arsitektur Tingkat Tunggal: Arsitektur tingkat tunggal hampir tidak digunakan dalam pembuatan Data Warehouse untuk sistem real-time. Arsitektur ini sering digunakan untuk pemrosesan batch dan real-time untuk memproses data operasional. Desain tingkat tunggal terdiri dari satu lapisan perangkat keras dengan tujuan menjaga ruang data seminimal mungkin.
- Arsitektur Dua Tingkat: Dalam desain arsitektur dua tingkat, proses analisis dipisahkan dari proses bisnis. Tujuannya adalah untuk meningkatkan tingkat kontrol dan efisiensi.
- Arsitektur Tiga Tingkat: Desain arsitektur tiga tingkat memiliki tingkat atas, tengah, dan bawah; ini dikenal sebagai lapisan sumber, lapisan yang direkonsiliasi, dan lapisan Data Warehouse. Desain ini cocok untuk sistem dengan siklus hidup yang panjang. Ketika ada perubahan pada data, lapisan tambahan berupa tinjauan dan analisis data diselesaikan untuk memastikan tidak ada kesalahan.
Terlepas dari tingkatannya, semua arsitektur data warehouse harus memenuhi lima properti yang sama: pemisahan, skalabilitas, perluasan, keamanan, dan administrabilitas.
Data Warehouse vs Basis Data
Data warehouse tidak sama dengan database:
- Database adalah sistem transaksional yang memantau dan memperbarui data secara real-time agar hanya data terbaru yang tersedia.
- Sebuah Data Warehouse diprogram untuk mengumpulkan data terstruktur dari waktu ke waktu.
Sebagai contoh, sebuah database mungkin hanya memiliki alamat terbaru dari seorang pelanggan, sementara data warehouse mungkin memiliki semua alamat pelanggan selama 10 tahun terakhir.
Data Warehouse vs Data Lake
Baik data warehouse maupun data lake menyimpan data untuk berbagai macam kebutuhan. Perbedaan utamanya adalah data lake menyimpan data mentah yang belum ditentukan tujuannya. Di sisi lain, Data Warehouse menyimpan data olahan yang telah disaring untuk digunakan untuk tujuan tertentu. Data lake terutama digunakan oleh para ilmuwan data, sementara data warehouse paling sering digunakan oleh para profesional bisnis. Data lake juga lebih mudah diakses dan lebih mudah diperbarui, sementara data warehouse lebih terstruktur dan setiap perubahannya lebih mahal.
Data Warehouse vs Data Mart
Data mart hanyalah versi yang lebih kecil dari Data Warehouse. Data mart mengumpulkan data dari sejumlah kecil sumber dan berfokus pada satu area subjek. Data mart lebih cepat dan lebih mudah digunakan daripada Data Warehouse. Data mart biasanya berfungsi sebagai bagian dari Data Warehouse untuk fokus pada satu area untuk tujuan analisis, seperti departemen tertentu dalam suatu organisasi. Data mart digunakan untuk membantu membuat keputusan bisnis dengan membantu analisis dan pelaporan.
Keuntungan dan Kerugian Data Warehouse
Data Warehouse dimaksudkan untuk memberikan keunggulan kompetitif bagi perusahaan. Ini menciptakan sumber daya informasi terkait yang dapat dilacak dari waktu ke waktu dan dianalisis untuk membantu bisnis membuat keputusan yang lebih tepat.
Hal ini juga dapat menguras sumber daya perusahaan dan membebani staf yang ada saat ini dengan tugas-tugas rutin yang dimaksudkan untuk memberi makan mesin gudang. Beberapa kerugian lainnya adalah sebagai berikut:
- Dibutuhkan banyak waktu dan upaya untuk membuat dan memelihara gudang.
- Kesenjangan dalam informasi, yang disebabkan oleh kesalahan manusia, dapat memakan waktu bertahun-tahun untuk muncul ke permukaan, merusak integritas dan kegunaan informasi.
- Ketika beberapa sumber digunakan, ketidakkonsistenan di antara sumber-sumber tersebut dapat menyebabkan hilangnya informasi.
Keuntungan
- Menyediakan analisis berbasis fakta tentang kinerja perusahaan di masa lalu untuk menginformasikan pengambilan keputusan.
- Berfungsi sebagai arsip historis data yang relevan.
- Dapat dibagikan di seluruh departemen utama untuk kegunaan maksimum.
Kekurangan
- Membuat dan memelihara gudang membutuhkan banyak sumber daya.
- Kesalahan input dapat merusak integritas informasi yang diarsipkan.
- Penggunaan beberapa sumber dapat menyebabkan inkonsistensi dalam data.
Kesimpulan
Data Warehouse adalah tempat penyimpanan informasi perusahaan tentang bisnisnya dan bagaimana kinerjanya dari waktu ke waktu. Dibuat dengan masukan dari karyawan di setiap departemen utamanya, Data Warehouse merupakan sumber analisis yang mengungkapkan keberhasilan dan kegagalan perusahaan di masa lalu dan menginformasikan pengambilan keputusan.