Karakteristik sistem duplikasi
Penyebaran data sistem deduplication, mempertimbangkan skalabilitas dan kehandalan adalah penting. Dengan kapasitas penyimpanan dan duplikasi meningkatkan ukuran, kinerja sistem perlu mempertahankan tingkat yang dapat diterima di atas. Jika, kesalahan algoritma de-duplikasi yang disebabkan oleh kehilangan data, duplikasi harus bisa tidak akan terpengaruh.
Skalabilitas dan hash konflik
Produk deduplication Data mendeteksi duplikat unsur data, untuk menilai sebuah file, blok atau bit dan file lain, blok atau sedikit sama. Data de-duplikasi produk untuk setiap elemen data dalam matematika "hash" algoritma untuk menangani, dan mendapatkan sertifikasi Mingjiaohaxi hanya beberapa meter. Setiap angka dikompilasi ke dalam daftar, daftar ini sering disebut sebagai indeks hash.
Ketika elemen data baru diproses, kode hash mereka akan dibuat dan telah di indeks tabel hash perbandingan kode. Jika elemen data baru menerima kode hash dan lainnya telah di tabel indeks dalam kode hash yang sama, maka data baru akan dianggap sebagai duplikasi data, tidak akan disimpan ke disk - hanya sangat kecil referensi untuk "rintisan" bisa dikaitkan dengan penyimpanan data yang sama. Jika tabel indeks, bukan kode hash baru, maka unsur data akan dianggap sebagai data baru akan disimpan ke disk normal.
Bahkan jika data tidak dan telah menyimpan data persis sama, elemen data, atau dapat menghasilkan kode hash yang sama. Ini adalah kesalahan diidentifikasi, atau dikenal sebagai konflik hash, yang akan menyebabkan kehilangan data. Ada beberapa cara untuk mengurangi kesalahan diidentifikasi. Duplikasi data di masing-masing produsen dapat memilih untuk menggunakan lebih dari satu unsur dari algoritma hash. Sebagai contoh, FalconStor Software's virtual tape library (VTL) pada penyimpanan tunggal-contoh (SIR) teknologi pada penggunaan SHA-1 dan algoritma MD5 ke indeks band. Hal ini sangat mengurangi kemungkinan pengakuan palsu. Pilihan lain adalah dengan menggunakan algoritma hash, namun perbandingan akurat elemen data ke unit bit.
masalah umum dari dua metode ini adalah bahwa mereka membutuhkan lebih banyak kekuatan pengolahan sistem host, mengurangi indeks efisiensi, memperlambat proses duplikasi. Dengan data de-duplikasi proses butir tumbuh, blok data uji adalah semakin kecil dan lebih kecil, indeks telah menjadi lebih besar dan hash konflik cenderung naik, tarik lebih pada kinerja.
Skalabilitas dan enkripsi
Tidak ada komentar:
Posting Komentar