Masing-masing dari kita telah dihadapkan pada masalah mencari informasi lebih dari sekali. Terlepas dari sumber data yang kami gunakan (Internet, sistem file di hard drive kami, basis data atau sistem informasi global perusahaan besar) masalahnya bisa berlipat ganda dan termasuk volume fisik dari basis data yang dicari, informasi yang tidak terstruktur , jenis file yang berbeda, dan juga kerumitan penyusunan kata yang akurat dalam kueri penelusuran. Kami telah mencapai tahap ketika jumlah data pada satu PC sebanding dengan jumlah data teks yang disimpan di perpustakaan yang tepat. Dan untuk aliran data yang tidak terstruktur, di masa depan hanya akan meningkat, dan dengan tempo yang sangat cepat. Jika untuk pengguna biasa ini mungkin hanya kemalangan kecil, bagi perusahaan besar, tidak adanya kendali atas informasi dapat berarti masalah yang signifikan. Jadi kebutuhan savepapajohns untuk membuat sistem dan teknologi pencarian yang menyederhanakan dan mempercepat akses ke informasi yang diperlukan, sudah sejak lama. Sistem seperti itu banyak dan terlebih lagi tidak semuanya didasarkan pada teknologi yang unik. Dan tugas memilih yang tepat bergantung langsung pada tugas spesifik yang akan diselesaikan di masa depan. Sementara permintaan untuk alat pencarian dan pemrosesan data yang sempurna terus tumbuh, mari kita pertimbangkan keadaan sisi penawaran.

Baca Juga : Apa Yang Dapat Menawarkan Arsitek Komersial

Tidak mendalami berbagai kekhasan teknologi, semua program dan sistem pencarian dapat dibagi menjadi tiga kelompok. Ini adalah: sistem Internet global, solusi bisnis siap pakai (teknologi pemrosesan dan pencarian data perusahaan) dan pencarian frasa atau file sederhana di komputer lokal. Arah yang berbeda mungkin berarti solusi yang berbeda.

Pencarian lokal

Semuanya jelas tentang pencarian di PC lokal. Tidaklah luar biasa untuk fitur fungsionalitas tertentu yang menerima pilihan jenis file (media, teks, dll.) Dan tujuan pencarian. Cukup masukkan nama file yang dicari (atau bagian dari teks, misalnya dalam format Word) dan selesai. Kecepatan dan hasil sepenuhnya bergantung pada teks yang dimasukkan ke dalam baris kueri. Tidak ada intelektualitas dalam hal ini: cukup melihat file yang tersedia untuk menentukan relevansinya. Ini dalam arti dapat dijelaskan: apa gunanya menciptakan sistem yang canggih untuk kebutuhan yang tidak rumit tersebut.

Teknologi pencarian global

Masalahnya sangat berbeda dengan sistem pencarian yang beroperasi di jaringan global. Seseorang tidak bisa hanya mengandalkan melihat-lihat data yang tersedia. Volume besar (Yandex misalnya dapat membanggakan kapasitas pengindeksan lebih dari 11 terabyte data) dari kekacauan global informasi tidak terstruktur akan membuat pencarian sederhana tidak hanya tidak efektif tetapi juga memakan waktu lama dan tenaga. Itulah mengapa akhir-akhir ini fokusnya bergeser ke arah pengoptimalan dan peningkatan karakteristik kualitas penelusuran. Tetapi skemanya masih sangat sederhana (kecuali untuk inovasi rahasia dari setiap sistem terpisah) – pencarian frasa melalui basis data yang diindeks dengan pertimbangan yang tepat untuk morfologi dan sinonim. Tidak diragukan lagi, pendekatan seperti itu berhasil tetapi tidak menyelesaikan masalah sepenuhnya. Membaca lusinan berbagai artikel yang didedikasikan untuk meningkatkan pencarian dengan bantuan Google atau Yandex, orang dapat menyimpulkan bahwa tanpa mengetahui peluang tersembunyi dari sistem ini menemukan dokumen yang relevan dengan kueri adalah masalah lebih dari satu menit, dan terkadang lebih dari satu jam. Masalahnya adalah realisasi pencarian seperti itu sangat bergantung pada kata atau frase kueri, yang dimasukkan oleh pengguna. Semakin tidak jelas kueri, semakin buruk penelusurannya. Ini telah menjadi aksioma, atau dogma, mana pun yang Anda sukai. dimasukkan oleh pengguna. Semakin tidak jelas kueri, semakin buruk penelusurannya. Ini telah menjadi aksioma, atau dogma, mana pun yang Anda sukai. dimasukkan oleh pengguna. Semakin tidak jelas kueri, semakin buruk penelusurannya. Ini telah menjadi aksioma, atau dogma, mana pun yang Anda sukai.

Tentu saja, dengan cerdas menggunakan fungsi-fungsi kunci dari sistem pencarian dan mendefinisikan frasa yang digunakan untuk mencari dokumen dan situs, adalah mungkin untuk mendapatkan hasil yang dapat diterima. Tetapi ini akan menjadi hasil dari kerja mental yang melelahkan dan waktu yang terbuang untuk mencari informasi yang tidak relevan dengan harapan untuk setidaknya menemukan beberapa petunjuk tentang cara meningkatkan kueri penelusuran. Secara umum, skemanya adalah sebagai berikut: masukkan frasa, lihat beberapa hasil, pastikan kueri tersebut salah, masukkan frasa baru dan tahapannya diulangi hingga relevansi hasil mencapai tingkat setinggi mungkin. Tetapi bahkan dalam kasus itu peluang untuk menemukan dokumen yang tepat masih sedikit. Tidak ada pengguna biasa yang secara sukarela mencari kecanggihan “pencarian lanjutan” (meskipun dilengkapi dengan sejumlah fungsi yang sangat berguna seperti pilihan bahasa, format file, dll.). Yang terbaik adalah dengan memasukkan kata atau frase dan mendapatkan jawaban yang siap, tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kudanya berpikir – ia berkepala besar. Mungkin ini tidak tepat sasaran, tetapi salah satu fungsi pencarian Google disebut “Saya lagi beruntung!” mencirikan dengan baik teknologi pencarian yang ada. Namun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda membiarkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima. tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kudanya berpikir – ia berkepala besar. Mungkin ini tidak tepat sasaran, tetapi salah satu fungsi pencarian Google disebut “Saya lagi beruntung!” mencirikan dengan baik teknologi pencarian yang ada. Namun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda membiarkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima. tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kudanya berpikir – ia berkepala besar. Mungkin ini tidak tepat sasaran, tetapi salah satu fungsi pencarian Google disebut “Saya lagi beruntung!” mencirikan dengan baik teknologi pencarian yang ada. Meskipun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda membiarkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima.

Sistem perusahaan

Yang ketiga dalam daftar adalah solusi siap pakai berdasarkan teknologi pencarian. Mereka dimaksudkan untuk perusahaan dan perusahaan yang serius, memiliki basis data yang sangat besar dan dilengkapi dengan semua jenis sistem informasi dan dokumen. Prinsipnya, teknologinya sendiri juga bisa digunakan untuk kebutuhan rumah. Misalnya, seorang programmer yang bekerja dari jarak jauh dari kantor akan memanfaatkan pencarian untuk mengakses secara acak yang terletak di kode sumber program hard drive-nya. Tapi ini rinciannya. Aplikasi utama dari teknologi ini masih memecahkan masalah pencarian dengan cepat dan akurat melalui volume data yang besar dan bekerja dengan berbagai sumber informasi. Sistem seperti itu biasanya beroperasi dengan skema yang sangat sederhana (meskipun tidak diragukan lagi ada banyak metode unik untuk mengindeks dan memproses kueri di bawah permukaan): pencarian frasa, dengan pertimbangan yang tepat untuk semua bentuk dasar, sinonim dll. yang sekali lagi membawa kita ke masalah sumber daya manusia. Saat menggunakan teknologi seperti itu, pengguna harus terlebih dahulu mengucapkan kata-kata kueri yang akan menjadi kriteria pencarian dan mungkin dipenuhi dalam dokumen yang diperlukan untuk diambil kembali. Tetapi tidak ada jaminan bahwa pengguna akan dapat memilih atau mengingat frasa yang benar secara mandiri dan lebih jauh lagi, pencarian dengan frase ini akan memuaskan.

Satu momen penting lainnya adalah kecepatan pemrosesan kueri. Tentu saja, saat menggunakan seluruh dokumen alih-alih beberapa kata, akurasi pencarian meningkat berlipat ganda. Namun hingga saat ini, peluang tersebut belum dimanfaatkan karena menguras kapasitas yang tinggi dari proses tersebut. Intinya adalah bahwa pencarian dengan kata atau frase tidak akan memberi kita kesamaan hasil yang sangat relevan. Dan pencarian dengan frase sama panjangnya, seluruh dokumen menghabiskan banyak waktu dan sumber daya komputer. Berikut ini contohnya: saat memproses kueri dengan satu kata, tidak ada perbedaan yang berarti dalam kecepatan: apakah itu 0,1 atau 0,001 detik bukanlah hal yang sangat penting bagi pengguna. Tetapi bila Anda mengambil dokumen ukuran rata-rata yang berisi sekitar 2000 kata unik, maka pencarian dengan pertimbangan morfologi (bentuk batang) dan tesaurus (sinonim),

Ringkasan sementara

Seperti yang dapat kita lihat, sistem dan teknologi pencarian yang ada saat ini, meskipun berfungsi dengan baik, tidak menyelesaikan masalah pencarian sepenuhnya. Di mana kecepatan dapat diterima, relevansi meninggalkan lebih banyak yang diinginkan. Jika pencarian akurat dan memadai, maka akan menghabiskan banyak waktu dan sumber daya. Tentu saja mungkin untuk menyelesaikan masalah dengan cara yang sangat jelas – dengan meningkatkan kapasitas komputer. Tetapi melengkapi kantor dengan lusinan komputer ultra-cepat yang akan terus memproses kueri frasa yang terdiri dari ribuan kata unik, berjuang melalui gigabyte korespondensi yang masuk, literatur teknis, laporan akhir, dan informasi lainnya lebih dari sekadar irasional dan tidak menguntungkan. Ada cara yang lebih baik.

Pencarian konten unik serupa

Saat ini banyak perusahaan yang secara intensif bekerja untuk mengembangkan pencarian teks lengkap. Kecepatan kalkulasi memungkinkan pembuatan teknologi yang memungkinkan kueri dalam eksponen berbeda dan beragam kondisi tambahan. Pengalaman dalam membuat pencarian frase memberi perusahaan-perusahaan ini keahlian untuk lebih mengembangkan dan menyempurnakan teknologi pencarian. Secara khusus, salah satu pencarian paling populer adalah Google, dan salah satu fungsinya disebut “halaman serupa”. Menggunakan fungsi ini memungkinkan pengguna untuk melihat halaman dengan kemiripan maksimum dalam konten mereka dengan sampel. Berfungsi pada prinsipnya, fungsi ini belum memungkinkan mendapatkan hasil yang relevan – sebagian besar tidak jelas dan memiliki relevansi rendah dan lebih jauh lagi, terkadang penggunaan fungsi ini menunjukkan tidak adanya halaman serupa sebagai hasilnya. Paling mungkin, ini adalah hasil dari sifat informasi di Internet yang kacau dan tidak terstruktur. Tapi begitu preseden telah dibuat, munculnya pencarian yang sempurna tanpa hambatan hanyalah masalah waktu.

Apa yang menyangkut sistem pemrosesan data perusahaan dan pengambilan pengetahuan, di sini masalahnya jauh lebih buruk. Teknologi yang berfungsi (tidak ada di atas kertas) sangat sedikit. Dan tidak ada raksasa atau yang disebut guru teknologi pencarian sejauh ini berhasil membuat pencarian konten yang serupa. Mungkin, alasannya adalah tidak terlalu dibutuhkan, mungkin – terlalu sulit untuk diterapkan. Tapi ada satu yang berfungsi.

SoftInform Search Technology, yang dikembangkan oleh SoftInform, adalah teknologi untuk mencari dokumen yang isinya mirip dengan sampel. Ini memungkinkan pencarian yang cepat dan akurat untuk dokumen dengan konten serupa dalam volume data apa pun. Teknologi ini didasarkan pada model matematika yang menganalisis struktur dokumen dan memilih kata, kombinasi kata dan susunan teks, yang menghasilkan pembentukan daftar dokumen dengan kemiripan maksimum abstrak teks sampel dengan persentase relevansi yang ditentukan. Berbeda dengan pencarian frasa standar dengan pencarian konten serupa, tidak perlu menentukan kata kunci sebelumnya – pencarian dilakukan melalui seluruh dokumen. Teknologi tersebut bekerja dengan beberapa sumber informasi yang dapat disimpan baik dalam file teks format txt, doc, rtf, pdf, htm, html, dan sistem informasi dari basis data paling populer (Access, MS SQL, Oracle, serta basis data pendukung SQL lainnya). Ini juga mendukung sinonim dan fungsi kata-kata penting yang memungkinkan untuk melakukan pencarian yang lebih spesifik.

Teknologi pencarian serupa memungkinkan untuk secara signifikan mengurangi waktu yang terbuang untuk mencari dan meninjau dokumen yang sama atau sangat mirip, mengurangi waktu pemrosesan pada tahap memasukkan data ke dalam arsip dengan menghindari dokumen duplikat dan membentuk kumpulan data oleh subjek tertentu. Keunggulan lain dari teknologi SoftInform adalah tidak begitu sensitif terhadap kapasitas komputer dan memungkinkan pemrosesan data dengan kecepatan yang sangat tinggi bahkan pada komputer kantor biasa.

Teknologi ini bukan sekedar perkembangan teori. Ini telah diuji dan berhasil diterapkan dalam proyek pemberian nasihat hukum melalui telepon, di mana kecepatan pengambilan informasi sangat penting. Dan tidak diragukan lagi akan lebih dari berguna dalam basis pengetahuan, layanan analitis, dan departemen dukungan dari perusahaan besar mana pun. Universalitas dan efektivitas Teknologi Pencarian SoftInform memungkinkan pemecahan masalah spektrum luas, yang timbul saat memproses informasi. Ini termasuk ketidakjelasan informasi (pada tahap memasuki dokumen dimungkinkan untuk segera menentukan apakah dokumen tersebut sudah termasuk dalam basis data atau tidak) dan analisis kesamaan dokumen yang sudah masuk ke basis data,

Perspektif

Selain tugas utamanya (pencarian informasi yang cepat dan berkualitas tinggi dalam volume besar seperti teks, arsip, basis data), arah Internet juga dapat ditentukan. Misalnya, dimungkinkan untuk membuat sistem pakar untuk memproses korespondensi dan berita yang masuk yang akan menjadi alat penting bagi analis dari berbagai perusahaan. Terutama, ini akan dimungkinkan karena teknologi pencarian konten unik yang serupa, yang sejauh ini tidak ada dari sistem yang ada kecuali untuk SearchInform. Masalah spamming mesin pencari dengan apa yang disebut doorways (halaman tersembunyi dengan kata-kata kunci mengarahkan ke halaman utama situs dan digunakan untuk meningkatkan peringkat halaman dengan mesin pencari) dan masalah spam email (analisis yang lebih intelektual akan memastikan lebih tinggi tingkat keamanan) juga akan diselesaikan dengan bantuan teknologi ini.

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *