Kiến thức lý tưởng Đại diện hoặc các hệ thống toàn cầu Tri thức Bản đồ
Hướng tới Đại diện hệ thống Idealistic Tri thức: Tri thức toàn cầu Bản đồ
Taras Filatov
Tóm tắt
Một trong những vấn đề quan trọng nhất mà ngăn cản sự phát triển hơn nữa trong các lĩnh vực kiến thức và các Đại diện Trí tuệ là một vấn đề semantic alignment hoặc kiến thức lập bản đồ. elaborated through unsupervised extraction of dependencies from large documents corpus , is proposed. Những tiến bộ trong các giải pháp sẽ được rất nhiều lợi ích cho các nhiệm vụ thông tin lại, ontology alignment, sự liên quan tính toán, vv Trong sự hiểu biết văn bản giấy khái niệm về toàn cầu multidimensional kiến thức bản đồ, elaborated unsupervised khai thác thông qua các phụ thuộc lớn từ các tài liệu Corpus, là đề xuất . Ngoài ra, các vấn đề của con người trực tiếp - Đại diện Kiến thức hệ thống giao diện được địa chỉ và một khái niệm về adaptive decoder đề xuất cho các mục đích tương tác với trước đó mô tả của mô hình thống nhất lập bản đồ. Trong sự kết hợp cả hai phương pháp tiếp cận được đề xuất là cơ sở cho một sự phát triển của một thế hệ mới của tri thức đại diện các hệ thống.
Từ khoá: kiến thức đại diện, kiến thức lập bản đồ, máy vi tính của con người tương tác, ontology alignment, trên ontology, sự liên quan tính toán, hồi thông tin, tài liệu tương tự
1. Giới thiệu
Trong xã hội, các lĩnh vực kiến thức trở thành đại diện nhiều hơn đáng kể hơn năm qua [25]. Số người đã luôn luôn cố gắng để học tập và phân loại các kiến thức về kiến thức. Chúng tôi có thể tìm thấy tài liệu tham khảo từ càng sớm Socrates như trong thế kỷ thứ năm BC [33] cho kheo khoang của logic và Epistemology [28] trung trong lứa tuổi. Kể từ khi vấn đề đã được coi là quan trọng trong quá khứ, nó là khó khăn overestimate của nó có nghĩa là trong thời đại thông tin.
Công nghệ hiện đại có endowed nhân loại với quá nhiều lũ lụt dữ liệu mà rất khó để systematise và xử lý. Đối với một người để trở thành một chuyên gia trong một khu vực nhất định phải mất nhiều năm học tập và yêu cầu phải có các thông tin chủng tộc để theo kịp với các xu hướng mới nhất về chuyên môn.
Đó là một niềm tin phổ biến kiến thức giữa các kỹ sư và chuyên gia dữ liệu khai rằng các thông tin có sẵn trong mở quyền truy cập là đủ để trích xuất truthful hầu như các sự kiện về bất kỳ khía cạnh của cuộc sống chúng ta, và thậm chí dự đoán trong tương lai. Chỉ để giải quyết vấn đề là intelligently xử lý các thông tin từ nhiều nguồn. [35].
Điều này các yếu tố nhu cầu thế hệ mới của đại diện các hệ thống kiến thức để giúp nhân loại systematise, truy cập và sử dụng những kiến thức tập thể.
Trong giấy hiện nay, chúng tôi đề xuất ý tưởng cho sự phát triển của một tuổi mới Kiến thức Đại diện hệ thống (KRS).
Chúng tôi tin rằng những thành tựu gần đây trong một số lĩnh vực khoa học và sẽ sớm đưa đến một kinh hai khâu đột phá trong phạm vi kiến thức của con người đại diện và con người-máy tính tương tác. Điều này sẽ mở mới Horizons và tăng hiệu quả của rất nhiều con người làm việc trong nhiều ứng dụng. Điều duy nhất cần phải làm là để mang lại những kết quả đạt được lại với nhau.
KRS lý tưởng nên cung cấp cho một người sử dụng thuận tiện với một truy cập vào tất cả các kiến thức của nhân loại. Do vậy, các yếu tố này là:
- một con người những ai muốn truy cập một số mảnh kiến thức em được quan tâm,
- dữ liệu lưu trữ, và
- các hệ thống trung gian để cung cấp giao diện cho một con người để truy cập kiến thức.
Những trở ngại mà nảy sinh ở đây là do hạn chế khả năng của con người và hiện nay công nghệ cấp.
2. Dữ liệu lưu trữ
2,1 nhà nước của các nghệ thuật
Kiến thức đại diện hệ thống đòi hỏi phải lưu trữ dữ liệu, trừ khi nó có thể để lấy các tài liệu cần thiết từ các nguồn bên ngoài trong thời gian thực. Chúng tôi có thể phác thảo hai phương pháp tiếp cận chiến thắng cho một lý tưởng KRS của ngày nay: cơ cấu quản lý thủ công trên toàn cầu kiến thức storages như ontologies và liên quan đến các hệ thống tự động lập chỉ mục và hồi của hầu hết đầy đủ và có thể truy cập các tài liệu nguyên bộ sưu tập (World Wide Web) chẳng hạn như các công cụ tìm kiếm. Các vấn đề của các phương pháp tiếp cận đầu tiên là bản chất thiên nhiên trong các sổ tay - bất kỳ nỗ lực để tạo ra và duy trì các kiến thức cơ bản của con người trên toàn cầu sẽ dẫn đến nguy cho giữa các chi tiết, actuality và tiện ích. ], UFO (Unified Framework Ontology) Tuy nhiên có nhiều thành công trên-ontology dự án như: CYC [23], Wordnet [12], DNS, Sumo vv và tiếp tục các cuộc thảo luận lý thuyết khi nghiên cứu nhằm xây dựng một standardised thống nhất trên toàn cầu ontology theo tên của SUO (tiêu chuẩn cao Ontology ) [27], UFO (Unified khung Ontology) vv
Thứ hai, phương pháp tiếp cận đã trở thành quá khứ prevalent do WWW là lớn nhất, toàn diện và cập nhật Corpus dữ liệu có sẵn để tự động xử lý ngày nay. Tuy nhiên trong tương phản với phương pháp tiếp cận đầu tiên, các vấn đề về tự động phát lại thông tin một vai trò đáng kể ở đây. Các vấn đề về văn bản của sự hiểu biết và xử lý ngôn ngữ tự nhiên là một trong những thách thức trong AI và song le vẫn còn hiệu quả hơn mà không có giải pháp. The second approach (automated indexing) therefore has major lacks in the accuracy of retrieval. Adjacent là những vấn đề về phân loại và sự liên quan tính toán, như vậy gọi là các 'trang web clustering' vấn đề [1]. Những phương pháp tiếp cận thứ hai (tự động lập chỉ mục) do đó đã lớn trong thiếu tính chính xác của retrieval.
Hiện có những nỗ lực liên tục cải tiến để đưa vào các phương pháp tiếp cận abovementioned để khắc phục những vấn đề này. Ví dụ, cùng với các dự án thống nhất cơ sở ontology (SUO, BULO) có một số nỗ lực để phát triển ontology alignment ontology và lập bản đồ kỹ thuật để mang lại cho existent ontologies cùng với nhau và với các loại kiến thức cơ sở [5, 17]. Nó thường được đề xuất để giảm thiểu những thiếu sót trong hướng dẫn quản lý trong trường hợp ontologies của các phương tiện thông tin tự động hồi (công cụ tìm kiếm công nghệ). Từ mặt khác, cải thiện các tiêu chuẩn hypertext đang được phát triển để có thể tự xác định các thông tin để hỗ trợ các công cụ tìm kiếm commonsense hiểu rõ ý nghĩa của các tài liệu và WWW hyperlinks giữa chúng [24]. Cần phải hiểu rằng các giải pháp mang lai những thiếu sót trong kỹ thuật tương ứng cùng với lợi thế.
Một trong những phương pháp tiếp cận shortcoming unites xuất của họ và làm cho tế: không có tiêu chuẩn về lập bản đồ và thiết lập các mối quan hệ giữa các tài liệu và các khái niệm khác nhau trong hệ thống. Những vấn đề sẽ được giải quyết, trong trường hợp một trong những hệ thống cố định mathematically interpretable Hierarchy như ontologies overcomes hiện có phương pháp tiếp cận (WWW). Tuy nhiên, dường như không do abovementioned lý do. Độc lập theo tiêu chuẩn trung gian là một tiềm năng, giải pháp cho vấn đề này. Hiện có nhiều sáng kiến về hướng liên kết và reciprocal kiến thức cơ sở lập bản đồ các loại trong đó có một diện tích lập bản đồ ontology. Các sáng kiến có một phổ biến shortcoming: không đạt tiêu chuẩn duy nhất lập bản đồ và thiết lập các mối quan hệ giữa các tài liệu. Sau đó, không ai trong số họ có khả năng trở thành một tiêu chuẩn được công nhận rộng rãi hơn, trừ khi một giải pháp là phát triển bền vững.
2,2 Các khái niệm về một bản đồ toàn cầu Tri thức (GKM)
Chúng tôi tin rằng nó có thể xây dựng một tiêu chuẩn cho kiến thức lập bản đồ bằng cách xây dựng một không gian hợp lý với mục đích thực sự của thế giới dự kiến thức khái niệm. Những mô hình (hãy cho chúng tôi gọi nó là kiến thức bản đồ toàn cầu) nên phản ánh mức độ tương tự của các tài liệu và các khái niệm ánh xạ lên nó.
Mục đích chính của các mô hình là:
- Cross-alignment và lập bản đồ của các tài liệu và các khái niệm (WWW, ontologies, e-thư viện, thư mục, vv)
- Thông tin hồi thông qua các trình duyệt
- Tự động tính toán chính xác về sự liên quan commonsense
GKM do đó đòi hỏi một toán học / logic của mô hình của các kiến thức lưu trữ với một điều kiện cụ thể: được tối ưu cho kiến thức về công việc của đại diện có nghĩa là tương tác với con người. Đối với những điều kiện hoàn thành các mô hình này phải phản ánh trong các đa chiều hoặc trong các cấu trúc cơ cấu kiến thức của con người.
Do vậy, các yêu cầu này là:
- Đa chiều và lập bản đồ.
Các yếu tố chính cho sự đa chiều là ý nghĩa (hoặc một đề tài).
- Mỗi khái niệm về con người kiến thức có thể được ánh xạ lên một điểm cụ thể phối hợp với một trong các hệ thống không gian.
- Mỗi tài liệu hoặc văn bản có thể được ánh xạ lên một số điểm (tài liệu được chia thành memes - phần có ý nghĩa), hoặc một trong những điểm.
- Sự liên quan tính toán.
- Có thể mathematically để tính toán mức độ phù hợp giữa hai khái niệm bằng cách tính toán khoảng cách giữa các dự số điểm tương ứng của họ trong không gian.
- Do đó có thể có để tính toán "tương tự" giữa các tài liệu và các khái niệm bằng cách tính toán khoảng cách giữa các mappings.
- Homogeneity của không gian.
- Các không gian được đồng bộ (homogenous) và liên tục
- Tọa độ phản ánh được ý nghĩa và khoảng cách giữa các mắt các điểm phản ánh được sự khác biệt trong ý nghĩa như vậy là nếu điểm C nằm giữa A và B thì nó có nghĩa là khái niệm C là có liên quan đến cả hai A và B bằng nhau.
- Có thể 'duyệt' không gian kiến thức tìm kiếm các nguồn ánh xạ vào các khu vực lân cận.
Xây dựng một mô hình toán học của những không gian cho phép sự phát triển của toàn cầu Kiến thức bản đồ. Nó không phải là giá trị đang cố gắng xây dựng một mô hình như vậy (GKM) trong một cách tự do abovementioned lý do thông tin phát triển và liên tục thay đổi trong sự hiểu biết của con người trên thế giới. Chúng tôi tin rằng nó có thể trích xuất phụ thuộc và quy định có sẵn từ corpuses của văn bản và sử dụng như là các bộ xử lý cho các mục đích của chúng tôi lập bản đồ.
Các góc đá của chúng tôi giả định là nó thường là có thể đến bản đồ khác nhau của con người hiểu biết các chủ đề duy nhất vào không gian và các distances trong đa chiều của sau phản ánh một mức độ tương tự cho giữa các môn học. Điều này được dựa trên Assumption Johnson-Lindenstrauss Lemma rằng một bộ n số điểm cao trong Euclidian chiều không gian có thể được ánh xạ đến một không gian N chiều Euclidian
(2,1)
như vậy là khoảng cách giữa hai điểm bất kỳ thay đổi của chỉ là một yếu tố (1
) [7]. Các Vector Vũ trụ Người mẫu thường được sử dụng trong văn bản và thông tin Retrieval Categorization đại diện cho các tài liệu như là chiều cao vectors [31]. Các vectors có chứa một số cấp độ (tùy thuộc vào một thước đo lựa chọn chức năng) của các thông tin đó là đủ để phân loại đối tượng của bản gốc tài liệu.
Các Tychonoff's theorem [26] nói rằng điểm, đại diện cho các tài sản của các đối tượng của một lớp học, phải được nằm gần hơn với nhau trong không gian hơn để sở hữu số điểm đại diện cho các tài sản của các đối tượng của các lớp học. of compactness [22] the mapping will be achieved where the distances between points represent the relevance of the corresponding documents. Trong nhiệm vụ này của chúng tôi có nghĩa là bản gốc của n véc tơ không gian văn bản có thể được dự kiến lên cố định N chiều không gian và sử dụng một thuật toán thích hợp cho các dữ liệu nén / đa chiều giảm do sự theorem của compactness [22] sự lập bản đồ sẽ được đạt được những nơi mà khoảng cách giữa các mắt điểm đại diện cho sự liên quan của các tài liệu tương ứng.
Những yếu tố nào ảnh hưởng đến sự chính xác của các lập bản đồ:
- representativeness thước đo của các chức năng và kích thước của các tính năng không gian
- kích thước, dispersity và chất lượng của các tài liệu Corpus
Cung cấp các lý thuyết được áp dụng trong điều kiện hiện nay nó vẫn được tìm thấy trong đó kỹ thuật sẽ được sử dụng để xây dựng các lập bản đồ. Chúng tôi đề nghị tập trung vào việc tự động có nghĩa là do nhiều nhà chuyên môn phức tạp làm bằng tay lập bản đồ dựa trên inapplicable.
2,3 tự động thông qua các thế hệ GKM unsupervised khai thác (Giả thuyết)
Để có ích GKM nên chứa mappings đáng kể về số lượng từ thực tế (WWW) các tài liệu và cấu trúc trong các đại diện phổ biến của con người hiểu biết về thế giới. Nó không phải là do đó có giá trị để xem xét bất kỳ hướng dẫn cách tạo ra các GKM và làm đầy nó bằng tài liệu mappings. Các dữ liệu khai các nguyên tắc nên được sử dụng để trích xuất phụ thuộc đại diện cho các kiến thức từ các existent Corpus các tài liệu có sẵn cho máy tính xử lý và lọc ra các dữ liệu không cần thiết.
Đã có nhiều nỗ lực cho unsupervised khai thác các phụ thuộc trong bản văn tuy nhiên nó vẫn là một câu hỏi nghi ngờ cho dù là bất kỳ kỹ thuật có đủ khả năng để cung cấp một cách bền vững kiến thức khai thác thông qua việc phân tích của bộ sưu tập lớn các tài liệu [10, 11, 21, 30].
Hãy chia những yếu tố mà thông thường ảnh hưởng đến các nội dung của các tài liệu thành ba loại:
- Tác giả yếu tố cá nhân (cảm giác và Motives để tạo ra một văn bản, vật lý và đạo đức trong tình trạng suy nghĩ và viết)
- Ngôn ngữ (các nguyên tắc vv của các ngôn ngữ được sử dụng để ghi các tài liệu)
- Kiến thức (một số bộ phận của con người hiểu biết tác giả implicitly truyền trực tiếp hoặc thông qua các tài liệu)
Let's presume có thể xử lý tất cả các văn bản tài liệu của con người tác giả và trích xuất tất cả các điều lệ phụ thuộc. Trong trường hợp này ảnh hưởng của các yếu tố 1 sẽ được tối thiểu. Những ảnh hưởng của các yếu tố 2 là không nhiều về tầm quan trọng vì những điều sau đây:
a) tài liệu trong nhiều ngôn ngữ có thể được lập chỉ mục, do đó làm giảm ảnh hưởng reciprocally
b) ngôn ngữ chính nó phản ánh kiến thức của con người [18]; như vậy trong một giới hạn các yếu tố 2 là một subfactor của 3 và thậm chí cả những trích dẫn của họ đại diện cho một hỗn hợp đạt được thành tích
Đó là lý thuyết có thể có sau đó để trích xuất thông tin chủ yếu là tương ứng với kiến thức tiếp xúc của con người thông qua các tài liệu có sẵn. Thông tin chuyển đổi này vào lập bản đồ không gian hypothetically sẽ cung cấp cho chúng tôi GKM bền vững.
Thực hiện 2,4 (thử nghiệm)
Trong không gian xây dựng mỗi tài liệu phải được ánh xạ duy nhất để phối hợp. The 'xem' của các không gian hoặc distances so sánh nên tiết lộ rằng tình trạng của các tài liệu của họ hoặc cụm phản ánh sự liên quan của họ và nó có thể chỉ định một số tên đề tài cụ thể để phối hợp trong không gian.
Của chúng tôi thử nghiệm bằng cách sử dụng của 2 và 3 chiều Kohonen SOM với một địa phương tập hợp các tài liệu tiết lộ rằng khoảng cách giữa các mắt dự đoán của các tài liệu không được ổn định trong suốt cả loạt ra mắt. Điều này trong quan điểm của chúng tôi là bằng chứng về thực tế là đa chiều của bản đồ là đủ mà phù hợp với Johnson-Lindenstrauss Lemma được đề cập ở trên.
Đáng tiếc là nó là không thể thực hiện cuộc thử nghiệm với một hợp đa chiều. Ví dụ, theo Johnson-Lindenstrauss Lemma, 20000 tài liệu bản đồ để cho phép 10% báo lỗi, nó sẽ yêu cầu kích thước 58. Điều này đòi hỏi phải được tính toán trên máy vi tính hiện đại 'năng lực.
Điều quan trọng cần đề cập đến ở đây là, trong khi đưa ra một Lemma đa chiều tối đa của các lập bản đồ không gian cho phép để thực hiện điều kiện duy nhất chiếu, đó là không cần thiết tối thiểu có hiệu quả các giá trị. Lemma đưa ra một giá trị cho một bộ n số điểm tức là cho trường hợp xấu nhất là không có khả năng để xuất hiện trong thực hành. Các phương pháp phát hiện đa chiều nên được sử dụng để tính toán một cách hiệu quả của các dữ liệu đa chiều và do đó xác định đúng số lượng kích thước cho các lập bản đồ các dữ liệu cụ thể thiết lập. Hiện có biết kỹ thuật này mà đến từ các nền của mặt tái. Một của những hành động mới nhất là công trình của S. Cheng, Y. và Z. Wang Wu [4] có chiều hướng phát hiện phương pháp thông qua các nguyên tắc Hợp phần Phân tích [8] được trình bày. Do đó, intrinsic đa chiều của dữ liệu có thể được trích xuất. Khi giá trị này trên thực tế thấp hơn giá tối đa đa chiều cần thiết cho các dự cùng một số tài liệu trong trường hợp xấu nhất-trường hợp lý thuyết, điều này cho phép giảm đáng kể trong thời gian tính toán. Ngoài ra cho cùng một mục đích mà chúng tôi có thể xem xét các phương pháp đánh giá dựa trên iterative. Mục đích của đa chiều giảm trong trường hợp của chúng tôi là để thiết lập một cách hiệu quả lập bản đồ, nơi commonsense tương tự giữa các nguồn thông tin được bày tỏ thông qua các hợp giữa dự Euclidian điểm. Đi bất kỳ đa chiều giảm kỹ thuật dựa trên các lựa chọn ngẫu nhiên từ các dữ liệu đầu vào thiết lập (chẳng hạn như phần Phân tích nguyên tắc, tự tổ chức bản đồ, Sammon tái hoặc triangulation), trong trường hợp khi sản xuất đa chiều là thích hợp ít hơn, các dự đoán sẽ là không ổn định và với mỗi recalculation sự khác nhau sẽ được lập bản đồ và khoảng cách giữa các mắt dự đoán sẽ không bảo quản. Chúng tôi cũng có thể giả định rằng khi có hiệu lực đa chiều của dữ liệu vào manifold được sử dụng để lập bản đồ, các distances sẽ bảo với một mức độ tự do đa chiều, giảm phụ thuộc vào phương pháp được sử dụng. Một giải pháp thay thế do đó là một lựa chọn ngẫu nhiên đa chiều giảm kỹ thuật kết hợp với tăng đa chiều song song đánh giá của các lập bản đồ. 32]. Xem xét, ví dụ, các kỹ thuật trồng soms mô tả trong [19, 32]. Nhằm giảm bớt thời gian tính toán, số lượng các nodes được tăng lên rất năng động với các nodes mới đang được thống nhất giữa các phân phối cũ và những người thân của họ vectors trọng đang được đặt vào có nghĩa là ban đầu của các lân cận weights vectors. Cùng một kỹ thuật được áp dụng cho đa chiều (D) sẽ cung cấp cho một cơ hội để đánh giá mỗi D từng bước. Các tiêu chí đánh giá sẽ ổn định trong khoảng cách giữa các mắt dự. Vì mục đích hai hoặc nhiều hơn tự tổ chức các bản đồ có thể được chạy song song với pairwise khoảng cách giữa các mắt một số dự đoán đang được so sánh trên mỗi iteration. Iteration Dưới đây chúng tôi hiểu được những giai đoạn khi đa chiều của SOM đã được tăng lên và các mạng lưới đã được kết quả ổn định với các thông số mới.
Tổng kết các abovementioned sau đây, chúng tôi đề xuất cho các mô hình thử nghiệm đánh giá của các phương pháp tiếp cận tốt hơn để thành lập bản đồ toàn cầu kiến thức từ các bộ sưu tập các tài liệu văn bản.
Các datase t: véc tơ mô hình không gian sẽ được sử dụng (mỗi tài liệu tiêu biểu như là vector với các tính năng như kích thước và các tính năng 'ranks như tọa độ trong kích thước tương ứng).
Tính năng lựa chọn chức năng: hiệu quả nhất để được xác định.
Vector kích thước: được thành lập empirically.
Xử lý và lưu trữ dữ liệu.
Đáp đa chiều giảm kỹ thuật nên được sử dụng để lập bản đồ. Có hai phương pháp tiếp cận có thể có:
a) trước khi tính toán intrinsic đa chiều và đánh giá đa chiều, giảm các phương pháp khác nhau với một người biết về lập bản đồ đa chiều;
b) 'tăng đa chiều đánh giá phương pháp tiếp cận' với ít mappings đang chạy song song - chỉ với các phương pháp lựa chọn ngẫu nhiên của các dữ liệu đầu vào có thể được sử dụng.
Đầu vào: tài liệu 'tính năng vectors.
Kết quả đầu ra: GKM tọa độ.
Đánh giá:
1) Commonsense đánh giá ban đầu thư tín giữa các tài liệu và Euclidian distances lập bản đồ dự đoán của mình.
2) ổn định trong những khoảng cách giữa các mắt pairwise thông qua các dự đoán khác nhau ra mắt, trong trường hợp ngẫu nhiên lựa chọn kỹ thuật được sử dụng.
3. Giao diện
3,1 Kiến thức lý tưởng đại diện giao diện
Giao diện một phần của hệ thống Đại diện Kiến thức là điều quan trọng khi các hệ thống lý tưởng là thảo luận. Cả hai nhiệm vụ tiếp nhận yêu cầu từ người sử dụng và truyền lại kiến thức cho họ là tầm quan trọng của bình đẳng với các nhiệm vụ và lưu trữ dữ liệu cấu. Trong giấy hiện nay, chúng tôi thảo luận về cách thức đối với Kiến thức Hệ thống Đại diện của một thế hệ mới và do đó có vấn đề về tương tác là overviewed để thiết lập cho dù đó có thể cung cấp một giao diện idealistic của các phương tiện của một công nghệ hiện đại.
Các giao diện được sử dụng để hỗ trợ của một con người tương tác với người sử dụng hiện đại, kiến thức và thông tin đại diện các hệ thống lại chủ yếu là các 'chỉ mục' loại, nghĩa là người dùng phải biết chính xác những gì họ đang tìm kiếm và họ cũng có nó để xác định ngôn ngữ. Một ví dụ phổ biến của các giao diện là một công cụ tìm kiếm. Như chúng tôi đã đề cập ở trên, công cụ tìm kiếm và Corpus của WWW là hầu hết các tài liệu hoàn thành và cập nhật kiến thức sẵn có hệ thống đại diện ngày nay, đây là lý do phổ biến của họ. Đồng thời nó được biết rằng 'chỉ mục' giao diện không phải là tự nhiên, để sử dụng cho con người, nhưng đó là chỉ thay thế là 'xem' phương pháp tiếp cận được thành lập rất kém [16]. Lý do đó là vấn đề về kiến thức lập bản đồ và sắp mà không cho phép tự động phân loại và đại diện các tài liệu theo các chủ đề của họ. Tuy nhiên, với vấn đề thống nhất về kiến thức lập bản đồ không gian được giải quyết, khả năng mới xuất hiện cho việc xây dựng nâng cao chất lượng, nhiều tài nguyên thiên nhiên giao diện của trình duyệt 'loại.
3,2 đa chiều và visualisation
Có đề cập rằng những kết quả toàn cầu, lập bản đồ không gian có khả năng được n-n là có chiều cao là cần thiết để giải quyết vấn đề của hình ảnh đại diện. Có thể cho con người để tưởng tượng không gian 3 chiều, do đó, các cách thức để tối ưu ND-> 3D đại diện được đánh giá. Giảm đa chiều, kỹ thuật hoặc nhiều đại diện phương pháp tiếp cận thông qua giao diện có thể được sử dụng.
Điều quan trọng là với sự giúp đỡ của các kiến thức thống nhất lập bản đồ không gian là những lỗi nhỏ trong quá trình tính toán của sự liên quan giữa các tài liệu, và, hơn nữa, lại của các tài liệu liên quan, ngay cả từ các hệ thống khác sẽ trở thành một công việc nhỏ. Đối với những người sử dụng cuối cùng này có nghĩa là một khi hệ thống đã nằm ở các chủ đề họ quan tâm là, nó sẽ không bao giờ dẫn người sử dụng không liên quan đến tài liệu.
Thông tin yêu cầu 3,3 chuỗi
Khi công việc của môn học lập bản đồ và vị trí, sự liên quan không gian và kiến thức tính toán được duyệt đã giải quyết những công việc quan trọng nhất mà còn là để giải quyết vấn đề đầu tiên của một yêu cầu. Trong nhà nước-of-the-art lại thông tin hệ thống các quy trình sau đây thường được thông tin liên quan đến khi được yêu cầu:
Một phần của con người: 1) Imagination -> 2), các công trình ngôn ngữ -> 3) dữ liệu vào bàn phím bằng tay (tiếng nói đầu vào) -> Máy phần: 4) ngôn ngữ tinh -> 5) và phù hợp với vị trí -> 6) visualization của các tài liệu phù hợp với
Chuỗi dài và rõ ràng rằng đó là mất dữ liệu và tham nhũng đang được đáng kể vì hai ngôn ngữ và mã hóa tinh. Trước hết, người dùng có thể tạo những nhận thức hình ảnh vào ngôn ngữ ngắn câu. Thứ hai, hệ thống đã có để decode câu để hiểu rõ đối tượng của của người sử dụng quan tâm. Các mô tả chuỗi dissatisfaction nguyên nhân đầu tiên yêu cầu của người sử dụng các công cụ tìm kiếm hiện đại do inability của hệ thống, để 'hiểu' yêu cầu kết quả trong kinh hai mất thời gian của người dùng cuối. Mức độ của các hồi lỗi và inconveniences gây ra bởi giao diện hạn chế đáng kể là rất nhiều và sẽ giảm thiểu ảnh hưởng của chính xác hơn hồi và vị trí của các tài liệu giới thiệu của các thống nhất lập bản đồ.
Do đó cần thiết để cân nhắc, ít nhất là lý thuyết, khả năng sáng tạo của một lý tưởng của con người chuỗi ngắn <-> Kiến thức Đại diện hệ thống tương tác với các đơn vị làm mất dữ liệu đang được loại bỏ:
Một phần của con người: 1) Imagination -> [yêu cầu được thông qua qua trực tiếp của não bộ của con người-công cụ chuyển đổi tọa độ GKM] -> 2) và phù hợp với vị trí -> 3) phù hợp với các tài liệu của visualization
Chúng tôi nhìn tổng quan những thành tựu mới nhất trong khu vực của bộ não máy tính Interfaces (BCI) cho mục đích này.
3,4 Brain-Computer Interfaces
ost significant advances in the area have been made into artificial limb control ie motoring functions of the brain [3] and the interpretation and processing of visual signals. Các nghiên cứu về BCI đã được ra cho hơn 30 năm và khu vực này vẫn còn rất trẻ, và phát triển nhanh chóng. Tính đến thời điểm gần đây m OST tiến bộ đáng kể trong khu vực đã được thực hiện vào chân tay giả kiểm soát có nghĩa là motoring chức năng của não bộ [ 3] và việc giải thích và chế biến của các tín hiệu hình ảnh. Những kết quả đạt được đã được xác minh trong nhiều thử nghiệm liên quan đến động vật và con người đối tượng. Báo cáo nghiên cứu thành công tích hợp của cơ khí hoặc thiết bị điện tử khi các động vật hoặc con người tìm hiểu để kiểm soát thiết bị với sự giúp đỡ của não bộ của họ, những người khác báo cáo thành công và chuyển tín hiệu hình ảnh của tinh [15, 20].
Giao diện não-máy vi tính được nghiên cứu chặt chẽ liên quan đến khu vực của neuroimaging chức năng, nơi mà các công nghệ khác nhau đã được phát triển để ghi lại một cách hiệu quả của các tiểu bang của người trí não thông qua một số đặc điểm thể chất. Hầu hết sản xuất từ quan điểm của BCI là một kỹ thuật gần đây neuroimaging gọi là chức năng Magnetic Resonance Imaging ) (FMRI) [6, 13]. Kỹ thuật này cho phép để ghi lại những động thái của chảy máu trong não bộ các khu vực khác nhau theo thời gian và với một sự chính xác cao. Điều này là cho phép thành lập các kết nối giữa các hình thức kích hoạt những vùng não khác nhau và một số hoạt động và quá trình nhận thức của con người. Điều quan trọng là kỹ thuật này, không giống như nhiều lựa chọn thay thế, không được xâm và không có liên quan đến việc tiêm. Nó là cần thiết tuy nhiên cần lưu ý rằng các phần cứng fMRI ngày nay vẫn còn rất tốn kém và cumbrous.
Nó là đáng kể mà các thí nghiệm cho thấy não adapts vào điều kiện mới. Ví dụ, khi motoring impulses đã được sử dụng để kiểm soát một hoặc một cơ khí manipulator trỏ chuột máy tính, não đã có thể dần dần tìm hiểu và phân biệt để kiểm soát manipulator riêng từ chân tay giả. Lebedev mentions hiệu quả của 'não plasticity' mà có khả năng cho phép kết hợp nhân tạo các thiết bị vào cơ thể đại diện. [20]
Gần đây các ấn phẩm trong lĩnh vực neuroimaging vẫn tiếp tục thảo luận về những cơ hội phát hiện những nhận thức của tiểu bang [15]. Điều này có quy định của chúng tôi tập trung sự chú ý về khả năng ứng dụng của con người trong BCI-KRS tương tác.
Được biết, tình trạng nhận thức khác nhau được liên kết với một số đối tượng thực tế tương ứng với một số mô hình não bộ các khu vực kích hoạt. Tinh này cho phép các mẫu để hiểu superimposed mà theo định hướng stimuli một người đang học (nơi mà sự chú ý của họ là chỉ dẫn), hoặc trong trường hợp thị giác với các đối tượng để định được những lớp học của các đối tượng người là hình ảnh (ví dụ như khuôn mặt, công trình xây dựng, đồ nội thất) và thậm chí cả các đối tượng 'màu sắc và định hướng. [15] Các quy trình rất phức tạp và xa được hiểu vào lúc này. Ngoài ra nghiên cứu sẽ tiết lộ cách thấp cao, trật tự và trật tự não bộ tín hiệu tương quan với một số chức năng nhận thức, cách thức không gian đặc tính của các mẫu thay đổi theo thời gian và dưới nhiều ảnh hưởng đến mức độ mà nó có thể kích hoạt các mẫu extrapolate của các chủ đề đa dạng; vv Tuy nhiên là ta tin rằng đó chính xác những kiến thức về 'computations' thực hiện trong não con người không phải là rất quan trọng cho việc xây dựng có liên quan BCIs. [20] Những dữ liệu khai kỹ thuật có thể được áp dụng để trích xuất thông tin hữu ích từ các neuroimaging Sensors và thiết lập các kết nối với một số nhận thức tiểu bang.
Mặc dù có những vấn đề quan trọng mà nghiêm trọng có thể ảnh hưởng đến sự thành công của các BCI dụng trong lĩnh vực kiến thức đại diện. Hai là vấn đề nhỏ generalization qua thời gian và các vấn đề khác nhau của cùng một trường hợp tâm thần của tiểu bang. Được biết, các vùng não bộ kích hoạt các mẫu của cùng một trạng thái tâm có thể thay đổi tùy theo thời gian. Trường hợp khác nhau của cùng một tinh thần của tiểu bang có thể đưa ra hình ảnh cũng như sửa đổi, tùy thuộc vào nội dung các biến thể và các yếu tố khác. [15] Điều này đòi hỏi phải linh hoạt không gian resampling và phân loại các thuật toán sẽ được sử dụng như là đề nghị của Haynes và Rees. Chúng tôi tin rằng những vấn đề này sẽ được giải quyết khi có sự phát triển của kỹ thuật có hiệu quả.
Xem thêm dubious câu hỏi là vấn đề của cuốn tiểu thuyết extrapolation để nhận thức tiểu bang. Haynes Rees và lưu ý rằng số lượng có thể nhận thức hoặc perceptual infinite là tiểu bang, trong khi số lượng đào tạo chuyên mục là nhất thiết phải hạn chế. [15] Nó là rất quan trọng vì vậy mà decoder có thể được đào tạo để generalize kinh nghiệm thu được từ nhỏ để thiết lập hoàn toàn được đào tạo chuyên mục mới. Nó sẽ có thể có của các phương tiện extrapolation nếu não kích hoạt các mẫu thực sự sắp xếp trong một số hệ thống parametric không gian. Điều này vẫn được tìm thấy, tuy nhiên, nó là ta tin rằng nó có thể ít nhất là đối với một số loại tinh thần nội dung [15]. Trong trường hợp trừu tượng hình không gian cho phân loại các mô hình neural thực sự tồn tại nó sẽ cho phép chúng tôi để theorize về khả năng lập bản đồ của não bộ của con người nhận thức tiểu bang lên toàn cầu Bản đồ Tri thức được mô tả trong nghiên cứu này sớm hơn. Cung cấp này là đạt được, các abovementioned "vấn đề đầu tiên của yêu cầu" sẽ được giải quyết và "lý tưởng của con người <-> KRS" chuỗi có thể sẽ được thành lập.
3,5 Learnable Decoder
Như bây giờ nó được biết là nhờ vào những thành tựu mới nhất của não bộ hình ảnh mà nó có thể phân biệt được kích hoạt các vùng não khác nhau khi người đó đang suy nghĩ về các chủ đề khác nhau chúng tôi có thể presume rằng nó có thể tạo ra một bản đồ learnable decoder để con người bắt đầu nhận thức lên bản đồ tiểu bang kiến thức Kiến thức Đại diện của một hệ thống. Do đó một cách lý tưởng của con người-máy tính tương tác có thể được cho phép thành lập một kinh hai tốc độ và sự chính xác của thông tin liên lạc với một hệ thống. Sẽ có ít mất dữ liệu do bị loại bỏ ngôn ngữ của giai đoạn tương tác. Các tốc độ và hiệu quả của các giao dịch sẽ tăng quả. Hai yếu tố sẽ cho phép người dân của nhiều nghề để nâng cao hiệu quả công việc của họ đáng kể. Từ [6, 15], chúng tôi biết rằng có một số regularities của impulses vị trí của não và các môn học về kiến thức được phổ biến cho tất cả con người, chúng tôi có thể gọi điện cho các tính năng này anthropogenic. Tuy nhiên nó được biết rằng đa số các liên kết này nên được individualistic. Vì vậy các decoder phải được cá nhân adaptive.
Đó cũng là rõ ràng rằng các hiệu quả của các decoder sẽ phụ thuộc vào các cá nhân và đào tạo của mình với nó và khả năng để tìm hiểu. Chúng tôi có thể presume này từ các thí nghiệm với các nhân giao diện đang được sử dụng để thay thế mất limbs. Con người và động vật đã có thể tập trung tinh thần trong một cách đặc biệt để di chuyển một nhân manipulator, và thậm chí tìm hiểu thực tế để kiểm soát chân tay nhân tạo và một trong những cách riêng biệt [20].
Xem xét các abovementioned chúng tôi tin rằng một nhân neural mạng - dựa trên cơ chế là giải pháp tốt nhất của một vấn đề decoder.
Decoder của quá trình học tập
1) Điểm có tọa độ ngẫu nhiên trong không gian multidimensional của GKM được chọn.
2) Nhiều tài liệu của họ có mappings trong các khu vực lân cận (Euclidian liệu đang được sử dụng) được lựa chọn và hiển thị cho một nhà điều hành của con người.
3) Nhà điều hành tập trung của mình để tâm trí cho cognitively tham dự và chủ đề liên quan đến các đối tượng trong bộ nhớ.
4) Các neuroimaging dữ liệu được thu thập bởi fMRI phần cứng trong một khoảng thời gian cụ thể.
5) Các dữ liệu được xử lý thông qua một không gian resampling và giảm tiếng ồn thuật toán nhằm cung cấp thông tin trích xuất các mẫu characterizing hiện nay iteration của đào tạo.
6) Chuẩn bị sẵn sàng dữ liệu được tải xuống vào đầu vào của các mạng neural. GKM Các tọa độ của một điểm được lựa chọn để tải xuống các kết quả đầu ra do đó đào tạo neural mạng lưới liên kết cụ thể kích hoạt các mẫu não GKM với tọa độ.
Hình 3,1 Quá trình đào tạo của các decoder
In such way an individualistic decoder may be trained not only for human <-> KRS interaction but basically human <-> any mechanism interaction. It is known [6, 14] that, there are certain anthropogenic regularities of brain mapping, ie in our case it is possible to generalize the linkage of neuroimaging patterns with GKM coordinates over different operators. To make use of it, special ‘anthropogenically pre-trained’ neural nets may be used. These basic networks are to be prepared through massive collective learning of the same decoder involving a big number of human operators. This will significantly reduce the training time compared to randomly initiated neural network. It might likely occur that it is worthwhile to create different pre-trained decoders for people from different cultural/social/educational clusters. It also remains to be found of how much use the decoder is going to be for immediate use without individual training.
4. Conclusions
In this paper we have aimed to pursue a target-oriented approach to the problem of research and development of the next generation Knowledge Representation Systems. As a result, innovative concepts have been proposed for both data storage and interface parts of an idealistic KRS.
The concept of the Global Knowledge Map is an idea of multidimensional homogeneous mapping space as an addressing mechanism enabling easy information retrieval and relevance calculation for the information units stored in heterogeneous data warehouses such as WWW , ontologies etc. There have been multiple works on this issue trying to elaborate both visual and semantic mappings of massive documents collections as described in corresponding surveys [2, 9, 29, 34]. However no single concept has found wide application until now. The reasons we believe, along with calculation and implementation difficulties, have roots in the shortcomings of the proposed models. Most mapping models use 2D or 3D space whereas there are theoretical grounds mentioned in this paper which allow us to argue that low dimensional space mapping is not appropriate for real word application . Consequently, here we propose a concept of self-organising multidimensional Global Knowledge Map. The means for automated construction of such unified mapping space are proposed employing the principles of unsupervised extraction and dimensionality reduction techniques. A model for experimental evaluation of described system is proposed.
A possibility of direct human – KRS interface scheme have been concurrently studied. It was revealed that the current stage at which the area of Brain Computer Interfaces potentially allows the construction of such direct chain from the point of view of information request. A concept of learnable decoder applying neuroimaging hardware and neural network based converter is proposed.
The issue of psychological concerns, individual and social impact that might be caused by the technologies proposed was not examined. It is obvious that certain approaches such as brain computer interfaces might, when implemented, violate individual privacy and cause unexpected after-effects. Therefore this is a subject for careful study by researchers in corresponding fields.
There are multiple assumptions and blank spots in the model described. Undoubtedly it must be evaluated through experiments, elaborated and improved with appropriate techniques. This will demand collaborative research and development involving researchers and organisations of various fields. Moreover, there are certain technology barriers to overcome in order to build a described system. Such as: calculation complexity in the case of unsupervised knowledge mapping; a matter of low accessibility and portability of neuroimaging hardware in the case of neuroimaging – global mapping decoder. Nevertheless we believe the ideas presented would be beneficial for researchers working towards elaboration of knowledge representation systems of the next generation.
References
[1] J. Allan et al, Challenges in information retrieval and language modeling: report of a workshop held at the center for intelligent information retrieval, University of Massachusetts Amherst, September 2002, ACM SIGIR Forum 37 (1) (2003) 31-47.
[2] A. Becks , S. Sklorz , M. Jarke , Exploring the Semantic Structure of Technical Document Collections, in: Proceedings Cooperative Information Systems, 7th International Conference ( CoopIS 2000 ) , Eilat, Israel, 2000 , pp. 120-125.
[3] JM Carmena, MA Lebedev, CS Henriquez, MAL Nicolelis, Stable ensemble performance with single neuron variability during reaching movements in primates , Journal of Neuroscience 25 (46) (2005) 10712-10716.
[4] S. Cheng, Y. Wang, Z. Wu, Provable Dimension Detection using Principal Component Analysis, in: Proceedings of the twenty-first annual symposium on Computational geometry , Pisa, Italy, 2005, pp. 208-217.
[5] N. Choi, I. Song, H. Han, A Survey on Ontology Mapping, ACM SIGMOD Record, 35 (3) (2006), 34-41.
[6] D. Cox, R. Savoy, Functional magnetic resonance imaging (fMRI) “brain reading”: detecting and classifying distributed patterns of fMRI activity in human visual cortex, Neuroimage 19 (2003) 261-270.
[7] S. Dasgupta, A. Gupta, An elementary proof of a theorem of Johnson and Lindenstrauss, Random Structures and Algorithms, 22 (1) (2003) 60 – 65.
[8] C. Ding, X. He, K-means Clustering via Principal Component Analysis, in: Proceedings of International Conference in Machine Learning (ICML 2004), Banff , Canada , 2004, pp. 225-232.
[9] M. Dodge , Mapping the World-Wide Web, in: Preferred Placement: The Hit Economy, Hyperlink Diplomacy, and Web Epistemology, Symposium of the Design & Media Research Fellowship, Jan Van Eyck Akademie, Amsterdam, Netherlands, 1999, pp. 81-98.
[10] J. Dolling, Commonsense Ontology and Semantics of Natural Language, Zeitschrift für Sprachtypologie und Universalienforschung (STUF) 46 (2) (1993) 133–141.
[11] O. Etzioni, M. Cafarella, D. Downey, A. Popescu, T. Shaked, S. Soderland, D. Weld, A. Yates, Unsupervised named-entity extraction from the Web: An experimental study. Artificial Intelligence 165 (2005) 91-134.
[12] C . Fellbaum , WordNet: An Electronic Lexical Database, The MIT Press, Cambridge , MA , USA , 1998.
[13] J. Ford, F. Makedon, T. Steinberg, C. Owen, S. Johnson, A. Saykin, Stimulus tracking in Functional Magnetic Resonance Imaging (fMRI), in: Proceedings of the sixth ACM international conference on Multimedia , Bristol, UK, 1998, pp. 445-454.
[14] J. Haynes, G. Rees, Predicting the stream of consciousness from activity in human visual cortex, Current Biology, 15 (2005) 1301-1307.
[15] J. Haynes, G. Rees , Decoding mental states from brain activity in humans , Nature Reviews Neuroscience 7 (7) (2006) 523-534 .
[16] M. Hertzum , E. Frokjaer , Browsing and Querying in Online Documentation: A Study of User Interfaces and the Interaction Process , ACM Transactions on Computer-Human Interaction, 3 (2) (1996) 136-161.
[17] Y. Kalfoglou, M. Schorlemmer, Ontology mapping: the state of the art, The Knowledge Engineering Review 18 (1) (2003) 1-31.
[18] P. Kay, W. Kempton, What is the Sapir-Whorf Hypothesis? American Anthropologist 86 (1) ( 1984) 65-79.
[19] K. Lagus, S. Kaski, T. Kohonen, Mining massive document collections by the WEBSOM method, Information Sciences 163 (1-3), Special issue on Soft computing data mining (2004) 135-156.
[20] M. Lebedev, M. Nicolelis, Brain-machine interfaces: past, present and future, Trends in Neurosciences 29 (9) (2006) 536-546.
[21] X. Li, P. Morie, D. Roth, Semantic Integration in Text: From Ambiguous Names to Identifiable Entities , AI Magazine, Special Issue on Semantic Integration 26 (1) (2005) 45-68.
[22] D. Marker, Model Theory: An Introduction, Springer-Verlag, International, 2002.
[23] C. Matuszek, M. Witbrock , R. Kahlert, J. Cabral, D. Schneider, P. Shah and D. Lenat . Searching for Common Sense: Populating Cyc from the Web, in: Proceedings of the Twentieth National Conference on Artificial Intelligence, Pittsburgh , Pennsylvania , USA , 2005, pp. 1430-1435.
[24] D. Millard, M. Ross , Web 2.0: Hypertext by Any Other Name, in: Proceedings of ACM Conference on Hypertext and Hypermedia 2006, Odense , Denmark , 2006, pp. 27-30.
[25] L. Morgenstern, Knowledge Representation and commonsense reasoning: Reviews of four books. Artificial Intelligence (170) (2006) 1239-1250.
[26] J. Munkres, Topology, 2nd edition, Prentice Hall, International, 2002.
[27] I. Niles , A. Pease, Towards a Standard Upper Ontology, in: Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), Ogunquit , Maine , USA , 2001, pp. 17-19.
[28] Late of Clare Hall, Cambridge University , 2003.
[29] F. Rossi, V isualization methods for metric studies, in: Proceedings International Workshop on Webometrics, Informetrics and Scientometrics & Seventh COLLNET Meeting , Nancy , France ( 2006 ), pp. 356-366.
[30] D. Roy, E. Reiter, Connecting language to the world, Artificial Intelligence 167 (1-2), Special volume on connecting language to the world (2005) 1-12.
[31] F. Sebastiani, M achine learning in automated text categorization, ACM Computing Surveys (CSUR), 34 (1) (2002) 1-47.
[32] U. Seiffert , B. Michaelis , Growing 3D-SOM’s with 2D-input layer as a classification tool in a motion detection system , in: Proceedings International Conference on Engineering Applications of Neural Networks (EANN ’96), Abo Akademis Tryckeri, Turku , Finland , 1996 , pp. 351-354 .
[33] J. Sowa, Knowledge Representation. Logical, Philosophical and Computational Foundations, Brooks/Cole, Pacific Grove , CA , USA , 2000.
[34] T. Villmann et al, Theory and Application of Neural Maps, in: Proceedings European Symposium on Artificial Neural Networks (ESANN’2004), Bruges , Belgium , 2004, pp. 25-38.
[35] A. Zanasi, Text Mining and its Applications to Intelligence, CRM and
Knowledge Management, WIT Press, Southampton , UK , 2005.
Share This



































Recent Comments