Ideaal Knowledge Representation System of Global Knowledge Kaart
Naar idealistische Knowledge Representation System: Global Knowledge Kaart
Taras Filatov
Abstract
Een van de belangrijkste problemen die remt de verdere ontwikkelingen op het gebied van kennis Vertegenwoordiging en Kunstmatige Intelligentie is een probleem van semantische aanpassing of kennis in kaart brengen. elaborated through unsupervised extraction of dependencies from large documents corpus , is proposed. De voortgang in de oplossing wordt sterk gunstig zijn voor de taken van information retrieval, ontologie aanpassing, relevantie berekening, tekst inzicht enz. In het papier van het concept van de multidimensionale Global Knowledge kaart, uitgewerkt door unsupervised extractie van afhankelijkheden van grote documenten corpus, wordt voorgesteld . Bovendien wordt het probleem van de rechtstreekse Human - Knowledge Representation System Interface is gericht en een concept van adaptieve decoder voor het doel van de interactie met de eerder beschreven verenigd mapping model. In combinatie van deze twee benaderingen worden voorgesteld als basis voor een ontwikkeling van een nieuwe generatie van kennis vertegenwoordiging systemen.
Trefwoorden: kennisrepresentatie, in kaart brengen van kennis, menselijk computer interactie, ontologie aanpassing, bovenste ontologie, relevantie berekening, informatie opvragen, document gelijkenis
1. Inleiding
In de samenleving, het gebied van kennis vertegenwoordiging werd aanzienlijk meer dan vorig jaar [25]. Mensen altijd geprobeerd om te studeren en te classificeren de kennis over kennis. We kunnen referenties uit zo vroeg Socrates op de vijfde eeuw voor Christus [33] aan de bloei van logica en epistemologie [28] in de middeleeuwen. Aangezien het probleem werd beschouwd als belangrijk in het verleden, is het moeilijk te overschatten haar zin in het tijdperk van informatie.
Moderne technologieën hebben bedeeld mensheid met buitensporige overstromingen van gegevens die zijn moeilijk te systematiseren en te verwerken. Voor een persoon tot een specialist in een bepaald gebied het duurt jaren van leren en vereist een latere informatieve race te houden met de nieuwste professionele ontwikkelingen.
Het is een populaire gedachte bij kennis ingenieurs en data mining specialisten die informatie beschikbaar in open toegang is genoeg om waarheidsgetrouwe feiten over vrijwel elk aspect van ons leven en zelfs voorspellen toekomst. Het enige probleem op te lossen is een intelligente verwerking van de informatie uit vele bronnen. [35].
Deze factoren de vraag naar nieuwe generatie van kennis representatie systemen te helpen de mensheid te systematiseren, toegang en gebruik maken van haar collectieve kennis.
In de huidige papieren wij voor ideeën voor de ontwikkeling van een nieuw tijdperk Kennisrepresentatie Systeem (KRS).
Wij zijn van mening dat de recente successen in bepaalde gebieden en wetenschappen zal binnenkort leiden tot een enorme doorbraak in de reikwijdte van de menselijke kennis vertegenwoordiging en mens-computer interactie. Dit opent nieuwe perspectieven en verhogen de effectiviteit van de menselijke arbeid in vele toepassingen. Het enige dat moet worden gedaan is om deze resultaten samen.
Ideaal KRS moet een gebruiker met een gemakkelijke toegang tot alle kennis van de mensheid. De elementen zijn dus:
- een mens die wil om toegang te krijgen tot sommige stukken van de kennis die hij / zij geïnteresseerd is in,
- een data-opslag en
- de intermediair systeem om interface voor een mens om toegang te krijgen tot kennis.
De belemmeringen die zich hier wordt veroorzaakt door beperkingen van de menselijke capaciteiten en de huidige technologische niveau.
2. Gegevensopslag
2.1 Staat van de kunst
Kennis representatie vereist de opslag van gegevens, tenzij zij in staat is om de nodige documenten uit externe bronnen in realtime. We kunnen schetsen twee winnende benaderingen voor een ideale KRS van tegenwoordig: gestructureerde handmatig beheerd Global Knowledge opslagplaatsen zoals ontologieën en systemen waarbij automatische indexering en ophalen van de meest volledige en toegankelijke ruwe documenten collectie (World Wide Web), zoals zoekmachines. Het probleem van de eerste benadering is in haar handboek aard - alle pogingen tot het creëren en handhaven van de wereldwijde menselijke kennisbasis zal resulteren in een compromis tussen het detail, actualiteit en bruikbaarheid. ], UFO (Unified Framework Ontology) Niettegenstaande er meerdere succesvolle bovenste ontologie projecten zoals cyc [23], WordNet [12], DNS, etc SUMO en lopende theoretische discussies zolang het onderzoek gericht op het uitwerken van een gestandaardiseerde verenigde wereldwijde ontologie onder de namen van de SUO (Standard Upper Ontology ) [27], UFO (Unified Framework Ontologie) enz.
De tweede benadering is historisch heersen als gevolg van WWW is de grootste, volledig en up-to-date corpus van gegevens die beschikbaar zijn voor de automatische verwerking tegenwoordig. Maar in tegenstelling tot de eerste benadering, de problemen van geautomatiseerde informatie ophalen spelen een belangrijke rol. De problemen van de tekst begrijpen en natuurlijke taal verwerking zijn een van de meest uitdagende in AI en toch nog steeds zonder efficiënte oplossing. The second approach (automated indexing) therefore has major lacks in the accuracy of retrieval. Aangrenzend zijn de problemen van de indeling en relevante berekening, het zogenaamde 'web clustering' probleem [1]. De tweede benadering (automatische indexering) heeft daarom grote mist in de nauwkeurigheid van het opvragen.
Er zijn voortdurende inspanningen op om de verbeteringen van de bovengenoemde benaderingen om deze problemen op te lossen. Bijvoorbeeld, samen met uniforme grondslag ontologie projecten (SUO, BULO) zijn er een aantal pogingen te ontwikkelen ontologie aanpassing en ontologie mapping technieken om bestaande ontologieën samen met elkaar en met andere vormen van kennisbanken [5, 17]. Er wordt vaak voorgesteld om de tekortkomingen van handmatige administratie in geval van ontologieën door middel van geautomatiseerde informatie opvragen (zoekmachine technologieën). Van de andere kant, een betere hypertekst normen worden ontwikkeld om mogelijk om handmatig informatie te helpen zoekmachines begrijpen commonsense zin van de WWW-documenten en hyperlinks tussen hen [24]. Het is noodzakelijk te begrijpen dat deze hybride oplossingen dragen de tekortkomingen van de bijbehorende technieken samen met voordelen.
Een tekortkoming verenigt deze benaderingen en hun integratie onmogelijk maakt: er is geen standaard in kaart brengen en tot oprichting van de betrekkingen tussen de documenten en concepten in verschillende systemen. Het probleem zou worden opgelost in het geval een van de systemen met vaste mathematisch interpreteerbaar hiërarchie zoals ontologieën overwint de bestaande aanpak (WWW). Toch lijkt dit onwaarschijnlijk vanwege bovengenoemde redenen. Onafhankelijke tussenpersoon norm is een mogelijke oplossing voor dit probleem. Er zijn meerdere initiatieven op de richting van het koppelen en wederzijdse kartering van kennisbanken van verschillende soorten waarvan er een ruimte van ontologie mapping. De initiatieven hebben een gemeenschappelijke tekortkoming: geen enkele norm van mapping en tot oprichting van de betrekkingen tussen documenten. Vervolgens heeft geen van hen zal waarschijnlijk een alom erkende norm, tenzij een meer duurzame oplossing is ontwikkeld.
2.2 Het concept van een Global Knowledge Map (GKM)
Wij geloven dat het mogelijk is om een uniforme standaard voor de kennis in kaart brengen door een logische opbouw van de ruimte met het oog op de projectie van de echte wereld kennis concepten. Een dergelijk model (laten we het Global Knowledge Map) moet een weerspiegeling zijn van soortgelijkheid van documenten en concepten in kaart gebracht op het.
Belangrijkste doel van het model is:
- Aanpassing en de randvoorwaarden in kaart brengen van de documenten en concepten (WWW, ontologieën, e-bibliotheken, mappen, enz.)
- Informatie opvragen via het browsen
- Nauwkeurige automatische berekening van commonsense relevantie
GKM vereist derhalve een wiskundig / logisch model van de kennis-opslag met een specifieke voorwaarde: dat optimaal is voor de taak van de kennis vertegenwoordiging dwz interactie met de mens. Voor de vervulling van deze voorwaarde het model moet weerspiegelen in haar dimensionaliteit of in de structuur van de structuur van de menselijke kennis.
De eisen zijn dus:
- Dimensionaliteit en mapping.
De belangrijkste factor voor de dimensionaliteit is de zin (of een onderwerp).
- Elk concept van de menselijke kennis kan worden toegewezen op een punt met een specifieke coördinaten in de ruimte.
- Elk document of tekst kan worden toegewezen op een aantal punten (document is verdeeld in memes - zinvolle stuks) of een punt.
- Relevantie berekening.
- Het is mogelijk wiskundig te berekenen relevantie tussen twee begrippen door het berekenen van de afstand tussen hun overeenkomstige projectie in de ruimte.
- Het is dus mogelijk voor de berekening van 'gelijkenis' tussen de documenten en concepten door het berekenen van de afstand tussen hun mappings.
- Homogeniteit van de ruimte.
- De ruimte is uniform (homogene) en continu
- Coördinaten afspiegeling van de betekenis en de afstanden tussen de punten met het verschil in betekenis, zodat als de letter C is gelegen tussen A en B dan betekent het begrip C is gerelateerd aan zowel A en B even.
- Het is mogelijk om te 'bladeren' de ruimte die het vinden van de kennis bronnen toegewezen aan de aangrenzende gebieden.
Bouwen aan een wiskundig model van een dergelijke ruimte kan de ontwikkeling van Global Knowledge Map. Het is niet de moeite waard te proberen om een dergelijk model (GKM) in een manuele manier vanwege bovengenoemde redenen van de groei en de voortdurende veranderingen in het menselijk begrip van de wereld. Wij geloven dat het mogelijk is om afhankelijkheden en regels van de beschikbare corpuses van teksten en deze gebruiken als verwerkers voor onze mapping doeleinden.
De hoeksteen van onze uitgangspunten is dat het meestal mogelijk om verschillende menselijke kennis onderwerpen op enkele spatie en de afstanden binnen de dimensionaliteit van de laatstgenoemde op een mate van gelijkenis tussen bepaalde onderwerpen. Deze veronderstelling is gebaseerd op Johnson-Lindenstrauss Lemma wordt verklaard dat een reeks van n punten in hoog dimensionale Euclidian ruimte kan worden toegewezen aan een N-dimensionale ruimte Euclidian
(2,1)
zodanig dat de afstand tussen twee willekeurige punten veranderingen door slechts een factor (1
) [7]. De Vector Space Model gebruikt in Information Retrieval and Tekst Categorization vertegenwoordigt documenten zo hoog dimensionale vectoren [31]. Deze vectoren bevatten bepaald niveau (afhankelijk van een metrische functie gekozen) van informatie die is genoeg om het onderwerp van het oorspronkelijke document.
De Tychonoff's theorema [26] stelt dat de punten, die de eigenschappen van objecten van een klasse, moet zich dichter bij elkaar in het pand ruimte dan aan de punten die de eigenschappen van voorwerpen van andere klassen. of compactness [22] the mapping will be achieved where the distances between points represent the relevance of the corresponding documents. In onze taak is dit de oorspronkelijke vectorruimte van n teksten kunnen worden geprojecteerd op vaste N-dimensionale ruimte en met behulp van een geschikte algoritme voor data compressie / dimensionaliteit daling te wijten aan het theorema van compactheid [22] het in kaart brengen zal worden bereikt wanneer de afstanden tussen punten vertegenwoordigen de relevantie van de bijbehorende documenten.
Factoren die van invloed zijn op de nauwkeurigheid van de kaarten:
- representativiteit van de metrische functie en de omvang van de functie ruimte
- grootte, dispersiteit en de kwaliteit van de documenten corpus
Op voorwaarde dat de theorie van toepassing is in de huidige omstandigheden nog worden gevonden die technieken worden gebruikt voor de uitwerking van het in kaart brengen. Wij stellen voor om zich te concentreren op automatische wijze te wijten aan veel complicaties maken handleiding expert-based mapping niet van toepassing is.
2.3 Automatische GKM generatie via unsupervised extractie (hypothese)
Met het oog op nuttige GKM bevat afbeeldingen van aanzienlijk aantal echte woord (WWW) documenten en in zijn structuur vertegenwoordigen de gemeenschappelijke menselijke begrip van de wereld. Het is niet de moeite waard dus om na te denken over manieren handleiding van de schepping van GKM en vullen met document mappings. De data mining principes moeten worden gebruikt om afhankelijkheden die de kennis van het bestaande corpus van documenten die beschikbaar zijn voor de computer verwerken en filteren onnodige gegevens.
Er zijn talrijke pogingen voor unsupervised winning van afhankelijkheden in teksten, maar er is nog steeds een dubieuze vraag of een bepaalde techniek is in staat om een duurzame winning van kennis door de analyse van grote verzameling documenten [10, 11, 21, 30].
Laten we het verdelen van de factoren die in het algemeen van invloed op de inhoud van de documenten in drie categorieën:
- Auteurs persoonlijke factoren (gevoelens en motieven om de tekst, fysieke en morele bepaalt tijdens het denken en schrijven)
- Taal (de regels, enz. van de taal gebruikt voor het schrijven van het document)
- Kennis (bepaalde delen van menselijke kennis auteur zendt rechtstreeks of impliciet in het document)
Laten we veronderstellen is het mogelijk om alle beschikbare tekstdocumenten van menselijke auteurs en extract alle afhankelijkheid regels. In dit geval is de invloed van de factor 1 zal minimaal zijn. De invloed van de factor 2 is niet van veel belang is te wijten aan het volgende:
a) documenten in meerdere talen kan worden geïndexeerd, dus samengebouwd het verminderen van de invloed
b) de taal zelf weerspiegelt de menselijke kennis [18], dus in zekere mate de factor 2 is een subfactor van 3 en zelfs de winning van hun mengsel vertegenwoordigt een bevredigende prestatie
Het is theoretisch mogelijk daarna om info meestal overeenkomt met de menselijke kennis blootgesteld door de beschikbare documenten. Deze info omgevormd tot het in kaart brengen van de ruimte zal hypothetisch ons met duurzame GKM.
2.4 Implementatie (experiment)
In de ruimte gebouwd elk document moet worden toegewezen aan een enkele coördineren. De 'bladeren' van de ruimte of afstanden vergelijking moet blijken dat de situatie van de documenten of hun clusters weerspiegelen hun belang en dat het mogelijk is om bepaalde thema namen aan specifieke coördinaten in de ruimte.
Onze experimenten van het gebruik van 2 en 3 dimensionale Kohonen SOM met een lokale verzamelen van de documenten blijkt dat de afstanden tussen de prognoses van documenten zijn niet stabiel in de hele reeks lanceringen. Dit in onze ogen is het bewijs van het feit dat de dimensies van de kaart onvoldoende is die voldoet aan de Johnson-Lindenstrauss Lemma bovengenoemde.
Helaas is het onmogelijk om de uitvoering van het experiment met een goede dimensionaliteit. Bijvoorbeeld, volgens Johnson-Lindenstrauss Lemma, om 20.000 documenten waardoor 10% fout zal vereisen 58 dimensies. Dit vereist berekeningen die hierboven moderne computers "capaciteit.
Het belangrijkste om te vermelden is dat, terwijl Lemma geeft een maximale dimensies van de kaart brengen van de ruimte mogelijk maakt om te voldoen aan de voorwaarde van enkele projectie, is het niet nodig de minimale effectieve waarde. Lemma geeft een waarde voor een reeks van n punten dus voor het slechtste geval, dat waarschijnlijk niet zal verschijnen in de praktijk. De methoden voor detectie dimensionaliteit moet worden gebruikt voor het berekenen van een effectieve dimensionaliteit van de gegevens en dus het bepalen van de juiste nummer van de afmetingen voor het in kaart brengen van bepaalde gegevens. Er zijn bekende technieken voor deze die afkomstig zijn van de achtergrond van het oppervlakte-reconstructie. Een van de laatste is het werk door S. Cheng, Y. Wang en Z. Wu [4] waar dimensie detectiemethode via Hoofdcomponentenanalyse Analyse [8] is gepresenteerd. Zo is de intrinsieke dimensionaliteit van de gegevens kan worden gewonnen. Als deze waarde in de praktijk lager is dan de maximale dimensionaliteit die nodig zijn voor de projectie van hetzelfde aantal documenten in het slechtste geval theoretisch geval, geeft dit een aanzienlijke vermindering in de berekening van de tijd. Als alternatief voor hetzelfde doel kunnen we de methoden op basis van iteratieve evaluaties. Het doel van dimensionaliteit daling in ons geval is de vaststelling van een effectief in kaart brengen waar de commonsense gelijkenis tussen informatieve bronnen wordt uitgedrukt door middel van Euclidian afstand tussen projectie punten. Het nemen van dimensionaliteit vermindering techniek gebaseerd op willekeurige selectie uit de input van gegevens (zoals Hoofdcomponentenanalyse Analyse, Self Organising Maps, Sammon reconstructie of triangulatie), in het geval wanneer de output dimensionaliteit lager is dan van toepassing, de projecties wordt instabiel en bij elke herberekening het in kaart brengen zal verschillen en de afstanden tussen de projecties niet zal behouden. We kunnen ook aannemen dat wanneer de effectieve dimensionaliteit van de input verzamelleiding wordt gebruikt voor het in kaart brengen, de afstanden zullen met een zekere mate van vrijheid afhankelijk van dimensionaliteit vermindering methode gebruikt. Een alternatieve oplossing is dus een willekeurige selectie dimensionaliteit vermindering techniek gecombineerd met incrementele dimensionaliteit parallelle evaluatie van het in kaart brengen. 32]. Denk bijvoorbeeld aan de techniek van het groeiende Soms beschreven in [19, 32]. Gericht op het verminderen berekening tijd, het aantal knooppunten is fors gestegen met nieuwe knooppunten wordt gelijkmatig verdeeld tussen de oude en hun gewichten vectoren wordt vastgesteld aan de hand van de aangrenzende oorspronkelijke gewichten vectoren. Dezelfde techniek toegepast op dimensionaliteit (D) zou een goede gelegenheid om te evalueren elke D stap voor stap. Evaluatiecriteria zou de stabilisatie van de afstand tussen de projecties. Voor dit doel twee of meer zelf organiseren kaarten kunnen worden gebruikt in parallel met paarsgewijze afstanden tussen bepaalde projecties worden vergeleken op elke iteratie. Onder stopcriterium hier begrijpen we het stadium van de dimensionaliteit van de SOM werd verhoogd en het netwerk is dus gestabiliseerd met de nieuwe parameters.
Samenvatting van de bovengenoemde wij voor het volgende model voor de experimentele evaluatie van de betere aanpak voor de vaststelling van de Global Knowledge Kaart uit de collectie van tekstdocumenten.
De datase t: vectorruimte model te worden gebruikt (elk document weergegeven als vector met functies als de afmetingen en kenmerken 'gelederen als coördinaten in overeenkomstige afmetingen).
Functie selectie functie: meest effectieve te bepalen.
Vector formaat: empirisch worden vastgesteld.
Gegevensverwerking en-opslag.
Een dimensionaliteit vermindering techniek moet worden gebruikt voor het in kaart brengen. Er zijn twee mogelijke benaderingen:
a) pre-berekening van de intrinsieke dimensionaliteit en evalueren van verschillende dimensies beperkingsmaatregelen met een bekende dimensionaliteit van het in kaart brengen;
b) "incrementele dimensionaliteit evaluatie aanpak 'met enkele afbeeldingen die parallel lopen - alleen de methoden met een willekeurige selectie van de gegevens kunnen worden gebruikt.
Ingangen: documenten "feature vectoren.
Uitgangen: GKM coördinaten.
Evaluatie:
1) Commonsense evaluatie van de correspondentie tussen de oorspronkelijke documenten en Euclidian afstanden in kaart brengen van hun prognoses.
2) Stabilisatie van deze paarsgewijze afstanden tussen prognoses via verschillende lanceringen in geval willekeurige selectie techniek is gebruikt.
3. Interface
3,1 Ideaal kennisrepresentatie interface
De interface deel van Knowledge Representation System is belangrijk wanneer het ideale systeem is besproken. Beide taken van het ontvangen van verzoeken van gebruikers en het doorgeven van kennis terug te zijn van even groot belang met de taken van de gegevens structureren en opslag. In de huidige papieren bespreken we de manieren naar Knowledge Systems Vertegenwoordiging van een nieuwe generatie en daarom is de kwestie van de interactie is overviewed om vast te stellen of het mogelijk is om een idealistische interface door middel van een moderne technologie.
De interfaces die worden gebruikt ter ondersteuning van de interactie van een menselijke gebruiker met moderne kennis vertegenwoordiging en information retrieval systemen zijn in hoofdzaak van 'indexering' type, dwz gebruikers precies weten wat ze zoeken en ze hebben ook te vermelden dat taalkundig. Een voorbeeld van een dergelijke interface is een zoekmachine. Zoals wij hebben gezegd, zoekmachine en het corpus van WWW-documenten is de meest complete en up-to-date kennis representatie systeem beschikbaar tegenwoordig, dit is de reden van hun populariteit. Tegelijkertijd is bekend dat de 'indexering' interface is natuurlijk niet te gebruiken voor de mens maar het is het enige alternatief als' browsen 'benaderingen worden opgezet zeer slecht [16]. De reden daarvoor is het probleem in kaart brengen van de kennis en de aanpassing die niet toestaat geautomatiseerde classificatie en de vertegenwoordiging van de documenten op basis van hun vakken. Echter met het probleem van de verenigde kennis in kaart brengen van de ruimte worden opgelost, nieuwe mogelijkheden lijken voor de bouw van een betere, meer natuurlijke interfaces van 'browsen' type.
3,2 Hoog dimensionaliteit en visualisatie
Na vermeld dat de resulterende globale mapping ruimte wordt waarschijnlijk n-dimensionale waarbij n hoog is dat het noodzakelijk is om het probleem van visuele representatie. Het is mogelijk voor mensen om te denken 3D-ruimte, dus de optimale manier van nD-> 3D-weergave te kunnen beoordelen. Dimensionaliteit technieken of meerdere vertegenwoordiging aanpak via interface kan worden gebruikt.
Het is belangrijk dat met de hulp van de eenheid van kennis in kaart brengen van de ruimte de fout is geminimaliseerd tijdens de berekening van de relevantie van documenten, en, bovendien, de ontsluiting van relevante documenten, zelfs van andere systemen wordt een triviale taak. Voor de eindgebruiker betekent dit dat wanneer het systeem is gelegen het onderwerp hij / zij geïnteresseerd is in, het zal nooit leiden gebruiker irrelevante documenten.
3.3 Informatie aanvraag keten
Wanneer de taken van de onderwerpen in kaart brengen en de locatie, de relevantie berekening en kennis ruimte browsen zijn opgelost, de belangrijkste taak die nog moet worden opgelost is het probleem van een eerste verzoek. Met state-of-the-art information retrieval systemen voor de volgende processen zijn meestal betrokken bij de informatie wordt gevraagd:
Human gedeelte: 1) Imagination -> 2) vorming van taalkundige constructies -> 3) handmatige invoer van het toetsenbord (spraak input) -> Machine deel: 4) taalkundige decodering -> 5) matching en locatie -> 6) visualisatie van bijpassende documenten
De ketting is lang en het is duidelijk dat het verlies van gegevens en de corruptie is groot als gevolg van dubbele linguïstische codering en decodering. Ten eerste, door de gebruiker is het formuleren van de cognitieve beelden in korte taalkundige zin. Ten tweede, het systeem heeft te decoderen en de zin om inzicht te krijgen in het onderwerp van de gebruiker van belang. De beschreven keten van oorspronkelijke verzoek oorzaken ontevredenheid van de gebruikers van de moderne zoekmachines te wijten aan het onvermogen van het systeem 'begrijpt' het verzoek resulteerde in geweldige tijd het verlies van de eindgebruiker. De mate van deze ophalen fouten en ongemakken veroorzaakt door interface beperking is belangrijk en sterk zal minimaliseren het effect van meer precieze ophalen en de locatie van de documenten die door de verenigde mapping.
Het is daarom noodzakelijk om, in theorie althans, de mogelijkheid van de creatie van een ideale korte keten menselijke <-> Knowledge Representation System interactie met eenheden leidt tot verlies van gegevens te worden uitgeschakeld:
Human gedeelte: 1) Imagination -> [verzoek worden doorgegeven door rechtstreekse menselijke hersenen GKM coördinaten omzettingstoestel] -> 2) de koppeling en de locatie -> 3) visualisatie van bijpassende documenten
Wij overzicht van de meest recente resultaten op het gebied van Brain Computer Interfaces (BCI) voor dit doel.
3,4 Brain-Computer Interfaces
ost significant advances in the area have been made into artificial limb control ie motoring functions of the brain [3] and the interpretation and processing of visual signals. Het onderzoek naar BCI al voor meer dan 30 jaar en het gebied is nog erg jong en ontwikkelt zich snel. Tot een recente moment m ost aanzienlijke vooruitgang in het gebied hebben plaatsgevonden in kunstmatige ledematen controle dwz autorijden functies van de hersenen [ 3] en de interpretatie en de verwerking van visuele signalen. Deze resultaten zijn geverifieerd tijdens meerdere experimenten waarbij dierlijke en menselijke proefpersonen. Onderzoekers verslag van de succesvolle integratie van mechanische of elektronische apparaten bij dieren of mensen leren om het apparaat met behulp van hun hersenen, anderen verslag succesvolle overdracht en decoderen van visuele signalen [15, 20].
Brain-computer interfaces studies zijn nauw verbonden met het gebied van functionele neuroimaging, waar de verschillende technologieën zijn ontwikkeld om effectief registreert de staten van de persoon die de hersenen door middel van bepaalde fysieke kenmerken. Meest productieve uit het oogpunt van BCI is een recent neuroimaging techniek genaamd Functional Magnetic Resonance Imaging ) (FMRI) [6, 13]. Deze techniek maakt het mogelijk om de dynamiek van de bloedstroom in de hersenen de verschillende gebieden in de tijd en met een hoge precisie. Dit laat dus om verbindingen tussen de patronen van de activering van verschillende hersenen en bepaalde activiteiten en cognitieve processen van de mens. Het is belangrijk dat deze techniek, in tegenstelling tot veel alternatieven, is niet-invasieve en geen injecties. Het is noodzakelijk om op te merken echter op dat de fMRI hardware is tegenwoordig nog steeds erg duur en onhandelbaar.
Het is veelzeggend dat de experimenten blijkt dat de hersenen zich aanpast aan de nieuwe omstandigheden. Bijvoorbeeld, wanneer de auto impulsen werden gebruikt voor de bediening van een mechanische manipulator of een computer-muis cursor, hersenen in staat was om geleidelijk differentiëren en te leren om manipulator afzonderlijk van kunstmatige ledematen. Lebedev noemt het effect van de 'brain plasticity' dat mogelijk maakt op te nemen kunstmatige hulpmiddelen in het lichaam vertegenwoordiging. [20]
Recente publicaties op het gebied van neuroimaging nog verder praten over de mogelijkheid van het opsporen van de cognitieve landen [15]. Dit bepaalt de concentratie van onze aandacht op de mogelijkheid van toepassing van BCI in menselijk KRS-interactie.
Het is bekend dat verschillende cognitieve staten in verband met bepaalde echte wereld objecten komen overeen met bepaalde patronen van hersenactiviteit gebieden activering. Decoderen van deze patronen kunnen begrijpen die bovenop gerichte stimuli een persoon is op dit moment wonen (wanneer hun aandacht is gericht) of in geval met een visuele objecten te identificeren die klasse van objecten de persoon beeldvorming (dwz gezichten, gebouwen, meubilair) en zelfs de voorwerpen 'kleur en oriëntatie. [15] Deze processen zijn complex en nog lang niet begrepen op het moment. Verdere onderzoeken blijkt hoe laag-orde en de high-order hersenen signalen correleren met bepaalde cognitieve functies, hoe de ruimtelijke kenmerken van de patronen in de tijd veranderen en onder verschillende invloeden; in welke mate het mogelijk is te extrapoleren de activatie patronen van diverse onderwerpen; enz. Het is echter van mening dat nauwkeurige kennis van de 'berekeningen' uitgevoerd in het menselijk brein is niet van cruciaal belang voor de bouw van relevante BCIs. [20] Gemeenschappelijk data mining technieken kunnen worden toegepast om nuttige informatie uit verschillende neuroimaging sensoren en vast verbindingen met bepaalde cognitieve staten.
Er zijn al belangrijke kwesties die kunnen ernstige gevolgen hebben voor het succes van het apparaat van BCI op het gebied van kennis vertegenwoordiging. Twee kleine problemen zijn generalisatie in de tijd en het probleem van de verschillende gevallen van dezelfde mentale toestand. Het is bekend dat de hersenen gebieden activatie patronen van dezelfde geestelijke staten kunnen verschillen in de tijd. Verschillende exemplaren van dezelfde mentale toestand kunnen beelden bewerkt en, afhankelijk van contextuele variaties en andere factoren. [15] Dit vereist een flexibele ruimtelijke resampling en classificatie algoritmen te gebruiken, zoals voorgesteld door Haynes en Rees. Wij geloven dat deze problemen zullen worden opgelost bij de ontwikkeling van doeltreffende technieken.
Meer dubieuze kwestie is het probleem van de extrapolatie naar nieuwe cognitieve staten. Haynes en Rees constateren dat het aantal mogelijke perceptuele of cognitieve Staten is oneindig, terwijl het aantal categorieën van de opleiding is noodzakelijkerwijs beperkt. [15] Het is dus van cruciaal belang dat de decoder kunnen worden opgeleid om te generaliseren ervaring verkregen uit kleine opleiding ingesteld op volledig nieuwe categorieën. Het zou mogelijk zijn door middel van extrapolatie als hersenen activatie patronen zijn eigenlijk geregeld in een aantal systematische parametrische ruimte. Dit moet nog worden gevonden, het is echter van mening dat mogelijk is tenminste voor sommige soorten van de geestelijke inhoud [15]. In geval abstracte vorm ruimte voor de indeling van neurale patronen inderdaad bestaat, zou het ons toe te theoretiseren over de mogelijkheden in kaart brengen van de menselijke hersenen cognitieve staten op Global Knowledge Kaart eerder beschreven in dit document. Op voorwaarde dat dit is bereikt, de bovengenoemde "probleem van de eerste aanvraag" worden opgelost en de "ideale mens <-> KRS" keten zal kunnen worden vastgesteld.
3.5 Learnable Decoder
Zoals nu bekend is dankzij de nieuwste resultaten van brain imaging dat het mogelijk is een onderscheid te maken tussen de activering van de verschillende gebieden hersenen wanneer de persoon na te denken over verschillende onderwerpen kunnen we veronderstellen dat het mogelijk is om een learnable decoder op kaart menselijke ingeleid cognitieve staten op kennis kaart van een Knowledge Representation System. Daarom is een ideale manier van mens-computer interactie kan worden vastgesteld waardoor een enorme snelheid en precisie van de communicatie met een systeem. Er zullen minder verlies van gegevens als gevolg van afschaffing van de taalkundige fase van interactie. De snelheid en de doeltreffendheid van de interactie zal stijgen dus. Deze twee factoren zullen de mensen van de verschillende beroepen te verhogen van de effectiviteit van hun werk aanzienlijk. Van [6, 15] weten we dat er bepaalde regelmatigheden van de locatie van de hersenen impulsen en de onderwerpen van de kennis die gemeenschappelijk zijn voor alle mensen, we kunnen bellen deze functies antropogene. Het is echter bekend dat de meeste van deze verbindingen moet worden individualistisch. Daarom is de decoder moeten afzonderlijk adaptief.
Het is ook duidelijk dat de efficiëntie van de decoder zal afhangen van individuele personen en hun opleiding en met het vermogen om te leren. We mogen veronderstellen dat uit de experimenten met kunstmatige interfaces worden gebruikt ter vervanging van verloren ledematen. Mensen en dieren kunnen concentreren mentaal op een bijzondere manier om een kunstmatige manipulator en zelfs leren om de echte ledematen en kunstmatige een afzonderlijk [20].
Gezien het voornoemde zijn wij van mening dat een kunstmatig neuraal netwerk - gebaseerd mechanisme is de beste oplossing van een decoder probleem.
Decoder's leerproces
1) Het punt met willekeurige coördinaten in de multidimensionale ruimte van GKM is geselecteerd.
2) Meerdere documenten die hun afbeeldingen in het aangrenzende gebied (Euclidian metrieke wordt gebruikt) zijn geselecteerd en weergegeven op een menselijke operator.
3) Exploitant concentreert zijn / haar gedachten te cognitief bijwonen het gegeven onderwerp en aanverwante objecten in het geheugen.
4) De neuroimaging-gegevens worden verzameld door fMRI hardware in een bepaalde periode van tijd.
5) De gegevens worden verwerkt door middel van een ruimtelijke resampling en ruisonderdrukking algoritme gericht om informatieve patronen die kenmerkend zijn voor het huidige iteratie van de opleiding.
6) Opgesteld gegevens worden opgehaald bij de ingangen van het neurale netwerk. De GKM coördinaten van een geselecteerd punt worden opgehaald naar de uitgangen dus de opleiding van de neurale netwerk te associëren specifieke hersenen activatie patronen met GKM coördinaten.
Figuur 3.1 Het proces van de opleiding van de decoder
In such way an individualistic decoder may be trained not only for human <-> KRS interaction but basically human <-> any mechanism interaction. It is known [6, 14] that, there are certain anthropogenic regularities of brain mapping, ie in our case it is possible to generalize the linkage of neuroimaging patterns with GKM coordinates over different operators. To make use of it, special ‘anthropogenically pre-trained’ neural nets may be used. These basic networks are to be prepared through massive collective learning of the same decoder involving a big number of human operators. This will significantly reduce the training time compared to randomly initiated neural network. It might likely occur that it is worthwhile to create different pre-trained decoders for people from different cultural/social/educational clusters. It also remains to be found of how much use the decoder is going to be for immediate use without individual training.
4. Conclusions
In this paper we have aimed to pursue a target-oriented approach to the problem of research and development of the next generation Knowledge Representation Systems. As a result, innovative concepts have been proposed for both data storage and interface parts of an idealistic KRS.
The concept of the Global Knowledge Map is an idea of multidimensional homogeneous mapping space as an addressing mechanism enabling easy information retrieval and relevance calculation for the information units stored in heterogeneous data warehouses such as WWW , ontologies etc. There have been multiple works on this issue trying to elaborate both visual and semantic mappings of massive documents collections as described in corresponding surveys [2, 9, 29, 34]. However no single concept has found wide application until now. The reasons we believe, along with calculation and implementation difficulties, have roots in the shortcomings of the proposed models. Most mapping models use 2D or 3D space whereas there are theoretical grounds mentioned in this paper which allow us to argue that low dimensional space mapping is not appropriate for real word application . Consequently, here we propose a concept of self-organising multidimensional Global Knowledge Map. The means for automated construction of such unified mapping space are proposed employing the principles of unsupervised extraction and dimensionality reduction techniques. A model for experimental evaluation of described system is proposed.
A possibility of direct human – KRS interface scheme have been concurrently studied. It was revealed that the current stage at which the area of Brain Computer Interfaces potentially allows the construction of such direct chain from the point of view of information request. A concept of learnable decoder applying neuroimaging hardware and neural network based converter is proposed.
The issue of psychological concerns, individual and social impact that might be caused by the technologies proposed was not examined. It is obvious that certain approaches such as brain computer interfaces might, when implemented, violate individual privacy and cause unexpected after-effects. Therefore this is a subject for careful study by researchers in corresponding fields.
There are multiple assumptions and blank spots in the model described. Undoubtedly it must be evaluated through experiments, elaborated and improved with appropriate techniques. This will demand collaborative research and development involving researchers and organisations of various fields. Moreover, there are certain technology barriers to overcome in order to build a described system. Such as: calculation complexity in the case of unsupervised knowledge mapping; a matter of low accessibility and portability of neuroimaging hardware in the case of neuroimaging – global mapping decoder. Nevertheless we believe the ideas presented would be beneficial for researchers working towards elaboration of knowledge representation systems of the next generation.
References
[1] J. Allan et al, Challenges in information retrieval and language modeling: report of a workshop held at the center for intelligent information retrieval, University of Massachusetts Amherst, September 2002, ACM SIGIR Forum 37 (1) (2003) 31-47.
[2] A. Becks , S. Sklorz , M. Jarke , Exploring the Semantic Structure of Technical Document Collections, in: Proceedings Cooperative Information Systems, 7th International Conference ( CoopIS 2000 ) , Eilat, Israel, 2000 , pp. 120-125.
[3] JM Carmena, MA Lebedev, CS Henriquez, MAL Nicolelis, Stable ensemble performance with single neuron variability during reaching movements in primates , Journal of Neuroscience 25 (46) (2005) 10712-10716.
[4] S. Cheng, Y. Wang, Z. Wu, Provable Dimension Detection using Principal Component Analysis, in: Proceedings of the twenty-first annual symposium on Computational geometry , Pisa, Italy, 2005, pp. 208-217.
[5] N. Choi, I. Song, H. Han, A Survey on Ontology Mapping, ACM SIGMOD Record, 35 (3) (2006), 34-41.
[6] D. Cox, R. Savoy, Functional magnetic resonance imaging (fMRI) “brain reading”: detecting and classifying distributed patterns of fMRI activity in human visual cortex, Neuroimage 19 (2003) 261-270.
[7] S. Dasgupta, A. Gupta, An elementary proof of a theorem of Johnson and Lindenstrauss, Random Structures and Algorithms, 22 (1) (2003) 60 – 65.
[8] C. Ding, X. He, K-means Clustering via Principal Component Analysis, in: Proceedings of International Conference in Machine Learning (ICML 2004), Banff , Canada , 2004, pp. 225-232.
[9] M. Dodge , Mapping the World-Wide Web, in: Preferred Placement: The Hit Economy, Hyperlink Diplomacy, and Web Epistemology, Symposium of the Design & Media Research Fellowship, Jan Van Eyck Akademie, Amsterdam, Netherlands, 1999, pp. 81-98.
[10] J. Dolling, Commonsense Ontology and Semantics of Natural Language, Zeitschrift für Sprachtypologie und Universalienforschung (STUF) 46 (2) (1993) 133–141.
[11] O. Etzioni, M. Cafarella, D. Downey, A. Popescu, T. Shaked, S. Soderland, D. Weld, A. Yates, Unsupervised named-entity extraction from the Web: An experimental study. Artificial Intelligence 165 (2005) 91-134.
[12] C . Fellbaum , WordNet: An Electronic Lexical Database, The MIT Press, Cambridge , MA , USA , 1998.
[13] J. Ford, F. Makedon, T. Steinberg, C. Owen, S. Johnson, A. Saykin, Stimulus tracking in Functional Magnetic Resonance Imaging (fMRI), in: Proceedings of the sixth ACM international conference on Multimedia , Bristol, UK, 1998, pp. 445-454.
[14] J. Haynes, G. Rees, Predicting the stream of consciousness from activity in human visual cortex, Current Biology, 15 (2005) 1301-1307.
[15] J. Haynes, G. Rees , Decoding mental states from brain activity in humans , Nature Reviews Neuroscience 7 (7) (2006) 523-534 .
[16] M. Hertzum , E. Frokjaer , Browsing and Querying in Online Documentation: A Study of User Interfaces and the Interaction Process , ACM Transactions on Computer-Human Interaction, 3 (2) (1996) 136-161.
[17] Y. Kalfoglou, M. Schorlemmer, Ontology mapping: the state of the art, The Knowledge Engineering Review 18 (1) (2003) 1-31.
[18] P. Kay, W. Kempton, What is the Sapir-Whorf Hypothesis? American Anthropologist 86 (1) ( 1984) 65-79.
[19] K. Lagus, S. Kaski, T. Kohonen, Mining massive document collections by the WEBSOM method, Information Sciences 163 (1-3), Special issue on Soft computing data mining (2004) 135-156.
[20] M. Lebedev, M. Nicolelis, Brain-machine interfaces: past, present and future, Trends in Neurosciences 29 (9) (2006) 536-546.
[21] X. Li, P. Morie, D. Roth, Semantic Integration in Text: From Ambiguous Names to Identifiable Entities , AI Magazine, Special Issue on Semantic Integration 26 (1) (2005) 45-68.
[22] D. Marker, Model Theory: An Introduction, Springer-Verlag, International, 2002.
[23] C. Matuszek, M. Witbrock , R. Kahlert, J. Cabral, D. Schneider, P. Shah and D. Lenat . Searching for Common Sense: Populating Cyc from the Web, in: Proceedings of the Twentieth National Conference on Artificial Intelligence, Pittsburgh , Pennsylvania , USA , 2005, pp. 1430-1435.
[24] D. Millard, M. Ross , Web 2.0: Hypertext by Any Other Name, in: Proceedings of ACM Conference on Hypertext and Hypermedia 2006, Odense , Denmark , 2006, pp. 27-30.
[25] L. Morgenstern, Knowledge Representation and commonsense reasoning: Reviews of four books. Artificial Intelligence (170) (2006) 1239-1250.
[26] J. Munkres, Topology, 2nd edition, Prentice Hall, International, 2002.
[27] I. Niles , A. Pease, Towards a Standard Upper Ontology, in: Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), Ogunquit , Maine , USA , 2001, pp. 17-19.
[28] Late of Clare Hall, Cambridge University , 2003.
[29] F. Rossi, V isualization methods for metric studies, in: Proceedings International Workshop on Webometrics, Informetrics and Scientometrics & Seventh COLLNET Meeting , Nancy , France ( 2006 ), pp. 356-366.
[30] D. Roy, E. Reiter, Connecting language to the world, Artificial Intelligence 167 (1-2), Special volume on connecting language to the world (2005) 1-12.
[31] F. Sebastiani, M achine learning in automated text categorization, ACM Computing Surveys (CSUR), 34 (1) (2002) 1-47.
[32] U. Seiffert , B. Michaelis , Growing 3D-SOM’s with 2D-input layer as a classification tool in a motion detection system , in: Proceedings International Conference on Engineering Applications of Neural Networks (EANN ’96), Abo Akademis Tryckeri, Turku , Finland , 1996 , pp. 351-354 .
[33] J. Sowa, Knowledge Representation. Logical, Philosophical and Computational Foundations, Brooks/Cole, Pacific Grove , CA , USA , 2000.
[34] T. Villmann et al, Theory and Application of Neural Maps, in: Proceedings European Symposium on Artificial Neural Networks (ESANN’2004), Bruges , Belgium , 2004, pp. 25-38.
[35] A. Zanasi, Text Mining and its Applications to Intelligence, CRM and
Knowledge Management, WIT Press, Southampton , UK , 2005.
Share This



































Recent Comments