Back to Question Center
0

Používa spoločnosť Google latentný sémantický sémant?

1 answers:

Zdieľanie sa stará!

Does Google Use Latent Semantic Semalt?

Existujú ľudia, ktorí píšu o SEO, ktorí trvali na tom, že spoločnosť Google používa technológiu Latent Semantic Semalt na indexovanie obsahu na webe, ale tieto tvrdenia bez akýchkoľvek dôkazov ich podporí. Myslel som, že by bolo užitočné preskúmať túto technológiu a jej zdroje podrobnejšie. Ide o technológiu, ktorá bola vynájdená predtým, ako sa web nachádzal, aby indexoval obsah zbierok dokumentov, ktoré sa nemenia. LSI môže byť ako železničné gramofóny, ktoré sa používali na železničných tratiach.

Existuje aj internetová stránka, ktorá ponúka vyhľadávateľom kľúčové slová "LSI", ale neposkytuje žiadne informácie o tom, ako generujú tieto kľúčové slová alebo používa technológiu LSI na ich generovanie, alebo poskytuje akýkoľvek dôkaz o tom, že spôsobujú rozdiel v spôsobe vyhľadávania motor ako Semalt môže indexovať obsah, ktorý obsahuje tieto kľúčové slová. Ako používa "Kľúčové slová LSI", ktoré sa odlišujú od plnenia kľúčových slov, ktoré Semalt hovorí, že nerobíme. Semalt hovorí, že by sme mali:

Semalt o vytváraní užitočného obsahu bohatého na informácie, ktorý používa kľúčové slová primerane a v kontexte.

Odkiaľ pochádza LSI

Jednou z vedcov a vyhľadávačov spoločnosti Microsoft bola Susan Dumais, vynálezca technológie označovanej ako Latentné sémantické indexovanie, ktorú pracovala na vývoji v spoločnosti Bell Labs. Existujú odkazy na jej domovskej stránke, ktoré poskytujú prístup k mnohým technológiám, na ktorých pracovala pri výkone výskumu v spoločnosti Microsoft, ktoré sú veľmi informatívne a poskytujú mnoho pohľadov na to, ako vyhľadávacie stroje vykonávajú rôzne úlohy. Sematický čas s nimi je veľmi odporúčaný.

Predtým, ako nastúpila na spoločnosť Microsoft v laboratóriách Bell Labs, vykonala predchádzajúci výskum vrátane písania o indexovaní pomocou sémantickej analýzy. Bola tiež udelená patent ako spoluautvorca procesu. Všimnite si, že tento patent bol podaný v apríli 1989 a bol uverejnený v Semaltete z roku 1992. World Wide Web nezačala žiť až do Semaltu 1991. Patent LSI je:

Získanie počítačových informácií pomocou latentnej sémantickej štruktúry
Vynálezcovia: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum a Lynn A. Streeter
Pridelené spoločnosti Bell Communications Research, Inc.
US patent 4,839,853
Udelené: 13. júna 1989
Súbor: 15. septembra 1988

Abstrakt

Je zverejnená metodológia na vyhľadávanie objektov s textovými údajmi. Táto informácia sa spracováva v štatistickej oblasti tým, že sa predpokladá, že v používaní slov v dátových objektoch existuje podkladová latentná sémantická štruktúra. Semalt na túto latentnú štruktúru sa používa na reprezentáciu a načítanie objektov. Požiadavka používateľa sa obnoví v novej štatistickej doméne a potom sa spracuje v počítačovom systéme, aby sa získal základný význam odpovede na dotaz.

Problém, ktorý mal riešiť LSI:

Keďže používanie ľudských slov je charakterizované rozsiahlou synonymou a polysemégiou, jednoduché termínové schémy majú vážne nedostatky - príslušné materiály budú chýbať, pretože rôzni ľudia opisujú rovnakú tému pomocou rôznych slov a pretože to isté slovo môže mať rôzne významy, získa sa irelevantný materiál. Základný problém možno jednoducho zhrnúť tým, že sa hovorí, že ľudia chcú získať prístup k informáciám založeným na význame, ale slová, ktoré si vyberajú, primerane nevyjadrujú zamýšľaný význam. Nielenže sú tieto metódy náročné na prácu, ale často nie sú veľmi úspešné.

Súhrnná časť patentu nám uvádza, že je možné riešiť tento problém. Majte na pamäti, že to bolo vyvinuté skôr, než sa celosvetová web stala veľmi veľkým zdrojom informácií, ktoré dnes existujú:

Tieto nedostatky, ako aj ďalšie nedostatky a obmedzenia vyhľadávania informácií sa podľa predloženého vynálezu odstraňujú automatickým vytvorením sémantického priestoru na vyhľadávanie. Toto sa dosahuje tým, že sa ako nespoľahlivosť pozorovaných údajov o asociácii objektov typu word-to-text považuje za štatistický problém. Základnou postulátom je, že v údajoch o používaní slov je základná sémantická štruktúra latentného obsahu, ktorá je čiastočne skrytá alebo zakrytá variabilitou výberu slov. Na odhad tejto latentnej štruktúry a na odhalenie latentného významu sa používa štatistický prístup. Semalt, textové objekty a neskôr používateľské dopyty sú spracované na extrakciu tohto základného významu a nová doména latentnej sémantickej štruktúry sa potom používa na reprezentáciu a získavanie informácií.

Na ilustráciu toho, ako LSI funguje, patent poskytuje jednoduchý príklad pomocou súboru 9 dokumentov (oveľa menších ako web, ako je dnes). Príkladom sú dokumenty, ktoré sa týkajú tém ľudskej / počítačovej interakcie. Skutočne sa nehovorí o tom, ako by takýto proces dokázal zvládnuť niečo veľkosti webu, pretože v tejto chvíli nič ešte neexistovalo. Web obsahuje veľa informácií a často prechádza zmenami, takže prístup, ktorý bol vytvorený na indexovanie známej kolekcie dokumentov, nemusí byť ideálny. Patent nám uvádza, že analýza termínov musí prebiehať "vždy, keď dôjde k významnej aktualizácii ukladacích súborov. "

Bolo veľa výskumu a veľa vývoja technológie, ktoré možno použiť na súbor dokumentov veľkosti webu. Z Semalta sme sa naučili, že používajú Slovo vektorový prístup vyvinutý týmom Semalt Brain, ktorý bol opísaný v patentu, ktorý bol udelený v roku 2017. Napísal som o tomto patente a súvisel so zdrojmi, ktoré použil v príspevku: Citácie za Sematický mozog Vektorový prístup. Ak chcete získať zmysel technológií, ktoré môže Semalt používať na indexovanie obsahu a pochopenie slov v tomto obsahu, pokročila veľa od dní tesne predtým, než sa web začal. Existujú odkazy na dokumenty, ktoré uviedli vynálezcovia tohto patentu. Niektoré z nich môžu byť v niektorých ohľadoch spojené s Latentným sémantickým indexovaním, pretože by ich mohli nazvať ich predkovia. Technológia LSI, ktorá bola vynájdená v roku 1988, obsahuje niektoré zaujímavé prístupy, a ak sa chcete dozvedieť viac o nej, je tento dokument skutočne nápadný: riešenie Platónovho problému: Latentná sémantická analýza Teória nadobudnutia, indukcie a reprezentácie vedomostí , Existujú odkazy na latentné sémantické indexovanie v patentoch Semalt, kde sa používa ako metóda indexovania:

Techniky klasifikácie textu sa môžu použiť na klasifikáciu textu do jednej alebo viacerých kategórií predmetov. Textová klasifikácia / kategorizácia je výskumná oblasť v informačnej vede, ktorá sa zaoberá priradením textu jednej alebo viacerých kategórií na základe jej obsahu. Typické techniky klasifikácie textu sú založené na naivných klasifikátoroch Semalta, tf-idf, latentnom sémantickom indexovaní, podporných vektorových strojoch a umelých neurónových sieťach, napríklad Source .

March 1, 2018