Wku

Hur utforma en sökmotor för att faktiskt söka

Det finns flera enkla tekniker att utveckla en sökmotor som faktiskt söker information, i stället för bara miljontals matchande sidor. Sökningar skulle fallera att titta inom stycken / avsnitt, inte över hela sidor. Dagens populära sökmotorer är oftast primitiva ord-skannrar, vanligtvis inte söker efter delar av informationen, inte heller jaga de exakta namnen som begärts.

Steg

Hur utforma en sökmotor för att faktiskt söka. Glöm sökmotorerna idag.
Hur utforma en sökmotor för att faktiskt söka. Glöm sökmotorerna idag.
  1. 1
    Paradigmskifte. Söka efter faktisk information kräver: ett nytt sätt att tänka på att söka efter text, och nya sätt att gruppera text inom en sida: det är för primitiv för att försöka jaga informationen genom att titta på all text på en sida, avancerade tekniker behövs för att dela upp en sida till relaterade avsnitt. Precis som gruppering bokstäver i ord är ett stort steg ovan söka efter strängar med tecken / bokstäver, gruppera ord i sektioner eller stycken är nästa stora genombrott sökmotor teknik (så trivialt som det kan tyckas). Detta är en del av det paradigmskifte: i stället för att titta på en sida som en ström av tecken / bokstäver, det ses som ord, då, i stället för att titta på en sida som en ström av ord, bör det sökas som sektioner / stycken av ord.
  2. 2
    Glöm sökmotorerna idag. Glöm hur populära sökmotorer jobbet idag (2006): de är primitiva jämfört med tekniker som utvecklats för 25 år sedan på NASA: nästan ingen sökmotorer idag kan precisera informationen på ett enkelt sätt, utan snarare hemsöka på att matcha miljontals relaterade sidor: det verkar vara "sökmotor avund": ". mina resultat är större än din" med Att döma sök-prestanda bör inte baseras på "hur många miljontals sidor matchas var" utan snarare: Var informationen pinpointed? Hur snabbt besvarades frågorna? I alla tekniska ålder, kan de aktuella tekniker ses som "primitiva" jämfört med bättre idéer i framtiden, men att betrakta dagens sökmotorer som "stenåldern dinosaurier" är vishetens begynnelse. Många sökmotorer visa annonser på varje sida: det är av intresse för dessa annonser för att utvidga och förlänga en sökning för att visa många sidor med annonser, i stället för att sätta fingret på informationen.
  3. 3
    Sök inom sektioner / stycken. Planera sökmotor för att söka i stycken eller delar av text, snarare än att söka hela sidor för att matcha ord. Ofta relaterade ord, att peka ut ett ämne, inträffar oftast inom en mening av varandra. Om punkterna är för svårt att avgöra, tillåta en sökning-hållare av n-ord (t.ex. 30 ord) för att begränsa sökningen till logiskt relaterad text. I praktiken, söka över hela sidor att hitta så kallade "närstående" ord är en av de mest okunniga teknikerna någonsin tänkt på ett infall: det kan vara trivialt att söka hela sidor, men är mer avancerade tekniker som behövs utöver dagens primitiva, lågteknologiska sökmotorer med tanklösa sök-all mentalitet. (Problemet är skenande: även en del bok-sökningar jaga ord över hela sidor och kan inte hitta ord inom bara ett stycke / fras.) Att vara trivialt är ingen ursäkt för att fortsätta att använda okunniga sök-tekniker. De avancerade tekniker är inte så mycket svårare att genomföra.
  4. 4
    Sök bokstavliga ord. När informationen amasses, är det viktigt att skilja mellan "a / en / den" för att lokalisera informationen. Förutsatt att ignorera vissa ord bara ger en bias som förolämpar intelligensen hos potentiella användare: kanske har en sällsynt möjlighet att ignorera en lista över ord som innehåller "a / en / den / av / på" men, som standard, söka efter varje ord specificeras. Låt användarna lära sig att utelämna restriktiva ord, implicit utelämnande av vissa ord är så begränsande som implicit deklaration av felstavade variabel-namn i datorprogram: gör det inte. (Om någon felstavningar "off" som "av" vad händer då? Se? Förstå faran med implicit ignorera ord.)
  5. 5
    Sök bokstavliga tecken. Om möjlighet tekniskt, räkna med att söka efter bokstavliga strängar som "Project XRAY-10/NOVA" där streck ("-") och snedstreck ("/") är avgörande för sökningen: i praktiken, kan den sökta texten ha dem tecken konverteras till utrymmen när de inte är i sökandet-fras begärs av en användare, men om pre-lagra de sökta orden, då båda formerna kan indexeras / lagras (både "XRAY 10 NOVA" och bokstavlig namnet "XRAY-10 / NOVA "kan indexeras).
  6. 6
    Räkna med intelligens. Var inte grym eller kritiska till dagens primitiva sökmotorer och bok-search program, många människor är intelligenta nog att komma längre än de lågteknologiska search-idéer idag, både som utvecklare och användare av den nya vågen av avancerad sökning -tekniker. Datorteknik, som ett brett spektrum av idéer, är komplicerat nog så att nästan vem som helst kan förbise uppenbara framsteg och fastnar i yester-årets teknik, med tusentals professionella datoranvändare. Fältet är en blandning av smart + tät: sidor kan lagras i komplexa, sofistikerade databaser men kan inte sökas genom punkt, bara genom lågteknologiska sida hela skanningar.
  7. 7
    Enkel prototyp. För att testa ovanstående nya idéer, kan en enkel prototyp sök-program tas fram för att söka efter fraser genom att konvertera en textrad i ord separerade med mellanslag, med en extra bakre utrymme efter det sista ordet på linjen, då, varje ord i sökandet-fras är stoppad med ett bakre utrymme att skanna mot tomt-terminerade ord i textsträngen. Varje text-sträng i filen eller webbsidan skulle sökas på liknande sätt. Håll en räknare tills alla sök-ord räknas som matchar.
  8. 8
    Piggyback sökning. Eftersom många av dagens sökmotorer matchar alltför många sidor, kan programvaran skrivas att skanna dessa matchade sidor att precisera informationen. Ett program kan hämta varje matchad sida, och söka i stycken när du söker efter streck / snedstreck, kan det programmet precisera informationen inom hundratals webbsidor som matchar den lågteknologiska sökning. Ett sådant program skulle också kunna jaga en / ett / det inom varje matchande webbsida, och precisera resultatet utan att användaren vada genom många sidor med annonser.
  9. 9
    Beprövade tekniker. Säg inte: "Det är alltför avancerade, de kommer aldrig att förstå söka efter stycken och bokstavliga namn." Människor har en fantastisk förmåga att gå bortom begränsande idéer om gamla search-tekniker. Många av ovanstående tekniker bevisades, i verkliga applikationer för slutanvändare, 25 år sedan på NASA. Det var en hel generation sedan. Det är bara en fråga om "tillbaka till framtiden" i teknik. Renässansen övervann den mörka medeltiden, så bättre sök-tekniken kan i själva verket uppnås igen.

Tips

  • Nyckelord närheten. Vissa sökmotorer kan redan begränsa sökningar till partiella stycken / sektioner med hjälp av nyckelordet "nära" i sökfrasen. Experiment med hjälp av NÄRA sökord kan bidra till att visa fördelarna med att begränsa sökningar punkterna eller sektioner, snarare än att söka över hela sidor.

Varningar

  • Spam döda sökmotorer. Den dåraktiga, lågteknologiska metod för att matcha ord i hela sidan, snarare än att matcha inom stycken / sektioner har bidragit till att främja spam-sidor som innehåller 10.000 orelaterade ord, i hopp om att spam-match in i sökresultat. Så, dagens sökmotorer blir översvämmad med spam-sidor och kan bli praktiskt taget värdelösa om de inte avskräcka ytterligare spam-sidor. När du skriver ett program för att skanna inom en viss sökmotor resultat, vara beredd att byta till ännu en sökmotor som inte dödas av spam så fort.