Karl-Erik Tallmo,
artikelregister

Får ej kopieras utan författarens medgivande. Copyright © Karl-Erik Tallmo

Dagens Forskning nr 7, 2-3/4 2002

WWW - från nätverk till världshjärna

Hittills har man främst talat om Internets fantastiska utbredning över världen. Men frågor om bevarande kommer alltmer i förgrunden, och sedan en tid finns nu en databas där äldre nedlagda webbplatser kan återfinnas. I ett större perspektiv handlar detta om hur människan skapar avbilder av sig själv som samtidigt är verktyg för utökad kunskap. Man kan urskilja fyra faser i nätets utveckling.

"Internet har skapat den mest exakta spegling av människan som helhet som vi hittills haft", skrev musikern och IT-visionären Jaron Lanier i Wired 1998. För nätet är ju inte någon modell gjord av sociologer eller historieskrivare. Här kan vi människor för första gången studera oss själva som vi verkligen är, menade han.

Det tog närmare 75 år innan telefonen fick sina första 50 miljoner användare i världen, radion nådde samma siffra på 37 år, televisionen behövde bara 15 och Internet - eller åtminstone World Wide Web - drygt tre. I höstas var antalet användare i världen, enligt institutet NUA, ungefär 513 miljoner, spridda i alla världsdelar.

Mängden dokument på WWW uppskattas till bortåt två miljarder, men det finns enorma mängder som man inte kan kartlägga därför att sökrobotarna inte når bakom kulisserna på t.ex. pressarkiv, vissa akademiska databaser osv. Mike Bergman, på företaget Brightplanet i South Dakota, gissar att det finns cirka 100 000 sådana databaser som man inte kommer åt. Räknar man med dokumenten där, skulle webben vara otroligt mycket större än man trott, kanske runt 550 miljarder dokument, tror han. (Länk 5.)

Det är en svindlande tanke att ha all världens information tillgänglig på sitt skrivbord eller kanske i en fickdator, allt från kilskrift och tidegärdsböcker till fonografrullar och Hylands hörna. Om nu allt kommer att digitaliseras, så lär det ta tid. Frågan är om ens en promille av det "fördigitala" kulturarvet har hunnit överföras till digital form idag.

Saken är ändå klar. Människan har verkligen, som Lanier var inne på, i och med bygget av Internet börjat skapa något hittills aldrig skådat. Någon invänder kanske att det bara är ett medium eller en kombination av medier. Men medier är aldrig bara kommunikationsmedel, det har ju tänkare som Harold Innis och Marshall McLuhan visat. Medierna blir förlängningar, utökningar, av människans sinnen. Redan kameran eller telefonen utökar ju förmågor vi redan har. Men datorn är på ett nytt sätt en direkt förlängning av människans nervsystem. Många har nog erfarit att man tror man läst något när man bara sparat det på hårddisken, hur särskilt drabbad man kan bli av ilsken e-post jämfört med papperspost, hur man själv känner sig ur gängorna när datorn krånglar etc. Medierna påverkar oss även socialt och ekonomiskt. Hur starkt förändrades inte både fritiden och det politiska livet av televisionen? Och boktryckarkonstens betydelse kan nog knappast överskattas.

Internet hade redan funnits i mer än tjugo år när World Wid Web kom 1993. Det fanns faktiskt ett nätverk av dokument före WWW, som hette Gopher, men utan hypertext, dvs. möjligheten att kunna länka även från enskilda ord inne i dokumentens text. Avancerade dokumentsystem hade redan Vannevar Bush och Ted Nelson drömt om på 40- respektive 60-talet. Tim Berners-Lee på CERN i Genève byggde dock på en existerande struktur, Internet, när han 1990 skapade http-protokollet (hypertext transfer protocol) som möjliggjorde webben. (Länk 2, 3, 4.)

Vad världen nu ställdes inför var en snabbt växande transnationell informationsmängd, blixtsnabbt tillgänglig och med möjligheten att infoga bilder i textmassan. Visionärer började tala om att hela bibliotek skulle bli tillgängliga på var mans skrivbord, och USA:s vicepresident Al Gore talade om informationsmotorvägar.

Men biblioteken har kataloger. Webben var däremot ett kaos utan innehållsförteckning under den här första fasen i utvecklingen. Man kunde bara navigera genom att ta sig från länk till länk, och hade man tur hittade man en förteckning över t.ex. de bästa musiklänkarna eller de bästa länkarna om engelsk medeltidslitteratur som någon vänlig själ ställt samman - efter eget skön givetvis.

Tidigt fanns dock en del webbregister som Aliweb och Yahoo, och även några primitiva sökrobotar, t.ex. Wanderer, JumpStation eller World Wide Web Worm. Men de brydde sig förutom länkar inte alls om textinnehållet på sidan. Våren 1994 kom så den första sökmotorn, Web Crawler, som indexerade all text. Därefter kom Lycos, som i januari 1995 hade indexerat 1,5 miljoner dokument. (Länk 6.)

Ändå var det i december 1995 som den stora revolutionen kom. Digital Equipments Alta Vista slog snabbt ut alla de andra. Alta Vista var snabb, man kunde söka med booleska operatorer, dvs. kombinera sökbegrepp med "AND" "OR" "NOT" m.m. Det fanns också andra finesser, som att söka sidor som länkar till en viss webbadress (URL). 1996 hade Alta Vista indexerat runt 30 miljoner webbsidor. Den var faktiskt inte störst, men användarna tyckte uppenbarligen att den var bäst.

För mig hade själva idén med datoriserad informationssökning länge varit fantasieggande. Jag visste vilka möjligheter det fanns bara med ett lexikon på CD-ROM, att kunna söka inte bara på uppslagsord utan kunna hitta minsta omnämnande av något i vilken artikel som helst. Och tänk, att inte bara ha en lokal skiva sökbar utan en global informationsmängd som hela tiden uppdateras och förändras. Nu fanns den möjligheten. Webben hade gått från kaos till sökbart kaos. Nu inleddes den andra fasen.

Forskarna började märka hur det blev allt svårare att avsluta litteratursökningar. Hur välförankrad var egentligen avhandlingen man höll på med? Hela tiden kunde man hitta nya referenser i obskyra databaser. Samtidigt tenderade referenserna att begränsas till de senaste decennierna, man sökte främst i kataloger som blivit överförda till databaser och inte så gärna i gamla kartotek. Ett annat problem med online-forskningen, som lär kvarstå ett tag, är tendensen att man bara läser abstracts och inte skaffar hela artiklar. (Länk 19, 20.)

Webbens tredje fas ersätter inte den andra utan är en pålagring, en ny stämma läggs till för att tala musikspråk. Den började då Alta Vista 1998 sjösatte sin tjänst Babelfish, där man automatiskt kunde få texter översatta från engelska till spanska, italienska, portugisiska, franska eller tyska - och omvänt. Man kunde rent av mata in en webbadress och få sidan filtrerad, dvs. översatt till önskat språk med alla bilder och länkar i texten intakta. (Länk 11.)

Maskinöversättningen var primitiv och är så fortfarande fyra år senare. Bl.a. utgör homonymer och ordföljd svårigheter. Ändå förebådar detta en tid då nätet blir verkligt globalt. Många tror kanske att människor kommer att sluta lära sig språk, precis som miniräknarna nästan utrotade huvudräkningens ädla konst, men jag tror snarare att språkintresset kommer att stimuleras. Jämför engelskkunskaperna i länder där man dubbar utländska filmer och där man textar!

Det kan kanske verka som om inte så mycket har hänt sedan Babelfish och efterföljare som Paralink introducerades (länk 13), men de implicerar i förlängningen inte bara en global språkförståelse utan ett helt nytt sätt att utnyttja information. Om bara några år kommer vi troligen att ha mängder av verktyg för vår läsning. Precis som vi idag väljer vårt favoritprogram för ordbehandling, kommer vi att kunna välja olika typer av läsprogram som skapar inte bara översättningar, utan även sammanfattningar, som broderar ut en kort text till en utförligare, som gör argumentationsanalyser av artiklar m.m. Text mining kan sägas vara fröet till sådana funktioner, och det arbetar man med på många håll, t.ex. på Karolinska Institutets bibliotek och på IBM. (Länk 14, 15.)

Det finns ett stort behov av att kunna kommentera och bearbeta elektroniska texter, både tillsammans med andra ute på nätet och som enskild forskare vid den privata datorn. Ett universellt annoteringsformat för elektroniska texter är här något essentiellt. Innan vi får en teknik för att göra t.ex. marginalanteckningar i såväl PDF-filer, Worddokument som på webbsidor så att dessa är gemensamt sökbara, tror jag knappast att den elektroniska publiceringen kommer att kunna ta fart på allvar, framför allt inte som akademiskt basverktyg. (Länk 21, 22, 23.)

Äldre tiders medier, som lertavlor eller handskrifter var bra på att kommunicera över tid, men rätt dåliga på att med någorlunda hastighet nå ut över stora avstånd. Dagens medier är tvärtom fantastiska på geografiska avstånd, men frågan är hur mycket av t.ex. radio- och tv-program eller webbsidor som kommer att finnas kvar om t.ex. 500 eller 1 000 år.

Det finns sedan några år ett antal intressanta projekt som sysslar med bevarandet av nätet. Kungliga Biblioteket var tidigt ute och började ladda ned svenska webbsidor redan 1996, och amerikanen Brewster Kahle gjorde detsamma, fast med hela världens webbsidor. Hans Internet Archive innehåller nu drygt 10 miljarder webbsidor (textfiler). (Länk 24, 25.)

Sorgligt nog är dokumenten från webbens pionjärtid 1993-96 till största delen förlorade - här lär alltså en inkunabelproblematik uppstå när framtida forskare vill studera nätpubliceringens första år.

Kungliga biblioteket hade i januari 2002 cirka 70 miljoner webbsidor nedladdade efter nio svep över svenska delen av nätet. Datainspektionen har ju dock nyligen med hänvisning till personuppgiftslagen tvingat KB att upphöra med insamlandet, men en lagändring är eventuellt på gång.

I höstas öppnade Brewster Kahle ett gränssnitt till sitt arkiv som han kallar Wayback Machine (länk 25). Man kan där söka på en viss URL och får då upp länkar till sidorna på denna under åren 2001-1996. Om man har tur vill säga, för ganska mycket är borttaget av upphovsrättsliga skäl. Många svenska webbsidor finns här. Utanför den svenska Datainspektionens jurisdiktion kan man här t.ex. se hur det såg ut hos Information Rosenbad, IT-kommissionen och Aftonbladet 1996. (Länk 26, 27, 28.)

Detta är en blygsam början på den fjärde fas, där man kan surfa på Internet även i tiden, dyka ned i geologiska skikt av webbsidor. Det som hindrar en sådan utveckling är främst upphovsrätten, främst kanske den ideella aspekten, där upphovsmannen tillförsäkras rätten att bestämma över hur verket ska presenteras. (Omdiskuterad är också sökmotorn Google, som sparar sidor en viss tid i ett eget arkiv.)

Frågan är, ska man ha rätt att dra tillbaka ett publicerat verk? Redan nu kämpar t.ex. William Powell, författaren till den beryktade boken Anarchist Cookbook från 1970, för att kunna dra tillbaka den både från bokmarknaden och från nätet. Han är numera varmt religiös och sympatiserar inte med de idéer han hade när boken skrevs. En droit de repentir (återtagningsrätt) finns inte i många länder och behövs oftast inte i den analoga världen, där ett verk lätt faller i glömska om det inte ges ut på nytt. På ett Internet där man kan surfa fritt i tiden fruktar nu vissa att gamla ungdomssynder kommer att finnas tillgängliga även om upphovsmannen inte vill det.

När det gäller tekniker för bevarande finns mängder av försöksprojekt, t.ex. AT &T:s Publius, eller NEC:s Intermemory, som försöker säkerställa information genom fragmenterad lagring på hundratals servrar. Varje fragment innehåller information om helheten, så att denna kan återskapas, ungefär som sjöstjärnan kan återbildas av en enda av sina armar. Publius har även ambitionen att försvåra censur. (Länk 29, 30.)

Carol Anne Germain vid universitetsbiblioteket i Albany studerade under tre år 64 akademiskt referade URL:er på nätet. Efter ett år hade 26 procent försvunnit, efter tre var 50 procent borta. Hon kallar URL:er för "Unreliable Resource Locators". Bot för detta är dock på väg, bl.a gör KB i Sverige nu försök med att tillskriva webbsidor ett unikt URN - "Uniform Resource Name" - som ska följa ett dokument även om det byter URL. (Länk 31.)

Sun Microsystems och National Science Foundation driver det intressanta LOCKSS-projektet på Stanford University (länk 33), där man lagrar vetenskapliga tidskrifter på flera olika lokala biblioteksservrar och garanterar tillgång till dem genom ett system som kollar av och jämför identiteten hos de parallellt lagrade dokumenten samt återställer såväl ofullständiga dokument som brutna länkar. En nygammal idé som för tanken till 1500-talsboktryckaren Henry Estienne I:s metod att utnyttja inte mindre än tolv olika handskrifter som förlaga för en tryckt bok.

Det är en trend inte bara med med distribuerad lagring - fler och fler uppgifter blir just fördelade över nätverket: distribuerat arbete, distribuerad processning, m.m. Det talas allt oftare om nätet som en enda stor datororganism. Napsterfenomenet var början på något betydligt mera genomgripande än olovlig exemplarframställning av musikaliska inspelningar. Alla uppkopplade kommer kanske snart att automatiskt och utan att de tänker på det ingå i en sorts världsomspännande hjärna, där de både lånar ut lite hårddiskutrymme åt resten av världen och lite processorkraft - kanske även lite mänsklig hjärnkraft.

AI-forskaren Francis Heylighen, vid Bryssels Fria universitet, har teorier om hur webben kommer att bli "nervcentrum i en global superorganism, där du, människa, bara kommer att vara en liten del", enligt New Scientist i juni 2000. När och om detta sker, måste vi nog tala om en helt ny epok, inte bara en fas. (Länk 37.)

Många värjer sig säkert mot hjärnmetaforen, som ju var så missvisande när det gällde datorn. Men med nätverk där hjärnkraften skapas av människa och maskin tillsammans förefaller tanken inte otrolig - möjligen skrämmande. Vem kommer att utnyttja vem?

./.

(43 länkar till denna artikel finns på Dagens Forsknings hemsida dagensforskning.se.)

[Bildtext:] Sökmotorerna utvecklas hela tiden. Undan för undan kan man som illustrationen visar zooma in på nya grenar av stjärnnätverket Semiomap, som bygger på i förväg gjorda hierarkiska klassifikationer (taxonomier). Andra, som Vivisimo, visar sina ämnesgrupper i trädstruktur av mappar.

Not: Några få ord här och där skiljer denna version från den tryckta versionen.


Länkar till artikeln.

Tidiga idéer om dokumentrymder, hypertext och världshjärnor:

1) H.G. Wells idé om en världsencyklopedi och världshjärna (1937).
2) Vannevar Bush, bilder på hans system Memex (1945).
3) Ted Nelson, som uppfann hypertexten 1965 och tänkte sig ett docuverse.
4) "The Web Maestro - an Interview with Tim Berners-Lee" (1996).

Om sökmotorer:

5) Michael Bergmans rapport "The Deep Web: Surfacing Hidden Valule" (PDF).
6) Wes Sonnenreichs "History of search engines".
7) Rapport om sökmototer och deras storlek hos Searchenginewatch.
8) Artikeln "Reisen ohne Karte: Wie funktionieren Suchmaschinen?"

Ett par intressanta sökmotorer:

9) Alltheweb.
10) Vivisimo, som använder klusterteknik.

Maskinell översättning:

11) Babelfish.
12) Worldlingo.
13) Paralink.

Annan textbearbetning, text mining:

14) Textutvinning på Karolinska Institutets bibliotek.
15) IBM's factsheet: "Intelligent Miner for Text".
16) Fraunhofer Institut für Autonome intelligente Systeme.

Ett par exempel på sökning och strukturering av vetenskapliga referenser:

17) Semiomap, där man kan zooma in på ständigt nya grenar av ett stjärnnätverk.
18) NEC har också skapat en fantastisk sökmotor för vetenskaplig litteratur som får användas fritt i icke-kommersiella sammanhang, Citeseer ResearchIndex.

Litteratursökningens problem:

19) "Online or Invisible?", artikel av Steve Lawrence om hur man oftare refererar till artiklar online än till andra.
20) Mary Ann Fitzgerald, "Critical Thinking, Information Use, and Decision-Making in GALILEO Users: A Descriptive Study", University of Georgia, 1999 (PDF).

Att skriva i grupp över nätverk:

21) IP Lab vid Kungl. Tekniska Högskolan i Stockholm studerar bl.a. hur skrivprocessen påverkas av datorarbete.
22) Collaborative writing vid University of Toronto.
23) Artikelförfattarens förslag till ett korrektur- och annoteringssystem för elektronisk text.

Projekt för bevarande, etc.:

24) "Kulturarw3", KB:s projekt för insamling av svenska webbsidor.
25) Brewster Kahles Internet Archive med sökmotorn Wayback Machine.
26) Information Rosenbad 1996 hos Wayback Machine.
27) IT-kommissionens webbsida 1996 hos Wayback Machine.
28) Aftonbladet 1996 hos Wayback Machine.
29) Projektet Publius.
30) Projektet Intermemory.
31) Kungl. Bibliotekets URN-projekt.
32) Linköping University Press säkrar sin elektroniska publicering med checksummor.
33) Projektet LOCKSS vid Stanford.
34) Andreas Aschenbrenners "Long-Term Preservation of Digital Cultural Heritage".

Nätet som världshjärna, distribuerad processning m.m:

35) Tim Berners-Lee om The Semantic Web.
36) Artikel om George Dysons "Darwin among the machines", ur Salon 1997.
37) Om AI-forskaren Francis Heylighen i New Scientist, juni 2000.
38) Heylighens projekt "Principia Cybernetica Web".
39) Heylighens The Global Brain FAQ (frequently asked questions).
40) Jon Bosak & Tim Bray, "XML and the Second-Generation Web", Scientific American, 1999.
41) 190 amerikanska universitet samarbetar om "Internet 2".
42) Projektet SETI, där man kan låna ut datakraft för analys av radioteleskopdata på jakt efter utomjordiskt liv.
43) Chris McKinstry på Mindpixel hoppas få miljoner webbanvändare att lära en dator tänka.


[Tillbaka till Artikelindex]
[Tillbaka till Karl-Erik Tallmos startsida]