Come si fa ricerca in InternetInternet, abbiamo detto più volte, costituisce una immensa risorsa informativa. Recentemente ci è capitato di incontrare, affisso in una bacheca di una facoltà universitaria, un avviso dal titolo singolare: "Cercatore d'oro offresi". Non si trattava della vendita di un cercametalli, ma dello slogan scelto da un giovane e intraprendente cibernauta per offrire - a prezzi popolari - i suoi servigi di information broker via Internet. L'oro, dunque, era l'informazione, e il nostro cercatore garantiva di poter reperire, in rete, informazione per tutte le esigenze: dallo studio per un esame alla preparazione di una tesi di laurea, dalla ricerca giornalistica alla semplice curiosità. Chi sorridesse davanti a queste pretese commetterebbe un grosso errore di valutazione. Certo, poche tesi di laurea potrebbero (per ora) essere scritte basandosi esclusivamente sul materiale reperibile attraverso Internet, e chi si affidasse alla rete come risorsa informativa universale resterebbe (per ora) probabilmente deluso. Non è vero che su Internet ci sia - come è stato scritto - una risposta per ogni domanda. E per scrivere una tesi di laurea è (per ora) molto meglio disporre di una buona biblioteca che di un accesso alla rete. Ma Internet può aiutare a trovare molte risposte - incluse, probabilmente, alcune che non penseremmo mai di cercarvi. E anche (o soprattutto) se abbiamo accesso a una buona biblioteca, e sappiamo utilizzarla, la nostra produttività in termini di reperimento e utilizzazione dell'informazione aumenterà enormemente affiancandovi la possibilità di svolgere ricerche in rete. Per essere ancor più espliciti, è nostra convinzione che il vero 'virtuoso' nel campo della ricerca, gestione e produzione dell'informazione, l'information manager del duemila, sarà chi riesce a meglio padroneggiare e integrare fonti informative diverse, tradizionali e no. Se il 'cercatore d'oro' dell'annuncio appena citato avesse davvero questa capacità, le sue pretese sarebbero pienamente giustificate - e il suo futuro economico sarebbe probabilmente assicurato. Disporre di risorse informative adeguate, e saperle usare, rappresenta indubbiamente una forma di potere di alto valore politico ed economico. E Internet, pur non essendo l'unica risorsa informativa che è oggi utile e necessario saper utilizzare, è sicuramente una delle più importanti. Farsi una vaga idea di come funziona una biblioteca è abbastanza facile, ma saper usare bene una biblioteca non lo è affatto. Lo stesso discorso vale per Internet. Chi pensasse che, grazie alla disponibilità di motori di ricerca ai quali proporre parole chiave da trovare, reperire informazione su Internet sia relativamente semplice, commetterebbe di nuovo un grave errore di valutazione. Internet mette a disposizione informazione di natura assai eterogenea, raggiungibile attraverso canali diversi. Per svolgere correttamente una ricerca occorre per prima cosa interrogarsi sulla natura dell'informazione che stiamo ricercando, e avere la capacità di capire se, dove e attraverso quali strumenti essa può essere reperita su Internet. L'information broker su Internet deve dunque conoscere abbastanza bene la rete; soprattutto, deve aver piena coscienza della diversa natura di molte fra le fonti informative accessibili attraverso di essa. Informazione ordinata e informazione disordinataSupponiamo, ad esempio, di dover svolgere una ricerca sulla musica per liuto. Il tema sembra abbastanza specifico e circoscritto. Ma è veramente così? Consideriamo i tipi diversi di informazione che potremmo voler trovare:
Sicuramente non si tratta di un elenco completo, ma dovrebbe bastare a illustrare un concetto essenziale: per svolgere correttamente una ricerca non basta conoscerne l'argomento - sapere cioè su che cosa vogliamo trovare informazione. Bisogna anche sapere che tipo di informazione vogliamo trovare. Questo naturalmente è vero in generale, ed è particolarmente vero nel caso di ricerche svolte attraverso Internet. La rete ci può aiutare nella maggior parte dei compiti elencati sopra (e forse addirittura in tutti). Ma non possiamo pensare di cercare in un unico posto, o di usare un unico strumento di ricerca. In particolare, nel cercare informazione in rete va tenuta presente la differenza fondamentale fra informazione fortemente strutturata e informazione 'libera', non strutturata e a volte occasionale. Per capire meglio di cosa si tratta, consideriamo il primo dei compiti sopra elencati: raccogliere una bibliografia sul liuto e la musica per liuto. Naturalmente, la costruzione di una bibliografia ragionata è un compito che richiede non solo la consultazione di cataloghi e repertori, ma anche lo studio diretto di almeno parte dei testi selezionati. Limitiamoci però al primo livello, quello della mera raccolta di informazioni bibliografiche essenziali. Un buon punto di partenza può essere, evidentemente, il catalogo di una biblioteca. Attraverso Internet se ne possono raggiungere moltissimi - supponiamo di partire dal catalogo della Library of Congress, al quale ci si può collegare via telnet all'indirizzo locis.loc.gov. La consultazione del catalogo non è difficile, e ci si può far guidare dagli abbondanti aiuti in linea presenti. Nel caso specifico, una ricerca per soggetto con chiave 'lute' ci porta a un primo elenco di termini: Terms alphabetically close to:LUTE ---EXAMPLES: s b6 (SELECTs line b6;
creates a Come suggerito dagli esempi a fine schermata, combiniamo i termini b6-b12 in una ricerca di tipo 'find':
Il risultato è il seguente: ITEMS 1-3 OF 74 SET 9: BRIEF DISPLAY FILE: LOCI (DESCENDING ORDER) 1. 95-18783: Caroso, Fabritio. Courtly dance of the Quella visualizzata è la prima schermata del lungo elenco di testi (complessivamente, 74) disponibili in biblioteca e collegati nel soggetto o nel titolo al liuto. Per ogni testo possiamo anche ottenere una schermata di dettaglio, contenente tutti i dati di schedatura. Naturalmente, oltre alla Library of Congress potrei consultare i cataloghi di numerose altre biblioteche: ad esempio la Bibliothèque Nationale di Parigi (opale02.bnf.fr). Una ricerca di questo tipo ci porta, in una mezz'ora di lavoro dalla scrivania di casa, e al prezzo di una telefonata urbana (in orario non di punta, 30 minuti corrispondono a 5 scatti, e dunque a una spesa inferiore alle 1000 lire), a consultare i cataloghi di quattro o cinque fra le maggiori biblioteche mondiali, e a raccogliere (abbiamo fatto la prova) una bibliografia di circa 120 titoli. Internet, dunque, si è rivelato uno strumento di ricerca prezioso. Ma in questo momento ci interessa soffermarci soprattutto sul tipo di informazione che abbiamo cercato. Il catalogo informatizzato di una biblioteca è una raccolta ordinata di informazioni, che è possibile consultare attraverso una interfaccia standard, e su cui è possibile effettuare ricerche attraverso un linguaggio di interrogazione. Quando facciamo una ricerca di questo tipo, sappiamo in anticipo che tipo di informazione ci verrà restituita: se la ricerca ha esito positivo, ne ricaveremo un certo numero di schede bibliografiche, con una struttura costante (autore, titolo, luogo e anno di edizione, numero delle pagine, formato, collocazione...). Nessuno userebbe il catalogo di una biblioteca per cercare una immagine di un liuto, o informazioni su quali dischi di liuto comprare - anche se naturalmente alcuni dei libri presenti a catalogo potrebbero fornirci queste informazioni, e la ricerca sul catalogo potrebbe essere utile per trovare quei libri. D'altro canto, il ricercatore accorto (ma non sempre quello occasionale) sa che una ricerca di questo tipo fornisce per lo più titoli di libri, e non titoli, ad esempio, di articoli su riviste; e sa che le riviste specializzate possono essere anch'esse una fonte informativa essenziale (cosa pensereste della bibliografia di una tesi di laurea che citasse solo libri, e nessun articolo?). Nessun timore, attraverso Internet si possono fare ricerche anche su basi dati costituite da abstract di articoli (ce ne occuperemo tra breve, parlando del servizio Uncover). Quello che ci preme sottolineare in questa sede, tuttavia, è che per fare una ricerca non basta la mera competenza 'tecnica': occorre anche avere delle buone strategie di ricerca. Attraverso Internet sono dunque accessibili - fra le altre cose - banche dati specializzate, contenenti informazione fortemente strutturata, come il catalogo di una biblioteca (ma anche, ad esempio, banche dati di formule chimiche, o di genetica, o di informazioni geografiche e sociopolitiche sui vari stati mondiali, o atlanti stellari...). Non ci capiteremo per caso: le consulteremo quando cerchiamo informazioni di quel tipo. E - occorre che questo sia ben chiaro - il contenuto di una di queste banche dati è accessibile attraverso Internet, ma non nello stesso senso in cui lo è, ad esempio, una pagina di World Wide Web: se utilizzassimo uno dei cosiddetti 'motori di ricerca' che indicizzano le informazioni presenti su World Wide Web, non arriveremmo mai dentro al catalogo di una biblioteca (a meno, naturalmente, che il catalogo stesso non sia costruito in tecnologia HTML). Consideriamo adesso gli altri tipi di ricerca concernenti il liuto che avevamo suggerito come esempio: in molti di questi casi, non ricorreremo a banche dati altamente strutturate come il catalogo di una biblioteca, ma all'informazione sparsa disponibile in rete. Cosa vuol dire 'informazione sparsa disponibile in rete'? Vuol dire che qualcuno - una istituzione musicale, un appassionato, un negozio di musica - ha ritenuto di rendere accessibili (in genere attraverso pagine su World Wide Web) informazioni da lui considerate interessanti o utili. Nel caso del catalogo di una biblioteca, sapevamo già cosa aspettarci; in questo caso, non lo sappiamo. Troveremo ad esempio immagini di liuti? Probabilmente sì, ma non ne siamo sicuri. E che affidabilità avranno le notizie che raccoglieremo? Impossibile dirlo a priori: un negozio di strumenti musicali potrebbe avere interesse a parlar bene di una certa marca di strumenti perché deve venderli; un appassionato potrebbe avere una sensibilità musicale diversissima dalla nostra. In poche parole, anziché una informazione fortemente strutturata, uniformemente caratterizzata da un alto livello di affidabilità, stiamo cercando (e troveremo) una informazione assai più eterogenea. Non per questo - si badi - il risultato della nostra ricerca sarà meno utile o interessante: sarà solo di diversa natura. Proviamo a verificarlo, usando uno dei motori di ricerca dei quali parleremo più diffusamente nel corso di questo capitolo: AltaVista, della Digital. La risposta alla nostra ricerca consisterà in un lunghissimo elenco (circa 5.000 documenti) di pagine nelle quali compare, per i motivi più vari, la voce 'lute' (naturalmente, nel caso di Internet la prima ricerca l'abbiamo fatta utilizzando il termine inglese; una ricerca più raffinata vi avrebbe affiancato almeno i corrispondenti termini italiani, francesi, tedeschi, spagnoli...). A titolo di esempio, vediamo i primi 8 rimandi (il risultato arriva in una pagina grafica, ma per comodità espositiva lo riportiamo qui in forma solo testuale): Harmonia Mundi France Harmonia Mundi France Lute Suites The Lute No Title Put your title here Guitar and Lute Links Other Guitar and Lute Music Pages Già questo primo elenco mostra il carattere eterogeneo dell'informazione reperita: se andiamo a consultare le pagine troveremo informazioni (commerciali) su dischi per liuto, consigli (apparentemente con commerciali) di un appassionato sullo stesso argomento, il testo di una canzone per liuto (della quale è disponibile anche lo spartito e una registrazione in formato MIDI), la pagina di un gioco in rete nel quale compare un misterioso liuto che non riusciamo a far suonare, una voce di dizionario relativa alla parola 'absolute', e due pagine di ulteriori rimandi a informazioni relative ai liuti e agli strumenti a corde. Morale: un motore di ricerca di questo tipo ci porta a informazione estremamente eterogenea, e lascia a noi il compito di selezionare quella che ci interessa veramente. In un caso come questo, proseguiremmo probabilmente la navigazione attraverso le ultime due pagine, che sembrano le più promettenti. Dopo qualche salto, arriveremo fra l'altro: a una antologia di trattati 'classici' sulla posizione delle mani da parte del suonatore di liuto (se avete curiosità, la troverete alla URL http://www.cs.dartmouth.edu/~wbc/hand/Technique.html), a una collezione di ben 22 riproduzioni a colori di quadri nei quali sono raffigurati liuti e suonatori di liuto (alla URL http://www.cs.dartmouth.edu/~wbc/icon.html), a file sonori con registrazioni di suonate per liuto (ad esempio alla URL http://www.cs.dartmouth.edu/~wbc/fw_8.au), a un documento di suggerimenti e consigli per chi intende acquistare un liuto (alla URL ftp://ftp.cs.dartmouth.edu/pub/lute/Buying_A_Lute.FAQ), a un elenco di liutai e di negozi di liuto sparsi in tutto il mondo (ftp://cs.dartmouth.edu/pub/lute/Luthier.FAQ), alle pagine di un negozio che vende attraverso Internet corde per liuto (http://www.cp.duluth.mn.us/~lvgamut/), all'associazione liutai americani che vende, fra l'altro, libri di istruzioni su come costruire un liuto (http://www.deltanet.com/GAL/plans.htm), alle pagine personali di suonatori di liuto (segnaliamo quella, presente anche in italiano, del liutista romano Federico Marincola: http://ourworld.compuserve.com/homepages/Federico_Marincola/italiano.htm), e così via. Potremo anche scaricare programmi per le tablature del liuto, o immagini di spartiti, come quella qui sotto.
In sostanza: dall'informazione ordinata e (dal punto di vista formale) prevedibile di un catalogo di biblioteca siamo passati al mare ricchissimo, ma caotico e disorganizzato, di World Wide Web. In entrambi i casi, Internet si è rivelato uno strumento prezioso di reperimento dell'informazione. Ma le strategie di ricerca non possono evidentemente essere le stesse. E avremmo potuto introdurre ancora altri esempi, come le informazioni ricavabili dai newsgroup Usenet o dalle liste di distribuzione postale dedicate al liuto o, più in generale, agli strumenti a corde. Comprendere l'esistenza di differenze notevolissime nella tipologia dell'informazione raggiungibile attraverso la rete, e imparare come e dove cercare tipi di informazione diversa, costituisce un primo passo essenziale per padroneggiare - per quanto possibile - l'offerta informativa di Internet. Forniremo, nel seguito, altri esempi e suggerimenti, anche se il lettore deve essere consapevole che in questo campo nessuna istruzione e nessun consiglio possono sostituire l'esperienza e, perché no, anche il 'fiuto' che possono venire solo dalla pratica della ricerca attraverso la rete. Dall'ordine al disordine, dal disordine all'ordineAncora qualche breve considerazione generale. Abbiamo esaminato la differenza fra informazione 'ordinata' e informazione 'disordinata', e abbiamo visto che entrambe presentano vantaggi e difficoltà. L'informazione 'ordinata' di una banca dati è in genere più puntuale e affidabile, ma pur essendo raggiungibile attraverso Internet non è in genere integrata nella grande ragnatela ipertestuale del World Wide Web. L'informazione 'disordinata' di World Wide Web è più difficile da valutare dal punto di vista dell'affidabilità, e per reperirla siamo spesso costretti a navigazioni che possono sembrare quasi casuali, e talvolta frustranti. Questa situazione spiega quelli che sono forse i compiti principali che una risorsa informativa come Internet, in crescita talmente rapida da non potersi permettere 'pause di riflessione' per la riorganizzazione del materiale disponibile, si trova a dover affrontare: integrare e organizzare l'informazione fornita. Internet, tuttavia - a differenza di quanto vorrebbe far credere un certo numero di film 'alla moda' sulla nuova realtà delle reti telematiche - non è una sorta di 'superorganismo' autocosciente. L'integrazione e l'organizzazione delle informazioni disponibili in rete dipende in gran parte dai suoi utenti 'di punta': in primo luogo da chi fornisce informazione e da chi progetta, realizza e rende disponibili programmi e motori di ricerca. Gli ipertesti come strumento per organizzare l'informazioneL'impegno per capire come integrare e organizzare l'informazione disponibile in rete è uno dei principali fattori che hanno determinato lo sviluppo di Internet negli ultimi mesi - e sarà senz'altro fra i nodi teorici principali che resteranno al centro dell'evoluzione della rete nel prossimo futuro. Dal punto di vista dei fornitori dell'informazione, questo impegno si traduce nel tentativo di comprendere al meglio i meccanismi di funzionamento 'concettuale' di un ipertesto. A differenza di quanto si potrebbe a prima vista pensare, non si tratta affatto di un compito facile. Se infatti stabilire qualche collegamento all'interno delle proprie pagine, e fra esse e il mondo esterno, basta a costruire formalmente un ipertesto, perché questa costruzione sia adeguata dal punto di vista semantico, produttiva dal punto di vista informativo, e funzionale dal punto di vista operativo, serve molto di più. Internet, abbiamo detto, si è andata trasformando in una sorta di 'ipertesto globale': World Wide Web nasce come risorsa ipertestuale, e la linea di tendenza chiaramente percepibile è quella dell'assorbimento all'interno di questa struttura ipertestuale anche delle altre funzionalità della rete. Programmi di gestione della posta elettronica o di lettura dei newsgroup Usenet capaci di attivare automaticamente un browser World Wide Web, collegamenti di tipo telnet e FTP resi accessibili partendo da una pagina HTML, disponibilità di accessori e plug-in in grado di integrare nella struttura Web file e documenti prodotti dai programmi più vari, ne sono eloquente testimonianza. I percorsi disponibili - sotto forma di link, di punti di passaggio da una informazione all'altra - all'interno di questa sterminata massa informativa, sono fili che aiutano a camminare attraverso un labirinto. Se questi fili guidano lungo itinerari inconsistenti, portano a movimenti circolari, ci distraggono dalle risorse che effettivamente cerchiamo o le presentano in modo fuorviante o disordinato, la navigazione risulterà difficile o infruttuosa. Supponiamo, ad esempio, di voler realizzare una rivista letteraria in rete. Entusiasti per le possibilità offerte dalla strutturazione ipertestuale dell'informazione, ci ingegniamo per trovare il maggior numero possibile di collegamenti fra il materiale da noi fornito e il resto delle risorse disponibili. Ci viene proposto un articolo su Goethe, e noi lo 'pubblichiamo' aggiungendovi quello che - riteniamo - è il valore aggiunto reso possibile dal suo inserimento su Internet: si parla di Francoforte come luogo natale di Goethe, e noi colleghiamo la parola 'Francoforte' al sito Internet dell'ufficio di informazioni turistiche della città; si parla dello studio dell'ebraico da parte del giovane Goethe, e noi colleghiamo il passo a un corso di ebraico disponibile in rete; si parla dei suoi studi di anatomia, ed ecco un link al 'Visible Human Project', una impressionante raccolta di immagini e informazioni sull'anatomia umana. Alla fine, avremo reso un servizio al lettore? Non crediamo proprio: i collegamenti proposti sono dispersivi, la relazione con il contenuto del testo è minima, non vi è alcuna offerta di percorsi di ricerca strutturati e coerenti. Se tuttavia nell'articolo fosse presente un riferimento alle letture alchemiche di Goethe, e se per avventura su Internet fosse presente il testo di una delle opere lette e utilizzate dal poeta, il collegamento sarebbe probabilmente assai meno gratuito: laddove in un libro a stampa avremmo inserito una nota che rimandava a edizione e pagina del testo in questione, in un ipertesto in rete possiamo inserire un collegamento diretto. Il lettore interessato non avrà più bisogno (volendo) di interrompere la lettura per cercare di procurarsi - presumibilmente in una libreria specializzata - un'opera poco conosciuta e magari esaurita, ma potrà consultarla immediatamente (se siete scettici sulla possibilità di trovare in rete il testo dei trattati di alchimia letti da Goethe, date un'occhiata alla URL http://www.colloquium.co.uk/alchemy/texts.html). Esiste dunque una sorta di 'potere di link' da parte di chi realizza una pagina ipertestuale: perché l'ipertesto si riveli effettivamente uno strumento produttivo di strutturazione dell'informazione, e perché la ricchezza dei rimandi non si traduca in disordine, occorre che questo 'potere' non sia usato male. Ma come imparare a scegliere i collegamenti giusti? Si tratta di un campo in cui lo studio teorico è in gran parte da compiere: l'avvento degli ipertesti porta con sé problematiche finora poco esplorate, ed è probabile che la critica testuale avrà, nei prossimi decenni, un nuovo settore nel quale esercitarsi. Dal canto nostro, saremo soddisfatti se il lettore comprenderà l'importanza di scegliere in maniera oculata i legami ipertestuali forniti. Naturalmente il problema riguarda non solo il fornitore ma anche il fruitore dell'informazione, che dovrà imparare a valutare e scegliere, fra i vari che gli sono offerti, i percorsi di navigazione più adeguati al suo scopo. Un compito che richiede una certa esperienza, ma anche una buona conoscenza degli strumenti di ricerca disponibili in rete. Vediamo quindi di esaminarne in dettaglio alcuni. Strumenti di ricerca
|
Nome dell'Archie server |
Indirizzo numerico dell'Archie server |
Collocazione geografica |
archie.au | 139.130.4.6 | Australia |
archie.edvz.uni-linz.ac.at | 140.78.3.8 | Austria |
archie.univie.ac.at | 131.130.1.23 | Austria |
archie.cs.mcgill.ca | 132.206.51.250 | Canada |
archie.uqam.ca | 132.208.250.10 | Canada |
archie.funet.fi | 128.214.6.102 | Finlandia |
archie.univ-rennes1.fr | 129.20.128.38 | Francia |
archie.th-darmstadt.de | 130.83.128.118 | Germania |
archie.ac.il | 132.65.16.18 | Israele |
archie.unipi.it | 131.114.21.10 | Italia |
archie.wide.ad.jp | 133.4.3.6 | Giappone |
archie.hama.nm.kr | 128.134.1.1 | Corea |
archie.sogang.ac.kr | 163.239.1.11 | Corea |
archie.uninett.no | 128.39.2.20 | Norvegia |
archie.rediris.es | 130.206.1.2 | Spagna |
archie.luth.se | 130.240.12.30 | Svezia |
archie.switch.ch | 130.59.1.40 | Svizzera |
archie.nctuccca.edu.tw | Taiwan | |
archie.ncu.edu.tw | 192.83.166.12 | Taiwan |
archie.doc.ic.ac.uk | 146.169.11.3 | Regno Unito |
archie.hensa.ac.uk | 129.12.21.25 | Regno Unito |
archie.unl.edu | 129.93.1.14 | USA (NE) |
archie.internic.net | 198.49.45.10 | USA (NJ) |
archie.rutgers.edu | 128.6.18.15 | USA (NJ) |
archie.ans.net | 147.225.1.10 | USA (NY) |
archie.sura.net | 128.167.254.179 | USA (MD) |
Una volta attivata la connessione con un Archie server (digitando 'archie' al prompt di comando se si dispone di account Unix, o facendo telnet su uno degli indirizzi sopra riportati), si potrà impartire una serie di istruzioni.
La fondamentale, quella che ci consente di attivare una ricerca, ha la seguente sintassi:
find chiave_di_ricerca
In luogo del 'find' talvolta occorrerà usare 'prog', il risultato è identico. Vediamo nella pratica la procedura di ingresso in un Archie server e l'impostazione di una ricerca semplice:
> telnet archie.funet.fi
Trying 128.214.248.46...Connection established
SunOS UNIX (orava)
login: archie
hks & mea
# Bunyip Information Systems, Inc., 1993, 1994, 1995
# Terminal type set to `vt100 24 80'.
# `erase' character is `^?'.
# `search' (type string) has the value `sub'.
FUNET-archie> find roberts
# Search type: sub.
# Your queue position: 12
# Estimated time for completion: 3 minutes, 7 seconds.
working...
Host cranach.rz.tu-ilmenau.de (141.24.8.28)
Last updated 04:59 28 Mar 1996
Location: /pub/unix/pvm3/pvmug/.cap
FILE -r--r--r-- 39 bytes 11:30 3 Feb 1996
robertson
Host ftp.ask.uni-karlsruhe.de (129.13.200.33)
Last updated 17:16 27 Mar 1996
Location: /pub/matlab/proceedings
DIRECTORY drwxr-xr-x 1024 bytes 01:00 17 Sep 1994
roberts
Host plaza.aarnet.edu.au (139.130.23.2)
Last updated 06:00 31 Mar 1996
Location: /graphics/gif/j
FILE -r--r--r-- 19019 bytes 04:00 2 Sep 1992
jroberts.gif.gz
...
L'Archie server per prima cosa ci avverte che la nostra è una ricerca per sottostringhe: 'Search type: sub', e non 'exact', ovvero non restringerà la ricerca solo a quei file che corrispondono perfettamente alla nostra richiesta, elencherà ad esempio 'Robertson' anche se noi abbiamo scritto 'Roberts'. Quindi ci comunica che ci sono 12 richieste prima della nostra e che stima di completare il lavoro in 3 minuti e sette secondi (di solito impiegano meno tempo di quello stimato). Di seguito, terminata la ricerca, fornisce i dati circa la collocazione in Internet dei file.
Altri comandi che possono essere utili, sono:
comando | descrizione |
help | consente di accedere a un manuale on-line; 'help comando' dà informazioni più dettagliate su un singolo comando |
quit | chiude una sessione Archie |
set mailto | consente di specificare un indirizzo di posta elettronica (tipicamente il proprio) cui spedire copia del risultato delle ricerche. Es.: 'set mailto rossi@liberliber.it' |
set maxhits n | dove n è un numero che va da 1 a 1000. Consente di indicare il numero massimo di file che il comando find (o prog) può visualizzare. Normalmente è regolato a 100 |
set search exact | elenca solo i file che corrispondono esattamente alla nostra chiave di ricerca. Distingue anche tra maiuscole e minuscole |
set search sub | elenca tutti i file che corrispondono, anche solo in parte, alla nostra chiave di ricerca. Es.: cercando 'Roberts' elenca anche 'Robertson'. Non distingue tra maiuscole e minuscole |
set search subcase | come il precedente, salvo che distingue tra maiuscole e minuscole |
La possibilità di interrogare un Archie server attraverso la mailbox è molto comoda. In caso di ricerche lunghe e complesse non dovremo attendere il responso on-line, con conseguente dispendio di tempo e soldi, ma potremo recuperare nella cassetta postale elettronica il risultato della nostra ricerca con comodo in un successivo collegamento. Naturalmente si possono attivare più ricerche via e-mail contemporaneamente, e presso Archie server diversi.
I comandi sono gli stessi di quelli usati con le interfacce a caratteri. Vediamo un esempio di interrogazione. Il corpo della nostra e-mail conterrà:
set mailto rossi@liberliber.it
set search sub
find Roberts
quit
Alcuni Archie server considerano l'oggetto di una e-mail parte integrante del messaggio; andrà quindi lasciato vuoto. Si consideri inoltre che di alcuni comandi esistono degli alias: 'set mailto' si può sostituire con 'path', oppure si può omettere del tutto (se il vostro mailserver invia correttamente e in modo automatico il vostro indirizzo di posta elettronica). Anche il 'quit' a fine lettera può essere omesso, ma è buona norma inserirlo comunque (consiglio valido specialmente per chi usa programmi di posta elettronica che inseriscono automaticamente una firma, la quale potrebbe confondere l'Archie server).
Ma a chi indirizzare queste e-mail? Agli Archie server elencati nella tabella precedente, i cui indirizzi di posta elettronica si compongono come segue:
archie@nome_dell'Archie_server
Ad esempio, l'indirizzo di posta elettronica dell'Archie server dell'università di Pisa (archi.unipi.it) è 'archie@archie.unipi.it', oppure, più sinteticamente, 'archie@unipi.it'.
Analogamente all'Internet Address Finder, shareware.com non è un programma, ma un sito Internet, la cui URL è http://www.shareware.com.
Fortunatamente il suo uso, anche nelle funzioni più avanzate, è estremamente intuitivo. Una volta selezionata la voce 'Search' non si dovrà fare altro che indicare il sistema operativo utilizzato dal nostro computer e quindi le chiavi di ricerca utili a individuare il file che ci interessa. Possiamo specificare anche in base a quale criterio vogliamo vengano ordinati i file una volta individuati, e quanti ne vogliamo visualizzare.
Una volta ottenuto l'elenco dei file che soddisfano la nostra ricerca, se disponiamo di un browser (come Netscape, Internet Explorer, Mosaic, ecc.) che integra le funzioni di FTP, possiamo prelevare ciò che ci interessa con un semplice click del mouse.
shareware.com, tra le altre cose, si preoccupa anche di fornirci una stima del tempo necessario per il prelievo, in funzione della velocità del nostro collegamento.
È bene specificare che shareware.com non è un Archie server a tutti gli effetti: i suoi archivi si limitano alle principali collezioni di file (come SimTel o Garbo). In considerazione della sua facilità d'uso e della sua immediatezza, è il sistema migliore per cercare un programma inserito nel grande circuito del pubblico dominio, ma ancora non può essere proposto come un reale e definitivo sostituto di Archie. In numeri: shareware.com ha archiviato alcune centinaia di migliaia di file (selezionati tra i più richiesti), gli Archie server hanno indici con più di due milioni di file.
figura 64: shareware.com, per la ricerca di programmi
I newsgroup Usenet sono una risorsa informativa potenzialmente preziosa, ma anche complessa e dispersiva come poche. In che modo orientarsi, ricercare e reperire l'informazione che ci interessa senza essere costretti a seguire decine di gruppi diversi, e a leggere centinaia di messaggi irrilevanti?
Fortunatamente, negli ultimi anni sono sorti alcuni servizi in grado di aiutare in questo non facile compito.
Innanzitutto, alcuni fra i motori di ricerca dei quali parleremo più estesamente in seguito - e in particolare AltaVista (raggiungibile all'indirizzo http://www.altavista.digital.com), Infoseek (raggiungibile all'indirizzo http://guide.infoseek.com/) ed Excite! (raggiungibile all'indirizzo http://www.excite.com/) - consentono di effettuare ricerche specifiche nei messaggi recenti di molti fra i principali newsgroup. Per farlo, occorrerà selezionare la voce 'Usenet' nel menu a tendina dell'opzione 'Search' nel caso di AltaVista e di Infoseek, e selezionare il pulsante 'Usenet' nella pagina di ricerca nel caso di Excite!. Dato che i newsgroup controllati da questi motori di ricerca e l'aggiornamento delle basi dati possono essere parzialmente diversi, conviene effettuare una ricerca su tutti e tre; nel caso dei newsgroup, nel momento in cui scriviamo Infoseek è comunque quello che produce il risultato più dettagliato.
Un altro motore di ricerca 'specializzato' in newsgroup è quello offerto da Deja News, all'indirizzo http://www.dejanews.com/. Fra le caratteristiche interessanti di Deja News c'è la possibilità, una volta individuato un messaggio Usenet che ci interessa, di visualizzare un 'profilo' del suo autore, che comprenda un elenco degli altri messaggi da lui inviati a gruppi Usenet.
Un indice più spartano ai newsgroup Usenet è raggiungibile alla URL http://harvest.cs.colorado.edu/Harvest/brokers/Usenet/query.html. Non ancora attivo nel momento in cui scriviamo, ma potenzialmente interessante per l'uso di sistemi di ricerca basati su reti neurali, è il servizio Newsweeder II; potrete saperne di più alla URL http://www.empirical.com/.
Se usate un computer Unix, il programma Newsclip vi permetterà di effettuare 'in casa' ricerche di questo tipo, filtrando direttamente l'offerta informativa del vostro news server preferito. Troverete informazioni al riguardo alla URL http://www.clarinet.com/newsclip.html.
Un servizio un po' diverso è offerto dal dipartimento di Computer Science dell'Università di Stanford. Si chiama Stanford Netnews Filtering Service, e si basa sull'uso della posta elettronica: fornendo le 'parole chiave' che ci interessano è possibile ricevere periodicamente e direttamente, via e-mail, i messaggi Usenet nei quali tali parole compaiono. La ricerca può essere effettuata attraverso operatori booleani, o attraverso un sistema 'statistico' che valuta se, relativamente all'elenco di parole chiave che avete fornito, il messaggio supera o no una determinata soglia di interesse. Dato che la ricerca avviene su un numero sterminato di newsgroup, occorre essere molto specifici nel fornire la (o le) parole chiave che interessano, per evitare di essere sommersi dai messaggi.
Istruzioni complete sull'uso del Net News Filter si possono ricevere inviando dal vostro account una mail senza oggetto, e con nel corpo del messaggio solo la parola help (niente firma o indirizzi), all'indirizzo netnews@db.stanford.edu, o dando un'occhiata alla pagina WWW http://woodstock.stanford.edu:2000/. Ah, già che ci siamo: attraverso la URL http://elib.stanford.edu si accede a un servizio simile che 'copre' le informazioni tecniche nell'ambito dell'informatica che circolano su Internet, non solo nei newsgroup.
Per finire, un paio di 'meta-indirizzi' utili per tenersi aggiornati sui motori di ricerca e di filtraggio esistenti per il mondo Usenet: http://www.ee.umd.edu/medlab/filter/ e http://www.yahoo.com/text/News/Usenet/Searching_and_Filtering/.
La ricerca nello spazio dei gopher: VeronicaIl gopher, come abbiamo visto nel prima parte del manuale, è uno strumento molto utile per cercare informazioni e risorse su Internet. Infatti permette di focalizzare la nostra attenzione sul contenuto dell'informazione piuttosto che sulla sua collocazione nella rete o sui metodi per raggiungerla. Tuttavia la quantità di gopher è talmente elevata che riuscire a trovare qualcosa di interessante può richiedere anche lunghissime passeggiate tra i 'tunnel' scavati dal nostro animaletto digitale. Per facilitare la ricerca di informazioni nel gopherspace, Steven Foster e Fred Barrie della Nevada University ebbero una idea: perché fare manualmente qualcosa che i computer potrebbero fare automaticamente?
Il prodotto di questa idea fu un potente strumento di ricerca, Veronica. Con questo fascinoso appellativo viene indicata una applicazione in grado di effettuare ricerche in tutti i menu dei vari gopher server, in base a parole chiave indicate dall'utente. Se Veronica trova una qualsiasi voce che contiene la parola specificata, ne annota le specifiche e l'indirizzo. Quando la ricerca è terminata, invia al client un menu (del tutto uguale ai normali menu di un gopher) che contiene come voci tutti i riferimenti trovati. Naturalmente anche in questo caso la ricerca viene effettuata in un database che viene aggiornato periodicamente (ogni una o due settimane), attraverso visite ai vari gopher. Veronica insomma rappresenta, per i server gopher, l'equivalente di Archie per i server FTP, ma ha il vantaggio di poter fare ricerche non su inespressivi nomi di file, ma su voci di menu, assai più descrittive.
Veronica è strettamente integrata con gopher, e si utilizza attraverso un normale client gopher. Quasi tutti i gopher server contengono una voce dedicata all'accesso ai server Veronica, che si intitola normalmente 'Search Gopher Space using Veronica'.
figura 65: La voce di menu gopher 'Search Gopher Space using
Veronica'
Selezionando questa voce, appare un menu che ci consente di scegliere quale server Veronica utilizzare per la ricerca, oppure di farlo scegliere al client in maniera automatica. I gopher server che ospitano anche i servizi di ricerca Veronica non sono molti. Dal punto di vista del contenuto la scelta circa il server da utilizzare non è fondamentale, poiché per il novantacinque per cento i database coincidono. Alcuni server possono essere più aggiornati per i materiali 'più vicini', ma lo scarto è veramente minimo. È dunque opportuno scegliere il server in base alla distanza ed agli orari (non è raro infatti trovare i server Veronica tanto affollati da rifiutare la connessione).
Come si può vedere nella figura 66, alcune voci sono precedute da una piccola lente. Essa indica che la voce di menu si riferisce ad un servizio di ricerca interattivo.
figura 66: Una schermata di WSGopher
È possibile effettuare due tipi di ricerca: si può limitare la ricerca alle sole voci che corrispondono a menu, che per un gopher sono directory: 'Find gopher directories by Title Word(s)'; oppure si possono ricercare i riferimenti alle parole chiavi desiderate in tutte le voci (anche quelle 'terminali', le 'foglie' dell'albero dei gopher): 'Search GopherSpace by Title word(s)'
In ogni caso occorre ricordare che la ricerca non può essere effettuata all'interno dei singoli documenti, che rimangono inaccessibili al gopher.
Una volta selezionato il server, appare una schermata che chiede di inserire le parole chiave in base alle quali effettuare la ricerca. La sintassi per effettuare ricerche è molto semplice: basta inserire la parola chiave nell'apposita finestra; ricordate, nel farlo, che Veronica non distingue fra maiuscole e minuscole.
La scelta della parola chiave è molto importante nella ricerca con Veronica. Non dobbiamo infatti dimenticare che i menu gopher sono costruiti da operatori umani senza seguire alcuno standard di catalogazione, e questo impone a chi effettua ricerche una certa immaginazione e la capacità di prevedere il maggior numero possibile di intestazioni sotto le quali possono essere catalogate le informazioni desiderate. Supponiamo ad esempio di voler cercare i documenti relativi all'Unione Europea. Iniziamo dunque ad inserire la stringa 'European Union', che molto probabilmente farà al caso nostro.
figura 67: L'attivazione di una ricerca in rete tramite WSGopher
Il server, una volta terminata la ricerca, ce ne mostra i risultati attraverso un normale menu gopher. Nel nostro caso, otterremo un elenco di 201 voci, tutte contenenti la stringa 'European Union'. A questo punto è possibile scorrere l'elenco e consultare le voci che interessano.
figura 68: Il risultato di una ricerca gopher
Abbiamo ottenuto un output molto esteso, pieno di voci spurie e di ripetizioni - ma probabilmente incompleto. Veronica, tuttavia, permette di raffinare notevolmente la ricerca, attraverso una sintassi molto semplice. In primo luogo si possono utilizzare anche più parole chiave, concatenandole attraverso gli operatori logici AND, OR e NOT. Se si immettono due parole chiave senza specificare un operatore, il server assume che si voglia usare l'operatore AND. Se necessario, possiamo costruire espressioni complesse utilizzando parentesi tonde. Ad esempio, poiché fino a pochi anni fa l'Unione Europea si chiamava Comunità Economica Europea, potremmo voler cercare riferimenti ad entrambe le sigle. Scriveremo dunque 'european (union OR community)'. Poi potremmo aggiungere le sigle UE e CEE alla nostra ricerca: 'european (union OR community) OR ue OR cee'.
È anche possibile specificare che tipo di risorsa stiamo cercando. Se ricordate, infatti, il gopher è in grado di caratterizzare le risorse che sono referenziate da una voce di menu. Ogni tipo è associato ad un numero; i più utili sono i seguenti:
Per indicare il tipo di file in una ricerca Veronica occorre aggiungere alla parola chiave il modificatore '-t' seguito dal numero. Ad esempio: 'european (union OR community) -t1'; in questo modo Veronica comporrà un menu scegliendo solo quelle voci che si riferiscono a file.
Un notevole potenziamento di questo meccanismo è introdotto dal gopher+, che consente di specificare con maggiore esattezza il tipo di file: ad esempio potremmo rifinire la nostra ricerca chiedendo solo file in formato testo, cosa che non è possibile con i normali gopher.
Attraverso Veronica è possibile ricercare pressoché tutto ciò che è rintracciabile nel gopherspace, ed anche oltre. Infatti, poiché il gopher è un gateway verso altri servizi Internet, Veronica può agevolmente sostituire Archie nella ricerca di file, con il vantaggio di fornire una unica e comoda interfaccia sia per la ricerca che per il trasferimento dei file sul proprio computer.
Chiudiamo questo paragrafo sulla ricerca di informazioni attraverso i gopher con un cenno ad un altro strumento: Jughead. Al contrario dei server Veronica, che consentono di effettuare ricerche in tutto il gopherspace, i server Jughead sono motori di ricerca locali: essi permettono di effettuare ricerche sulle voci di un singolo gopher. In questo modo si può evitare di esplorarne tutto l'albero. Per il resto esso funziona esattamente come Veronica. I gopher server che sono dotati di questo servizio vi dedicano una voce del menu principale, il cui titolo è normalmente "Search gopher titles at the University of ... ". Al posto di 'titles' può occorrere la parola 'menus' oppure 'items', e talvolta persino 'Jughead'!
La ricerca su basi dati full text: WAISGli strumenti di ricerca su Internet che abbiamo visto fino ad ora sono molto utili e potenti, ma hanno tutti un limite: non ci permettono di fare ricerche all'interno dei file. Questo non è un grande problema per quanto riguarda i file di tipo binario come i file eseguibili o i vari formati di file grafici. Il loro contenuto infatti può essere interpretato solo da altri programmi o dai sistemi operativi.
Ma il discorso è molto diverso per i file di testo, che rappresentano la maggior parte delle risorse informative sulla rete, e sono senza dubbio le più interessanti. In questo caso l'ideale sarebbe avere a disposizione un sistema di full text information retrieval ovvero un motore di ricerca in grado di effettuare ricerche su tutte le parole che occorrono all'interno di uno o più file di testo. Ebbene, su Internet un sistema che svolge questa funzione in modo egregio esiste: si chiama Wide Area Information Server (WAIS).
La tecnologia WAIS è stata sviluppata da Brewster Kahle quando lavorava come ricercatore alla Thinking Machine, una industria di supercomputer paralleli. Allo sviluppo hanno collaborato anche la Apple e la Dow Jones and Co., la nota agenzia specializzata in informazioni economiche.
WAIS permette di effettuare ricerche in centinaia di database testuali usando una singola interfaccia utente e termini di ricerca in linguaggio naturale, senza bisogno di imparare complicati linguaggi di interrogazione.
Il sistema si giova della tecnologia client-server tipica di Internet. Un server WAIS è un potente motore di ricerca in grado di indicizzare tutte le parole (ovvero le sequenze di caratteri separati da spazi o da delimitatori) contenute all'interno di file di testo; attraverso questi indici si possono fare ricerche sui documenti indicizzati. Il server assegna anche ad ogni documento un punteggio di rilevanza rispetto alla richiesta, basandosi sul numero di occorrenze delle parole chiave rinvenute.
La ricerca e la consultazione viene effettuata attraverso un client WAIS. Un client è in grado di consultare tutti i database indicati dall'utente, anche se tali database fossero distribuiti su più host: come per il gopher, il programma si occupa di stabilire le connessioni necessarie. Una caratteristica che potenzia WAIS è il relevance-feedback, ovvero la possibilità di usare il risultato di una ricerca come input per una ulteriore ricerca più raffinata. È possibile così effettuare ricerche estremamente specifiche.
Il modo più diretto di usare un client è naturalmente quello di installarlo sul proprio computer connesso ad Internet. Ne esistono versioni per ogni sistema operativo, sia in ambienti a caratteri che in ambienti grafici. Inutile dire che i secondi sono molto più semplici da utilizzare. I più noti e diffusi client a caratteri sono swais e waissearch, basati sulla shell Unix, mentre Xwais è il client più usato in ambiente X-Window. Esiste anche un client shareware realizzato dalla Einet che funziona in ambiente Windows, WinWAIS. I client con interfaccia a caratteri possono essere usati anche attraverso connessioni terminale o telnet.
Esistono anche altri modi per ricercare nei database WAIS. È possibile utilizzare un server WAIS attraverso gopher, usando la classica interfaccia a menu. Vi sono anche gateway tra WAIS server e HTTP server, che rendono possibile la consultazione dei database all'interno delle pagine Web. Peraltro molti motori di ricerca su World Wide Web utilizzano proprio la tecnologia WAIS, applicandola alle stesse pagine di World Wide Web. Ma di questo parleremo nel prossimo paragrafo.
I database WAIS, comunemente denominati sources (sorgenti), sono diverse centinaia. Ognuno indicizza documenti e file dedicati ad un particolare argomento. In molti casi si tratta di materiali già esistenti su Internet, che vengono archiviati e poi processati da un server WAIS installato su un qualche host: ad esempio gli archivi storici di alcune liste o newsgroup, o archivi di file testuali normalmente disponibili via FTP. Come si fa per sapere quali database sono a disposizione per la consultazione? Ogni nuovo server WAIS e ogni nuovo database che viene messo a disposizione su Internet viene registrato e descritto in apposite liste dette Directory of servers. Naturalmente queste ultime sono esse stesse degli archivi WAIS, che possono essere consultati. Insomma, una sessione di ricerca con WAIS può essere divisa in due fasi: la prima in cui si individuano i database che possono contenere materiali interessanti ai fini della nostra ricerca; la seconda in cui si effettua la ricerca vera propria.
Ad esempio, esiste un database che indicizza i testi elettronici del Project Gutenberg, un archivio di testi letterari e saggistici in inglese. Se vogliamo utilizzarlo, la prima cosa da fare è trovarlo, consultando una Directory of servers. Ve ne sono diverse su Internet, e normalmente ogni client ne conosce almeno una. WinWAIS, il client per Windows usa quella più importante, ospitata sul server della Thinking Machine. Il database nel quale si effettua una ricerca appare nel campo 'Selected sources'. Ricordiamo che è possibile effettuare ricerche anche su molteplici database contemporaneamente.
figura 69: WinWAIS
L'interfaccia di questo client è molto semplice da usare. Le parole che si intende cercare vanno digitate nel campo di immissione in alto, etichettato 'Tell Me about'.
La scelta delle chiavi di ricerca è molto importante. Occorre essere il più possibile specifici, per evitare di essere sommersi da una quantità enorme di rumore. Nel nostro caso inseriamo una serie di parole attinenti al Progetto Gutenberg: 'Gutenberg electronic text library'. La ricerca viene avviata con il pulsante 'Ask' sulla destra della finestra.
Il risultato di questa ricerca, che appare nella finestra in basso, è un elenco di database, uno dei quali è denominato 'proj-gutenberg.src': proprio quello che cercavamo. A questo punto dobbiamo inserire questo database nel campo 'Selected sources'. Basta premere due volte il tasto sinistro del mouse puntando sulla voce, ed appare una finestra che ci permette di aggiungere il database selezionato a quelli su cui effettuare la ricerca.
Possiamo ora effettuare le nostre ricerche sulla base dati del progetto Gutenberg, ad esempio cercando tutti i testi in cui compaiono determinate sequenze di parole. Il meccanismo di ricerca è esattamente lo stesso visto per cercare il database. I documenti rintracciati dal server WAIS vengono elencati nella finestra in basso. Ad ognuno è associato un indice di rilevanza, che ci aiuta nello scegliere il documento più interessante. Per vedere il contenuto dei testi rintracciati durante una ricerca occorre selezionarli con il mouse e poi premere il tasto 'View', oppure 'Save' per memorizzarli sul disco rigido.
Gli argomenti coperti dalle centinaia di database indicizzati dai vari server WAIS sparsi su Internet sono i più vari: ci sono preziosi archivi di documentazione tecnica, documenti ed atti ufficiali di enti e governi, archivi di articoli scientifici, ed anche elenchi di ricette dalle cucine di tutto il mondo. Insomma, ce n'è veramente per tutti i gusti.
La ricerca su World Wide WebWorld Wide Web è la risorsa Internet probabilmente più nota, e i suoi ritmi di espansione sono esponenziali. Le pagine informative immesse in rete riguardano gli argomenti più vari, e provengono da fornitori di informazione di natura assai eterogenea: dalle università alle industrie private (grandi e piccole), dai centri di ricerca ai negozi, dalle imprese editoriali ai partiti politici. Vi sono poi le numerosissime 'home page' personali del popolo di Internet, sulle quali torneremo più ampiamente in seguito.
Chi svolge una ricerca in rete si trova dunque davanti un duplice problema: reperire l'informazione cercata e valutare la sua correttezza, completezza, imparzialità.
Il secondo compito, assai delicato, dipende in parte dall'esperienza; un consiglio generale - una volta trovata una pagina informativa che reputiamo interessante - è quello di risalire sempre alla home page del sito che la ospita (su molte pagine sono disponibili apposite icone attive - altrimenti si può provare ad 'accorciare' progressivamente l'indirizzo nella barra delle URL, salendo di livello in livello nella struttura gerarchica del sito). In questo modo potremo in genere reperire informazioni su chi ha immesso in rete quella particolare informazione, in quale contesto e a quali fini.
Quanto al primo problema - quello di 'scoprire' le pagine esistenti che si occupano di un determinato argomento - una buona partenza è in genere rappresentata dai motori di ricerca disponibili in rete. Vi sono due tipi di risorse che è bene conoscere: gli indici alfabetici e quelli sistematici.
Gli indici alfabetici permettono di ricercare parole o combinazioni di parole. Se vogliamo ad esempio cercare le pagine che si occupano di Lewis Carroll (pseudonimo del reverendo Dodgson, l'autore di Alice nel paese delle meraviglie), potremo fornire al motore di ricerca le due parole 'Lewis' e 'Carroll'. In molti casi è possibile combinare le parole fornite utilizzando i cosiddetti operatori booleani: ad esempio, una ricerca con chiave 'Lewis AND Carroll' potrebbe fornirci le pagine in cui compaiono tutti e due i nomi, aiutandoci a scremare via pagine che non ci interessano. Attenzione, però, perché la sintassi corretta per utilizzare operatori come AND, OR, NOT varia da sito a sito.
La ricerca attraverso un indice alfabetico è molto comoda nel caso di nomi propri, o nel caso in cui le informazioni che vogliamo trovare si lascino caratterizzare attraverso termini molto specifici. Occorre tuttavia tenere presente che si tratta di una ricerca meccanica: il programma utilizzato non farà altro che cercare i termini da noi forniti all'interno di un immenso indice alfabetico in suo possesso - indice tenuto aggiornato da un 'demone' software che si muove continuamente lungo la rete, seguendo ogni link incontrato e indicizzando tutte le pagine percorse - e fornirci le corrispondenze trovate. L'intelligenza della ricerca dipende dunque in gran parte dalla scelta delle parole usate come parametri, anche se quasi tutti i motori di ricerca hanno la capacità di 'pesare' i risultati in base a elementi quali il numero di occorrenze della parola, l'occorrenza in zone significative del documento come i titoli o i link, e così via. Ciò significa che se abbiamo scelto bene i nostri termini di ricerca, riceveremo un elenco di pagine che avrà alte possibilità di iniziare da quelle per noi più significative. Ma se ad esempio avremo effettuato una ricerca con chiave 'Lewis Carroll', non troveremo mai le pagine nelle quali compare solo il nome di Dodgson.
Al contrario della ricerca alfabetica, la ricerca sistematica avviene su cataloghi ragionati di risorse: in genere la base dati è più ristretta (non saremo sicuri di trovare direttamente tutte, o anche solo la maggioranza delle pagine che ci interessano), ma la valutazione della pertinenza o meno di una determinata informazione non sarà più meccanica, ma risultato di una decisione umana.
Naturalmente, in questi casi i principi utilizzati per costruire l'impianto sistematico della banca dati sono fondamentali. Un catalogo ragionato di questo tipo si basa infatti su una sorta di 'albero delle scienze', da percorrere partendo da categorizzazioni più generali per arrivare via via a categorizzazioni più specifiche. Ed è importante che questo percorso di 'discesa al particolare' avvenga attraverso percorsi intuitivi e coerenti - compito naturalmente tutt'altro che facile.
L'esame dettagliato di alcune fra le risorse disponibili per la ricerca su World Wide Web ci aiuterà a comprendere meglio questi problemi. Sottolineiamo però fin d'ora l'importanza di un terzo tipo di ricerca, del quale è assai più difficile fornire un inquadramento generale: la navigazione libera attraverso pagine di segnalazioni di risorse specifiche. E' infatti una buona norma di 'netiquette' che chi rende disponibili informazioni su un determinato argomento, fornisca anche una lista di link alle principali altre risorse esistenti in rete al riguardo. Questo tipo di liste ragionate va naturalmente esso stesso cercato e trovato, cosa che in genere viene fatta usando indici alfabetici o cataloghi sistematici di risorse secondo le modalità sopra delineate. Una volta però che abbiamo individuato una di queste pagine-miniera di link specifici, potrà essere produttivo proseguire la nostra ricerca attraverso di essa. Le risorse in tal modo segnalate presentano infatti due importanti caratteristiche: sono state scelte in maniera esplicita e ragionata, e la scelta è presumibilmente opera di una persona che conosce bene il settore in questione.
Consideriamo innanzitutto un po' più da vicino i motori di ricerca appartenenti alla prima delle categorie sopra considerate: la ricerca per termini.
Come si è detto, in questi casi la ricerca avviene indicando una parola, o una combinazione di parole, che consideriamo ragionevolmente associata al tipo di informazione che vogliamo reperire. Il che evidentemente può avvenire solo se abbiamo un'idea sufficientemente chiara di quello che stiamo cercando, e se l'ambito della nostra ricerca può essere associato in maniera abbastanza immediata ad un termine, o ad un piccolo insieme di termini.
Il caso tipico è quello in cui la nostra ricerca riguarda una persona. Scegliamo come esempio una ricerca di informazioni sulla scrittrice Jane Austen, e vediamo come condurla utilizzando quelli che sono al momento forse i due principali motori di ricerca per termini disponibili su Internet: AltaVista e Lycos.
AltaVista è il risultato di un progetto di ricerca iniziato nell'estate del 1995 nei laboratori di Palo Alto della Digital, una delle principali industrie informatiche mondiali. L'indirizzo al quale raggiungerlo è http://www.altavista.digital.com.
Si tratta, nel momento in cui scriviamo, dell'indice di pagine Web probabilmente più vasto e comprensivo: a inizio aprile 1996, la Digital dichiarava di indicizzare circa 22 milioni di pagine, per un totale di undici miliardi di parole, e di eseguire una media di 6 milioni di ricerche al giorno.
Le ricerche attraverso AltaVista sono possibili in due distinte modalità: come 'simple query' e come 'advanced query'. La 'simple query' mette a disposizione un modulo come quello qui sotto:
figura 70: Il motore di ricerca AltaVista (simple query)
Occupandoci delle ricerche su newsgroup, abbiamo già considerato la prima delle caselle: l'opzione standard è 'Search the Web', ma il menu a tendina ci permette di scegliere anche l'opzione 'Search Usenet'. La seconda casella permette di scegliere la forma in cui vogliamo ci siano presentati i risultati della ricerca. 'Detailed form' produrrà una lista di siti contenente i titoli delle pagine reperite, accompagnati dalle prime due righe di testo, da una indicazione sulla dimensione in Kbyte della pagina, e dalla data dell'ultima indicizzazione da parte del motore di ricerca. 'Compact form' produrrà invece un elenco più scarno, in forma tabellare. La 'standard form' preimpostata al momento di accedere al sito è simile alla 'detailed form'.
Nella casella principale andranno inseriti il termine o i termini cercati. Nel nostro esempio, li abbiamo racchiusi fra virgolette, per indicare al motore di ricerca di considerarli come un termine unico: troveremo solo le pagine in cui compare l'espressione 'Jane Austen', e non quelle in cui compare solo il termine 'Jane', o solo il termine 'Austen', o quelle in cui i due termini compaiono lontani. Se non avessimo usato le virgolette, avremmo incluso nella ricerca anche questi casi - ma AltaVista ci avrebbe comunque fornito per prime le pagine in cui i due termini comparivano insieme, possibilmente nel titolo.
Il bottone 'Submit' (o il tasto 'Invio' della tastiera) servono ad eseguire la ricerca impostata.
Il fatto di utilizzare la 'simple query' non deve ingannare: è possibile compiere ricerche molto raffinate, usando fra gli altri gli operatori '+' (va premesso ai termini che vogliamo necessariamente presenti nella pagina), '-' (va premesso ai termini la cui occorrenza vogliamo escludere), '*' (che funziona come 'wild card': il termine 'astronom*' corrisponderà sia ad 'astronomy' che ad 'astronomia', o 'astronomical'). E' possibile anche limitare la ricerca a specifiche aree dei documenti: ad esempio inserendo come termine da ricercare 'title:"Jane Austen"' avremmo trovato solo le pagine il cui titolo contiene l'espressione 'Jane Austen'.
Per avere una descrizione dettagliata della sintassi ammissibile in una 'simple query' basterà fare click sull'icona 'Help' presente in apertura della pagina.
Nel momento in cui scriviamo, una simple query con valore 'Jane Austen' porta a un elenco di circa quattromila (!) pagine informative: fra le altre, pagine dedicate alla scrittrice da università, da appassionati, da librai e case editrici; versioni ipertestuali e testuali di molte fra le sue opere; programmi di corsi universitari dedicati a Jane Austen; bibliografie; articoli accademici che studiano i più disparati aspetti della sua letteratura, e addirittura... barzellette ispirate a Jane Austen. Per avere un'idea della mole del materiale disponibile, potete dare un'occhiata alla URL http://uts.cc.utexas.edu/~churchh/janeinfo.html.
La 'Advanced query' mette a disposizione una finestra di dialogo più complessa, e gli operatori booleani standard. La finestra è la seguente:
figura 71: Il motore di ricerca AltaVista (Advanced Query)
Nella casella 'Selection criteria' si può continuare a usare 'Jane Austen', ma gli operatori '+' e '-' non funzioneranno più; possiamo invece raffinare la ricerca con operatori booleani standard (se vogliamo eliminare tutte le pagine che parlano di Orgoglio e Pregiudizio potremo scrivere ad esempio '"Jane Austen" NOT Pride'). Per consentire la costruzione di espressioni di ricerca complesse, è possibile anche utilizzare parentesi. Attraverso la casella 'Results Ranking Criteria' possiamo influenzare l'ordine in cui visualizzare le pagine trovate (se 'Pride' lo scriviamo qui, le pagine che trattano di Orgoglio e pregiudizio saranno visualizzate per prime); possiamo anche eliminare le pagine 'poco aggiornate' (nel caso di una ricerca su Jane Austen, questa possibilità non ha probabilmente un gran senso), utilizzando le caselle nelle quali impostare la data iniziale e la data finale di creazione per le pagine cercate.
Il principale 'avversario' di AltaVista nel campo dei motori di ricerca per termini su tutto World Wide Web è Lycos. Nato come progetto sperimentale presso la Carnegie Mellon University sotto la direzione di Michael Mauldin, nel giugno 1995 Lycos si è trasformato in una vera e propria impresa (Lycos Inc.), che ottiene i propri profitti principalmente attraverso le 'inserzioni pubblicitarie' visualizzate automaticamente (con un meccanismo di rotazione) ogni volta che si accede al servizio.
Nei primi mesi del 1996 Lycos sembra aver perso terreno rispetto ad AltaVista in termini di numero di pagine indicizzate (a fine marzo, le pagine dichiarate sono "quasi 20 milioni"; si tratta comunque di numeri da prendere - come nel caso dei 22 milioni di pagine dichiarati da AltaVista - con un certo beneficio di inventario). Lycos ha tuttavia recentemente aggiunto ai propri servizi anche un catalogo sistematico di risorse, denominato 'A2Z'.
La URL alla quale collegarsi per effettuare ricerche attraverso Lycos è http://www.lycos.com; nel momento in cui scriviamo, funziona ancora anche l'indirizzo 'storico' del servizio: http://lycos.cs.cmu.edu/.
La schermata di base di Lycos è quella riportata qui sotto.
figura 72: Il motore di ricerca Lycos
Come Altavista, Lycos offre due schermate alternative per la ricerca semplificata e la ricerca avanzata. A differenza di AltaVista, tuttavia, queste due schermate non corrispondono a due linguaggi di interrogazione differenti: la ricerca avanzata costituisce piuttosto una specificazione della ricerca base attraverso alcune opzioni aggiuntive.
Al momento, Lycos non offre 'veri' operatori booleani, anche se è possibile premettere l'operatore '-' a un termine per ridurne il peso statistico. Se si inseriscono più termini, la ricerca avviene in 'or', anche se le pagine nelle quali compaiono tutti e due i termini cercati avranno un peso statistico maggiore, e figureranno dunque per prime nell'elenco. Una ricerca in 'and' è possibile attraverso la pagina di ricerca avanzata (la si raggiunge seguendo il link 'Enhance your search'), che ha la forma seguente:
figura 73: Il motore di ricerca Lycos (ricerca avanzata)
Attraverso il menu a tendina delle 'Search Options' potremo specificare quanti dei termini elencati vogliamo siano presenti, il livello minimo di rilevanza considerato accettabile (con 'loose match' otterremo un elenco più numeroso di pagine che con 'strong match', ma l'elenco conterrà probabilmente un numero maggiore di pagine irrilevanti), il numero di risultati per pagina da visualizzare, e la forma di visualizzazione (per una discussione dettagliata delle tre opzioni disponibili al riguardo, rimandiamo alla URL http://lycos.cs.cmu.edu/reference/results.html).
Nel momento in cui scriviamo, una ricerca in AND con chiave 'Jane Austen' produce attraverso Lycos un elenco di 460 documenti - un numero, come si può vedere, decisamente inferiore a quello ottenuto utilizzando AltaVista, anche se va considerato che la lista prodotta da AltaVista contiene un certo numero di pagine ripetute.
Attenzione: questa sezione
è stata
aggiunta il 17 settembre 1996.
L'evoluzione di Internet è rapidissima: Altavista non ha fatto in tempo a scalzare Lycos dalla posizione di migliore motore di ricerca per termini, che già nuovi concorrenti si affacciano all'orizzonte. Mentre stanno indubbiamente migliorando le quotazioni di Excite!, una new entry sembra velocemente avviata verso posizioni di assoluta supremazia. Si tratta di Hotbot (http://www.hotbot.com), il motore di ricerca di HotWired. Ancora in fase sperimentale, Hotbot è già ineguagliabile per numero di pagine indicizzate (circa 55 milioni) e per velocità di aggiornamento degli indici. Da segnalare anche l'ottimo sistema usato per presentare i risultati della ricerca, e la flessibilità delle opzioni disponibili attraverso la scheda di ricerca avanzata.
L'unico neo, per ora, risiede nel fatto che la velocità di connessione e di ricerca non è delle migliori. E' probabilmente per questo che Hotbot è per ora assai meno noto, in rete, di quanto non meriterebbe. Ma non fatevi sfuggire l'occasione per sperimentarlo: se ne parlerà sicuramente molto, in tempi brevi.
figura A: la home page di Hotbot
Gli altri motori di ricerca basati su (tentativi di) indicizzazione globale di World Wide Web non offrono al momento basi di dati paragonabili a quelle di AltaVista e Lycos. Ricordiamo comunque, fra gli altri, Infoseek (http://guide.infoseek.com/) Excite! (http://www.excite.com/) e Open Text (http://www.opentext.com:8080/). Infoseek produce gratuitamente liste che comprendono fino a 100 pagine rispondenti ai criteri di ricerca forniti, mentre per ottenere l'elenco completo è necessario un abbonamento (perché poi si dovrebbe voler pagare per un elenco comunque meno completo di quello ottenibile gratuitamente attraverso altri motori di ricerca, rimane misterioso!). Excite! offre la possibilità di differenziare le ricerche per termini da quelle per 'concetti', compiute attraverso un tesaurus; l'idea è interessante, ma la base dati di pagine indicizzate è ancora inadeguata. Open Text accetta una sintassi di ricerca piuttosto evoluta; anche in questo caso, tuttavia, la base dati disponibile è limitata.
Ci sono altri due tipi di risorse che può essere utile ricordare in conclusione: i cosiddetti strumenti di 'metaricerca', e gli indici di indici.
Le 'metaricerche' consistono, in sostanza, nell'inviare in maniera sequenziale o contemporaneamente a più motori di ricerca il termine o i termini che ci interessano. L'invio sequenziale è analogo alla consultazione successiva di più motori di ricerca: è comodo poterlo fare da un'unica pagina, ma non vi è alcun 'valore aggiunto' fornito da uno strumento di questo tipo. Provate comunque, fra i servizi che rientrano in questa categoria, EZ-Find (http://www.theriver.com/TheRiver/Explore/ezfind.html), Find-It (http://www.cam.org/~psarena/find-it.html), The Internet Sleuth (http://www.intbc.com/sleuth/), Starting Point (http://www.stpt.com/), e Virtual Reference Desk (http://www.refdesk.com/search.html).
Decisamente più appetibile è la possibilità di consultare contemporaneamente più motori di ricerca, in modo da ottenere un'unica lista di risposte. Al momento in cui scriviamo, due servizi si segnalano per offrire questa possibilità: Savvy Search (http://www.cs.colostate.edu/~dreiling/smartform.html) e Meta Crawler (http://metacrawler.cs.washington.edu). Savvy Search permette di scegliere se integrare o no i risultati eliminando le ripetizioni, ma a prezzo di un sostanziale ritardo nella visualizzazione dei risultati; inoltre è spesso sovraffollato (nel qual caso rifiuta di svolgere la ricerca richiesta), e la lista di risultati ottenuta non sembra seguire alcun ordine di rilevanza. Meta Crawler è moderatamente più efficiente: anch'esso richiede una certa attesa per la visualizzazione dei risultati, ma la lista che si ottiene è priva di duplicati e informativa. Anche in questo caso, tuttavia, l'ordine di visualizzazione non è sempre quello che ci si aspetterebbe, e il fatto che AltaVista non sia incluso tra i motori di ricerca consultati riduce fortemente l'utilità del servizio.
Naturalmente, meta-ricerche di questo tipo impediscono di utilizzare fino in fondo i linguaggi propri dei diversi motori di ricerca - e si tratta di un limite spesso notevole. L'integrazione fra motori di ricerca diversi è comunque senza dubbio una delle strade da esplorare per cercare di organizzare l'informazione disponibile attraverso World Wide Web, ed è probabile che in futuro strumenti di metaricerca acquisteranno una rilevanza e una flessibilità maggiore di quella attualmente possibile.
L'ultima osservazione riguarda gli indici di indici, che permettono di 'tenersi
aggiornati' sui motori di ricerca esistenti: un esempio davvero impressionante è All-in-one
(http://www.albany.net/allinone/), che
contiene una vera e propria banca dati ricchissima di indici di tutti i tipi,
interrogabili direttamente; si tratta dunque anche di uno strumento di metaricerca
sequenziale. Una pagina riassuntiva (in verità un po' dispersiva) con link ai principali
motori di ricerca è disponibile su Yahoo! (ne parleremo tra breve) alla URL http://www.yahoo.com/
Computers_and_Internet/Internet/World_Wide_Web/Indices_to_Web_Documents/. Se usate
Netscape, il bottone 'Net Search' vi porterà a un'altra lista di questo tipo, anche se
assai più scarna.
Accanto ai motori di ricerca che consentono ricerche per termini, abbiamo già accennato all'esistenza di cataloghi sistematici e ragionati di risorse. Il modello adottato è quello dell'arbor scientiae di derivazione medievale e rinascimentale, anche se naturalmente in questo caso fra i 'rami' principali dell'albero compaiono discipline come l'informatica e la telematica.
In una risorsa di questo tipo, elemento fondamentale è la scelta delle suddivisioni interne delle varie discipline: ad esempio, le informazioni relative alla musica delle popolazioni primitive andranno catalogate sotto la voce 'antropologia' (presumibilmente una sottovoce del settore 'scienze umane') o sotto la voce 'musica'?
Per fortuna la struttura ipertestuale di World Wide Web permette di superare problemi di questo tipo, che avevano angustiato generazioni e generazioni di enciclopedisti 'lineari'. Nulla impedisce, infatti, di classificare una stessa sottocategoria sotto più categorie diverse. Non vi sarà alcun bisogno, per farlo, di duplicare l'informazione: basterà duplicare i link. Visto da un punto di vista lievemente più tecnico, questo significa che gli indici sistematici di risorse sono strutturalmente più simili a grafi che ad alberi: ad uno stesso nodo si può arrivare attraverso percorsi alternativi, tutti egualmente validi. Dal punto di vista dell'utente, invece, ciò comporta semplicemente che - a meno di non andarla a cercare sotto categorie palesemente innaturali - trovare una determinata risorsa informativa sarà assai facile: l'indice sembrerà 'adattarsi' alle nostre scelte di categorizzazione.
Yahoo! sta agli indici sistematici di risorse un po' come AltaVista e Lycos messi insieme stanno ai motori di ricerca per termini: per ora, le altre risorse disponibili impallidiscono al confronto.
Yahoo! nasce nell'aprile 1994, quando David Filo e Jerry Yang, studenti di ingegneria elettronica all'Università di Stanford, iniziarono a creare pagine riassuntive con link ai siti Internet di loro interesse. Nel corso del 1994, Yahoo! (a proposito: la sigla ricorda naturalmente il grido di gioia che si suppone seguire all'individuazione dell'informazione cercata, anche se è ufficialmente sciolta dal curioso acronimo 'Yet Another Hierarchical Officious Oracle') si trasformò progressivamente in un vero e proprio database, ricco di migliaia di pagine indicizzate. All'inizio del 1995 Mark Andreessen, cofondatore della Netscape, percepì l'interesse dello strumento creato da Filo e Yang, e si offrì di contribuire alla trasformazione della iniziativa in una impresa commerciale. Adesso Yahoo! è un'impresa privata, finanziata attraverso le 'inserzioni' pubblicitarie accolte a rotazione nelle sue pagine. Nel marzo 1996, l'azienda ha annunciato di aver richiesto la quotazione in borsa.
Utilizzare Yahoo! è assai semplice. Al momento del collegamento (la URL è naturalmente http://www.yahoo.com) ci viene proposta una pagina come questa:
figura 74: Yahoo!, un tentativo di indicizzare le
informazioni presenti su Internet
Le voci in grassetto sono le categorie principali, quelle in carattere più piccolo sono alcune fra le loro sottocategorie. Supponiamo di ricercare informazioni sulle agenzie di traduzione raggiungibili attraverso Internet (esistono ormai molti servizi di questo tipo, nei quali la possibilità di scambio veloce e senza limiti geografici di testi e materiale multimediale costituisce un valore aggiunto notevolissimo). Presumibilmente, una buona categoria di partenza è quella 'Business and Economy'. Se seguiamo il collegamento disponibile, troveremo una ampia lista di sottocategorie: cerchiamo una agenzia professionale, e proviamo quindi la voce 'Companies'. La sottovoce 'Languages' sembra fare al fatto nostro: in effetti, al suo interno troviamo l'ulteriore specificazione 'Translation Services': una lista che al momento in cui scriviamo comprende i link alle pagine in rete di ben 168 diverse agenzie di traduzione.
Saremmo arrivati allo stesso risultato anche seguendo itinerari diversi: ad esempio, saremmo potuti partire dalla categoria 'Social Sciences', passando alla sottocategoria 'Languages' e quindi alla voce 'Companies'. Le categorizzazioni di Yahoo! sono spesso altamente discutibili - ma la moltiplicazione delle strade di accesso evita di solito che ci si perda completamente.
Yahoo! permette inoltre una ricerca per parole chiave che si rivela spesso il sistema più rapido per individuare la categoria cercata: nel nostro caso, sarebbe bastato inserire il termine 'translation' nella casella presente in tutte le pagine del servizio, e premere il bottone 'Search'. A differenza di quanto avviene nel caso di un motore di ricerca come Lycos o AltaVista, la ricerca non riguarda il testo integrale delle pagine World Wide Web, ma solo il database interno di Yahoo!; questa funzione permette dunque in genere di individuare, più che le singole risorse informative, le categorie che ci interessano.
Yahoo! non è l'unico servizio di catalogazione sistematica delle risorse disponibile su Internet, ma come si accennava è al momento quello di gran lunga più completo. Un elenco di altri cataloghi di questo tipo è raggiungibile premendo il pulsante 'Net Directory' di Netscape. Segnaliamo in particolare la funzionalità 'explore Topics' di Magellan (http://www.mckinley.com/).
Esiste anche un 'equivalente italiano' di Yahoo!: si chiama IWP (Italian Web Pages) e lo trovate alla URL http://queen.shiny.it/iwp/indexit.htm. Le pagine segnalate sono prevalentemente in italiano, o in qualche modo collegate al nostro paese. La scelta delle categorie è anche in questo caso a volte discutibile (le scienze umane sono ad esempio diventate 'Scienza umanistica'), ma il catalogo disponibile - considerato che si tratta di un servizio assai giovane - è in fondo abbastanza ricco.