Come si fa ricerca in Internet

[ vai a Sezione 01 ] [ Sezione 02 ]

La ricerca nei newsgroup: i servizi newsfilter

I newsgroup Usenet sono una risorsa informativa potenzialmente preziosa, ma anche complessa e dispersiva come poche. In che modo orientarsi, ricercare e reperire l'informazione che ci interessa senza essere costretti a seguire decine di gruppi diversi, e a leggere centinaia di messaggi irrilevanti?

Fortunatamente, negli ultimi anni sono sorti alcuni servizi in grado di aiutare in questo non facile compito.

Innanzitutto, molti fra i motori di ricerca dei quali parleremo più estesamente in seguito - e in particolare HotBot (raggiungibile all'indirizzo http://www.hotbot.com - ma la pagina di ricerca dedicata specificamente ai newsgroup è all'indirizzo http://www.hotbot.com/usenet), AltaVista (raggiungibile all'indirizzo http://www.altavista.digital.com; per la ricerca nei newsgroup, occorre selezionare la voce 'Usenet' nel campo 'Search'), Infoseek (raggiungibile all'indirizzo http://www.infoseek.com/; per la ricerca sui newsgroup occorre selezionare il pulsante 'newsgroup' nella schermata principale) ed Excite! (raggiungibile all'indirizzo http://www.excite.com/ - ma per la ricerca sui newsgroup si può usare direttamente la URL http://www.excite.com/Reference/usenet.html) - consentono di effettuare ricerche specifiche nei messaggi recenti di molti fra i principali newsgroup. Dato che i newsgroup controllati da questi motori di ricerca e l'aggiornamento delle basi dati possono essere parzialmente diversi, conviene effettuare una ricerca su tutti e tre.

Un motore di ricerca 'specializzato' in newsgroup è invece quello offerto da DejaNews, all'indirizzo http://www.dejanews.com/. Fra le caratteristiche interessanti di DejaNews c'è la possibilità, una volta individuato un messaggio Usenet che ci interessa, di visualizzare un 'profilo' del suo autore, che comprenda un elenco degli altri messaggi da lui inviati a gruppi Usenet. Le numerose altre opzioni specifiche alla ricerca su newsgroup fanno di DejaNews lo strumento forse più avanzato in questo campo.

A contendergli il primato esiste però un altro, potentissimo servizio: quello offerto da Reference.com, alla URL http://www.reference.com. Si tratta di un servizio che ha due aspetti veramente notevoli: da un lato, l'archivio indicizzato è composto non solo da newsgroup Usenet, ma anche da diverse migliaia di mailing list, scelte fra le più significative, e da un certo numero di forum Web, un sistema di discussione attraverso pagine Web dedicate che per la sua comodità sta conoscendo una grande diffusione. Dall'altro, è possibile impostare ricerche 'attive' ('active queries'), che vengono ripetute per noi a intervalli regolari. I risultati della ricerca ci verranno inviati automaticamente e periodicamente per posta elettronica. In sostanza, si tratta di un servizio che permette un vero e proprio 'monitoraggio' di una sezione rilevante dell'informazione che viaggia su Internet, una sorta di 'eco della stampa' gratuito e altamente configurabile.

Per finire, un paio di 'meta-indirizzi' utili per tenersi aggiornati sui programmi e sui motori di ricerca e di filtraggio esistenti per il mondo Usenet: http://www.ee.umd.edu/medlab/filter/ e http://www.yahoo.com/text/News/Usenet/Searching_and_Filtering/.

La ricerca nello spazio dei gopher: Veronica

Il gopher, come abbiamo visto nella prima parte del manuale, è stato in passato uno strumento molto utile per cercare informazioni e risorse su Internet. Malgrado l'affermazione di World Wide Web ne abbia progressivamente diminuito l'importanza, tra le voci dei menu gopher (gopherspace) è ancora oggi possibile reperire molte informazioni, specialmente di tipo accademico.

Tuttavia, visto l'elevato numero di gopher server esistenti, riuscire a trovare qualcosa di interessante può richiedere passeggiate lunghissime tra i 'tunnel' scavati dal nostro animaletto digitale. Per facilitare la ricerca di informazioni nel gopherspace ci viene in aiuto una tecnologia sviluppata da due ricercatori della Nevada University, Steven Foster e Fred Barrie: Veronica.

Con questo fascinoso appellativo viene indicato un potente sistema di ricerca in grado di interrogare i menu di tutti i gopher server, in base a parole chiave fornite dall'utente. Se Veronica trova al loro interno una qualsiasi voce che contiene la parola specificata, ne annota le specifiche e l'indirizzo. Quando la ricerca è terminata, invia al client - cioè a noi - un menu (del tutto uguale ai normali menu di un gopher) che contiene come voci tutti i riferimenti trovati.

Naturalmente anche in questo caso la ricerca viene effettuata in un database che viene aggiornato periodicamente (ogni una o due settimane), attraverso visite ai vari gopher. Veronica insomma rappresenta, per i server gopher, l'equivalente di Archie per i server FTP, ma ha il vantaggio di poter fare ricerche non su inespressivi nomi di file, ma su voci di menu, assai più descrittive.

Veronica è strettamente integrata con gopher, e si utilizza attraverso un normale client gopher. Quasi tutti i gopher server contengono una voce dedicata all'accesso ai server Veronica, che si intitola normalmente 'Search Gopher Space using Veronica'.

Selezionando questa voce, appare un menu che ci consente di scegliere quale server Veronica utilizzare per la ricerca, oppure di farlo scegliere al client in maniera automatica. I gopher server che ospitano anche i servizi di ricerca Veronica non sono molti. Dal punto di vista del contenuto la scelta circa il server da utilizzare non è fondamentale, poiché per il novantacinque per cento i database coincidono. Alcuni server possono essere più aggiornati per i materiali 'più vicini', ma lo scarto è veramente minimo. È dunque opportuno scegliere il server in base alla distanza ed agli orari (non è raro infatti trovare i server Veronica tanto affollati da rifiutare la connessione).

È possibile effettuare due tipi di ricerca: si può limitare la ricerca alle sole voci che corrispondono a menu, con l'opzione 'Find gopher directories by Title Word(s)'; oppure si possono ricercare i riferimenti alle parole chiave desiderate in tutte le voci (anche quelle 'terminali', le 'foglie' dell'albero dei gopher): 'Search GopherSpace by Title word(s)'. In ogni caso occorre ricordare che la ricerca non può essere effettuata all'interno dei singoli documenti, che rimangono inaccessibili al gopher.

Una volta selezionato il server, appare una schermata che chiede di inserire le parole chiave in base alle quali effettuare la ricerca. La sintassi per effettuare ricerche è molto semplice: basta inserire la parola chiave nell'apposita finestra; ricordate, nel farlo, che Veronica non distingue fra maiuscole e minuscole.

La scelta della parola chiave è molto importante nella ricerca con Veronica. Non dobbiamo infatti dimenticare che i menu gopher sono costruiti da operatori umani senza seguire alcuno standard di catalogazione, e questo impone a chi effettua ricerche una certa immaginazione e la capacità di prevedere il maggior numero possibile di intestazioni sotto le quali possono essere catalogate le informazioni desiderate.

Il server, una volta terminata la ricerca, ce ne mostra i risultati attraverso un normale menu gopher. Molto spesso una semplice ricerca produce un output molto esteso, pieno di voci spurie e di ripetizioni. Veronica permette di raffinare notevolmente la ricerca, attraverso una sintassi molto semplice. In primo luogo si possono utilizzare anche più parole chiave, concatenandole attraverso gli operatori logici AND, OR e NOT. Se si immettono due parole chiave senza specificare un operatore, il server assume che si voglia usare l'operatore AND. Se necessario, possiamo costruire espressioni complesse utilizzando parentesi tonde.

È anche possibile specificare che tipo di risorsa stiamo cercando. Ogni tipo è associato ad un numero; i più utili sono i seguenti:

  • 1 per i file
  • 2 per i menu
  • 8 per una sessione telnet
  • 9 per i file binari.

Per indicare il tipo di file in una ricerca Veronica occorre aggiungere alla parola chiave il modificatore '-t' seguito dal numero.

Chiudiamo questo paragrafo sulla ricerca di informazioni attraverso i gopher con un cenno ad un altro strumento: Jughead. Al contrario dei server Veronica, che consentono di effettuare ricerche in tutto il gopherspace, i server Jughead sono motori di ricerca locali: essi permettono di effettuare ricerche sulle voci di un singolo gopher. In questo modo si può evitare di esplorarne tutto l'albero. Per il resto esso funziona esattamente come Veronica. I gopher server che sono dotati di questo servizio vi dedicano generalmente una voce del menu principale. Non farete fatica a trovarla: il titolo è normalmente 'Search gopher titles at the University of ...'.

La ricerca su World Wide Web

World Wide Web è la risorsa Internet probabilmente più nota, e i suoi ritmi di espansione sono esponenziali. Le pagine informative immesse in rete riguardano gli argomenti più vari, e provengono da fornitori di informazione di natura assai eterogenea: dalle università alle industrie private (grandi e piccole), dai centri di ricerca ai negozi, dalle imprese editoriali ai partiti politici. Vi sono poi le numerosissime 'home page' personali del popolo di Internet.

Chi svolge una ricerca in rete si trova dunque davanti un duplice problema: reperire l'informazione cercata e valutare la sua correttezza, completezza, imparzialità.

Il secondo compito, assai delicato, dipende in parte dall'esperienza; un consiglio generale - una volta trovata una pagina informativa che reputiamo interessante - è quello di risalire sempre alla home page del sito che la ospita (su molte pagine sono disponibili apposite icone attive - altrimenti si può provare ad 'accorciare' progressivamente l'indirizzo nella barra delle URL, salendo di livello in livello nella struttura gerarchica del sito). In questo modo potremo in genere reperire informazioni su chi ha immesso in rete quella particolare pagina, in quale contesto e a quali fini.

Quanto al primo problema - quello di 'scoprire' le pagine esistenti che si occupano di un determinato argomento - una buona partenza è in genere rappresentata dai motori di ricerca disponibili in rete. Vi sono due tipi di risorse che è bene conoscere: i motori di ricerca per termini e gli indici sistematici.

I motori di ricerca per termini permettono di ricercare parole o combinazioni di parole. Se vogliamo ad esempio cercare le pagine che si occupano di Lewis Carroll (pseudonimo del reverendo Dodgson, l'autore di Alice nel paese delle meraviglie), potremo fornire al motore di ricerca le due parole 'Lewis' e 'Carroll'. In molti casi è possibile combinare le parole fornite utilizzando i cosiddetti operatori booleani: ad esempio, una ricerca con chiave 'Lewis AND Carroll' potrebbe fornirci le pagine in cui compaiono tutti e due i nomi, aiutandoci a scremare via pagine che non ci interessano. Attenzione, però, perché la sintassi corretta per utilizzare operatori come AND, OR, NOT varia da sito a sito.

La ricerca attraverso un indice per termini è molto comoda nel caso di nomi propri, o nel caso in cui le informazioni che vogliamo trovare si lascino caratterizzare attraverso termini molto specifici. Occorre tuttavia tenere presente che si tratta di una ricerca meccanica: il programma utilizzato non farà altro che cercare i termini da noi forniti all'interno di un immenso indice alfabetico in suo possesso - indice tenuto aggiornato da un 'demone' software che si muove continuamente lungo la rete, seguendo ogni link incontrato e indicizzando tutte le pagine percorse - e fornirci le corrispondenze trovate. L'intelligenza della ricerca dipende dunque in gran parte dalla scelta delle parole usate come parametri, anche se quasi tutti i motori di ricerca hanno la capacità di 'pesare' i risultati in base a elementi quali il numero di occorrenze della parola, l'occorrenza in zone significative del documento come i titoli o i link, e così via. Ciò significa che se abbiamo scelto bene i nostri termini di ricerca, riceveremo un elenco di pagine che avrà alte possibilità di iniziare da quelle per noi più significative. Ma se ad esempio avremo effettuato una ricerca con chiave 'Lewis Carroll', non troveremo mai le pagine nelle quali compare solo il nome di Dodgson.

Al contrario della ricerca alfabetica, la ricerca sistematica avviene su cataloghi ragionati di risorse: in genere la base dati è più ristretta (non saremo sicuri di trovare direttamente tutte, o anche solo la maggioranza delle pagine che ci interessano), ma la valutazione della pertinenza o meno di una determinata informazione non sarà più meccanica, bensì risultato di una decisione umana.

Naturalmente, in questi casi i principi utilizzati per costruire l'impianto sistematico della banca dati sono fondamentali. Un catalogo ragionato di questo tipo si basa infatti su una sorta di 'albero delle scienze', da percorrere partendo da categorizzazioni più generali per arrivare via via a categorizzazioni più specifiche. Ed è importante che questo percorso di 'discesa al particolare' avvenga attraverso percorsi intuitivi e coerenti - compito naturalmente tutt'altro che facile.

L'esame dettagliato di alcune fra le risorse disponibili per la ricerca su World Wide Web ci aiuterà a comprendere meglio questi problemi. Sottolineiamo però fin d'ora l'importanza di un terzo tipo di ricerca, del quale è assai più difficile fornire un inquadramento generale: la navigazione libera attraverso pagine di segnalazioni di risorse specifiche. È infatti quasi una norma di 'netiquette' che chi rende disponibili informazioni su un determinato argomento, fornisca anche una lista di link alle principali altre risorse esistenti in rete al riguardo. Questo tipo di liste ragionate va naturalmente esso stesso cercato e trovato, cosa che in genere viene fatta usando indici alfabetici o cataloghi sistematici di risorse secondo le modalità sopra delineate. Una volta però che abbiamo individuato una di queste pagine-miniera di link specifici, potrà essere produttivo proseguire la nostra ricerca attraverso di essa. Le risorse in tal modo segnalate presentano infatti due importanti caratteristiche: sono state scelte in maniera esplicita e ragionata, e la scelta è presumibilmente opera di una persona che conosce bene il settore in questione. Abbiamo trovato comodo caratterizzare con l'espressione navigazione orizzontale questa terza modalità di ricerca su Web.

I motori di ricerca per termini

Consideriamo innanzitutto un po' più da vicino i motori di ricerca appartenenti alla prima delle categorie sopra considerate: la ricerca per termini.

Come si è detto, in questi casi la ricerca avviene indicando una parola, o una combinazione di parole, che consideriamo ragionevolmente associata al tipo di informazione che vogliamo reperire. Questo evidentemente può avvenire solo se abbiamo un'idea sufficientemente chiara di quello che stiamo cercando, e se l'ambito della nostra ricerca può essere associato in maniera abbastanza immediata ad un termine, o ad un piccolo insieme di termini.

Il caso tipico è quello in cui la nostra ricerca riguarda una persona. Scegliamo come esempio una ricerca di informazioni sulla scrittrice Jane Austen, e vediamo come condurla utilizzando quelli che sono al momento forse i due principali motori di ricerca per termini disponibili su Internet: AltaVista e HotBot.

AltaVista

AltaVista è il risultato di un progetto di ricerca iniziato nell'estate del 1995 nei laboratori di Palo Alto della Digital, una delle principali aziende informatiche mondiali. L'indirizzo al quale raggiungerlo è http://www.altavista.digital.com (o anche solo http://altavista.digital.com).

A inizio marzo 1997, AltaVista dichiarava di indicizzare circa 31 milioni di pagine; un numero già altissimo, ma inferiore a quello dichiarato dal suo principale rivale, HotBot. Nell'ottobre 1997, tuttavia, la Digital annunciava un'impressionante espansione del proprio parco macchine e del numero delle pagine indicizzate, che raggiungeva i 100 milioni. Nel marzo 1998 tale numero ha superato i 120 milioni di pagine (i soli indici di AltaVista occupano uno spazio di ben 200 Gigabyte), con una media di 32 milioni di richieste soddisfatte al giorno. Si può dire quindi che nel corso del 1997 AltaVista abbia sostanzialmente affiancato HotBot nel ruolo di principale motore di ricerca del Web, ruolo che a cavallo fra fine 1996 e inizio 1997 aveva temporaneamente perduto. Se si aggiunge a questo dato l'estrema velocità nelle risposte fornite da AltaVista, non ci si stupirà del fatto che per molti internauti, il passaggio da questo sito sia una tappa quasi obbligata di ogni navigazione.

Le ricerche attraverso AltaVista sono possibili in due distinte modalità: come 'simple search' e come 'advanced search'. La 'simple search' mette a disposizione un modulo come quello qui sotto (in verità, un po' deturpato dalla onnipresente pubblicità):

Figura 97
Figura 97 Il motore di ricerca AltaVista (simple search)

Occupandoci delle ricerche su newsgroup, abbiamo già considerato la prima delle caselle: l'opzione standard è 'Search the Web', ma il menu a tendina ci permette di scegliere anche l'opzione 'Search Usenet'. La seconda casella permette di scegliere se limitare la ricerca a documenti scritti in un determinato linguaggio.

Nella casella principale andranno inseriti il termine o i termini cercati. Nel nostro esempio, potremo racchiuderli fra virgolette doppie, per indicare al motore di ricerca di considerarli come un termine unico: troveremo solo le pagine in cui compare l'espressione 'Jane Austen', e non quelle in cui compare solo il termine 'Jane', o solo il termine 'Austen', o quelle in cui i due termini compaiono lontani. Se non usassimo le virgolette, includeremmo nella ricerca anche questi casi - ma AltaVista ci fornirebbe comunque per prime le pagine in cui i due termini comparivano insieme, possibilmente nel titolo.

Il pulsante 'Search' (o il tasto 'Invio' della tastiera) serve ad eseguire la ricerca impostata. Come risultato, riceveremo un elenco di titoli ed indirizzi di pagine che rispondono al nostro criterio di ricerca, ordinate cercando di dare il massimo rilievo a quelle nelle quali i nostri termini di ricerca compaiono nel titolo, all'interno di un link, o con una frequenza maggiore. Assieme ai titoli, troveremo le prime righe o un breve abstract del documento. A partire dal gennaio 1998, è anche possibile usufruire di un interessante servizio di traduzione automatica: assieme al titolo e all'abstract delle pagine trovate avremo infatti a disposizione un link 'Translate' che ci permetterà di impostare la lingua nella quale vogliamo visualizzare la pagina reperita. Tenete presente, comunque, che la traduzione è fatta automaticamente da un computer: i risultati, pur essendo spesso impressionanti, sono ancora largamente approssimativi, e possono servire a darci solo un aiuto di massima nell'interpretazione di un documento scritto in una lingua che non padroneggiamo.

Il fatto di utilizzare la 'simple search' non deve ingannare: è possibile compiere ricerche molto raffinate, usando fra gli altri gli operatori '+' (va premesso ai termini che vogliamo necessariamente presenti nella pagina), '-' (va premesso ai termini la cui occorrenza vogliamo escludere), '*' (che funziona come 'wild card': il termine 'astronom*' corrisponderà sia ad 'astronomy' che ad 'astronomia', o 'astronomical'). È possibile anche limitare la ricerca a specifiche aree dei documenti: ad esempio inserendo come termine da ricercare 'title: "Jane Austen"' avremmo trovato solo le pagine il cui titolo contiene l'espressione 'Jane Austen'.

Per avere una descrizione dettagliata della sintassi ammissibile in una 'simple search' basterà fare click sull'icona 'Help' presente in apertura della pagina.

Nel momento in cui scriviamo, una simple search con valore 'Jane Austen' porta a un elenco di circa sedicimila pagine informative: fra le altre, pagine dedicate alla scrittrice da università, da appassionati, da librai e case editrici; versioni ipertestuali e testuali di molte fra le sue opere; programmi di corsi universitari dedicati a Jane Austen; bibliografie; articoli accademici che studiano i più disparati aspetti della sua letteratura, e addirittura... barzellette ispirate a Jane Austen. Per avere un'idea della mole del materiale disponibile, potete dare un'occhiata alla URL http://uts.cc.utexas.edu/~churchh/janeinfo.html. A dimostrazione da un lato della continua espansione del Web, dall'altro del vero e proprio salto di qualità fatto da AltaVista con l'espansione dell'ottobre 1997, basti ricordare che nel marzo 1997 la stessa ricerca portava a un elenco di sole cinquemila pagine, e nel marzo 1996 a un elenco di quattromila pagine.

La 'advanced search' mette a disposizione una finestra di dialogo più complessa, e gli operatori booleani standard.

La casella per l'immissione dei parametri di ricerca è simile alla precedente, ma più ampia. Si può continuare a usare "Jane Austen", ma gli operatori '+' e '-' non funzioneranno più; possiamo invece raffinare la ricerca con operatori booleani (se vogliamo eliminare tutte le pagine che parlano di Orgoglio e pregiudizio potremo scrivere ad esempio '"Jane Austen" NOT Pride'). Per consentire la costruzione di espressioni di ricerca complesse, è possibile anche utilizzare parentesi. Attraverso la casella 'Ranking' possiamo influenzare l'ordine in cui visualizzare le pagine trovate (se 'Pride' lo scriviamo qui, le pagine che trattano di Orgoglio e pregiudizio saranno visualizzate per prime); possiamo anche eliminare le pagine 'poco aggiornate' (nel caso di una ricerca su Jane Austen, questa possibilità non ha probabilmente un gran senso), utilizzando le caselle nelle quali impostare la data iniziale e la data finale di creazione per le pagine cercate.

Per avere un'idea un po' più precisa delle capacità di AltaVista, proviamo altri due esempi: una ricerca con chiave 'Eugenio Montale' porta a circa 800 pagine (nel marzo 1997 erano circa 200), e una ricerca con chiave 'Umberto Eco' a oltre 7.000 (contro le circa 2.000 del marzo 1997).

Un'ultima osservazione: è possibile consultare AltaVista anche attraverso una interfaccia in italiano. Per utilizzarla, occorre impostare paese di origine e lingua desiderata nel modulo presente alla URL http://www.altavista.telia.com/, e inserire nei nostri bookmark la pagina alla quale verremo trasportati.

HotBot

HotBot (http://www.hotbot.com)   è nato nel 1996 per iniziativa di "HotWired" (http://www.hotwired.com), la controparte in rete della rivista "Wired" e, come la sorella su carta, sito 'di culto' per molti fra i nuovi profeti del digitale.

Ingresso relativamente recente nella ormai lunga lista dei motori di ricerca per termini (al momento di scrivere Internet '96 HotBot non esisteva ancora, ma ne segnalammo la nascita e le notevoli caratteristiche in uno dei primi aggiornamenti in rete del manuale), HotBot si segnala sia per numero di pagine indicizzate (che come nel caso di AltaVista dovrebbe aver superato la cifra di 100 milioni) sia per la potenza delle opzioni messe a disposizione dell'utente, attraverso una interfaccia coloratissima e divertente. Una curiosità: l'interfaccia di HotBot è gestita attraverso Linux, la famosa versione gratuita del sistema operativo Unix che dimostra così una volta di più tutta la sua potenza, riuscendo a non sfigurare rispetto a concorrenti commercialmente assai più potenti e... costosi.

Figura 98
Figura 98 HotBot, il motore di ricerca per termini del gruppo Wired

Le varie opzioni per la ricerca sono tutte disponibili attraverso menu a tendina. Possiamo così decidere se svolgere una ricerca in AND (opzione 'all the words'), in OR (opzione 'any of the words'), una ricerca su nomi (opzione 'the person': viene cercata sia la stringa ''Nome Cognome'' che quella ''Cognome Nome''). Il modulo di ricerca permette inoltre, volendo, di selezionare il tipo di documento, la sua provenienza geografica o 'ciberspaziale' (determinata attraverso il dominio del server che lo ospita), le date estreme tra le quali effettuare la ricerca. Ricerche ancor più avanzate possono essere effettuate attraverso la pagina 'SuperSearch', che permette di combinare fra loro ricerche con operatori differenti e di effettuare ricerche su tipologie estremamente specifiche di documenti (inclusi documenti non HTML come quelli scritti in Adobe Acrobat, e addirittura immagini, mondi VRML, applet Java). Il sito di HotBot è in genere più lento di quello Digital che ospita AltaVista, e l'aggiornamento degli indici, all'inizio davvero rapido, sembra procedere negli ultimi mesi con qualche ritardo (nonostante HotBot dichiari una media di 10 milioni di pagine visitate al giorno, che dovrebbe portarlo ad aggiornare tutto il proprio indice in poco più di una settimana).

A inizio aprile 1998, una ricerca per persona con chiave 'Jane Austen' condotta su HotBot portava a oltre 20.000 pagine, circa il doppio di quelle fornite dalla stessa ricerca nello stesso periodo del 1997. Nella stessa data una ricerca con chiave 'Eugenio Montale' portava a 863 pagine (contro le 481 dell'anno prima), e una ricerca con chiave 'Umberto Eco' a 9.163 (contro 4.973). Come si vede, HotBot tende a fornire un numero di risultati lievemente superiore a quello ottenuto attraverso AltaVista. Va però considerato che il meccanismo di ricerca di HotBot prevede, come abbiamo visto, una opzione specifica di ricerca per persone che effettua la ricerca sia nel formato 'Nome - Cognome' che in quello 'Cognome - Nome', mentre la ricerca per stringa che abbiamo usato nel caso di AltaVista ci impone di scegliere uno dei due ordini. Tenendo conto di tale fattore, possiamo dire che nel complesso le capacità di AltaVista e di HotBot al momento si equivalgono, anche se la maggiore velocità rende in genere più comoda la ricerca attraverso AltaVista.

Naturalmente, nel caso di una ricerca su termini abbastanza rari (ad esempio un personaggio non eccessivamente famoso), converrà utilizzare sia AltaVista che HotBot (ed eventualmente anche altri motori di ricerca): i risultati forniti, infatti, non saranno necessariamente gli stessi.

Altri motori di ricerca

Progressivamente, diversi altri motori di ricerca basati su (tentativi di) indicizzazione globale di World Wide Web si stanno avvicinando alla copertura offerta da HotBot e AltaVista. Va detto inoltre che strumenti diversi offrono modalità di ricerca diverse, e non è detto che il motore più adatto per una determinata ricerca sia necessariamente il più esteso in termini di pagine indicizzate. Ricordiamo fra gli altri:

  • Lycos (http://www.lycos.com)
    Uno dei capostipiti, nato come progetto sperimentale presso la Carnegie Mellon University sotto la direzione di Michael Mauldin e trasformatosi nel giugno 1995 in una vera e propria impresa, la Lycos Inc. Fra gli aspetti interessanti di Lycos, l'indicizzazione separata del 'Top 5% of the Web', che nelle intenzioni dovrebbe portare solo a pagine di alto interesse grafico e contenutistico (ma ovviamente ogni classificazione di questo tipo è assai opinabile). Una caratteristica notevole di Lycos è quella di 'accorgersi' della provenienza della richiesta, presentandoci automaticamente una interfaccia nella nostra lingua. La base di pagine indicizzate, tuttavia, è ormai molto più ristretta di quella di AltaVista o HotBot.
  • Infoseek (http://guide.infoseek.com/)
    Inizialmente a pagamento, Infoseek è da un paio d'anni gratuito come i suoi principali concorrenti, e ha integrato al motore di ricerca per termini un catalogo sistematico piuttosto bene organizzato. La base di pagine indicizzate è ampia, ma non al livello di quella di HotBot o AltaVista. I nostri test hanno mostrato una crescita rispetto al 1997 inferiore a quella dei principali concorrenti: un po' più di 6.000 pagine su Jane Austen (nel 1997 erano circa 5.000), 198 su Eugenio Montale (erano 180), poco più di 2.200 su Umberto Eco (sostanzialmente lo stesso numero del 1997).
  • Excite! (http://www.excite.com/)
    Un altro motore di ricerca che aveva conosciuto nel 1996 un notevole sviluppo, ma che sembra aver rallentato la sua espansione nell'ultimo anno (pur dichiarando una base di 50 milioni di pagine indicizzate). I dati della nostra ricerca-test lo mostrano infatti sostanzialmente fermo sui dati del 1997: circa 6.500 pagine su Jane Austen, 257 su Montale, circa 2.600 su Umberto Eco. La ricerca è assai semplice, ma offre la possibilità di combinare fra loro in maniera flessibile gli operatori booleani, usando anche le parentesi.

Col moltiplicarsi dei motori di ricerca, acquistano importanza altri due tipi di risorse che può essere utile ricordare in conclusione: i cosiddetti strumenti di 'metaricerca', e gli indici di indici.

Le 'metaricerche' consistono, in sostanza, nell'inviare in maniera sequenziale o contemporaneamente a più motori di ricerca il termine o i termini che ci interessano. L'invio sequenziale è analogo alla consultazione successiva di più motori di ricerca: è comodo poterlo fare da un'unica pagina, ma non vi è alcun 'valore aggiunto' fornito da uno strumento di questo tipo. Potete comunque dare un'occhiata, fra i servizi che rientrano in questa categoria, a EZ-Find (http://www.theriver.com/TheRiver/Explore/ezfind.html), Find-It (http://www.itools.com/find-it/find-it.html), Starting Point (http://www.stpt.com/), IntelliScope (http://wizard.inso.com).

Decisamente più appetibile è invece la possibilità di consultare contemporaneamente più motori di ricerca, in modo da ottenere un'unica lista di risposte. I servizi di questo tipo hanno conosciuto negli ultimi anni un vero e proprio boom. Ne avevamo ricordati due in Internet '96, otto in Internet '97, e quest'anno ci sembra senz'altro preferibile segnalare, anziché questa o quella risorsa fra le moltissime disponibili, la pagina di Yahoo! che ne raggruppa circa centoventi: http://www.yahoo.com/Computers_and_Internet/
Internet/World_Wide_Web/Searching_the_Web/
.

Savvy Search (http://guaraldi.cs.colostate.edu:2000/form) e Meta Crawler (http://www.metacrawler.com) restano comunque fra i più completi. Savvy Search - che dispone anche di una interfaccia in italiano - permette di scegliere se integrare o no i risultati eliminando le ripetizioni, ma a prezzo di un sostanziale ritardo nella visualizzazione dei risultati; inoltre è spesso sovraffollato (nel qual caso rifiuta di svolgere la ricerca richiesta), e la lista di risultati ottenuta non sembra seguire alcun ordine di rilevanza. Meta Crawler è moderatamente più efficiente: anch'esso richiede una certa attesa per la visualizzazione dei risultati, ma la lista che si ottiene è priva di duplicati e informativa. Anche in questo caso, tuttavia, l'ordine di visualizzazione non è sempre quello che ci si aspetterebbe.

Va detto che per effettuare metaricerche non è necessario collegarsi a un particolare sito in rete: è anche possibile ricorrere a uno dei molti programmini 'agenti', in grado di interrogare automaticamente i motori di ricerca per i quali li abbiamo configurati, e di fornirci, integrati, i relativi risultati. Ne parleremo fra breve, occupandoci del futuro della ricerca in rete.

Naturalmente, tutti questi tipi di metaricerche, presentando in genere all'utente una interfaccia unica, possono impedire di utilizzare fino in fondo i linguaggi propri dei diversi motori di ricerca - e si tratta di un limite spesso notevole. L'integrazione fra motori di ricerca diversi è comunque senza dubbio una delle strade da esplorare per cercare di organizzare l'informazione disponibile attraverso World Wide Web, ed è probabile che in futuro gli strumenti di metaricerca acquisteranno una rilevanza e una flessibilità maggiori di quelle attualmente possibili.

L'ultima osservazione riguarda gli indici di indici, che permettono di 'tenersi aggiornati' sui motori di ricerca esistenti: oltre al riferimento obbligato costituito dalla già ricordata pagina di Yahoo!, un esempio davvero impressionante è All-in-one (http://www.albany.net/allinone/), che contiene una vera e propria banca dati ricchissima di indici di tutti i tipi, interrogabili direttamente; si tratta dunque anche di uno strumento di metaricerca sequenziale. Un'altra risorsa di questo tipo è Virtual Reference Desk (http://www.refdesk.com/newsrch.html), che unisce ben 260 motori di ricerca in aree anche estremamente specifiche (dalla ricerca di impiego alle previsioni meteorologiche).

Servizi di catalogazione sistematica delle risorse

Accanto ai motori di ricerca che consentono ricerche per termini, abbiamo già accennato all'esistenza di cataloghi sistematici e ragionati di risorse. Il modello adottato è quello dell'arbor scientiae di derivazione medievale e rinascimentale, anche se naturalmente in questo caso fra i 'rami' principali dell'albero compaiono discipline come l'informatica e la telematica.

In una risorsa di questo tipo, elemento fondamentale è la scelta delle suddivisioni interne delle varie discipline: ad esempio, le informazioni relative alla musica delle popolazioni primitive andranno catalogate sotto la voce 'antropologia' (presumibilmente una sottovoce del settore 'scienze umane') o sotto la voce 'musica'?

Per fortuna la struttura ipertestuale di World Wide Web permette di superare problemi di questo tipo, che avevano angustiato generazioni e generazioni di enciclopedisti 'lineari'. Nulla impedisce, infatti, di classificare una stessa sottocategoria sotto più categorie diverse (ed eventualmente a 'livelli' diversi dell'albero). Non vi sarà alcun bisogno, per farlo, di duplicare l'informazione: basterà duplicare i link. Visto da un punto di vista lievemente più tecnico, questo significa che gli indici sistematici di risorse sono strutturalmente più simili a grafi che ad alberi: ad uno stesso nodo si può arrivare attraverso percorsi alternativi, tutti egualmente validi. Dal punto di vista dell'utente, invece, ciò comporta semplicemente che - a meno di non andarla a cercare sotto categorie palesemente innaturali - trovare una determinata risorsa informativa sarà assai facile: se ben compilato, l'indice sembrerà 'adattarsi' alle nostre scelte di categorizzazione.

Yahoo!

Yahoo! sta agli indici sistematici di risorse un po' come HotBot e AltaVista messi insieme stanno ai motori di ricerca per termini: si tratta indubbiamente dello standard, alla luce del quale vengono valutati tutti gli altri tentativi.

Yahoo! è nato nell'aprile 1994, quando David Filo e Jerry Yang, studenti di ingegneria elettronica all'Università di Stanford, iniziarono a creare pagine riassuntive con link ai siti Internet di loro interesse. Nel corso del 1994, Yahoo! (a proposito: la sigla ricorda naturalmente il grido di gioia che si suppone seguire all'individuazione dell'informazione cercata, anche se è ufficialmente sciolta dal curioso acronimo 'Yet Another Hierarchical Officious Oracle') si trasformò progressivamente in un vero e proprio database, ricco di migliaia di pagine indicizzate. All'inizio del 1995 Mark Andreessen, cofondatore della Netscape, percepì l'interesse dello strumento creato da Filo e Yang, e si offrì di contribuire alla trasformazione della iniziativa in una impresa commerciale. Adesso Yahoo! è una florida impresa privata, finanziata fra l'altro attraverso le 'inserzioni' pubblicitarie accolte a rotazione nelle sue pagine. Nell'estate 1996 l'azienda è approdata in borsa, con un buon successo. Probabilmente, l'indice Yahoo! diventerà col tempo solo una delle attività della omonima azienda: a quanto pare, è in particolare il settore delle news finanziarie e dei dati di borsa che sembra ora tentare la giovane e dinamica società.

Utilizzare Yahoo! è assai semplice. Al momento del collegamento (la URL è naturalmente http://www.yahoo.com) ci viene proposta una pagina come in figura 99.

Le voci in grassetto sono le categorie principali, quelle in carattere più piccolo sono alcune fra le loro sottocategorie. Supponiamo di ricercare informazioni sulle agenzie di traduzione raggiungibili attraverso Internet (esistono ormai molti servizi di questo tipo, nei quali la possibilità di scambio veloce e senza limiti geografici di testi costituisce un valore aggiunto notevolissimo). Presumibilmente, una buona categoria di partenza è quella 'Business and Economy'. Se seguiamo il collegamento disponibile, troveremo un'ampia lista di sottocategorie: cerchiamo un'agenzia professionale, e proviamo quindi la voce 'Companies'. La sottovoce 'Communications and media services' sembra fare al caso nostro: in effetti, al suo interno troviamo l'ulteriore specificazione 'Translation Services': una lista che al momento in cui scrivevamo Internet '96 comprendeva i link alle pagine in rete di ben 168 diverse agenzie di traduzione, e che adesso, due anni dopo, vede questo numero salito a 651: quadruplicato dunque in soli due anni!

Figura 99
Figura 99
Yahoo!, il più completo tentativo di indicizzare le informazioni presenti su Internet

Saremmo arrivati allo stesso risultato anche seguendo itinerari diversi: ad esempio, saremmo potuti partire dalla categoria 'Social Science', passando alla sottocategoria 'Linguistics and Human Languages', nella quale è pure presente la voce 'Translation Services'. Le categorizzazioni di Yahoo! - come quelle di qualsiasi altro indice sistematico dello stesso genere - sono spesso altamente discutibili083, ma la moltiplicazione delle strade di accesso rende molto difficile perdersi completamente.

Yahoo! permette inoltre una ricerca per parole chiave che si rivela spesso il sistema più rapido per individuare la categoria cercata: nel nostro caso, sarebbe bastato inserire il termine 'translation' nella casella presente in tutte le pagine del servizio, e premere il bottone 'Search'. A differenza di quanto avviene nel caso di un motore di ricerca come HotBot o AltaVista, la ricerca non riguarda il testo integrale delle pagine World Wide Web, ma solo il database interno di Yahoo!; questa funzione permette dunque in genere di individuare, più che le singole risorse informative, le categorie che ci interessano.

Altri servizi di catalogazione sistematica

Yahoo! non è l'unico servizio di catalogazione sistematica delle risorse disponibile su Internet, ma come si accennava è al momento quello di gran lunga più completo.

Da segnalare sono comunque i discreti indici sistematici offerti da Infoseek (http://www.infoseek.com), da Excite (nella sezione 'Channels'; http://www.excite.com), da Magellan (nella sezione 'Web Reviews': http://www.mckinley.com/), da Web Crawler (http://www.webcrawler.com). Indici talvolta più ampiamente commentati di quelli di Yahoo! - ma assai meno completi e sistematici.

Negli ultimi mesi si sono moltiplicati anche gli indici in italiano, utili sia per chi desidera evitare eccessive acrobazie linguistiche con le categorizzazioni inglesi, sia per chi desidera effettuare ricerche limitate allo specifico del nostro paese. Tenete presente, però, che la completezza è in genere molto inferiore a quella della concorrenza di oltreoceano - spesso anche per quanto riguarda le informazioni relative agli stessi siti italiani.

Da segnalare soprattutto Virgilio, un indice nato in casa Telecom On Line, con una ottima home page e una scelta informativa ricca anche di articoli e suggerimenti. La URL è ovviamente http://www.virgilio.it. Ma vanno provati anche Arianna, realizzato da Italia On Line, che permette ricerche sia sul proprio indice di siti italiani, sia sui principali motori internazionali (http://www.arianna.it/), Il Trovatore, realizzato dalla Webzone di Perugia (http://iltrovatore.webzone.it), Il ragno italiano (http://www.ats.it/ragno/), e infine le IWP (Italian Web Pages), che catalogano oltre 13.000 siti italiani, e possono essere utilizzate attraverso una interfaccia in diversi linguaggi (http://www.iwp.it).

In tutti questi casi, le pagine segnalate sono prevalentemente in italiano, o in qualche modo collegate al nostro paese.

La 'ricerca' dal browser

Sia Netscape 4 che Explorer 4 incorporano nella loro interfaccia un pulsante di ricerca ('Cerca' o 'Search') che può sembrare a prima vista attraente: non sarà una buona strada per evitare di perdersi fra motori di ricerca e indici sistematici di risorse, e per effettuare efficaci ricerche guidate?

Figura 100
Figura 100
Virgilio (http://www.virgilio.it), un buon punto di partenza per una navigazione guidata su siti italiani

Purtroppo, la realtà è un po' meno rosea. Il pulsante 'Cerca' di Explorer apre sì, in una finestra sulla sinistra dello schermo, un elenco di risorse completo di una maschera in cui inserire la stringa su cui effettuare la ricerca. Ed è decisamente comoda la possibilità che ci viene offerta di effettuare la ricerca su doppia finestra, con da un lato i titoli delle pagine trovate e dall'altro il contenuto delle singole pagine di volta in volta visitate. Tuttavia, i criteri con i quali sono raggruppati i motori di ricerca utilizzabili sono assai fuorvianti: motori di ricerca e indici sistematici sono infatti inseriti in una lista unica, accessibile attraverso un'unica interfaccia, con il rischio (ma è quasi una certezza) che l'utente inesperto non si renda conto della fondamentale differenza esistente fra questi due tipi di risorse, e delle diverse strategie di ricerca che la loro utilizzazione presuppone. Inoltre, l'elenco dei motori di ricerca consultabili è probabilmente influenzato da considerazioni commerciali: manca, per fare solo un esempio, HotBot.

Un discorso analogo vale per la pagina a cui ci porta il bottone 'Search' di Netscape. Anche qui, motori di ricerca e indici sistematici sono raggruppati in un'unica pagina, e anche qui si segnala un'assenza di rilievo - in questo caso, AltaVista.

E naturalmente in entrambi i casi viene nascosta la sintassi di ricerca propria di ogni singolo strumento, col prevedibile risultato di 'indebolire' le funzionalità a nostra disposizione.

Il nostro suggerimento, dunque, è quello di far ricorso a questi strumenti solo dopo aver acquisito una buona familiarità con i principali motori di ricerca e indici sistematici in rete. Gli utilizzatori di Explorer 4 possono comunque tener presente che esiste un utile pacchetto shareware, denominato CSB, che consente di ampliare in maniera sostanziale l'elenco degli strumenti di ricerca resi accessibili dal pulsante 'Cerca' di Explorer (anche qui, purtroppo, motori di ricerca e indici sistematici sono confusi in un'unica categoria). Lo si può scaricare attraverso Tucows, o direttamente alla URL http://www.geocities.com/SiliconValley/Horizon/8159/csb.htm.

Il futuro della ricerca: gli agenti

La maggior parte degli strumenti di ricerca in rete fin qui considerati presuppongono un utente estremamente 'impegnato' nel processo di individuare l'informazione che lo interessa, e presuppongono una ricerca per così dire 'd'occasione'. In altre parole, è nel momento specifico in cui una determinata informazione mi serve che mi metto a cercarla, e la mia ricerca richiede che io compia ogni volta e in prima persona un certo numero di azioni, alcune delle quali senz'altro ripetitive: ad esempio collegarmi alla pagina di HotBot o di Yahoo!, impostare i parametri della ricerca, restare collegato mentre ne aspetto i risultati.

Sarebbe molto comodo, in questi casi, disporre di un 'segretario' che conosca più o meno i miei interessi, sappia prevedere ed anticipare le mie richieste, compia al posto mio (prendendo autonomamente le decisioni più opportune) le azioni più ripetitive, e magari anche qualcuna di quelle meno ripetitive. L'idea di agente software cerca di avvicinarsi a questo ideale084: in sostanza, si tratta di incaricare un programma di svolgere per mio conto, anche a intervalli prefissati, determinate ricerche, magari chiedendogli di reagire autonomamente ai risultati della ricerca stessa (ad esempio 'filtrandoli' attraverso l'uso di criteri che potrebbero essere difficili o impossibili da impostare direttamente sul motore di ricerca utilizzato). Se il programma 'agente' non è poi fisicamente legato al mio computer (potrebbe ad esempio trattarsi di un programma ospitato da un server remoto, o addirittura 'distribuito' fra più server remoti), potrei affidargli ricerche e compiti da svolgere anche mentre il mio computer è scollegato dalla rete, e il contascatti della mia utenza telefonica resta tranquillo.

Per certi versi, alcuni degli strumenti che abbiamo visto fin qui possiedono già almeno in parte queste caratteristiche: è il caso ad esempio dei servizi di net filtering che permettono di impostare una ricerca da ripetere a intervalli regolari, comunicandocene i risultati via posta elettronica. I programmi client per ricevere informazione attraverso i meccanismi di information pushing hanno anch'essi alcune caratteristiche tipiche degli agenti (una volta che ho impostato i miei interessi, saranno loro a occuparsi di collegarsi al server o ai server remoti e a scaricare i dati, magari a intervalli di tempo prefissati), anche se restano fisicamente legati al mio computer. Quello che manca, in questi casi, è però la capacità di prendere decisioni realmente autonome, reagendo dinamicamente alle caratteristiche dell'universo informativo nel quale si muovono.

Occorre dire che di programmi di questo genere per ora esistono ben pochi esempi. Nell'attesa, però, ci si potrà sbizzarrire con i numerosi programmi in grado di effettuare ricerche e interrogazioni concorrenti su più motori di ricerca (riassumendo un po' le funzioni che abbiamo visto proprie dei siti per le metaricerche). Una lista di programmi di questo tipo è presente su Tucows, raggiungibile attraverso numerosi mirror italiani, nella categoria 'Searchbots' (ad esempio, alla URL http://mcftp.mclink.it/tucows/searchbot95.html).

È prevedibile che il settore degli agenti di ricerca intelligenti conoscerà nei prossimi anni un'evoluzione tale da far sembrare questi primi strumenti solo rozze e primitive approssimazioni ad applicazioni assai più sofisticate, potenti e autonome. Per adesso, ci limitiamo a segnalare una prospettiva, una probabile linea di tendenza. Siamo convinti, però, che nei prossimi anni questa sezione del manuale sarà una di quelle che conosceranno la maggiore espansione.

Come si fa ricerca in Internet
[ vai a Sezione 01 ] [ Sezione 02 ]