Laboratori NT-FPt  - Database
 pagina visitata 2324 volte dal 29/01/2010  
GEMET – GEneral Multilingual Environmental Thesaurus 

Il “GEMET” - http://www.eionet.europa.eu/gemet/index_html?langcode=it - è un dizionario terminologico multilingue realizzato a livello europeo dall’agenzia europea per l’ambiente “EEA” che si avvale del network denominato “EIONET” con il quale rende fruibile il contenuto dei documenti relativi alle attività istituzionali.

GEMET nasce con la funzione principale di strumento di gestione informativa dell’ETC/CDS (“European Topic Centre on Catalogue of Data Sources” - Centro Tematico Europeo per il Catalogo delle Fonti Dati) e ha origine dalla fusione del contenuto dei migliori tesauri realizzati in ambito europeo al fine di ottenere una base condivisa per la descrizione delle informazioni. Il progetto è stato gestito dal ministero dell’ambiente della Bassa Sassonia e ha visto la partecipazione di istituzioni italiane, austriache, tedesche e svedesi oltre che la collaborazione con altri stati membri e extra europei.
 
L'interesse per questo archivio nasce essenzialmente da alcune caratteristiche peculiari che lo rendono un interessante strumento di correlazione semantica fra banche dati disomogenee.
In sintesi è opportuno soffermarsi almeno sui seguenti aspetti di GEMET:
  1. Si tratta di un database terminologico specificatamente orientato ai temi del territorio e dell'ambiente
  2. E' dotato di struttura semantica interna
  3. E' multilingue
  4. E' gestito da un importante ente sovranazionale: l'Agenzia Europea per l'Ambiente (EEA)
I vocaboli contenuti in GEMET sono efficacemente utilizzabili per "etichettare" altre informazioni utilizzando un unico dizionario e conseguentemente effettuare ricerche tematiche, raggruppamenti e evidenziare relazioni fra insiemi di dati di varia natura.
 
Le tavole di definizione (e i dati) sono scaricabili da: http://www.eionet.europa.eu/gemet/rdf?langcode=it 
 

Struttura e centenuti di GEMET

 GEMET include termini provenienti dai seguenti dizionari disponibili nel 1996:
  1. Parte dell’”Umwelt Thesaurus” dell’Umweltsbundesamt dell’agenzia tedesca dell’ambiente, 1995;
  2. L’intero “Thesaurus Italiano per l’Ambiente (TIA)” del CNR - 1994 disponibile in 4 lingue, completo del sistema interno di classificazione realizzato nel 1995;
  3. L’intero “Multilingual Environment Thesaurus (MET)” del Nederlands Bureau voor Onderzoek di Amsterdam che deriva dal “Milieu-thesaurus” olandese disponibile in 8 lingue;
  4. L’intero “EnVoc Thesaurus” dell’UNEP Infoterra – 1997 in 6 lingue;
  5. L’intero “Thesaurus de Medio Ambiente” del Ministerio de Obras Publicas, Transportes y Medio Ambiente di Madrid – 1995 in 4 lingue;
  6. L’intero “Lexique environnement – Planète” del Ministère de l’environnement di Parigi – 1995 in 2 lingue;
  7. Singoli descrittori provenienti da documenti importanti dell’Agenzia Europea per l’Ambiente e dal “Thesaurus Eurovoc” del parlamento europeo – 1996.

 

 

In fase di realizzazione, dopo il primo accorpamento dei termini il database è stato sfoltito eliminando le ridondanze e applicando un sistema di codifica neutro (identificativo “non intelligente”). Successivamente i descrittori sono stati organizzati in supergruppi e gruppi che attualmente sono 4 e 32 per la classificazione gerarchica; inoltre è stata organizzata una lista di 40 temi per la classificazione tematica. La classificazione gerarchica adotta, secondo le indicazioni della ISO 12620, una strutturazione che partendo da un numero limitato di “Top terms” articola le relazioni tra descrittori di significato più generale (“Broader terms”) e altri di significato più specifico (“Narrower term”) oltre a descrivere interrelazioni semplicemente associativo (“Related terms”).

Per tutte le lingue supportate esiste la traduzione dell’insieme dei descrittori; l’equivalenza semantica è stata verificata singolarmente da esperti delle rispettive nazionalità e la validazione dell’italiano è già effettuata mentre per altre lingue è in corso di ultimazione.
Il GEMET segue le norme ISO sui tesauri monolingui (ISO 2788, 1986) e multilingui (ISO 5964, 1985).
Le relazioni gerarchiche tra descrittori posso essere di due tipi:
  1. generico: L’oggetto più specifico contiene tutte le caratteristiche di quello generale con l’aggiunta di alcune caratteristiche specifiche aggiuntive.
    p.es. roccia(generale) -> argilla(specifico)
  2. partitivo: L’oggetto più specifico è parte dell’oggetto generale.
    p.es. parti di un edificio(generale) -> muratura(specifico)
queste relazioni sono di tipo “poligerarchico” ossia i descrittori possono avere un numero indefinito di termini più generali e di termini più specifici.
Le relazioni tematiche sono invece basate sull’insieme dei 40 temi oppure - complementarmente – sull’insieme dei 32 gruppi. Essendo i temi complementari (e non relazionati) ai gruppi la struttura del thesaurus si può anche immaginare sotto forma di matrice tema/gruppo.
Un terzo tipo di relazioni è di tipo “associativo” in quanto i descrittori correlati non hanno dipendenze gerarchiche; questo tipo di relazione ha origine dal lavoro di associazione descrittore-tema e correla ad esempio oggetti e la discipline che li studia, processi e i loro prodotti, significato opposto, causa ed effetto ecc.
L’insieme dei descrittori è un insieme di termini piuttosto efficace ai fini della classificazione dei contenuti informativi; utilizzeremo la strutturazione gerarchica e tematica del GEMET per ottenere informazioni dal database sui contenuti equivalenti e sul grado di “vicinanza” tra termine di input e termini correlati in output.