Information retrieval

A.A. 2020/2021
6
Crediti massimi
48
Ore totali
SSD
INF/01
Lingua
Inglese
Obiettivi formativi
L'insegnamento fornisce un'introduzione generale ai temi di ricerca nell'ambito dell'information retrieval, con attenzione sia allo stato dell'arte sia alle principali tendenze della ricerca nel settore. In particolare, l'insegnamento affronta i temi della ricerca di documenti, della classificazione di documenti, dell'individuazione automatica di topic e dei modelli statistici del linguaggio naturale. Oltre a una revisione aggiornata della letteratura, l'insegnamento si concentra quindi sulla valutazione dei sistemi di information retrieval, sull'uso delle tecniche di apprendimento automatico sui corpora di dati testuali e sull'indicizzazione latent semantics e probabilistica. Infine, l'insegnamento fornisce anche un'introduzione all'uso dei database NoSql per l'implementazione di sistemi di information retrieval.
Risultati apprendimento attesi
Gli studenti acquisiranno le seguenti competenze: 1) conoscere e comprendere gli argomenti principali, nonché i problemi di ricerca e le tendenze future nel campo dell'information retrieval; 2) apprendere come applicare le tecniche di elaborazione, indicizzazione, clustering e classificazione del linguaggio naturale a un corpus di testi per una specifica esigenza informativa; 3) essere in grado di giudicare la qualità delle diverse scelte di progettazione e realizzazione; 4) essere in grado di progettare, implementare e valutare un progetto specifico incentrato sulla ricerca o la classificazione di documenti; 5) comprendere la nozione di language model e essere in grado di rilevare specificità e topic in un corpus di documenti testuali; 6) essere in grado di utilizzare i principali strumenti e librerie Python necessari per sviluppare un progetto di analisi del testo.
Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Secondo semestre
La didattica per la fase emergenziale sarà erogata in forma di lezioni in modalità sincrona utilizzando la piattaforma Zoom negli orari previsti per il corso. Le lezioni saranno anche videoregistrate e rese disponibili sul sito ARIEL del corso. Nel caso in cui, tenuto conto dell'evoluzione dell'epidemia e del rispetto delle pertinenti normative, dovesse essere possibile svolgere attività in presenza in aula, gli studenti ne saranno prontamente informati tramite ARIEL.
Programma
L'insegnamento fornisce un'introduzione generale al tema dell'information retrieval classico e su web. In particolare, l'insegnamento affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali. L'insegnamento propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing. Infine, l'insegnamento fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.

ARGOMENTI PRINCIPALI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Word e Sentence embedding
Statistical and Neural Language models
Prerequisiti
Competenze di base sulla gestione dei dati. Elementi di statistica.
Metodi didattici
L'insegnamento è erogato in forma di lezioni frontali con ampio ricorso a esempi e materiali di supporto in forma di notebook Python. E' previsto l'uso di slide e materiali didattici che saranno progressivamente resi disponibili sul sito web dell'insegnamento in piattaforma Ariel (https://aferrarair.ariel.ctu.unimi.it).
La frequenza, per quanto non obbligatoria, è fortemente consigliata.
Materiale di riferimento
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
- Appunti, notebook e materiali forniti dal docente e pubblicati sul sito web dell'insegnamento (https://aferrarair.ariel.ctu.unimi.it)
Modalità di verifica dell’apprendimento e criteri di valutazione
Procedura d'esame
Sviluppo di un progetto. L'argomento del progetto deve essere discusso in precedenza con il docente. Il progetto dovrebbe dimostrare la comprensione degli argomenti delle lezioni e la capacità di proporre e motivare soluzioni innovative a specifici problemi di ricerca.

Il progetto sarà valutato attraverso una discussione con il docente sui risultati del progetto e sugli argomenti correlati del corso. La valutazione terrà conto sia del progetto sia del colloquio.

Studenti che non hanno preso parte alle lezioni
Discussione approfondita sugli argomenti del corso con il docente.

Come fare l'esame
L'uso del servizio SIFA per partecipare all'esame è obbligatorio. Dopo la registrazione a un esame su SIFA, gli studenti sono invitati a contattare il docente per programmare la discussione.
INF/01 - INFORMATICA - CFU: 6
Lezioni: 48 ore
Docente: Ferrara Alfio
Docente/i
Ricevimento:
Venerdì, 15.00 - 16.00
Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)