Data mining nelle recensioni online di birra (Untappd/RateBeer): estrazione di sentiment e descrittori molecolari

L’obiettivo di questo articolo è illustrare le metodologie statistiche e computazionali utilizzate per analizzare grandi dataset di recensioni, mostrando come l’integrazione tra analisi testuale e dati chimici possa fornire indicazioni preziose a birrai, marketing manager e ricercatori. Verranno presentati esempi concreti tratti da studi recenti e, per rendere l’esperienza interattiva, abbiamo realizzato un tool che permette di esplorare il sentiment di una parola chiave all’interno di un campione di recensioni.

In questo post

Il fenomeno delle recensioni online di birra

Untappd, fondato nel 2010, conta oggi oltre 10 milioni di utenti e più di 200 milioni di “check-in”. RateBeer, nato nel 2000, offre un database storico di recensioni e valutazioni. Entrambi i portali consentono agli utenti di assegnare un punteggio globale (da 0 a 5) e di scrivere note testuali, spesso molto dettagliate, in cui descrivono aspetto, aroma, sapore e sensazioni tattili. Queste recensioni sono pubbliche e accessibili via API, rendendo possibile la creazione di dataset di grandi dimensioni.

L’analisi di questi testi consente di rispondere a domande come: quali sono gli aggettivi più usati per una New England IPA? Come varia il sentiment al variare del tenore alcolico? Esiste una correlazione tra la presenza di note “agrumate” e il contenuto di luppoli come Citra o Mosaic? Per approfondire le caratteristiche di questi luppoli, consigliamo la lettura di luppolo Citra: caratteristiche, storia e ricette e luppolo Mosaic: storia e ricette per birre.

Tecniche di text mining per l’estrazione del sentiment

Il sentiment analysis è una branca del natural language processing (NLP) che mira a classificare un testo come positivo, negativo o neutro. Nel contesto delle recensioni di birra, si possono distinguere due approcci principali: lessico-based e machine learning.

Approccio lessico-based

Si basa su dizionari di parole con associato un punteggio di polarità (es. “eccezionale” = +2, “deludente” = -2). Per l’italiano e l’inglese esistono risorse come SentiWordNet o il lessico di Hu e Liu. Applicato a una recensione, si calcola la somma dei punteggi delle parole presenti. Questo metodo è semplice ma non coglie le sfumature come la negazione (“non buono”) o l’ironia.

Machine learning

Modelli supervisionati (Naive Bayes, SVM, reti neurali) vengono addestrati su un set di recensioni già classificate manualmente. Le feature possono essere la presenza di parole (bag-of-words), n-grammi o word embedding (come Word2Vec o BERT). Recentemente, modelli pre-addestrati come BERT hanno raggiunto accuratezza superiore al 90% nella classificazione del sentiment su testi brevi.

Uno studio del 2022 ha confrontato diversi approcci su un dataset di 50.000 recensioni di RateBeer, mostrando che BERT supera i metodi tradizionali, soprattutto nel riconoscere il sarcasmo. Per chi desidera approfondire le tecniche di analisi sensoriale, suggeriamo l’articolo su off-flavor nella birra: guida completa ai difetti aromatici.

Descrittori molecolari: dai commenti alla chimica

Parallelamente all’analisi testuale, i ricercatori cercano di associare le parole usate dai consumatori a specifici composti chimici presenti nella birra. Ad esempio, la parola “agrumato” può essere correlata alla presenza di linalolo e geraniolo, terpeni tipici di alcuni luppoli. “Caramello” rimanda ai malti speciali e ai composti della reazione di Maillard, come il maltolo e il furaneolo.

Per stabilire queste correlazioni è necessario disporre di dati analitici sulla composizione delle birre recensite. Progetti collaborativi come il “Brewers Association Beer Style Guidelines” o database come il “Flavornet” forniscono informazioni sui composti aromatici caratteristici di ogni stile. Incrociando questi dati con le recensioni, si possono costruire mappe che legano il linguaggio dei consumatori alla chimica.

Un esempio significativo è lo studio di Rice et al. (2019) che ha analizzato 250.000 recensioni di IPA, trovando che i termini “tropicale” e “fruttato” sono fortemente correlati con birre ad alto contenuto di tioli (composti solforati) come il 3-mercaptoesanolo. Per saperne di più sui tioli, leggi thiolized IPA e liberazione di tioli: cosa sono.

Correlazioni tra sentiment e composizione

Una volta estratti il sentiment e i descrittori, è possibile indagare le relazioni con parametri oggettivi come IBU (amaro), ABV (grado alcolico), colore (SRM) o concentrazione di determinati composti. Ad esempio, ci si aspetta che all’aumentare degli IBU il sentiment diventi più polarizzato: gli amanti delle IPA apprezzeranno, mentre chi preferisce birre dolci potrebbe esprimere giudizi negativi.

Analisi statistiche multivariate (PCA, clustering) possono rivelare gruppi di birre simili in base al profilo dei commenti. Un’applicazione interessante è la previsione del punteggio complessivo di una birra basandosi solo sul testo della recensione: modelli di regressione riescono a stimare il voto con un errore medio inferiore a 0,3 punti su 5. Per chi si occupa di produzione, conoscere queste dinamiche aiuta a tarare le ricette in funzione del target di mercato.

Un altro aspetto è l’analisi temporale: come cambia il sentiment verso uno stile nel corso degli anni? Ad esempio, le NEIPA hanno visto un’impennata di recensioni positive tra il 2015 e il 2020, mentre recentemente si osserva una saturazione e una ricerca di novità, come le cold IPA o le birre a bassa gradazione. Approfondisci le tendenze in tendenze emergenti nel consumo di birra.

Casi studio: analisi di stili popolari

New England IPA (NEIPA)

Le NEIPA sono caratterizzate da torbidità, basso amaro percepito e intense note fruttate. Analizzando 10.000 recensioni su Untappd, le parole più frequenti risultano: “succosa”, “tropicale”, “morbida”, “agrumi”. Il sentiment è generalmente molto alto (media 4,2/5). La correlazione con i composti mostra un’alta incidenza di linalolo, geraniolo e tioli. La presenza di termini come “lievito” o “biomassa” può indicare una rifermentazione in bottiglia, come spiegato in birra rifermentata: cos’è, caratteristiche e proprietà.

Stout e Imperial Stout

Per le stout, i descrittori tipici sono “caffè”, “cioccolato”, “vaniglia”, “tostato”. L’analisi del sentiment rivela che le stout ad alta gradazione (oltre 10%) ricevono commenti entusiasti ma anche critiche per l’eccessiva dolcezza o alcolicità. La presenza di composti come il furaneolo (caramello) e il 4-vinilguaiacolo (affumicato) è spesso citata. Per chi produce birre scure, utile la guida su malti speciali: come usarli per differenziare la propria produzione.

Birre acide (Sour)

Le recensioni di birre acide utilizzano termini come “aspro”, “fruttato”, “secco”, “funky”. Il sentiment è polarizzato: alcuni amanti delle sour le adorano, altri le detestano. L’analisi chimica evidenzia la presenza di acido lattico e acetico, oltre a esteri particolari. Per approfondire, leggi birra acida semplice: guida completa al kettle sour.

Strumento interattivo: analizzatore di sentiment

Per sperimentare con il text mining, abbiamo realizzato un semplice analizzatore di sentiment basato su un lessico predefinito. Inserisci una frase (in italiano o inglese) e lo strumento restituirà un punteggio di polarità e le parole chiave positive/negative individuate.

Analizzatore di sentiment per recensioni di birra


Nota: l'analisi è puramente illustrativa; un modello reale richiederebbe un training più complesso.

Domande frequenti

Quali strumenti software si usano per il data mining delle recensioni?
Si utilizzano linguaggi come Python con librerie NLTK, spaCy, scikit-learn, e piattaforme cloud come AWS Comprehend o Google Cloud NLP.

Come si ottengono i dati da Untappd e RateBeer?
Entrambi offrono API ufficiali con limitazioni; è possibile anche effettuare scraping, ma bisogna rispettare i termini di servizio.

Il sentiment delle recensioni è affidabile?
Abbastanza, ma va considerato che gli utenti che recensiscono sono spesso appassionati e tendono a dare voti alti. Inoltre, il linguaggio può essere influenzato da mode.

Si può prevedere il successo di una nuova birra?
L'analisi delle recensioni storiche può aiutare a identificare caratteristiche apprezzate, ma il mercato è complesso e influenzato da molti fattori.

Dove posso trovare dataset pubblici?
Kaggle ospita alcuni dataset di recensioni di birra. Inoltre, il sito RateBeer ha reso disponibili in passato dei dump per scopi accademici.

tl;dr

Il data mining delle recensioni online consente di estrarre sentiment e descrittori molecolari, aiutando birrai e marketer a comprendere le preferenze dei consumatori e a correlare il linguaggio con la chimica della birra.

Dati strutturati







Il data mining applicato alle recensioni di birra offre uno sguardo senza precedenti sulle preferenze dei consumatori e sui legami tra linguaggio e chimica. I birrifici artigianali possono trarre vantaggio da queste analisi per orientare le scelte produttive e di marketing. Per continuare a esplorare il mondo della birra artigianale, ti invitiamo a leggere i nostri approfondimenti su malti speciali e luppoli emergenti.

Se organizzi eventi e vuoi offrire birra artigianale con una presentazione impeccabile, scopri il nostro angolo spillatore per matrimonio e il servizio di pulizia spillatore per mantenere sempre alti standard igienici.

Alla prossima!

🍻 Novità, sconti e promozioni:
iscriviti alla newsletter!

Non inviamo spam! Puoi saperne di più leggendo la nostra Informativa sulla privacy

5 commenti

  1. Articolo davvero illuminante! Mi occupo di marketing per un piccolo birrificio e sto pensando di utilizzare queste tecniche per capire meglio i nostri clienti. Qualcuno ha esperienza con l’API di Untappd?

  2. Ottimo pezzo! Ho già usato Python e NLTK per analizzare le recensioni delle nostre birre e i risultati sono stati sorprendenti. Ad esempio, abbiamo scoperto che la parola “morbida” è molto associata alle nostre NEIPA. NLTK è un buon punto di partenza.

  3. Mi chiedo se questi modelli funzionano bene anche per le recensioni in italiano, dato che la maggior parte dei tool sono addestrati su inglese. Qualche suggerimento?

    • Ciao Chiara, esistono risorse per l’italiano come SentiWordNet o modelli BERT multilingua. Puoi anche creare un dizionario personalizzato basato sulle tue recensioni.

  4. Sto provando a usare il vostro analizzatore interattivo. Funziona bene per frasi semplici, ma per recensioni più complesse magari non coglie tutto. Ottimo comunque come introduzione!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *