๐ˆ๐ฅ ๐‚๐ฅ๐ฎ๐ฌ๐ญ๐ž๐ซ๐ข๐ง๐  ๐Ÿ๐š๐ญ๐ญ๐จ ๐›๐ž๐ง๐ž

/ / Blog, Consulenza Strategica, Strategie di e-commerce

๐ˆ๐ฅ ๐‚๐ฅ๐ฎ๐ฌ๐ญ๐ž๐ซ๐ข๐ง๐  ๐Ÿ๐š๐ญ๐ญ๐จ ๐›๐ž๐ง๐ž

E’ ormai una moda tra i marketer eseguire clustering di dataset in excel utilizzando LLM come ChatGPT. Fin qui tutto bene trattandosi di una tecnica molto utile in ambito marketing (ad esempio per analisi comportamentale, segmentazione clienti, ecc.). Il problema nasce quando non si ha consapevolezza di come funziona un algoritmo di clustering e di cosa richiede per funzionare bene.

Quando si lavora con il clustering, ci sono diverse accortezze e tecniche che migliorano significativamente i risultati e dai quali non possiamo prescindere.
Di seguito alcuni punti chiave da considerare:

1๏ธโƒฃ ๐˜•๐˜ฐ๐˜ณ๐˜ฎ๐˜ข๐˜ญ๐˜ช๐˜ป๐˜ป๐˜ข๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฐ ๐˜ด๐˜ต๐˜ข๐˜ฏ๐˜ฅ๐˜ข๐˜ณ๐˜ฅ๐˜ช๐˜ป๐˜ป๐˜ข๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ: quando le variabili hanno scale diverse, รจ essenziale normalizzare o standardizzare i dati.

2๏ธโƒฃ ๐˜Ž๐˜ฆ๐˜ด๐˜ต๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ๐˜ญ๐˜ฆ ๐˜ข๐˜ด๐˜ช๐˜ฎ๐˜ฎ๐˜ฆ๐˜ต๐˜ณ๐˜ช๐˜ฆ:ย le distribuzioni asimmetriche (determinate da outliers) influenzano negativamente gli algoritmi di clustering, quindi รจ importante gestirle correttamente.

3๏ธโƒฃ ๐˜™๐˜ช๐˜ฅ๐˜ถ๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ๐˜ญ๐˜ข ๐˜ฅ๐˜ช๐˜ฎ๐˜ฆ๐˜ฏ๐˜ด๐˜ช๐˜ฐ๐˜ฏ๐˜ข๐˜ญ๐˜ช๐˜ตร : tecniche come PCA (Principal Component Analysis) possono ridurre il rumore e migliorare la separabilitร  dei cluster.

4๏ธโƒฃ ๐˜š๐˜ฆ๐˜ญ๐˜ฆ๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ๐˜ญ๐˜ฆ ๐˜ท๐˜ข๐˜ณ๐˜ช๐˜ข๐˜ฃ๐˜ช๐˜ญ๐˜ช ๐˜ณ๐˜ช๐˜ญ๐˜ฆ๐˜ท๐˜ข๐˜ฏ๐˜ต๐˜ช:ย eliminare le variabili ridondanti o non informative migliora la qualitร  del clustering.

5๏ธโƒฃ ๐˜‹๐˜ฆ๐˜ต๐˜ฆ๐˜ณ๐˜ฎ๐˜ช๐˜ฏ๐˜ข๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ ๐˜ฏ๐˜ถ๐˜ฎ๐˜ฆ๐˜ณ๐˜ฐ ๐˜ฐ๐˜ต๐˜ต๐˜ช๐˜ฎ๐˜ข๐˜ญ๐˜ฆ ๐˜ฅ๐˜ช ๐˜ค๐˜ญ๐˜ถ๐˜ด๐˜ต๐˜ฆ๐˜ณ (๐˜ฌ), fondamentale, soprattutto per il clustering con K-Means.

6๏ธโƒฃ ๐˜๐˜ข๐˜ญ๐˜ถ๐˜ต๐˜ข๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ๐˜ญ๐˜ข ๐˜ด๐˜ต๐˜ข๐˜ฃ๐˜ช๐˜ญ๐˜ช๐˜ตร  ๐˜ฅ๐˜ฆ๐˜ช ๐˜ค๐˜ญ๐˜ถ๐˜ด๐˜ต๐˜ฆ๐˜ณ: utilizzare tecniche di cross-validation per valutare la stabilitร  dei cluster.

7๏ธโƒฃ ๐˜๐˜ข๐˜ญ๐˜ถ๐˜ต๐˜ข๐˜ป๐˜ช๐˜ฐ๐˜ฏ๐˜ฆ ๐˜ฅ๐˜ฆ๐˜ญ ๐˜ค๐˜ฐ๐˜ฏ๐˜ด๐˜ฆ๐˜ฏ๐˜ด๐˜ฐ ๐˜ค๐˜ญ๐˜ถ๐˜ด๐˜ต๐˜ฆ๐˜ณ๐˜ช๐˜ฏ๐˜จ:ย eseguire il clustering diverse volte e valutare il consenso tra i risultati.

8๏ธโƒฃ ๐˜Š๐˜ฐ๐˜ฏ๐˜ฐ๐˜ด๐˜ค๐˜ฆ๐˜ฏ๐˜ป๐˜ข ๐˜ฅ๐˜ฆ๐˜จ๐˜ญ๐˜ช ๐˜ข๐˜ญ๐˜จ๐˜ฐ๐˜ณ๐˜ช๐˜ต๐˜ฎ๐˜ช ๐˜ฅ๐˜ช ๐˜ค๐˜ญ๐˜ถ๐˜ด๐˜ต๐˜ฆ๐˜ณ๐˜ช๐˜ฏ๐˜จ: non esiste solo K-Means, ma anche diversi altri algoritmi di clustering:
– DBSCAN: adatto per dati con rumore e densitร  variabile.
– Agglomerative Clustering: per gestire forme di cluster complesse.

Questo รจ solo un esempio di quanto sia complesso il corretto funzionamento di un algoritmo. Possiamo chiedere tutto ai nostri LLM, ma prima di chiedere bisogna avere la giusta consapevolezza di cosa si cela dietro una richiesta fatta con un prompt. Come sempre, sottolineo l’importanza di conoscere la materia prima di “chiedere” al nostro super intelligentone ChatGPT. ๐Ÿ“Š๐Ÿค–

๐’๐๐Ž๐ˆ๐‹๐„๐‘: a breve rilasceremo una nuova applicazione ๐‘๐…๐Œ ๐†๐ž๐ง๐ข๐ฎ๐ฌ per analisi RFM che esegue, tra le tante cose, il clustering di una dataset di clienti.
L’algoritmo? Esegue tutti gli step elencati sopra.

Vuoi saperne di piรน?
โžก๏ธ https://lnkd.in/dibfxm_J

๐ŸŒ Desideri rimanere aggiornato sulle ultime novitร  nel mondo dei Dati e Machine Learning? Segui il nostro blog:
โžก๏ธ https://bigquerylab.com/