{ "cells": [ { "cell_type": "markdown", "id": "abc5cf0b", "metadata": {}, "source": [ "# Addestra il tuo GPTux" ] }, { "cell_type": "markdown", "id": "cd1dfd38", "metadata": {}, "source": [ "Questo è un breve notebook in cui è presentata la costruzione ed addestramento di un transformer \"giocattolo\", sia per le sue dimensioni che per il piccolo dataset utilizzato.\n", "Lo scopo è quindi puramente didattico, in quanto il notebook nasce come parte integrante della presentazione per l'evento organizzato dall'associazione POuL per il Linux Day 2025.\n", "\n" ] }, { "cell_type": "markdown", "id": "8dc7c592", "metadata": {}, "source": [ "## Tokenizer\n", "\n", "\n", "Così come i pixel con la loro rappresentazione tramite vettore 3 dimensionale (RGB), vanno a formare una rappresentazione delle immagini adatta all'elaborazione digitale; anche il testo ha bisogno di essere suddiviso in parole o sotto-parole che possano essere rappresentabili univocamente tramite un vettore multi dimensionale.\n", "\n", "