NormalizeEmbedding
Normalise un vecteur d’intégration. Si spécifié, le paramètre de dimension réduit le nombre de dimensions du vecteur à utiliser avant la normalisation.
Format
NormalizeEmbedding ( données { ; dimension } )
Paramètres
données
: toute expression de texte, rubrique de type Texte ou rubrique de type Conteneur qui contient un vecteur d'intégration.
dimension
: nombre de dimensions vectorielles à utiliser pour la normalisation. Si elle est omise, ou si la valeur est supérieure à la taille actuelle de la dimension du vecteur ou inférieure ou égale à 0, la taille entière de la dimension vectorielle est utilisée dans le calcul.
Les paramètres situés entre deux accolades { } sont facultatifs.
Résultat
Texte, Conteneur
Provient de la version
22.0
Description
Cette fonction renvoie une version normalisée du vecteur d'intégration d'entrée. Normaliser un vecteur renvient à mettre à l'échelle ses valeurs de sorte que sa longueur (ampleur) devienne 1. Il s'agit souvent d'une étape obligatoire avant d'effectuer des calculs tels que la similarité cosinus, car elle garantit que la mesure de similarité est basée uniquement sur la direction des vecteurs, et non sur leur ampleur.
Si le paramètre données
est textuel, il doit se présenter sous la forme d'un tableau JSON contenant des nombres à virgule flottante, par exemple, [-0.1, 0.5,...]
. Généralement, l'utilisation de vecteurs d'intégration en tant que données de conteneurs binaires améliore les performances.
Le paramètre dimension
permet de normaliser le vecteur en fonction uniquement d'un nombre spécifié de ses dimensions initiales. Si la valeur dimension
est spécifiée, la fonction calcule l'ampleur en utilisant uniquement les premiers éléments « dimension », puis met à l'échelle le vecteur original entier en fonction de cette ampleur. Le vecteur renvoyé a le même nombre de dimensions que le vecteur d'entrée, à moins que le paramètre dimension
ne soit utilisé pour tronquer le vecteur avant la normalisation.
Remarques
-
La plupart des modèles d'intégration génèrent des vecteurs d'intégration qui sont déjà normalisés (longueur d'unité). Dans de tels cas, il n'est pas nécessaire d'utiliser
NormalizeEmbedding
pour ces vecteurs (cela renverrait simplement le vecteur original). Vous devez généralement utiliser cette fonction uniquement si vous travaillez avec l'intégration de vecteurs générés par un modèle qui ne produit pas de vecteurs normalisés, ou si vous avez besoin de normaliser en fonction d'un sous-ensemble des dimensions du vecteur. -
L'utilisation du paramètre facultatif
dimension
peut être utile si vous voulez travailler avec une représentation de taille plus petite et fixe d'un vecteur plus grand tout en maintenant la comparabilité basée sur les dimensions initiales.
Exemple 1
NormalizeEmbedding ( "[3, 4]" )
renvoie [0,59999999999999999778, 0,80000000000000004441], qui à des fins d'illustration, revient approximativement à [0,6, 0,8]
. Le vecteur original [3, 4]
a une longueur de Sqrt(3^2 + 4^2) = 5. Le vecteur normalisé [0,6, 0,8]
a une longueur de Sqrt(0,6^2 + 0,8^2) = 1.
Exemple 2
NormalizeEmbedding ( Table::DonnéesIntégration ; 256 )
renvoie un nouveau vecteur contenant uniquement les 256 premières dimensions du vecteur original, normalisé de sorte que sa longueur soit de 1. Le vecteur d'intégration est stocké dans une rubrique de type Conteneur nommée Table::DonnéesIntégration. Ceci peut s'avérer utile si votre modèle d'intégration produit de grands vecteurs, mais que vous ne souhaitez utiliser qu'un nombre plus petit et fixe de dimensions pour vos calculs de similarité cosinus et que vous avez besoin que ces dimensions soient normalisées.