L'état interne du llm paramètre la putain de mise à jour du gradient d'un trillion de dimensions ou à peu près. C'est beaucoup de degrés de liberté pour l'influence. Contre les frères ingénieurs qui établissent une "récompense" à une seule dimension…
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
17 J'aime
Récompense
17
5
Reposter
Partager
Commentaire
0/400
GweiTooHigh
· Il y a 4h
Définir le reward par l'homme est une blague.
Voir l'originalRépondre0
GasWhisperer
· 08-23 01:25
l'optimisation par gradient bat les bros n'importe quel jour fr
Voir l'originalRépondre0
NFTRegretter
· 08-23 01:22
la récompense a explosé
Voir l'originalRépondre0
NullWhisperer
· 08-23 01:12
techniquement, l'espace de gradient est plus complexe qu'ils ne le pensent smh
L'état interne du llm paramètre la putain de mise à jour du gradient d'un trillion de dimensions ou à peu près. C'est beaucoup de degrés de liberté pour l'influence. Contre les frères ingénieurs qui établissent une "récompense" à une seule dimension…