第12章
关灯
小
中
大
她用鼠标圈出来,“这几行。
” 不知道是因为嘴里有糖,还是因为不想跟慕留说话,她的嘴张得不够开,声音有点含混。
“嗯,”慕留敛了笑意,认真地问她,“词向量维度100是什么意思?” “词向量里有100个元素。
” “对,具体说是有一个向量空间,它有100个维度,我们把这个词映射到这个空间里,得到了100个坐标。
同一个词在不同维度的表现可能差异很大,举个例子,”慕留对着屏幕想了两秒,“比如‘小牛’和‘小羊’。
” 杨枝用余光瞟了他一眼,没出声。
“在一个和动物有关的维度上,‘小牛’和‘小羊’可能会表现得很相似,浮点数很接近,但是在别的维度,比如地理位置,或者是一个不可解释的维度上,‘小牛’和‘小羊’可能就会表现得差异很大,相关性很低。
所以维度越高,捕捉到的词语关系就会越准。
” 杨枝“嗯”了一声。
慕留说到这里,开始一边敲代码一边讲:“这里它设定的维度是50,其实是很低的维度。
但是它想把词向量可视化,可视化的话维度50还是太高,一般是2或者3。
” 他扭头看向杨枝,“所以要怎么办?” 杨枝看向屏幕,“降维。
” “对,”慕留把头转回去,“降维有几种办法,它这里用的是tsne算法,所以加了一个rtsne的包,后面这两个参数,dims就是维度,theta你可以理解成一个加快计算速度的参数,一般在0到1之间取,它取了0.1,这个值比较小,所以计算速度就比较慢,但是算得更精确。
” 手指适时按下两个井号,把他说的一些重点写成注释。
她提问:“可以取到0和1吗?”
” 不知道是因为嘴里有糖,还是因为不想跟慕留说话,她的嘴张得不够开,声音有点含混。
“嗯,”慕留敛了笑意,认真地问她,“词向量维度100是什么意思?” “词向量里有100个元素。
” “对,具体说是有一个向量空间,它有100个维度,我们把这个词映射到这个空间里,得到了100个坐标。
同一个词在不同维度的表现可能差异很大,举个例子,”慕留对着屏幕想了两秒,“比如‘小牛’和‘小羊’。
” 杨枝用余光瞟了他一眼,没出声。
“在一个和动物有关的维度上,‘小牛’和‘小羊’可能会表现得很相似,浮点数很接近,但是在别的维度,比如地理位置,或者是一个不可解释的维度上,‘小牛’和‘小羊’可能就会表现得差异很大,相关性很低。
所以维度越高,捕捉到的词语关系就会越准。
” 杨枝“嗯”了一声。
慕留说到这里,开始一边敲代码一边讲:“这里它设定的维度是50,其实是很低的维度。
但是它想把词向量可视化,可视化的话维度50还是太高,一般是2或者3。
” 他扭头看向杨枝,“所以要怎么办?” 杨枝看向屏幕,“降维。
” “对,”慕留把头转回去,“降维有几种办法,它这里用的是tsne算法,所以加了一个rtsne的包,后面这两个参数,dims就是维度,theta你可以理解成一个加快计算速度的参数,一般在0到1之间取,它取了0.1,这个值比较小,所以计算速度就比较慢,但是算得更精确。
” 手指适时按下两个井号,把他说的一些重点写成注释。
她提问:“可以取到0和1吗?”