Unimanual Pen+Touch Input Using Variations of Precision Grip Postures
Abstract
我们引入了一个新的笔输入空间,通过形成姿势的同一手也握笔,而写作,绘画,或选择。姿势与笔周围的多点触控表面接触,无需特殊传感器即可检测。一项形成性研究调查了33种候选姿势在受控任务中的有效性、准确性和舒适度。结果表明姿势是有用的子集。利用采集到的电容传感器原始数据,训练卷积神经网络对10个姿态进行实时识别。此识别器用于创建基于笔的文档注释和矢量绘图的应用程序演示。一个小型的可用性研究表明该方法是可行的。
Introduction
笔交互使绘画和写作自然和精确,但当前的应用程序仍然需要频繁使用的图形用户界面(GUI)按钮,菜单,和小部件等操作开关直接操作工具(例如选择、签署、或突出显示),设置属性(例如中风色彩或厚度),并发出指令(例如使用上下文菜单或笔手势)。但是,GUI菜单和工具栏会占用空间,而且很容易出错,因此增加钢笔输入空间以减少GUI的使用是一个重要的目标。
研究人员提出并评估了许多笔输入技术,包括特殊的笔划形状、笔筒按钮和以可检测的方式操作笔。当一支笔与多点触控(通常称为“笔+触控”)相结合时,非惯用手的触控被用来做手势、姿势,或者表示物体的上下文,改变另一只手握笔的模式。我们的工作将笔输入和多点触摸以不同的方式结合起来:我们使用平板触摸传感器来检测用户可控制的手的姿势,而同样的手握笔来书写、绘制或操作图形对象。
我们的想法源于对人们如何持有书写工具的深入了解。大多数成年人使用一种动态的三脚架握把,拇指和食指相对,第三个手指(通常是中指)提供额外的稳定。这是一种精密握笔器,它平衡了握笔的要求和独立操作的能力。理想的书写姿势是手或手指的一部分放在书写面上,但人们可以用手控制笔,尤其是在不太精确的笔输入任务中。在使用数码笔时,对手部姿势的详细检查也显示了握法的多样性。这些观察结果表明,人们可以根据手指或手接触表面的方式来调整自己的手部姿势,同时仍然可以用食指和拇指保持精确的握力。然而,在使用钢笔时,是否可以用同一只手进行有意的触摸,以及如何有效地使用这些触摸进行输入,这是一个有待解决的问题。
我们提出的uimanual pen+touch输入空间是通过检测用户何时有意识地调整他们的手姿势接触表面,同时保持精确的笔触来创建的。手掌可以用侧面、脚后跟接触,或者只是漂浮;食指和拇指可以向下滑动,触摸笔尖旁边的表面,中指、无名指和小指可以接触手掌内外的表面。这些组合建议324个理论姿势,但大多数是不切实际的。我们确定了一组候选的33个姿势来评估。
我们使用一组有15人参与的有代表性的受控任务,从笔控和主观偏好两方面对这些姿势进行了评估。我们的结果表明,有一个很大的子集的实用姿势。在评估过程中,我们还记录了所有的触摸输入数据,包括捕捉原始电容信号的帧图像。我们用这个训练一个深度神经网络来实时识别10个姿势,平均识别率为91.4%(最佳情况96%)。利用该识别器,我们演示了如何将姿态应用于文档注释和矢量绘图,这是两种常见的具有频繁模式切换的钢笔应用。我们的原型被设计成一个在后台运行的系统服务,通过将姿态的可配置映射到快捷键和其他操作或小部件,将命令注入到实际的应用程序中。这使得该技术能够触发工具、进行属性选择和调用命令。最后的研究使用这些应用程序来评估交互空间的可用性和有用性以及交互识别器的性能。
我们的贡献是一个新的笔输入空间验证的基本可用性,实用性和可行性。由于我们的单手技术不涉及非惯用手,所以它们与双手笔+触摸技术兼容,并且具有一定的局限性,也适用于仅使用钢笔模式切换方法,如使用橡皮擦按钮或按压。此外,与双手操作相比,单笔+触摸可能需要更少的屏幕空间,因此更适合小型平板电脑,甚至智能手机。其目的不是要取代现有的模式转换技术,而是要提出一个笔输入空间,以补充和扩展以前的方法。我们的设计空间探索和识别方法证明了单笔+触摸的概念是可行的,为未来的比较研究奠定了基础。
RELATED WORK
模式切换和命令激活是交互操作的关键,针对这些任务已经提出了许多笔输入技术。然而,使用不同的姿势执行,同时保持和使用标准的三脚架精密握笔姿势还没有被探索过。
Pen Input Techniques
考虑到模式切换的重要性,研究人员对[18]进行了详细的研究,并提出了使模式切换和笔输入更强大的技术和方法,这并不奇怪。有一种技术可以被认为是把工具栏更靠近笔。其中包括跟踪菜单、Springboard和跟踪小部件。这些仍然需要屏幕空间,但减少了移动时间。另一类技术使用手势隐藏或消除工具栏,如标记菜单、悬停小部件或Scriboli分隔符。有些是快的,有些是慢的,由于手势是由动作定义的,所以很难将其与直接操作的动作区分开来。考虑到这些技术家族可能存在的问题,我们的方法与它们是兼容的。例如,一个弹簧板,跟踪菜单,或标记菜单只能在使用特定的手姿势时显示,因为大多数手势是独立于用来握笔的手姿势的
第三类技术利用其他笔输入渠道,如压力,滚动笔筒,倾斜。第四个系列的技术会根据操作笔的方式改变模式。这很简单,只需将笔倒置,使用“橡皮擦”末端或按下笔筒按钮,弯曲笔杆,创建一个具有26种独特方式接触绘图表面的新笔状设备。我们的技术可能与这些技术不太兼容,因为它们需要非标准的笔操作。
与最后一组相关的是Song等人的grip探测笔。通过将电容式传感器缠绕在笔筒上并添加运动传感器,笔筒可以检测到握笔的方式(如握力)或操作方式(如摇晃、削尖)。我们的输入空间是不同的:我们感觉不到笔是如何握着的,我们寻找方法来改变一个标准的精确握着的手的姿势;我们只在笔被用作笔时才修改行为;我们的技术不需要特殊的硬件。
Combining Pen and Touch
随着多点触控输入的兴起,人们提出了多种笔触结合的方式。Yee和Brandl等人的早期实验表明,双手写笔和触摸可以作为两个独立的输入源。Wu等人利用非优势手在表面的形状来设置非优势手写输入模式。Matulic等人将这一想法扩展到使用非惯用手触摸手势来设置钢笔模式,并对其有效性[20]进行了进一步的研究。
Hinckley等人的Pen+Touch互动词汇将非惯用手的触摸与惯用手的笔以一种更加综合和上下文敏感的方式结合起来。他们的原则是“笔写,触摸操作,笔+触摸的组合产生新的工具”。笔和触摸的组合动作根据图形对象的上下文触发模式切换。例如,将钢笔从另一只手拿着的照片上拖下来会触发复制模式。Pfeuffer等人的[26]演示了如何将pen+touch的概念应用到只有非惯用拇指的小屏幕移动平板电脑上。由于我们的技术只使用一只手,它是兼容的双手写笔+触摸技术。
我们意识到唯一真正单手笔+触摸技术是Conté 的两个示范,它是一种非传统的像笔一样的装置。在一个例子中,将笔状的设备平放在表面上,可以通过同手触摸输入来实现“点击”,从而实现鼠标模式。另一个例子是当同一只手将设备放在表面时,用拇指触摸来控制指针的放置。Conté不是传统的笔,和这两个技术探讨了相同的手触摸模式在拿笔的精密控制。我们的工作结合了笔输入和多点触摸,不同于以往的笔+触摸研究:我们使用平板触摸传感器来检测用户可控制的手的姿势,而同一只手抓住笔,执行输入操作,如写作,绘画,或对象操作。这可能会创建一个非常大的输入空间,我们将在接下来详细讨论它。
UNIMANUAL PEN+TOUCH INPUT SPACE
我们的重点是当标准笔输入与同时用同一只握笔的手进行的触摸输入相结合时所创建的交互空间。这种笔+触摸的同时操作,不同于用同一只手交替使用笔和触摸输入,比如在触摸表面时将笔放在手掌中(称为“手掌操作”)。最后,我们关注的互动,其中笔是操纵与一个精确的抓地力。这与设备放置在表面时使用附近的触摸不同。
为了使实现切实可行,我们将姿态限制在那些由表面接触创建的模式可识别的范围内,这是一种演示了仅用于触摸输入的方法。虽然额外的握笔姿势可以用一支特制的笔来识别,或者用相机在表面上捕捉手的动作,但是我们定义了在当前的触敏设备上可以检测到的握笔姿势。我们定义了当前触摸可检测到的姿势敏感设备。考虑这种方法的一种方法是使用手掌拒绝(原先在平板上写字得抬起手掌来,手掌可以放松放在平板上写字)而丢弃的触摸数据:在运行手掌拒绝管道之前,检查是否识别出单手姿势。如果是,请使用姿势作为输入,然后拒绝所有关联的接触。否则,只需使用标准的手掌拒绝管道进行处理
Input Degrees of Freedom and Notation
虽然精度笔握经常使用的部分中指三分之一稳定控制的一部分(形成一个“三脚架”),并不是所有的成年人都使用第三个手指,我们发现可以维护一个精确控制只有食指和拇指用食指端稳定。我们在随后的对照研究中对其有效性进行了测试。
为了描述和推理可能的手姿势作为变化的三脚架抓地力,我们认为六自由度定义为触摸接触类型的手掌和五个手指:
- 手掌接触(边、跟、浮):写字时,手掌可以接触到侧面的表面,靠近手腕(跟),或浮在没有接触的地方。这创建了3个变量。
- 握笔指接触(拇指、食指)×(接触、不接触):两个主三脚架握笔指,食指和拇指,可分别滑下笔筒,直接接触笔尖旁边的表面。两个手指与两个独立的国家创造4个变化。
- 无握指接触(中指、无名指、小指)×(进、出、不接触):其余三根手指伸出手外或向内弯曲时可独立接触表面,或完全不接触表面。三根手指和三种状态创造了27种变化。
理论上,这允许324个可能的姿势(3×4×27)至少有一个基本水平的精度,因为三脚架的抓地力保持最低限度的改变。为了使参考姿势在文本、图形和表格中更简洁,我们引入了标准符号。在书面文本中,姿势被命名为一组复合词:手掌接触类型总是给定的(浮动、侧、跟);如果握住的手指被命名为(食指,拇指),那么它是接触的;非握力手指的名称在触摸时带有后缀In或Out(如MiddleIn, MiddleOut,…)。例如:side-index-pinky-out表示手掌在侧面接触,指的是指尖旁边的接触,而小指指的是在主手接触之外的接触。除了这个长形式,我们还使用缩写的首字母表示法:S、H或F表示手掌状态;T和I表示握指接触;M、R或P表示非握指接触手掌内部。如果手指没有接触,则使用破折号。例如,边索引PinkyOut的压缩形式是(S-I–P)。图2提供了更多的长符号和短符号示例。
Reduced Set of Candidate Postures
虽然这一大组姿势可能是物理上可实现的,但由于个人灵活性、灵巧性和手部解剖,许多明显地不舒服或难以执行。一名3人飞行员使用下一节中描述的简化版实验协议测试了所有手掌状态下的所有手指状态。这就产生了一套规则:(1)一般情况下,握指和非握指状态不应合并。如果食指或拇指接触,则中间、戒指和小指不得接触,反之亦然。(2) 无名指应与小指或中指一起移动,因为独立的无名指移动是困难的。(3) 在大多数情况下,应避免将非握紧的手指位置分开。根据这些规则,我们将324种可能的姿势减少到33种,以供进一步研究。
前30个候选是通过将10个特定的握力和非握力手指状态(表1顶部)与所有三个手掌状态组合而成的。其余3名候选人是特殊姿势,包括特定的手掌状态(表1底部)。中指外展:中指和无名指外展一般不舒服,但不太难与手掌漂浮状态。Float-MiddleOut- RingOut:我们发现在使用浮动手掌时很舒服,但在使用其他手势时就很困难了。侧拇指指数-中位-环出-指出-指出:这是一种将握力手指和非握力手指结合起来的方法。
EXPERIMENT: POSTURE SUITABILITY
本实验的主要目的是在主观偏好和笔控两方面来评估姿势的可调整性。我们要求参与者完成一组合成的,但有代表性的笔输入任务,使用每个姿势,在此期间,我们测量相对于目标刺激和运动时间的准确性。然后我们要求一个考虑舒适度和控制力的姿势偏好评分。这些结果被用于为特定交互类型的应用程序中的单手笔+触摸姿势创建设计指南。本实验的另一个目标是收集数据,利用机器学习训练姿态识别器。
Participants
我们招募了12名惯用右手的参与者,年龄在20到36岁之间,其中5名是女性。右撇子的要求减少了偏手性造成的差异(我们还运行了3个左撇子参与者,我们稍后会讨论)。参与者通过校园传单和口口相传的方式招募,成功完成研究的人将获得20美元
Apparatus
Wacom Cintiq 22HD触控笔板(1920×1080像素,47.5×26.7 cm, 4.04 px-per-mm)连接到Intel NUC (Windows 10, Core i7 3.50 GHz 8GB RAM)以运行c# (. net)应用程序。我们非常小心,所以计算和日志不会带来任何明显的延迟
Wintab API提供笔尖坐标、笔尖悬停距离、笔尖压力和笔尖方向(140 Hz)的日志记录。Wacom FeelTM多点触控API提供了122×70像素灰度位图的原始电容性数据,以及100hz下的“手指”输入eventsasanarrayof(max10)touche llipsoids。当只有手掌接触屏幕时,Wacom API不会发送原始电容性数据。作为一种变通方法,我们在左上角放置了一个电容式显示器来模拟手指
Tasks
我们设计了一组通用的笔输入任务,这些任务间接地派生自Buxton[4]最初提出的那些任务。根据完成任务时钢笔移动的受限制程度,将任务分为受限制和不受限制两类。附带的视频还提供了任务演示。
Constrained
受约束的任务(图3)模拟了钢笔交互的不同原子模式,目的是获得关于准确性的定量数据。每个任务都以灰色“点”(点击任务)或黑色背景上呈现的“路径”(跟踪任务)模式呈现。所有点的直径都是4mm,所有路径都是4mm厚。绿色圆点表示下一个要点击的圆点或下一个笔画的开始。“路径”也有一个红色的“帽子”,表示笔画的结束。
由于其中一个目标是测量如何准确的敲击或打击是比较视觉目标,4mm大小的功能只是作为一个刺激,而不是一个严格的边界。宽松的接受阈值确保参与者在预期目标上轻敲或轻敲,任何距离当前点边缘不到10mm的轻敲都被接受。对于线条,任何从开始到结束的距离在10mm以内,到结束的距离在15mm以内,长度在线条长度的33%以内的笔画都是可以接受的
七个受约束的任务是:
- 线性敲击:在沿19厘米水平线均匀分布的4个点上从左向右攻丝。代表一些简短的任务,例如轻击按钮之间的较大移动。
- 簇状敲击:敲击两个间隔15cm的4个点的簇。表示按菜单或工具面板上的一系列按钮。
- 水平线:在两个方向上抚摸两条19厘米的水平线。表示需要大手移动的长笔触,例如在屏幕上拖动对象
- 垂直线:沿着两个8厘米的垂直直线在两个方向上抚摸。与上述类似,代表需要较大手部动作的长笔触
- 循环:从左到右跟踪4个循环的路径,每个循环的高度为3cm,总路径为19cm宽。代表长时间的非线性运动,例如绘画或书写
- 大十字架:追踪两条对角线路径形成一个十字架,两条路径都装在一个直径6厘米的圆中,相隔7厘米。左上方的笔画首先完成。用少量的手掌运动代表较大的离轴笔运动,例如基于笔划的大菜单或操纵对象(例如缩放或平移)
- 小十字:如上所述,但是两个对角十字适合于直径为2cm的圆中,且相距15cm。代表笔尖没有手掌移动的小动作,例如手势或精细的对象操作。
- 矩形:描绘两个矩形路径,该路径适合于相距15厘米,直径2厘米的圆中。方向是从左上角开始的顺时针方向。与小十字类似,但要求笔尖方向发生急剧变化
Unconstrained
不受约束的任务(图4)代表更常见的集成笔运动。当用户按下“完成”按钮时,这些任务被视为完成
绘图:将显示屏左侧显示的笑脸复制到73×73 mm的正方形中。实验人员监视参与者,以确保他们画出了所有部位(头部,眼睛,嘴巴,鼻子,耳朵)。在所有姿势下都使用相同的图像进行直接比较
写作:在24厘米基线上写“重要”字。该单词被选为常见的9个字母的单词,具有多种字母和印刷多样性。
Postures
我们评估35种姿势;表1中的所有33种候选姿势(3种手掌接触状态各10种手指状态)加上3种其他特定姿势。此外,我们使用两种姿势作为上下基线,来规范参与者的主观评分范围。我们选择正常(但参与者自然握笔)作为上限,选择Side-Thumb-Index-MiddleIn-PinkyIn作为下限,因为在所有参与者都能完成的姿势中,它在飞行员测试中得到的评分最低
Design and Protocol
主要的自变量是姿势,33个分类水平代表每个姿势进行测试。为了使实验更容易进行,我们将每个手掌接触的所有姿势分为三组:10个跟、11个侧面和12个漂浮。三组的顺序是用平衡拉丁方来确定的。在每组中,姿势的顺序是随机的。两个部分之间至少需要30秒的休息时间,参与者可以在任何任务之间停下来放松或伸出手。两种底线姿势在实验开始时进行。
对于每一个姿势,参与者首先被呈现一个通常持续20到140秒的训练部分,这是从实验者描述和演示参与者在一个空的绘画画布上练习的姿势开始的。接下来是受约束任务的子集。
8个有约束的任务首先以随机顺序呈现,其次是2个无约束的任务,也以随机顺序呈现。水平线和垂直线的方向也被随机分配给每个参与者(即一些先从左到右绘制,一些先从右到左绘制)。每个参与者在所有任务和姿势中使用相同的随机顺序,以使序列可预测,并减少不必要的心理努力。所有任务完成后,要求参与者考虑任务姿势的舒适性和控制,并提供1到7的单一偏好分数(步长0.5)。我们考虑要求对疲劳和复杂性等指标进行单独评级,但我们的飞行员认为这项研究已经太久了。整个实验用了不到两个小时。
Results
考虑到大量的姿态条件,我们基于对6个关键指标图中明显趋势的视觉检查来解释结果(图5)
Preference
对于每个姿势,参与者将姿势的舒适度和控制度评定为1到7分(最喜欢)的单一主观偏好分数,步长为0.5。注意,这不是Likert类型的量表,而是一个连续的间隔度量。如上所述,两种姿势作为上下基线,有助于使主观评分标准化(N和STIm-p)
通过姿势检查偏好模式(图5a),我们可以看到对侧掌(S–)和漂浮掌(F–)的明显偏好,分数接近上基线正常姿势。对于侧掌,小指向外(S—P)、小指向内(S—P)或环外和小指向外(S—RP)的姿势有高于中性的偏好。同样的手指组合在“漂浮手掌”的“中性”以上,但也增加了“中间”、“环”和“小指向外”(F–MRP)以及“中间”和“环向外”(S–MR-)。单纯的跟-手掌姿势(S–)高于4分,但脚跟和手指组合低于中性。使用握指状态的姿势不太受欢迎,但食指与浮动手掌(F-I—)或侧手掌(S-I—)接触都是边缘中性的。
需要注意的是,较低基线姿势(STIm-p)的平均偏好为1,但所有其他姿势的平均偏好为3或更多,这表明没有一种候选姿势是非常不受欢迎的
Error
我们计算了两类约束任务的误差度量,类似于Matulic和Norrie的笔和触摸跟踪实验[20]:启动误差适用于攻丝和跟踪任务。它是从笔的第一个接触点到点或线开始的距离(以像素为单位)。跟踪错误仅适用于行跟踪任务。它是从每个笔笔划位置到目标线的最小距离的平均值(以像素为单位)。
检查错误模式(图5b,c),普通侧掌(S–)和无握指组合的侧掌通常具有较低的错误,特别是对于起始错误。漂浮姿势和脚跟姿势通常有较大的误差,但有趣的是如何放下一个戒指或小指(如F—p和F—rp)提供漂浮手掌的稳定性,以减少误差。
双握指接触侧掌和非握指伸出侧掌(STIMRP)的起始误差最大,环指和小指向内的跟掌(H-rp)的起始误差最大。这些错误率超过了基线姿势的错误率
Duration and Speed
完成任务的时间和速度表明了整体的信任和表达能力。我们计算了两个持续时间指标:无约束绘图和书写任务的总行程时间(图5d中的持续时间UC)和完成所有约束攻丝和跟踪任务的总时间(图5e中的持续时间C)。平原侧,脚跟和浮动手掌都显示低持续时间。双握指和所有非握指伸出的侧掌(STIMRP)明显缓慢,与低基线姿势相当。
我们还检查了追踪任务期间的平均行程速度(图5f)。漂浮的手掌姿态是一种快速姿态,可以解释更高的误差。其他姿势跨越上下基线姿势的速度,少数姿势,如侧掌和跟掌,稍微超过上基线
DISCUSSION AND DESIGN IMPLICATIONS
偏好模式和其他指标表明,大多数姿势都是合理使用的。对于错误和时间度量,高等级姿势的表现存在一些差异。
例如,首选的漂浮手掌姿势显示出更高的误差,但较低的持续时间和更快的运动。为了更仔细地考虑这一点,并将我们的发现总结为推荐或避免的姿势组,我们使用度量组合对实验数据进行聚类
Recommendations Based on Clustering
K-means用于将姿势分为五组,以表示从首选姿势到可能避免或用于不经常动作的姿势。由于在考虑误差和时间相关度量时存在一些分歧,我们基于两个特征向量创建了两组簇姿态。第一组集中在3个维度上的错误:首选项、开始错误和跟踪错误。第二组关注4个维度的时间相关度量:偏好、持续时间UC、持续时间C和绘制速度。在这两种情况下,考虑到偏好维度的重要性,将其包含在内,并使用平均簇偏好来建立相对的群排序
聚类结果如图6所示。正如所料,上下基线姿势出现在最高和最低组。前两组分别为平侧、后跟和漂浮手掌。对于与时间相关的测量,笔指姿势和脚跟非笔尖姿势之间存在一些聚类分离,这表明前者使用起来更加自信。无名指和小指的侧掌在有序组之间的移动最大,但所有其他姿势的移动不超过一个相邻组
Left-Handed Participant Pilot
我们还对三个左撇子参与者进行了完整的研究,他们在量表和模式上发现了与上述相似的结果。值得注意的例外包括更喜欢平实的跟姿势,更不喜欢平实的漂浮姿势,以及强烈不喜欢跟上有无名指和小指。在错误方面,任何握指接触的脚跟姿势都会显示出更明显的错误增加,而且在高的绘制速度下,漂浮手掌的分离更加清晰。尽管存在一些差异,但总体模式是相似的,我们相信交互技术和姿势建议也适用于左撇子用户。
Design Implications
总的来说,我们的研究结果表明,设计师应该偏爱侧摆和浮掌姿势,而不是使用脚跟,除了普通脚跟(H–)和脚跟小指(H–P)姿势。最好是手指不握的姿势,在这一组中,只使用小指(P或*–P)或匹配的戒指和小指组合(RP或*–RP)的姿势是不错的选择。用一个浮动的手掌(F–MRP)将所有非握紧的手指放出来也是一个合理的选择。虽然用手指触摸的姿势没有排名高,聚类练习表明,他们可能是不太精确的快速动作的好候选人。
这些结果并没有考虑到不同的姿态如何可靠地被识别,这一方面将对实际实现和现实世界的可用性产生影响。我们将在下一节对此进行研究
RECOGNITION
我们的手部姿势检测利用的是屏幕表面的全手接触模式,而不仅仅是指端。先前的工作还研究了扩展的触摸输入空间,识别器可以在原始触摸数据可用时使用手部轮廓、接触椭圆或仅使用触摸点。在大多数情况下,这些技术使用基于简单特征和启发式的分类器,这些分类器可能只适用于少数非常不同的接触模式。最近应用于灰色触摸图像本身的深度学习方法有可能产生更高的识别性能。因此,为了识别不同的姿势,我们使用一个基于深度神经网络的分类器,该分类器是根据上述实验中记录的笔触数据进行训练的。该识别器针对为稍后描述的应用程序演示选择的10个姿势集(见表2)进行训练。在实践中,同样的方法可以用来训练任何一组姿势
Training Data and Recognition Context
识别器可以在下笔或下笔周围触发,以确定整个画笔操作的模式,在输入期间连续更改模式,或调用诸如菜单之类的就地小部件。许多设备,如Wacom平板电脑,支持悬停检测,当笔靠近表面时,悬停检测提供笔坐标。在笔接触表面之前悬停输入帧的数量取决于传感硬件和手的运动速度。使用我们的系统和数据,分类器中平均可以使用5.7个初始笔悬停帧(sd=2.0)
Classification
原始的电容触摸图像可以很好地利用神经网络进行自然图像分类,如CNNs,因此我们采用了类似的方法。因为除了原始的触摸输入之外,我们还有笔的数据,所以我们增加了每个触摸帧的单通道图像,增加了两个额外的通道来捕捉笔的位置和接触状态。具体地说,如果鼠标悬停,我们在第二通道以笔尖坐标为中心画圆点;如果触摸,我们在第三通道以笔尖坐标为中心画圆点。图7显示了该数据合并操作产生的三通道图像的示例。
姿势分类使用基于VGG16模型的深层神经网络,卷积层在ImageNet上预先训练。这种对自然图像的预训练允许网络在与其他图像一起进行分类时,仅在几个时期后收敛。此外,VGG是众所周知的,因此可重复,并可与其他工作进行比较。
在最后卷积之后的最大池操作之后提取网络的特征,然后通过1024个单元的完全连接层馈送,最后通过输出大小等于类数的另一个完全连接层馈送。第一个线性层使用ReLU激活和以0.4的比率退出。该网络使用Adam优化器进行训练,学习率为0.001,批量大小为128,权重衰减设置为0.001。我们的神经网络架构是使用Chainer框架在Python中实现的
Training and Validation
为了训练我们的VGG网络,我们使用了以下笔为中心的200ms窗口中包含的笔和触摸组合数据的三个通道图像,因为此时将做出大多数姿势分类决策。只使用了带有实际笔数据的图像,这意味着笔在悬停或接触表面的可检测范围内。我们将参与者数据分成15个训练和3个验证集(12个实验参与者,3个左手参与者,3个其他参与者)。左撇子参与者的数据是镜像的。我们不包括用于分类的纯浮动手掌位置,因为它没有触摸数据,因此易于区分。每个姿势的帧数大约为训练集的9000到12000,测试集的1300到2500。我们通过应用随机平移、光照缩放和旋转变换,通过数据增强人工地将这些样本加倍。这些操作增加了数据的多样性,并填充了实验任务未充分覆盖的屏幕区域。
我们对我们的两个姿势集进行了30次重复随机子采样,并使用了leave-3-out方案。对于每一次运行,我们记录了5个epoch内的最大总体精度和最小损失(softmax交叉熵),并计算了在30次运行中获得的平均和最大精度和损失。我们还保存了与每次运行的最大精度和最小损失相关联的神经网络模型,以进行详细分析。
Results
在34个姿势中,我们得到了平均整体交流率为62.2%,相关损失为1.82,其中表现最好的模型准确度为70%,损失为1.63。每次运行中最佳模型的平均精度的混淆矩阵如图8所示。
从矩阵中可以看出,正常的手掌姿势和侧掌姿势经常混淆,这是人们在正常书写时,手靠在掌心上休息时所能预料到的。侧掌姿势与食指或拇指触摸周围的笔尖也显示出较差的识别精度,可能是因为他们太近,他们的触摸打印不够清晰。一般来说,侧边和脚后跟的姿势之间似乎有些模糊,这也并不奇怪,因为当手指定位和拖动手掌表面时,手掌底部不可避免地会滚动。基于手掌的漂浮姿势不会出现这种混乱,因此通常得分更高。
对于10姿态集,总体平均准确率为91.4%,损失0.50,表现最好的模型准确率为96%,损失0.20。这些结果表明,理论上,我们选择的姿势可以在真实的应用程序上下文中可靠地检测到。我们使用最佳模型作为第二项研究中应用程序的识别基础
APPLICATION DEMONSTRATIONS
为了演示如何在实际应用程序上下文中应用unimanual pen+touch input,我们为两种典型的任务类型创建了一个基于姿势的接口:文档注释(使用Foxit Reader)和矢量绘图(使用Inkscape)。前者是一个更简单、更直观的应用程序,因为它与现实世界类似。后者更复杂,需要密集的工具集才能有效地使用。我们使用桌面应用程序进行快速原型设计,但是一般的概念一般适用于专门构建的平板应用程序。
我们创建了三个专门为普通笔输入设计的小部件:径向菜单、手势输入和用于文本输入的手写识别(图9)。手势输入使用六种标准的微软应用手势:左半圆和右半圆用于撤销和重做;上下翻页进行复制和粘贴;还有一个“划掉”之字形的“删除”。
Posture Mapping and Interfaces
我们使用一组10个姿势,设计了映射和接口,以优化语义接近性和姿势动作适宜性(表2)。在选择姿势集和将姿势映射到应用程序命令时,考虑了适宜性实验的结果。视频提供了完整的应用演示。
语义接近:这是通过将相似的动作映射到相关的姿势来实现的。在这两个应用程序中,侧掌姿势与创建相关:绘图、代位、创建形状等,而浮动掌姿势与更多的“宏观”交互相关:在矢量编辑器中选择、转换和样式;在文档注释器中导航和搜索。
姿势动作的适宜性:这是通过将常见的动作映射到更喜欢、限制更少的姿势来实现的。在这两个应用程序中,最常见、最要求精度的工具被映射到Side,而下一个最常见的工具被映射到Side- pinkyout。这两种姿势都有较高的偏好评分和准确性结果。菜单由允许笔尖运动但限制手的运动的姿势触发,例如使用RingOut-PinkyOut。在文档an- notation中,另一个同样简单的姿势Heel被用于高亮显示的常见动作。需要较少精度的动作,如手势,被分配到精度较低的结果,漂浮指数
Technical Implementation
我们的实现作为全局服务运行,该服务在后台运行识别器并将命令注入当前应用程序。通过定义一个YAML配置文件,可以根据前景窗口的标题自动激活该应用程序,从而为任何应用程序提供单一的Pen + Touch界面。全局服务(C#、. NET,WPF)使用套接字将原始的触摸和笔输入数据转发到识别器(Python)。为了提高性能,该服务每150ms触发一次识别请求,该请求由最新的8帧输入组成。一切都是异步完成的,因此不会引入软件滞后,并且不会增加笔或触摸事件的延迟。从发生姿势变化到系统识别到它的最大可能延迟时间是200ms。但是,由于姿势需要一些时间才能形成,因此这种延迟在实践中并不明显。然后,基于识别的姿势,该服务通过发送键盘快捷键,按键或鼠标事件(使用Window的SendKeys和inputsimulator),显示笔本地化的径向菜单(使用自定义WPF窗口)来触发对前台应用程序的操作。通过收集笔势进行手势或文本识别(使用Microsoft的InkCanvas API)。
STUDY: USABILITY IN PRACTICE
这项研究的目的是在更现实的环境中测试单笔+触摸输入的一般可用性。 使用演示应用程序,我们检查了人们是否可以使用该技术完成现实的任务,他们是否可以记住姿势到命令的映射以及是否对原地识别器的准确性有所了解。
Participants and Apparatus
我们招募了5位右撇子参与者,年龄22至30,其中2位是女性。 招聘工作是口口相传,每位参与者成功完成90分钟的学习后可获得10美元。 最好使用笔在平板电脑上的经验,因为可以更好地理解笔模式切换的问题:其中有4位参与者有这种经验。
使用了相同的Wacom平板电脑,但由于其GPU(GeForce GT 740M)可以提高识别速度,因此配备了HP Envy(Windows 10,Core i5 2.60 GHz,8GB RAM)。
Design and Protocol
训练开始于大约10分钟的姿势训练。这要求参与者使用演示应用程序使用的所有10个姿势来完成研究1中的简化任务集。与研究1不同,显示了识别的姿势,因此参与者知道识别器是否成功识别出执行的姿势。姿势训练后,参与者完成了一组用于文档注释的训练和测试任务,然后完成了一组用于矢量绘图的训练和测试任务。在此培训课程中,文档被加载到应用程序中,该文件包含执行某些任务的指令以及使用姿势。在试验过程中,虽然只允许他们询问实验者是否忘记了相应的姿势,但只给了他们书面说明。每个应用程序的任务都被选择为非专家,相对通用并代表可能的姿势。完成所有申请任务后,进行了研究后访谈。
文档注释任务是作为要在PDF文档上执行的操作的列表而提供的,例如“以黄色突出显示“爱丽丝”一词”和“搜索“聚会”一词”。完整的文档注释任务包括:圈出单词或使用铅笔工具书写文本;用橡皮擦工具擦除;突出显示文字;改变铅笔或荧光笔的颜色;进行手势;搜索文档。
矢量绘图任务要求参与者绘制一组形状以匹配给定的绘图。选择这些形状需要多个工具模式切换。完整的矢量绘图任务包括:使用多边形工具绘制多边形;使用其他创建工具(铅笔,矩形,椭圆形);节点编辑;转换对象;造型对象;进行手势;输入文字。结果所有参与者均在90分钟内成功完成了实验。由于日程安排问题,一位参与者(P1)在2天内分2部分进行了研究。四名参与者表示,如果识别器更加准确,他们将在个人工作中至少使用一些姿势。第五位参与者具有间接手写板的经验,以及用于模式切换的首选键盘快捷键。在“测试”部分中尝试回忆相应的姿势动作时,参与者经常尝试执行姿势,并观察光标图标以确定他们是否处于正确模式。参与者对文档注释器的颜色菜单的困扰最大。 Side-RingOut-PinkyOut将调出铅笔工具或较亮工具的颜色菜单,具体取决于先前使用的工具。尽管参与者发现此语义非常有用:“无论手掌如何,我都会放下2个手指”(P3),但他们发现很难从Side过渡到它,而在过渡过程中无法识别出其他姿势。三名参与者说,姿势太多了:“我宁愿只拥有一种核心姿势,而另一种则让我改变其工具”(P4)。这可能是由于该技术的新颖性。
三名与会人员对RingOut- PinkyOut的不适感进行了评论,但一些评论者说,稍加调整可解决“这最初很困难,但有些改动对我们有积极的影响”(P1)。短时间的研究阻止所有参与者找到最适合自己手部的舒适姿势。两名参与者确实对Float-Index持正面评价。鼓励参与者进行各种姿势的尝试,并使用不同的手指进行试验,例如笔尖附近的中指或无名指,而不是食指。
识别器工作良好,但某些参与者对某些错误分类的表现更为明显。对于某些参与者,Side经常被错误地分类为Heel或Side-PinkyIn。尽管增加了数据,但在第一个实验未涵盖的区域中,识别器的表现也较差,从而导致我们口头提示用户执行更靠近屏幕中心的姿势。
DISCUSSION
第一项研究的结果表明,在保持笔控制的同时,可以相对舒适地执行多种单笔+触摸姿势。所有5位参与者在完成第二项研究中的任务后,进一步给予了支持。
尽管深度学习识别器在受控的实验数据中显示出很高的准确性,但第二项研究的细微差别表明,实际应用环境需要改进。需要更多数据来确定识别错误是由于固有的姿势相似性还是由于训练数据不足。通过至少部分地在每个目标用户上训练网络,或者通过使用一组减少的,例如4到5个健壮的姿势,可以提高准确性。
这些演示表明,可以扩展先前存在的应用程序,以创建简单或复杂的单笔触控体验。笔芯,荧光笔和橡皮擦的切换得到了肯定的好评,手势和文本输入小部件也得到了好评。基于姿势的菜单交互的积极性较差,这可能是因为颜色菜单可能难以触发,并且由于软件问题而显得有些不稳定。
其他可以利用单笔+触摸姿势的应用程序是绘画应用程序,可以映射到不同的画笔和颜色,还可以使用电子表格编辑器,可以在数据输入(使用手写识别)与选择或数据操作之间进行基于姿势的切换。此外,我们的文本输入小部件可以提示一般的键盘输入,甚至可以使用姿势触发键盘快捷键。例如,使用Float-PinkyOut编写字母C可能会触发CTRL-C。将其缩放为具有多个修饰符的快捷方式将是一个挑战,但可能会将桌面快捷方式引入纯笔环境。
Limitations and Opportunities
适用于手部控制减少的用户-老年人,儿童,行动不便的人和手部受伤(例如手指缺失)的人可能无法充分利用我们的技术。我们正在提议一种加速现有GUI操作的方法,因此可能存在多余的输入法。可以利用手部控制中的个体差异来创建用户特定的姿势,尤其是在存在非精确的抓地力或不规则的手部生理状况时。
与其他笔输入法的兼容性-某些输入法,例如按一下笔筒按钮或同时精细控制笔压,可能很难在保持某些单手姿势的同时执行。但是我们相信许多技术都可以兼容,例如使用笔的橡皮擦端,倾斜和旋转。由于我们的输入空间包括正常姿势,因此所有笔输入技术均与该握把保持兼容,但也许并非我们建议的各种姿势。单人姿势也与标记菜单和相关命令手势兼容,我们的姿势为“墨水与命令”问题提供了解决方案。
可发现性-不可否认,这些姿势对用户而言并不直观,必须加以教,,但是为期两天的第二次研究的参与者对第二天的改进发表了评论,表明学习曲线并不陡峭。第二项研究还建议,一旦用户知道可能的姿势,光标反馈对于用户发现姿势动作必不可少。我们简洁的姿势命名格式(F — RP或Float-RingOut-PinkyOut)可以与菜单项和工具提示一起显示,类似于某些应用程序中键盘快捷键的显示方式。使用屏幕上的手势指导进行训练[10]是另一种方法。
认知学习-像任何大的输入空间一样,记住姿势和动作之间的映射需要付出一些努力。未来的工作可以直接检查学习情况,并研究基于排练的界面或前馈技术如何帮助从新手过渡到专家表现。身体学习-此外,由于笔握是一项很好的运动技能,因此,为期两天的研究参与者也再次提出建议,暴露时间多或暴露后的一夜睡眠可能会影响舒适度和控制力,他们也承认经历的时间较少第二天感到不适。
识别问题-观察到一些系统的识别问题。参与者提到在Side到Side-RingOut-PinkyOut或Side-PinkyOut之间转换时遇到的困难。在过渡过程中,手接触会错误地触发这三个姿势中的任何一个。尽管如果姿势动作是非破坏性的,这不是问题,但这些姿势会触发菜单,这在不期望的情况下会产生震动。一种可能的解决方案是在相似姿势之间转换时具有强制保持时间。通常,尽管我们发现Heel通常被错误分类为Side,但误报最少。在第一项研究中,我们确实观察到了多种跟姿姿势,这可能会影响识别器。对该姿势进行更严格的定义可以减少错误分类。
硬件-我们的识别器需要原始电容输入,这是所有触摸设备都支持的,但是如果没有一些底层系统工作,供应商通常不会公开它。其他更简单,更综合的触摸数据(例如接触椭圆甚至触摸点)可能足以识别一些非常独特的姿势。
CONCLUSION
我们介绍了一种新颖的单笔触控输入空间。我们对33种姿势的首次评估结果表明,在主观舒适度和客观控制度方面,许多都是合理的。利用研究数据,我们使用预先训练的VGG架构训练了卷积神经网络,以高精度识别姿势。使用10姿势界面的两个应用程序演示显示了该技术在实践中的工作方式,并且一项小型的可用性研究获得了积极的反馈。我们惊讶地发现了这么多可行的姿势,我们的演示应用程序显示10种姿势是可行的。但是,在一个简单的笔记应用程序中,即使是具有2或3个姿势的更受限制的系统对于在频繁模式(例如墨水,高亮和橡皮擦)之间快速切换也很有价值。
合理的下一步是使用标准模式切换实验协议来正式测试不同姿势之间切换的性能[18,35]。而且,与标记菜单等技术的直接比较将建立相对于流行基准的性能基准。我们假设单笔触摸手势的姿势与命令激活与直接操作之间的联系更加紧密,但是与标记菜单不同,没有明显的方法可以支持新手到专家的学习。
未来的其他方向包括探索用于移动平板电脑或其他非三脚架握持姿势(例如电动握持器)的一小部分姿势,这些姿势只能使用触摸表面上的电容模式来感知。我们的希望是,我们的工作有助于使笔输入更具表现力,这意味着输入空间会增加并且更加细微。我们仍然对人的手有多么出色以及在获得适当的数字支持后的能力感到敬畏。