欢迎访问吾小秘【www.wxiaomi.cn】,您身边的文字小秘书!

数据标注工作汇报

时间:

数据标注工作汇报共3篇(数据标注具体工作内容)

本文由吾小秘【www.wxiaomi.cn】会员分享,供您参阅。文内整理了3篇相关范文,平均每篇1424个字,阅读大概需要4分钟。

  下面是范文网小编分享的数据标注工作汇报共3篇(数据标注具体工作内容),供大家参考。

数据标注工作汇报共3篇(数据标注具体工作内容)

数据标注工作汇报共1

  如何运营一家数据标注公司

(资源特点篇)

  在“基础架构篇”中我们提到的资源,也就是数据标注公司要面对的甲方:AI公司、AI企业、AI研究所。那么问题来了,人工智能公司、人工智能企业、人工智能研究所多种多样,作为一个数据标注公司应该如何定义自己的服务方向呢?

  首先我们要能够准确的了解资源公司的特点,这样才能更好的为其提供符合自身特点的服务。

  目前市场上的AI公司、AI企业、AI研究所大致分为以下几种,对于与数据标注公司的合作来说他们各有各的优势和劣势,这里对以下突出的几类进行分析:

1.初创型 这里指的初创型公司一般指未进行过阶段融资的初次创业型公司。 优势:

  a) 沟通成本低 初创型公司的核心创始人一般都是公司的核心技术人员,所以他们对数

  据标注的结果有清晰的需求认知,能够清楚严谨的表述出需要标注数据的规则,数据标注公司与此类资源公司在沟通上比较简单,能够快速的直入主题,迅速建立供需关系,省去冗长的上报、各级的批复等沟通环节。 b) 结算时间快 这类资源公司本身公司架构也相对简单,对于标注完成后的结款时间相对也较短。 劣势:

  a) 需求连贯性不强 因为初创型公司很多没有稳定的甲方,同时公司在同一时期对接的甲方数量并不是一定的,有可能在某个月中会有很多,同样也可能一个没有。这就导致了在数据的需求连贯性上并不是很强。

  b) 标注需求量不大 在与甲方沟通合作的路上,展示型项目产品并不需要大量数据的验证。更多时候都是以小批量数据进行产品的小样展示,因为初创公司也要考虑项目的成功率和标注成本之间的关系。

2.企业型 这里指已经形成一定规模的人工智能企业,同时可能已经获得多轮融资。

  优势:

  a) 数据连贯性强 这里指的一定规模的人工智能企业可能已经是市场上第一梯队的领跑者,因为有成熟的产品和合作对象,其在产品需要进行迭代和研发关联产品时是需要大量标注数据作为模型训练的。同时因为其在业界的影响力,与新的需求商进行合作时的成单率也要远高于初创AI公司。

  b) 数据价值高 因为大型公司需要综合保密、质量、工期等多方面因素,同时因为已经与需求公司建立了正式的合作关系,此类型的AI公司在提供的数据标注单价上是要略高于初创型企业。 劣势:

  a) 结算周期长 因为此类公司的结构相对复杂,同时结构越复杂的公司其对于支出资金的流程也越谨慎,这种谨慎就会导致合同内的结款周期远远高于初创型企业。 b) 沟通成本高 因为此类公司的架构相对复杂,一般一个项目的启动流程是“算法团队将需求提供给项目经理,项目经理联系数据标注公司试标-数据标注公司试标完毕反馈-项目经理检查并反馈给算法团队”。这其中就避免不了多人传达规则时出现的模糊情况,需要大量的时间进行沟通和验证。同时在项目启动时的流程也相对复杂,不仅需要算法确认规则,需要财务确认支付方式,需要法务进行合同审核,需要项目主管领导批准,这些都会使数据标注公司的沟通成本大大增加。

3.科研型 这里指各类政府、大学等行政事业单位的科研部门。

  优势:

  a) 结算时间短 一般的科技机构的审批方式都是先进行项目报备,在项目报备通过的时候其实这部分的项目资金就已经预留出来了,只要数据标注公司能够按时按量的完成项目内容同时提供合同内规定的相关发票,就可以顺利结算。

  b) 沟通成本低 一般的科研机构都是由项目负责导师指定联系人进行与数据标注公司的沟通,同时被指定人一般也都是项目的参与人,所以在规则的制定上更为清晰,与初创公司一样,能够快速的进入主题,大大节省了数据标注公司在沟通方面所花费的时间。 劣势: a) 数据连贯性不强 因为此类科研所的项目基本都是阶段性的,一类产品上线后,相关产品再进行上线需要周期。

  b) 找寻成本高 因为科研机构的特殊性,在市场上很难准确就定位到需求部门,在众多部门中确立需求部门并与之建立起合作关系是需要耗费大量的时间和精力。

4.综合型 向AI化转型的各类传统行业企业。

  优势:

  a) 数据连贯性强 因为涉及传统生产的转型,该类企业一般都有独立的AI产品研发组,同时因为此类公司本身的体量和市场占有率,会使其对于需要转型的领域和需求产品更为宽泛。

  b) 数据量大 因为AI转型除了成熟的技术支撑之外,最重要的就是时间,越快将生产结合AI的企业,其市场竞争力也就越明显。而如何能让计算机快速的进行训练呢?除了算法团队的技术支撑,剩下的就是给计算机提供大量的符合模型识别的标注数据。 劣势:

  a) 结算周期长 和企业型公司性质相同,由于庞大的内部结构,项目资金的结款周期相较于初创型公司和研究所会大大增长。

  b) 工期紧张 因为有转型这个宏观任务,所以一般此类企业都对转型项目的落地时间有明确的规定,说简单一些就是工期紧、任务重。由于这种特点,数据标注公司在承接此类公司的项目时,需要有大量的人手进行数据标注,这对于公司本身的管理无疑也是巨大的挑战。 本文所说的每种公司都有各自的渠道获取特点,请持续关注博客,我们会在接下来更新更多的相关内容。

数据标注工作汇报共2

  客服录音数据标注规范(完整版)

  用谷歌浏览器(至少以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。

  质量要求:

? 文字错误率:3%以内

? 注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错。

? 其他错误率:5%以内

? 注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错。

  客服语音内容说明:

  都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。

1.当前语音是否包含有效语音

  无效语音(即不包含有效语音)的类型:

? 文件播放不了;

? 音频全部是静音或噪音;

? 许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。 ? 两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的

2.当前语音的噪声情况

  如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。

  常见噪音举例(但不限以下):

? 其他人说话声

? 背景音乐声

? 动物叫声

? 汽车滴滴声

? 咳嗽声

? 明显的电流声

3.说话人数量(即标注的语音内容是几个人说的)

? 一人说话(主体说话人):只有一个人说话

? 多人说话:有多个人说话(因为是客服语音,一般是两个人)

4.说话人性别

  如果有多个人说话,则标第一个说话人的性别。

  标注项:

? 男

? 女

5.是否包含口音

  如果有多个人说话,则标第一个说话人是否有口音。

  标注项:

? 否:无口音

? 是:有口音

? 有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形

  包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翘舌,以及其他情况。

6.语音内容

  如果两个人同时说话,以主体说话人声音大的为准来转写文字。

  如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“[d]”表示。

  如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。

  文字转写具体要求:

? 语音内容必须和听到的语音完全一致,不能多字、少字、错字。

? 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”

  和“幺”。“二”和“两”

? 语气词: 音频中说话人清楚地讲出的语气词,如 “呃 啊 嗯 哦 唉 呐”

  等,要按照正确发音进行转写。 语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。

? 转写内容的完整性要与实际发音一致,不得删减;

? 如发音为:我是北 北京人;“北”字有重复现象,那转写的时候要

  写成:我是北,北京人。

? 英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)

  一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。

? 明显的儿化音必须标注出来

数据标注工作汇报共3

  轻松标注Excel表格中的无效数据

  校对数据是我们在日常办公中经常要做的工作,对于含有大量数据的表格,如何快速找到无效的录入数据、提高我们校对的效率是不少朋友急于想了解的,今天我教大家两招我总结出来的心得,希望对大家有所启发。 图1为单位第一季度的加班统计表,领导让会计室小卜统计出来好计发加班费以调动职工的积极性,小卜花了一晚上时间终于把全厂2000多名职工的加工统计表搞出来了,实在累得够呛,再也没有精力校对了。他让我想想办法能不能把超出范围的错误数据快速找出来,由于单位规定,每人每月的加班时间不得超过90小时(出于职工的健康着想),我给他介绍了下面的两种办法:

  图1

  1. 使用条件格式

  选中表格中的数据区域(从C列到F列),单击“格式”菜单中的“条件格式”命令,在弹出的“条件格式”的对话框的“条件1”列表中选择“公式”,在其右侧的文本框中输入公式“=or (c190)”(如图2),单击“格式”按钮,此时弹出 “单元格格式”对话框,切换到“字体”选项卡,将文字“颜色”选择为“红色”,完成设置后依次单击“确定”按钮返回到数据表格中,浏览一下表格,是不是看到超出范围的数字已经被标注了红颜色,这样改起来就方便多了。

  图22. 利用数据有效性圈释无效数据

  一般情况下,在录入数据之前设置数据的有效性可避免录入超出指定范围的非常规数据,但数据录入完成后设置数据的有效性有什么作用呢?通过下面的介绍大家就会明白了。

  选中表格中需要设置有效性的数据区域,单击“数据”菜单中的“有效性”命令,弹出“数据有效性”对话框,切换到“设置”选项卡,按图3所示进行相应的设置,单击“确定”按钮返回数据表中(此时表格的数据中看不到有什么变化)。

  图3

  右击工具栏打开“公式审核”工具栏,单击工具栏中的“圈释无效数据”按钮,此时我们会发现表格中的无效数据都被清清楚楚地标注出来了(如图4)。

  图4

  Cico提示:以上两种方法都可以轻松地标注表格中的无效数据,这些无效数据只要修改到指定的范围内,标注就会同时被取消,不会影响数据的分析和打印。

数据标注工作汇报共3篇(数据标注具体工作内容)

将本文的Word文档下载到电脑,方便收藏
推荐度:
点击下载文档文档为doc格式