• <samp id="8qo88"><tbody id="8qo88"></tbody></samp><ul id="8qo88"><pre id="8qo88"></pre></ul>
    <kbd id="8qo88"></kbd>
    <samp id="8qo88"><tbody id="8qo88"></tbody></samp>
  • <strike id="8qo88"><s id="8qo88"></s></strike>
    GPT風口下的數據標注員:人工智能背后的“老師”和AI局外人 新要聞
    2023-05-06 12:28:51 來源: 貝殼財經

    數據標注員正在工作。受訪者供圖


    (相關資料圖)

    ChatGPT大火后,數據標注員迅速進入大眾視野,也成了就業新風口。他們有的年薪百萬,有的日結兩百,但在ChatGPT風口上,作為人工智能背后“老師”的他們卻也是局外人,存在被替代的風險。

    所謂數據標注員即指,對人工智能原始數據集進行標注、分類、分析和清洗來幫助訓練機器學習算法和人工智能模型的職業。數據標注員以入行門檻低,上手快,薪資待遇好也廣受縣城青年歡迎,目前全國已經建立起多座超千人數據標注基地。

    然而,數據標注行業這一新風口同樣存在“教會徒弟,餓死師傅”的可能,隨著人工智能大模型的迭代這一職業可能面臨被替代的風險。目前國外已經出現AI自動標注替代人工標注的案例。那么,在人工智能行業飛速發展的當下,對普通人來說數據標注員是一份好工作嗎?數據標注這一細分賽道發展前景如何?目前正面臨哪些問題?未來,數據標注行業會被AI標注顛覆嗎?

    對此,新京報貝殼財經記者采訪了數位數據標注員、數據標注行業創業者以及人工智能領域有標注需求的甲方公司負責人、學界人士,試圖解答上述問題。

    4分錢一個框,每天拉夠2500個,數據標注成就業新風口

    作為人工智能背后的“老師”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能學習的”。從每天早上9點上班開始,他的腦子里就只有一件事——怎么完成單日2500個框,達到95%合格率的要求。

    幾個月前,小雷辭去了工廠車間的工作,應聘成為了一名數據標注員。相較于制造業的灰塵、酷暑和嚴寒,新工作辦公室內有空調和暖氣,整潔干凈的辦公桌上還擺放著新鮮的綠植。

    寬敞明亮的辦公室里聚集了包括小雷在內的50多名20-30歲的年輕人,他們大多具備大專院校及以上教育水平,乘著人工智能的風口成為了行業基層的數據標注員,每天的工作就是對海量數據進行清洗、分類、畫框、注釋、標記等操作,轉換成符合算法工程師要求的標準交付。

    以自動駕駛領域的3D點云標注為例,小雷的單位規定單日標注任務量為2500個框,底薪2500元,合計每個框4分錢,超額完成任務還有績效工資,這對學歷不高,身處河南縣城的青年來說,已經算是一份薪資中等偏上的工作。

    所謂數據標注即指對未經處理過的語音、圖片、文本、視頻等數據進行加工處理,從而轉變成機器可識別信息的過程。數據標注是人工智能獲取訓練數據的主要渠道,應用場景廣泛。從語音轉錄、人臉識別、自動駕駛到AI聊天,人工智能模型訓練所需要的海量數據目前幾乎全部依賴數據標注員手工標注。

    不過,與大眾印象中高新技術行業往往需要高學歷人才不同,2021年版的《人工智能訓練師國家職業技能標準》對該職業的能力特征描述為“具有一定的學習能力、表達能力、計算能力;空間感、色覺正常”,普通受教育程度則為“初中畢業(或相當文化程度)”。

    高需求量、低用工門檻為學歷層次相對較低的普通人提供了進入辦公室工作的機會。2018年,山西轉型綜合改革示范區與百度合作,建造了基地占地面積超1萬平米,數據標注員超2000多名的數據標注基地;在新疆和田,有4000人在當地的數字經濟產業園從事數據標注工作;在山東的第一個數據標注基地,已經有1500名從業者。

    數據標注員正在工作。受訪者供圖

    基層數據標注員層層外包下有的到手薪資千余元,人員流動頻繁

    結束上一份電商工作后,高小貝回到太原老家,在朋友的介紹下開始接觸數據標注行業。付費后,高小貝進入培訓公司的3D點云項目組,從0基礎到逐漸上手再到開始接單,高小貝用了40多天,項目標注單價則為1毛8分錢。

    第一次項目回款,高小貝收到了三千四百多元,除去培訓費用,還有少部分結余。

    與高小貝相比,小雷入職前并未參加任何培訓,從完全不懂到單日完成2500個框且正確率95%,單位只給了小雷一周不到的時間,由于從事時間較短,熟練度欠佳,再加上經常返工重標,即使每天多加班2-3個小時,小雷效率最高的時候,單日工作量也只有2000個框左右。

    所謂3D點云項目單日2500個框,并不意味著僅是圈出圖片中的障礙物,實際上,標注員在工作時還要注意障礙物的尺寸、ID、方向,以及點云是否框全,是否漏框了輪胎點,是否框入了地面點,同時還要判斷車在高速行駛時出現的殘影是否框選等。小雷認為3D點云標注工作并不算難,但具體操作要求比較復雜,所以很難在單日內大批量標注。

    “標注本身就是個重復性的工作。上手不難,難的是都不愿意培養,都喜歡直接能干的。”前數據標注員田先生如此告訴貝殼財經記者。由于缺乏培養機制,再加上職業發展天花板有限,從事數據標注行業接近一年后,本科畢業的田先生選擇了辭職。

    同為3D點云標注項目,小雷公司開出的標注單價為每個框4分錢,而高小貝所在的培訓公司單價則為1毛8分錢,為何會出現如此大的單價差異?

    實際上,多位數據標注行業受訪者向記者證實,行業內層層外包的現象比較嚴重,從有標注需求的甲方公司到中標的乙方公司,再到框架下的二包、三包,甚至四包公司,每層都會抽取一定的費用,最后落到標注員身上,標注單價4分錢并不罕見。一位有標注需求的甲方公司項目負責人向貝殼財經記者透露,自家公司的視頻事件描述標注,報價一條9毛,最后分到標注員手中單價可能只有幾分錢。

    此外,由于標注工作的層層外包,標注公司交付時的溝通成本也隨之變高,甲方的需求經過層層傳達后經常出現溝通不及時,標注標準來回變化的情況,因此返工重標也是大多數基層數據標注員不得不面對的問題之一。

    數據標注員低入門門檻的同時也意味著低競爭力,所謂的數據標注行業在中低端市場正逐漸演變為傳統的人力資源密集行業。

    在每天加班的情況下,小雷一個月到手薪資也只有一千多元,且要忍受由于長時間操作電腦、鼠標而帶來的眼睛干澀、手部酸痛感。目前,小雷選擇了辭職尋找新的工作。

    層層外包模式下,也有原來的從業者,選擇了創業。

    考慮到從事數據標注工作個人產出有限,且行業表現為多勞多得,高小貝選擇了復制裂變,自己投資開辦了一家數據標注公司。不到一年的時間內,她的標注公司全職人數達到了20人,公司標注部門每月凈營收在2.5萬-4萬元之間。

    此外,從自己的創業經歷出發,高小貝的公司還開發了標注孵化業務,提供對個人以及團隊的數據標注培訓,目前公司已經孵化分公司3家,孵化人數則達到了16人。“市場上割韭菜的公司居多,高額加盟費、分包轉包各種情況搞得整體市場烏煙瘴氣。但總的來看,行業本身很適合小資本創業、賠率低,如果創業者能接到優質訂單,在團隊管理、培訓流程上得到指導,行業前景還是不錯的。”高小貝說。

    收入兩極分化高素質人才年薪百萬背后?

    林霖(化名)也是數據標注行業的頭部玩家,他以傳統人力資源行業起家,后轉型數據標注行業。

    “今年人工智能生成賽道爆發,我們公司已經接到了大批量數據標注外包需求,預計今年可以做到十倍營收增長。”林霖對貝殼財經記者表示。

    他認為,數據標注行業發展潛力巨大,不斷擴張團隊規模,提升團隊整體素質才能接到一手優質的標注項目。林霖的團隊目前全職員工人數上千,其中本科生占比較大,公司在河南、湖南、重慶等多地均設有數據標注基地,服務的客戶主要是頭部的互聯網和人工智能企業。

    2020年轉型數據標注行業,經歷了行業非線性增長的幾年,林霖的公司搶占了數據標注行業的小風口,在生成式人工智能標注領域已是業內最大團隊之一。

    林霖向貝殼財經記者透露,數據標注員的平均薪資一般略高于公司當地平均薪資,尤其是高素質標注人才,薪資待遇則更高。“目前我知道最高的,純粹做數據標注,不參與算法、研發等,差不多在90-100(萬年薪)。”

    普通數據標注員月薪兩三千,高級數據標注從業者年薪百萬,為何會有如此大的薪資差距?

    林霖向貝殼財經記者解釋,普通數據標注員僅需要對一個標注題目負責,高級數據標注從業者則需要對一個標注環節,甚至對整個標注需求負責;此外,標注業務也根據難易程度分為不同等級,例如在自動售貨機訂單審核項目,人工僅需抽查機器判斷的已售商品是否準確即可,如是否將果粒橙識別為可口可樂,對標注員個人能力要求不高,而在ChatGPT問答規則設計項目中,好的標注員在回答“背誦蘇軾《水調歌頭》”提問時,不僅會給出詩詞全文,還會揣摩提問者提問意圖,給出蘇軾在中國詩詞史上地位如何、此首詩詞相關的背景、詩詞衍生的其他內容等等。“一個優秀的數據標注員能通過關鍵詞,識別出提問者背后的真實需求是什么,進而設計規則。”在林霖的公司不乏中科院博士從事數據標注工作。

    與大部分人印象中數據標注員低門檻好上手不同,林霖透露,數據標注行業其實不乏對高素質人才的需求,例如醫藥行業、金融行業相關的標注更傾向于尋找有相關教育經歷或從業背景的人才標注,ChatGPT人機對話項目則傾向于尋找文字理解能力好的人才操作。

    教會徒弟餓死師傅”數據標注員會AI標注替代嗎?

    隨著人工智能自主學習能力的不斷加強,人工智能研究者們已經開始嘗試向機器“喂養”未標注的數據與部分半標注的數據,不依賴人工標注的自監督學習和數據標注也已在業界出現。來自蘇黎世大學的一篇名為《在文本注釋任務上,ChatGPT優于眾包工人》的論文顯示,用ChatGPT給文本做數據標注的成本不到0.003美元一條,顯著低于人力成本。

    “教會徒弟,餓死師傅”的傳言正在彌漫,數據標注員最終會被AI標注替代嗎?

    多位學界人士對貝殼財經記者表示,低門檻的數據標注工作的確會被人工智能標注取代,如果大模型的性能已經滿足需求,那么直接用大模型的預測作為標簽,來蒸餾小模型即可,如ChatGPT已經能夠成熟地自動識別和分類文本,并對文本的情感進行分析和評估。不過,也有學界人士告訴記者,雖然自動標注發展越來越成熟,但正確率并未達到100%,而是普遍集中在50-70%。此外,不少數據標注項目其實稍有門檻,對于某些特定領域的標注,人工智能暫時還不能取代人類。

    林霖則表示,自己非常看好數據標注行業未來的發展。他認為,人工智能行業的發展無窮無盡:從語音標注到人臉標注,再到自動駕駛領域的3D點云標注,以及近幾年大熱的ChatGPT類標注。

    “與其擔心沒有項目可接,不如提高自己與時俱進的能力”。高小貝則告訴記者,人工智能領域有一句流傳甚廣的老話非常適用,即“人工智能行業,有多少人工就有多少智能”。

    編輯 岳彩周

    校對 盧茜

    關鍵詞:
    責任編輯:zN_0654
      久久精品国产精品亚洲毛片| 久久精品国产亚洲AV蜜臀色欲| 亚洲自偷自偷偷色无码中文| 亚洲国产精品网站久久| 亚洲?V乱码久久精品蜜桃 | 亚洲人片在线观看天堂无码| 久久久久亚洲AV成人网| 亚洲日本在线播放| 狠狠色婷婷狠狠狠亚洲综合| 亚洲色偷拍区另类无码专区| 亚洲综合精品第一页| 99久久亚洲综合精品成人网| 亚洲成人一区二区| 亚洲精品国产精品乱码不卡| 国产亚洲玖玖玖在线观看| 亚洲一卡2卡三卡4卡有限公司| 亚洲AV无码1区2区久久| 亚洲无码黄色网址| 中文字幕精品亚洲无线码一区| 99亚洲乱人伦aⅴ精品| 亚洲国产成人精品无码一区二区 | 亚洲第一网站男人都懂| 国产成人高清亚洲| 亚洲国产综合无码一区| 亚洲国产小视频精品久久久三级| 亚洲男人的天堂在线va拉文| 国产AⅤ无码专区亚洲AV | 亚洲人av高清无码| 蜜桃传媒一区二区亚洲AV| 亚洲国产精品人人做人人爽| 日日噜噜噜噜夜夜爽亚洲精品| 好看的亚洲黄色经典| 亚洲人成网站色在线入口| 亚洲乳大丰满中文字幕| 亚洲AV成人片色在线观看高潮| 99久久亚洲精品无码毛片| 2020国产精品亚洲综合网| 国产成人人综合亚洲欧美丁香花| 亚洲精品无码专区久久同性男| 亚洲人成网7777777国产| 久久精品国产亚洲av麻豆小说|