कसरी गुगल BERT बनाम। स्मिथ एल्गोरिदम एकसाथ काम गर्नुहोस् - Semalt सिंहावलोकन




गुगलले भर्खरै उनीहरूको नयाँ एनएलपी एल्गोरिथ्म स्मिथमा एक शोध पत्र जारी गर्‍यो। यस कागजले परिवर्तनको बारेमा धेरै एसईओ पेशेवरहरूलाई प्रबुद्ध गर्‍यो कि SERP रैंकिंगमा बढ्छ वा खण्डन वारन्ट गर्दछ। जे होस्, हाम्रो चिन्ता यो छ कि यस नयाँ स्मिथ एल्गोरिथ्मलाई बीईआरटीसँग कसरी तुलना गर्दछ?

गुगलले प्रकाशित गरेको कागजमा उनीहरूले दाबी गरे कि SMITH ले लामो खोज प्रश्नहरू र लामो कागजात बुझ्न BERT लाई प्रदर्शन गर्छ। के स्मिथलाई यति चाखलाग्दो बनाउँदछ कि यसले कागजात भित्रका प्यासेजहरू बुझ्दछ जुन बर्टले शब्दहरू र वाक्यहरूमा गर्छ। SMITH को यो सुधारिएको सुविधाले सजीलोसँग लामो कागजातहरू बुझ्न यो सक्षम गर्दछ।

तर हामी अगाडि जानु भन्दा पहिले, हामीले तपाईंलाई सूचित गर्नुपर्दछ कि हालसालै, स्मिथ गुगलको एल्गोरिदममा लाइभ छैन। तर यदि हाम्रो अनुमानहरू सही छन्, यो प्यासेज अनुक्रमणिकाको साथ सुरूआत गरिनेछ, वा यो अघि बढ्नेछ। यदि तपाईं वास्तवमै एसईपी मा कसरी रँक गर्ने सिक्नमा रुचि राख्नुहुन्छ भने, मेशिन शिक्षा अनावश्यक रूपमा यस चासोको साथ सँगसँगै जान्छ।

त्यसोभए शीर्षकमा फर्कनुहोस्, के BERT प्रतिस्थापन हुने छ? वेबमा धेरै कागजातहरू छैनन् जुन विशाल, मजबूत, र त्यसकारण अब स्मिथको साथ राम्रो प्रदर्शन गर्दछ?

अर्कोमा जानुहोस् र हामी के निष्कर्षमा पुगेका छौं हेरौं। SMITH दुबै मजबूत र पातलो कागजात पढ्न को लागी काम गर्न सक्दछ। यसलाई बाजुका जस्तो सोच्नुहोस्। यसले ठूलो क्षति निम्त्याउन सक्छ यसले ढोका खोल्न पनि सक्छ।

सुरु गर्न, किन BERT वा स्मिथ?

यहाँ वास्तविक प्रश्न यो छ कि किन खोज इञ्जिनले खोज परिणामहरू प्रदान गर्न प्राकृतिक लर्निंग प्रोसेसिंगको आवश्यकता पर्दछ। उत्तर सरल छ। खोज ईन्जिनहरूले खोज ईन्जिन बुझ्ने तार वा कुञ्जी शव्दहरू वा वेबपृष्ठहरूमा उनीहरूको संक्रमणमा NLP आवश्यक छ।

जहाँ Google सँग विचार छैन, कुञ्जीशब्द बाहेक पृष्ठमा के हुन सक्छ वा सामग्री अनुक्रमणिका हुँदै जाँदा पनि खोजी क्वेरीको सम्बन्धमा मतलब राख्छ। NLP लाई धन्यबाद, गुगलले यसको खोज क्वेरीमा टाइप गरिएका क्यारेक्टरहरूको प्रस understand्ग बुझ्न सक्दछ।
NLP लाई धन्यवाद, गुगलले प्रयोगकर्ताको मनसाय छुट्ट्याउन सक्दछ जब उनीहरू "नदी किनार" र "बैंक खाता" भन्छन्। यसले "क्यारोलिनले आफ्ना साथीहरूसँग एक पेय, पेय, पिन्ट, एले, पेय पदार्थको लागि अस्वाभाविक" भन्ने अभिव्यक्तिहरू पनि बुझ्न सक्छ।

एसईओ मा विशेषज्ञको रूपमा, हामीले भन्नै पर्छ कि खोज क्वेरी बुझ्नेले लामो यात्रा गरेको छ। उत्तम विश्वास गर्नुहोस् कि विगतमा इन्टरनेटमा सही लेखहरू भेट्टाउनु धेरै गाह्रो थियो।

BERT बुझ्दै

BERT हाल हामीसंग धेरैको लागि सबै भन्दा राम्रो NLP मोडेलको रूपमा कार्य गर्दछ, यदि अधिक छैन भने, एप्लिकेसनहरू, विशेष गरी जब यो जटिल भाषा संरचना बुझ्ने कुरा आउँदछ। धेरैले पहिलो बिइडरेक्टियन वर्णलाई यस एल्गोरिथ्मको सब भन्दा ठूलो उछालको रूपमा लिन्छन्। बायाँ देखि दायाँ पढ्ने एल्गोरिदम हुनुको सट्टा, BERT ले पनि उनीहरूको प्रस context्गको सन्दर्भमा शब्दहरू बुझ्न सक्दछ। यस तरिकाले, यसले क्वेरीमा राखिएको व्यक्तिगत शब्दहरूको लागि परिणाम दिदैन तर खोजी क्वेरीमा शब्दहरूको सामूहिक अर्थमा आधारित सूचकांक वेबपृष्ठहरू।

तपाईंको समझलाई सजिलो बनाउन यहाँ उदाहरण छ:

एक ट्रक हल्का छ।

यदि तपाइँ उक्त कथनको बायाँ देखि दायाँको व्याख्या गर्नुहुन्छ भने "प्रकाश" भन्ने शब्दमा पुग्दा तपाईले ट्रकलाई बत्तीको रूपमा वर्गीकृत गर्नुहुनेछ। किनभने ट्रक स्टेटमेन्टको प्रकाश भन्दा पहिले आयो।

तर यदि हामी ट्रकमा चीज वर्गीकृत गर्न चाहान्छौं भने हामी "प्रकाश" छाड्दछौं किनकि "ट्रक" भन्दा पहिले हामी यसमा आउँदैनौं।

कथनलाई एकै दिशामा विचार गर्न गाह्रो छ।

थप रूपमा, BERT सँग पनि यस्तै उल्लेखनीय हुनुको अर्को गुप्त फाइदा छ, र यसले भाषाको प्रशोधनको लागि प्रभावकारी बनाउँदछ कम अघिल्लो मोडेलको तुलनामा कम संसाधन लागतको साथ। वास्तवमा विचार गर्न यो एक महत्त्वपूर्ण कारक हो जब कसैले यसलाई सम्पूर्ण वेबमा लागू गर्न चाहन्छ।

टोकनको अनुप्रयोग अझै अर्को विकास हो जुन BERT सँगसँगै आएको छ। बीईआरटीमा ,000०,००० टोकनहरू छन्, र यी प्रत्येक एक शब्दले ,000०,००० बाहिर रहेको खण्डमा क्यारेक्टरहरू र टुक्राहरूका लागि केहि थप टोकनको साथ साझा शब्द प्रतिनिधित्व गर्दछ।

टोकनहरू र ट्रान्सफार्मरहरू प्रशोधन गर्ने यसको क्षमता मार्फत, बीईआरटीले सामग्री बुझे, जसले यसलाई पर्याप्त वाक्यहरू बुझ्ने क्षमता पनि प्रदान गर्‍यो।

त्यसोभए यदि हामीले भन्यौं, "ती युवती बैंकमा गइन्। उनी पछि नदीको किनारमा बस्छिन् र नदीको प्रवाह देख्छिन्"।

BERT ले ती वाक्यहरुमा बिभिन्न मान प्रदान गर्दछ किनकि उनीहरु दुई फरक कुराहरु लाई संकेत गर्दैछन्।

SMITH बुझ्दै

तब SMITH आउँदछ, उत्तम कागजातहरू प्रशोधन गर्नका लागि उत्तम स्रोतहरू र नम्बरहरूको साथ एल्गोरिथ्म। BERT प्रति कागजात लगभग २ 256 टोकनहरू प्रयोग गर्दछ, र जब यसले यो थ्रेसोल्डलाई पार गर्छ, कम्प्युटिuting लागत इष्टतम प्रकार्यका लागि अति उच्च हुन्छ। यसको विपरित, SMITH प्रति कागजात २,२88 टोकनहरू सम्मिलित गर्न सक्दछ। त्यो टोकन BERT को उपयोग संख्या को बारे मा 8X हो।

एकल एनएलपी मोडलमा कम्प्युटि costs लागतहरू किन बढ्दैछन् भनेर बुझ्नको लागि, हामीले पहिले यसलाई वाक्य र अनुच्छेद बुझ्न के लिन्छ भनेर विचार गर्नुपर्दछ। वाक्यसँग काम गर्ने क्रममा, त्यहाँ बुझ्नको लागि केवल एउटा साधारण धारणा छ। त्यहाँ एक अर्कासँग सम्बन्धित कम शब्दहरू छन् त्यसैले शब्दहरू र विचारहरूको बिच थोरै सम्पर्कहरू जुन उनीहरूले मेमोरीमा राख्दछन्।

प्याराग्राफहरूमा वाक्यहरू बनाएर, यी शब्दहरू बीचको सम्बन्ध धेरै गुणा हुन्छ। प्रक्रिया X X पाठलाई समान मोडलको प्रयोगमा वेग र मेमोरी अप्टिमाइजेसन क्षमतामा धेरै पटक आवश्यक हुन्छ। यो जहाँ स्मिथले सबै फरक पार्दछ मौलिक रूपले ब्याच गरेर र धेरै अफलाईन प्रशोधन गरेर। चाखलाग्दो SMITH अझै पनी राम्रोसँग कार्य गर्न BERT मा निर्भर गर्दछ।

यहाँ कसरी SMITH कागजात यसको कोरमा लिन्छ भन्ने विवरण छ:
  1. यसले पहिले कागजातलाई सामूहिक आकारमा तोड्छ जुन प्रबन्ध गर्न सजिलो हुन्छ।
  2. यसले त्यसपछि वाक्यहरूको प्रत्येक ब्लकलाई व्यक्तिगत रूपमा प्रक्रिया गर्दछ।
  3. ट्रान्सफार्मरले त्यसपछि प्रत्येक खण्डको प्रासंगिक प्रतिनिधित्व सिक्दछ, जुन पछि यसलाई कागजात प्रतिनिधित्वमा बदल्छ।

स्मिथले कसरी काम गर्छ?

SMITH मोडेललाई प्रशिक्षण दिन हामी BERT बाट दुई तरिकाहरूबाट सिक्छौं:

BERT लाई प्रशिक्षण दिन, एक वाक्य वाक्य बाहिर निकालियो, र वैकल्पिक विकल्पहरू प्रदान गरिनेछ

BERT, जो राम्रो प्रशिक्षण पाएको छ, त्यो त्यो हो जुन प्रदान गरिएको विकल्पबाट सही विकल्प छनौट गर्न अझ सफल हुनेछ। उदाहरण को लागी, यदि BERT वाक्य दिइएको छ:

खुशीको खैरो ------ धरानमा बारमा उफ्रिनुभयो।
  • विकल्प एक - टमाटर।
  • विकल्प दुई - कुकुर।
BERT राम्रो प्रशिक्षित छ, राम्रो विकल्प छनौट गर्ने यसको संभावना राम्रो छ, जुन विकल्प दुई हो।

यो प्रशिक्षण विधि स्मिथमा पनि लागू हुन्छ।

स्मिथ ठूला कागजातहरूका लागि प्रशिक्षित छ

राम्रो प्रशिक्षित SMITH हो, बेवास्ता गरिएको वाक्यहरू पहिचान गर्नमा यसका संभावनाहरू जति उत्तम हुन्छन्। यो समान विचार BERT को साथ हो तर भिन्न अनुप्रयोग। यो अंश विशेष गरी चाखलाग्दो छ किनकि यसले गुगललाई जेनेरेट गरेको सामग्रीको साथ संसारमा र wal्ग-इन्च खोज ईन्जिन परिणाम पृष्ठहरूमा सँगै पाईएको छ। अवश्य पनि, प्रयोगकर्ताहरू छाड्न सक्छन्, तर ती लिने छैन किनभने गुगलले त्यसको नतीजा पृष्ठमा सबै उत्तम स्रोतहरूबाट छोटो र लामो-फार्म सामग्री एकसाथ टुक्रा गर्न सक्दछ।

यदि तपाइँ यस घटनाको शंकामा हुनुहुन्छ भने, तपाइँले जान्नुपर्दछ कि यो सुरु भइसकेको छ, र यद्यपि उनीहरूले अझसम्म यो काम गर्न सकेका छैनन्, यो एक सुरू हो।

के स्मिथ BERT भन्दा राम्रो छ?

तपाईले पढ्नु भएका सबैको साथ, यो सोच्न पूर्ण स्वाभाविक छ कि SMITH उत्तम छ, र धेरै कार्यहरूमा, यो वास्तवमै उत्तम छ। तर विचार गर्नुहोस् कसरी तपाइँ एक क्षण को लागी इन्टरनेट को उपयोग गर्नुहुन्छ; कुन प्रश्नहरू तपाइँ खोजी प्रश्नहरूमा नियमित रूपमा इनपुट गर्नुहुन्छ?
  • "आजको लागि मौसम पूर्वानुमान के हो?"
  • "एक रेस्टुरेन्टमा दिशाहरू"।
त्यस्ता खोज प्रश्नहरूको उत्तर दिन प्राय: छोटो सामग्री चाहिन्छ, सीमित र असंख्य डाटाको साथ। SMITH अधिक लामो र अधिक जटिल कागजातहरू र लामो र जटिल खोजी क्वेरीहरू बुझ्नको लागि बढी संलग्न छ।

यसले तिनीहरूका उत्तरहरू सिर्जना गर्न धेरै कागजातहरू र शीर्षकहरू सँगै पाईक गर्ने समावेश गर्दछ। यसले सामग्रीलाई कसरी भत्काउन सकिन्छ भनेर निर्धारण गर्दछ, Google लाई प्रदर्शित गर्न सहि कुरा जान्नको लागि सक्षम पार्दै। यसले गुगललाई कसरी सामग्रीको पृष्ठहरू एक अर्कासँग सम्बन्धित छ भनेर बुझ्न मद्दत गर्दछ, र यसले एउटा स्केल प्रदान गर्दछ जसमा लिंकहरू अन्य फाइदाहरूको बीचमा महत्त्वपूर्ण हुन सक्छन्।

त्यो भनिएकोसँग, हामी दुबै BERT र SMITH महत्त्वपूर्ण छ भन्दै निष्कर्षमा पुग्छौं, र ती दुबैले आफ्नो अनुपम उद्देश्य पूरा गर्दछन्।

निष्कर्ष

जबकि स्मिथ बाजुका हो, हामीलाई सामूहिक रूपमा कसरी चीजहरू छन् भन्ने बारे स्पष्ट चित्र रंगाउनु पर्छ। संसाधनहरूमा, यसले अधिक लागत दिन्छ किनकि यसले ठूलो काम गर्दछ, तर त्यो BERT भन्दा कम खर्च गर्दछ समान काम गर्दा।

BERT ले SMITH लाई छोटो प्रश्नहरु र साना सामग्री अंश को आफ्नो समझ सहायता गर्न मद्दत गर्दछ। यद्यपि यो हो, जबसम्म गुगलले अर्को एनएलपी एल्गोरिथ्म विकास गर्दैन जुन दुबै प्रतिस्थापन गर्दछ, र त्यसपछि हामी सर्नेछौं र एसईओ मा अझै अर्को प्रगति प्राप्त गर्नेछौं।

SEO मा रुचि छ? हाम्रो अन्य लेखहरूमा जाँच गर्नुहोस् Semalt ब्लग