SEO人员如何在公司中提升话语权并高效完成长尾词挖掘与数据清洗,甘肃媒体网站建设选择

#网络推广 发布时间: 2025-02-08
    前言

    说实话,如果不是为了探索和空降的SEO人的首席执行官,那么,许多SEO人员都在公司中的“脆弱团体”中。

    大多数普通的SEO人员在公司和跨部门沟通中没有太多相应的声音,并且有很多细节无法协调。

    在这样的环境中,如果Seoer想要做得好,他必须全力以赴,并尝试所有手段来完成表面上不值得一提的事情,并且不可避免地是秘密的。

    问题

    整个网络都有大规模的长尾单词开采,这是SEO和SEM必须做的事情,但是大规模的长尾词注定要带来一些数据清洁工作。在大多数情况下,清洁工作可以在Excel中完成,但也有很多情况。例如,Excel很难处理:

    这是从第三方关键字工具下载的“ drain”一词的长尾单词数据,但遇到了一个令人尴尬的问题。 “ drain”一词的根源具有同义词,但有不同的情况,因此它将导致许多无关的长尾词的开采:

    实际上,这种情况非常普遍。一个单词通常不可避免地与其他情况相混淆,例如:

    水果中的“苹果”,手机中的“苹果”和电影中的“苹果”也是同态但完全不同的单词。简单地使用根源来挖掘单词自然会导致许多非目标长尾单词。

    有许多类似的情况,因此问题是:消除未针对的长尾词是必须做的事情。在这样的SEO工作中做得很好是很自然的。老板不会帮助我们,他也无法与他人相匹配。如果这是一百万级的长尾单词数据,则将在Excel中过滤和消除,并且该项目可能会消失。

    面对如此混乱的长尾单词数据,如何使用有效的方法来过滤和过滤?

    今天的文章是一本完全基于技术的内容,但是对于不知道该怎么做的朋友,我强烈建议您全面看。有两个点:

    技术是另一种思维方式。对于不知道该怎么做的朋友,您可以看到技术人员在遇到问题时如何处理问题。

    在“互联网营销”工作中,有许多任务超出了我们的能力,但是对我们的主观计划进行全面发挥,以达到超过该职位的能力水平,这通常会带来其他好处。

    开始

    一段时间以前,我从事了一个收集项目(仅在熟人之间的法律业务)。随着收集数量的增加,“敏感单词过滤”的工作是不可避免的,涉及政治,*,恐怖主义,广告等。必须确定这些相关词。

    目前,可以在市场上收集敏感的词汇,并且只需几份即可到达成千上万甚至更多的词汇,因为随着时间的流逝,将产生各种新的词汇。

    使用该程序来确定文章是否包含目标敏感词,例如:

<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'>    <pre class="syl-page-code"><code>refusalWord = &apos;敏感词&apos;
targetText = &apos;内容正文&apos;
if refusalWord in target_text:print(True)</code></pre></p>
    让程序将此敏感的单词带入目标文本中进行搜索。如果可以找到它,则意味着有一个敏感的词。在这种情况下,只有一个敏感的词。如果有多个敏感单词,它也很简单。添加一个循环:

<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'>    <pre class="syl-page-code"><code>refusalWord = [&apos;敏感词1&apos;,&apos;敏感词2&apos;,&apos;敏感词3&apos;]
targetText = &apos;内容正文&apos;
for word in refusalWord:
    if word in target_text:print(True)</code></pre></p>
    该程序将敏感的单词一个接一个地进入目标文本。如果有数百个敏感的单词,一个一个一个一个一个一个一个效率的处理效率低下,感觉并不优雅。正则表达式可以简洁地处理:

<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'>    <pre class="syl-page-code"><code>import re
refusalWord = [&apos;敏感词1&apos;,&apos;敏感词2&apos;,&apos;敏感词3&apos;]
targetText = &apos;内容正文&apos;
if re.search(&apos;|&apos;.join(refusalWord),targetText):print(True)</code></pre></p>
    所有敏感单词都与“ |”有关形成正则表达式:“敏感单词1 |敏感的单词2 |敏感的单词3”。此表达式用于匹配目标文本并找出出现的所有敏感单词。

    但是,如果敏感的单词是数万甚至更多的呢?知道规则的朋友知道以这种方式写的表达方式似乎非常不合理,并且可能会遇到各种问题。

    此外,如果有数万甚至更敏感的单词,则效率正在线性下降,而其他工作(例如后期的替换)将使时间成本更高。

    此外,我们以前的演示只是只有1个目标文本的情况。如果敏感单词的数量是n,那m呢?在简单的双循环的情况下,时间复杂性至少为n*m。

    目前,我们今天需要使用主角:“ AC ”算法。

    PS:不了解技术的朋友不需要担心代码,他们只需要了解这是解决方案优化问题。在面对从1到n到n ++的敏感词的过程中,我们正在不断优化技术解决方案以提高效率。

    交流自动算法是一种多模匹配算法。像我们这样的非专业人员无法探索算法的聪明和深刻,但是我们仍然可以理解算法的重要性和差异。

    在上面的示例中,即使是不知道如何做技术的朋友,随着敏感词汇的继续增加,该程序的时间成本将逐渐增加,因为该程序决定文章是否包含某个单词或某些单词敏感词汇。 ,因为毫无意义的判断数量正在增加,所以这是一个单一的模型。

    AC自动机通过使用多模式匹配算法解决此问题,即随着灵敏词汇的增加,时间成本保持不变(至少在一定的数量级范围内)。

    那么,这与我们要谈论的关键字清洁有什么关系?接下来,让我们逐步演示。

    步骤1:选择代表根

    这是一个长尾词汇的“驾驶流量”,数十万,有两个长尾词,与互联网促销有关的长尾词和与医疗技术有关的长尾词。我们的目标是将这两个类别分开。

    在excel中,当面对这样的数据时,我们需要将两侧分开,即滤除目标或过滤非目标,然后消除它们,让我们首先考虑一般操作方法是什么:

    查看非目标数据,将其标记,过滤并删除所有目标,但是这些对象是数十万甚至更多。您可以想象效率。那些可以一一阅读它的人是疯子。

    选择一些高频非目标单词或单词,然后将其滤出并删除它们,然后重复重复此操作。此方法看起来很快,可以一次消除其中的大量方法。

    但是,如果您完全理解关键字的长尾效应,您将了解此方法在后期的阶段会更加痛苦,因为许多选定的单词在后期无法删除许多单词,并重复进行筛选和删除会让人们崩溃。

    此外,似乎没有更好的方法可以在Excel中处理此类问题。现在,我们将使用另一种方法来解决此问题。

    作为旧规则,首先对所有长尾单词进行分类,并计算单词频率:

    接下来,我们需要根据“常识”手动选择代表性的“分类种子根”,从上到下,我们选择与促销相关的单词“仅”单词,并将其放入文档中,并将其放置在“只有“”捡起与医疗技术有关的单词,然后将它们放入另一个文档中。

    所谓的“明显仅”,例如:“脚本”,即脚本工具,这种单词基本上不可能与医疗技术中的长尾词有任何联系,而“伤口”基本上是不可能的与互联网推广有关的任何事情。有什么关系?

    例如,所谓的“常识”通常有一些与互联网促销有关的平台名称,例如Zhihu,微信员,等,您甚至不需要考虑它们并直接写它们。

    因此,选择时,您必须确定该单词的属性是否清晰。如果含糊不清,最好不要!

    前者被认为是“正确的”,而后者被认为是“反”和“右”是我们目标长尾词的代表性根源。我们应该选择多少?相同的句子是正确的,关键字与28个原则一致。

    我们可以看到,顶根的单词频率很高。根可能涉及许多长尾词。我只为每个选择了数十万个长尾单词。

    即使长尾词的数量增加了10次,也不会选择代表性的根源。

    步骤2:扩展代表性根源

    选择这些种子单词的目的非常简单:可以将“正”的种子单词过滤掉出词汇中绝对是目标分类的长尾单词。我们选择了“微信”作为种子单词,我们认为只有在互联网促销中出现的长尾巴单词可能会出现,因此,如果您将“微信”带入词汇中,则可以滤除所有包含“微信”的长尾巴单词。这些与互联网促销有关:

    长尾巴通常具有以下特征:

    微信交通排水脚本开发

    我们通过“微信”提取了这样的长尾词。除了“驾驶”的根源,因为这个长尾词与互联网促销有关,其他根源最有可能与互联网促销有关,例如“脚本和“发展”绝对不可能与医疗技术。

    脓肿切口和排水手术

    我们获得了种子单词“手术”,并且单词分词之后的“脓肿”与促销无关。可以将它们添加到“抗”类别中,为新种子单词。

    目前,这个想法很清楚。我们首先选择一些代表性的种子单词,使用这些种子单词过滤所有相关的长尾单词,然后使用这些筛选的长尾词将关键字分词,然后使用关键字的相关性来获取更多的种子单词,我们不使用&#39;&#39;&#39; t在上一步中选择。

    所有这些种子单词都是我们以后用来对的基石。

    使用这个想法实际上解决了关键字的长尾效应问题。我们不能一一手动选择种子词,我们可以自动收集更多我们没有通过关联手动选择的种子单词。

   


# SEO人员如何在公司中提升话语权并高效完成长尾词挖掘与数据清洗  # app运营推广营销  # 临沂抖音seo优化公司  # 黑客小旋风seo  # 固原品牌营销推广招聘网  # 地图关键词怎么排名靠前  # 兰州seo新站优化  # 平台网站建设费用占比  # seo算法教学  # 长沙芙蓉区网站建设推广  # 宝马网站建设流程详细图  # seo.mg175.aqq  # *如何做招聘网站推广  # 昌平网络营销推广网站  # 南充地摊推广招聘网站  # 济宁seo关键词优化  # 宿州网站推广排名  # 厦门产品网站建设  # 定西市网站策划推广  # 品牌seo推广网站  # 汾阳附近网站推广店铺 



上一篇 : 互联网时代金融保险企业品牌建设面临的挑战与策略分析,网站建设技能

下一篇 : 杨王村从负债千万到年经济总量225.75亿的脱贫致富奇迹,象山网站建设费用
电话:400 76543 55
邮箱:915688610@qq.com
品牌营销
客服微信
搜索营销
公众号
©  胜蓝科技 版权所有 赣ICP备2024029889号 品牌搜索推广 网站SEO优化 搜索引擎优化 江西网站优化 江西网站优化 南昌网站优化 江西网站SEO 南昌网站推广 品牌搜索推广 网站SEO优化 搜索引擎优化 江西网站优化 江西网站优化 南昌网站优化 江西网站SEO 南昌网站推广
品牌营销
专业SEO优化
添加左侧专家微信
获取产品详细报价方案