在这个连开源标注数据集都没有的领域,AI该如何落地?| 人物对话

对于法律科技领域来说,2014 年元旦是一个重要分水岭。   这一天,最高人民法院《关于人民法院在互联网公布裁判文书的规定》生效实施。即日起, 全国四级法院的生效裁判文书, 除涉及国家秘密、个人隐私、...
继续阅读 »

对于法律科技领域来说,2014 年元旦是一个重要分水岭。
 
这一天,最高人民法院《关于人民法院在互联网公布裁判文书的规定》生效实施。即日起, 全国四级法院的生效裁判文书, 除涉及国家秘密、个人隐私、未成年人违法犯罪等特殊情形外, 应当在生效后七日内统一上传至中国裁判文书网。
 
「我们承建了裁判文书网的后台。」北京法意科技有限公司常务副总经理陈浩告诉我们。据陈浩回忆,半年多时间,「大概到 2014 年下半年的时候,已经到了几百万量级。」
 
有了数据燃料,剩下的就是方法。

「14 年之后,好多新公司进来。至少,大家的共识是得有数据,没有数据,那个事情做不成。」如今比较活跃的法律 AI 创业公司,比如律品科技、无讼均成立于这一年。
 
两年后,中国裁判文书网已经成为全球最大裁判文书公开平台。数据显示,截至 2016 年 8 月 16 日,中国裁判文书网公开的裁判文书超过 2000 万篇,网站访问量突破 20 亿次。

更多公司开始试水 AI 领域。2016 年,法狗狗和深度好奇成立。一些大公司也开始尝试新技术:华宇设立了子公司华宇元典,而国双和上海百事通等也陆续开始探索人工智能在法律领域的可能性。
 
而作为中国裁判文书网承建商的法意科技,算是中国最早涉足法律数据和实证分析的科技公司之一。

「我们最早源于北京大学的一个科研课题。大家当时在研究法律法规跟案例的关系。裁判文书会引用法律,那么能不能通过案例文本找到被引用的具体法律内容?或者,通过法律条文找到对应案例?」

那还是 2001 年,陈浩正在北大读研究生。后来,由于研究需要更完整的法规数据库和案例数据库支撑,北大法意成立。2003 年,公司开始做数据库。

「那时候就是数据量少,没有公开那么多文书,我们也只能尽可能从各种正式渠道采集。我们一直坚持做数据库,当时也没有觉得最新的计算机技术对数据库的建设和应用有多大影响。」

 现在,完全是另一番景象。
 
2015 年以来,无论 Yann LeCun、Geoff Hinton 还是 Yoshua Bengio 都开始将关注点转移到自然语言。Yann LeCun 认为,NLP 是深度学习接下来要解决的重要问题,Geoffrey Hinton 则认为未来五年最令人兴奋的领域将是文本和视频理解。
 
而国内专业人士在接受我们专访时,也曾表示,「离钱比较近、数据比较丰富、知识结构梳理得比较好的领域」比较适合 NLP 的落地。
 
「比如,法律和医疗。它们是接近同构的两个领域,都有大量和用户交互的专家以及规范的领域知识。类似这类有富集的文本、领域知识、交互记录的领域,比较容易取得自然语言理解和相关任务的突破。」深度好奇 CEO 吕正东曾说。
 
然而,对于一家深耕法律数据和实证分析领域多年的传统公司来说,除了感受到这波人工智能浪潮带来的压力之外(「产品要更加精致」),同时也感受到了许多概念宣传带来的干扰,还发现了一些令人担忧的现象。陈浩多次表示「法意仍然对人工智能持相对保守的态度」,也反复强调了产品的精准度和行业生态建设等问题。
 
以下为采访实录,我们做了不变更原意的编辑。

我感觉现在行业内好多团队似乎对这个环节的重视程度不够,就是大前提和小前提的正确性。但实际上我感觉这是最关键的问题。

吴恩达说人工智能是电力,会给很多行业带来巨大变化。您怎么看近些年法律领域的 AI 热?
 
现在进入法律领域的资本比过去多很多,但没办法和医疗这样的领域比。
 
一方面,对人的价值不同。可能有人一辈子不打官司,但是一辈子进医院的次数就多了。另一方面,投资人的眼光也非常犀利。在人工智能技术落地的难度上,法律可能比医疗还难,因为它涉及价值判断。
 
医疗更多的是用感知技术解决诊断数据获取问题。在这些数据基础上,设定医学模型。但在法律领域,一拳打过去,这是故意伤害还是开玩笑?有很多价值判断在里面。即使用 NLP 分析发现两篇文档特别类似,可能就多了一两个字,但法律结论未必一样,还有可能严重不同。在计算机上实现这个,难度很大。
 
我们认为,人工智能,某种程度上来说是从几十年前传统的统计学发展下来的,只是现在统计方法有了新变化。有监督学习、无监督学习、半监督学习这些方法,几十年前就有了,只是具体算法不断演进了。
 
对应在法律领域内,学者们做研究讲的更多的是实证研究,实证研究用了很多不同的统计方法。在诸如 SPSS 之类的专业统计软件上会看到很多熟悉的机器学习算法。这些模型,有的可能早在 100 年前被研究出来了,一直沿用至今。
 
06 年讲深度学习,实际上只是在感知领域效果比较好。在认知领域,没有见到特别成熟的商业应用,至少在法律领域是这样。
 
从国外看,不管是英美还是大陆法系,类似的产品其实都很窄,解决的是法律领域里某一个更细分的问题,比如说破产。有个法国公司做了一个离婚模型,做完之后提供给公众服务,大家觉得非常好,好像产业就要变天了,但实际上这就是一个针对某个具体问题的具体模型,可能有商业化包装的成分在里面。

解决某个点的问题,还不能直接变革庞大的法律体系。当然,不是说这么做没用。像 IBM Watson,被一些专业团队用来做二次的垂直应用(比如 ROSS——微胖注),产生了一系列产品,验证后可能是成功的。这个应该值得大家去思考学习。
 
大的方向上,大家肯定是不会存在任何异议,但在具体推进和使用上,还是要有具体的问题意识。从具体问题出发的法律智能化服务路子,可能是对的,我们也在做这方面工作。

法意做了哪些相关的 AI 产品?
 
到底什么样的产品属于人工智能领域,其实不好说。
 
比如法律文书生成、合同的合规性审查、文书质量控制、法律风险分析、业务指引等,技术层次很多,不好说是不是都属于人工智能。只能说,计算机在各种模型和算法的支持下,可以输出很多法律服务成果。
 
08 年,我们研发了法律文书质量控制软件(「文书纠错系统」),对文书格式规范、表达规范比如语义逻辑、内容完整方面、上下文逻辑方面和法律依据引用等方面进行质量控制。现在,全国大概有 60% 的法院都在用这个服务。
 
比如,如果未成年人被判了 300 元罚金,这个软件就会提示错误。因为司法解释规定,未成年人犯罪被判处的罚金不得低于 500 元。这款产品也是通过算法、知识库支撑来实现的。光有知识库还不够,还要有算法库。
 
现在,我们在研究法律文书的法律核心问题的识别。
 
如果这种复杂又专业的文书来自最高人民法院,出自水平很高的法官,整个核心法律问题的识别,召回率能达到 75%-80% 之间。也就是说,100 篇法律文书,我们能发现 70 多篇文书的核心法律争议焦点。它的提准率,目前水平在 85% 以上。也就是说,发现 70 多个法律问题中,大概有 60 多个问题是精准的法律核心问题。

不过,面向全国法院的裁判文书后,针对类似的问题,现在的召回率大概只有 30% 多,提准率在 80% 多,提准率相对还是稳定的。
 
感觉法意的态度相对比较谨慎,对吧?

我们的态度一直比较保守。这么多年来,我们的基本经营理念都是坚持准确率指标。
 
这些指标要到什么水准,咱们才会认为结果可以接受,这种技术才能被商业化,否则就只是停留在实验室里的东西。我们不习惯对实验室阶段的技术做宣传。
 
目前市面上,有些团队在研发类案推送系统,甚至会提供倾向性结论。虽然给这种结论有点风险,但是作为给律师提供法律咨询服务的参考,以及法官作为参考不会不加甄别的接受软件提供的结果,所以,我们觉得这类产品还是很有应用价值的。
 
但是,如果把软件提供的法律结论直接提供给老百姓,确实会有很大的风险。

这么多年,我们也做了很多应用,我们对某些具体问题做了一些深入研究和应用,也出来一些具体结果。这些结果,得到过反复的验证。

 能举个例子吗?
 
09、10 年时,我们服务北京大学法学院白建军教授,就最高人民法院的量刑规范化做了一个实证研究的技术支持。
 
当时,最高院出了一个量刑指导意见(试行),作为法官量刑自由裁量权的细化指导。白老师想做个实证研究,看看全国一百多家法院试行指导意见之后量刑实践的实际规律是什么。
 
我们协助白老师做了分析框架模型的技术处理和数据处理。最高法院调了大概一百多家法院三年来的刑事判决书数据。就这三万多篇文书,按照白老师给的模型,对数据进行自动化处理——把所有判决书中记载人罪单位,全部结构化地提取出来。

我们结合了一些方法,目的就是实现高精度的结构化的数据输出。因为这种研究,最关键的就是精准度的问题。虽然大家说大数据追求模糊,不追求精确,但是,我觉得在法律领域内,精确性还是不可回避的一个问题,如果不准,这个结论不能作为决策依据。
 
高精度地将量刑数据提取出来后,白老师以此为基础做了一个研究报告,提交给了最高院。最高院相关负责人还是比较认可部分结论。
 
你看,量刑就是个非常具体的法律问题,要解决的问题也很具体-----整个模型数据的高精度的提取。问题要求的精确程度不同,相对的方法和算法也会有区别。
 
所以,我们坚持对类似这样的具体问题进行具体落地处理。然后,注重它的一些指标,主要是召回率和准确率。
 
不解决问题的刀不是好刀,还有可能是凶器是吧?我们还是希望能够提供特定场合下的高精度的东西给大家。
 

为了严格确保产品质量,还有什么需要特别注意的因素?
 
还有一点很重要,判断结论是 A 还是 B 的概率,是有具体的前提的,即影响或控制结论的前提(也就是三段论的大前提和小前提)的精准度。
 
这甚至是最重要的问题。但有时候可能会忽视了这个问题,都把焦点放在结论上。结论虽然很重要,但是之前支撑的环境变量和参数如果不准,结论等于没保障。所以,要有标准库或其他方法去验证这些大小前提的精准度。
 
比如,没小孩、有家暴,能不能离婚?你告诉他这种情况下,法院判离的概率是 60%。但事实上,判决离婚要考虑的因素不止这两个。还有很多其他因素,比如是不是自由恋爱?法官会考虑其他很多因素。但是,老百姓可能不会输入这个因素,因为他们不懂法律。在缺少这些因素的时候去做算法,结果就会似是而非。前提部分的精准度没有保障,后面就会出问题,甚至会得出截然相反的结论。

所以从技术实践角度来说,每个环节的精准度都要有一个有效的控制,肯定要采取经过反复验证的算法。
 
至于什么样的验证方法最好,没有统一的标准。最高法院也在组织课题研究这些问题。

在这个领域内,我们把基于规则、基于统计的方法结合在一起,它的效果就非常好。我们精度准确率的输出,基本上都是在 97% 以上。

 

法意有用到深度学习技术吗?
 
我们也有用到深度学习。之前给研究机构或甲方做的研究,为了控制垂直精准度,不会把太弹性的算法会往里加。弹性的算法(也就是基于统计的一些算法)精准度相对是偏低,但这种偏低的算法加入到你现在算法体系里,会提升算法的宽度。
 
比如说,临时有定制的需求,利用现有的成熟算法,两三天就可以训练出一套算法。但是,这套算法的可用性会有问题。现在我们给甲方做的东西都会严格控制精准度。比如裁判文书网。
 
但是,我们也没有太快拓展自己业务边界,还是有选择性的在做。我们的共识是,如果精准度可以达到我们预期,这个任务的风险是可控的。
 
深度学习技术主要用在哪些方面?

现在,我们对深度学习中的这些算法,会结合到知识图谱,比如知识规则的抽取,现在用的比较多。
 
另一个是文本分类。实际上,我们把它思路转化了一下,我们叫它文本的结构化。
 
比如做量刑模型,前提是需要高精度提取量刑情节。某个案件当中,张三犯盗窃、诈骗数罪,是盗窃了 5 万,还是诈骗了 5 万,需要精准提取这样一个文档描述中的数据结果。就这种文档的结构化提取而言,我们用了一些深度学习算法,也结合了一些传统的基于规则的模型做控制。通过评测,效果还不错。
 
文本结构化方面用的比较多。但是,用在作为所谓的规则提取,比如说未成年犯罪的罚金不得低于 500 元这种规则的提取,我们也在尝试着采用类似的技术来解决。
 
因为法律领域内的文档还是具有很强的领域性、行业特征和受控的特点,它的文本内容、结构和文本内容结构和语义后面蕴涵的信息体系,还是一个相对可控的,容易被结构化。和新闻稿相对开放的特点还是有很大的不同。
 
在这个领域内,我们把基于规则、基于统计的方法结合在一起,它的效果就非常好。我们精度准确率的输出,基本上都是在 97% 以上。

 达到这么一个精准率,需要多大的数据量?
 
跑取算法的基数,现在就是 3000 多万。08 年我们做的时候,从几十万开始到几百万,也是慢慢增长,慢慢添加的过程。
 
目前公司的产品研发是基于什么样的思路?
 
基本上还是根据客户的具体需求。一般是甲方提出要求,我们再结合自身技术储备和资源储备,看能不能做出这样的东西来。
 
比如,我们 08 年做的文书纠错系统,就是基于甲方的需求。当时最高法院的主管领导觉得法官在文书质量工作上投入的精力和时间太多了,希望借助技术手段减负,比如,对一些基本问题进行质量控制。
 
正好,我们在这个领域里也有不少基础性工作,有技术积累,就尝试着研发了这款产品的雏形,试用一段时间后,效果还挺好。后来我们发现,对法院裁判文书的质量管控来说,这个应用很有意义,就在满足最高法院需求的基础上,把它变成了一个现在全国范围内的大部分法院都采用的产品。
 
在我们看来,面向一个真的问题,我们做 IT 的才能发挥价值。和 2C 领域不同,在电子政务领域,这个意识特别重要。电子政务有时是基于一些政策,基于行业的一些发展需要而产生,这些需求有可能今年存在,明年可能不存在,波动性比较大。
 
这对产品的迭代不利吧?
 
确实不太利于技术迭代。应该说,这是所有涉足这个领域的法律 AI 公司都会都遇到的问题。

所以反过来,我们也会跟甲方反馈这些问题,持续稳定的研发投入,技术的成熟度才会不断接近用户的理想状态,生态会更良性一些。
 
但就目前来说,还是多参与行业内的一些信息化建设。要接触的多,你才能跟得多,也更清楚行业内建设的重点方向是什么。

 由此看来,法意的核心技术实力也是基于 B 端具体的产品需求逐步积累起来的吧?

是的。我们持续投入,都是基于目标任务。有经济产出也很重要,我们不是纯研发。

我们最早做数据库也是靠人整理。后来,就考虑能不能自动化,就文本里提取了一些东西,做算法来实现结构化抽取目标。因为当时需要整理的信息项比较少(比如法规名称、颁布机关、效力、法规文号等),就只提了一部分,这个时候,已经有算法的思想在里面了。
 
比如,当时做法规数据库还要处理法规效力变化,这是一个动态变化。每天往里面扔一百部法规,可能有一部会对历史库里的几百部法规产生影响,这里就需要有算法实时监测这些变化关联,包括法规之间、上位法和下位法之间、同位阶法条之间的关系。我们当时就用传统的算法来实现的。
 
03、04 年,我们做内部研发平台,将这些经验积累起来,也做了大量调研,想办法让客户搜索更精确。

我们一直清醒地认识到,法规数据库也好,案例数据库也好,提供的这种查询检索功能,一定要比较精准。所以,算法训练出来结果,在进行回归测试时,要有精度的控制。如果精度达不到,这个结果就不能用,否则会误导使用者。
 
从 07、08 年开始,我们遇到越来越多的实证研究统计分析需求,这些需求不再局限于过去简单的五六个字段,有的甚至达到了 4-500 个字段。只有足够丰富的角度去分析它,才能提供一些有价值的分析结论。
 
这些需求也成为我们技术升级的动力。我们发现标引规模太大了,传统的处理方式不够用,就慢慢引入了很多基于统计的算法。在传统的基于规则的方式,基础上增加了一些新的统计算法,结合在一起后,我们发现效果很好。这种方式精准度有保障,整个工作效率也有保障。
 
所以,从 03 年最初做数据库为基础,积累到 07,08 年,核心技术基本上比较成熟了。接下来就是基于应用不断去积累。

策划一款成功的法律 AI 产品的关键,主要还是在于用户需求,要解决的核心任务,将产品带入到场景中。

目前公司的数据库产品怎么收费?
 
我们的法规案例数据库,全国高校每年按服务费收取,几万元不等。全国法学院有法学院和有法律专业的,也就是 600 来家,全部加起来一年也就一千多万的市场规模。
 
考虑过设计面向其他用户群体的产品吗?
 
这么几年来,我们的基本精力主要放在政法机关,高校法学教育机构。这两个受众群体本身就从事法律业务和正在进行法律学习,对法律信息化需求比较刚性,也比较集中和稳定。
 
对于律师行业来说,还是要看要解决律所和律师的什么需求。如果是满足资源管控需求,那就是 ERP。EPR 本身是个好东西,意味着产业化、规模化和标准化。资源优化是一件好事,但恰好碰上律所这类人合组织,就很考验合伙人的管理文化了,看他们需不需要管控。
 
所以我们后来做了一段时间以后,发现这个领域的专业化标准化和规范化,确实还有很大波动,也比较难做,就暂停了这一块业务。
 
不过,律师领域还有一块业务领域,用智能化软件手段辅助律师进行业务处理。这肯定是一个可行的方向。但是,律师本身就是专业能力很强的一个群体,如果软件本身的智能化能力不是特别高,他们的需求也不会那么高。
 
老百姓这块儿市场呢?

 
至少在软件的整个能力没有达到一定高度时(不准、不是很靠谱)的时候,会有误导。再说,提供法律服务的公共渠道并不少。
 
我们现在在内部预演类似产品。尝试做了离婚,民间借贷,道路交通肇事等领域。比如,能不能解除婚姻关系,会给你一个结论。我们这个结论是基于一百多万离婚案件的裁判,不是我们通过规则设置的。不断增加判决书进行训练,结论就有可能会变,但它就是基于这个文本本身。
 
不过我们也一直坚持,如果这个产品精度不是很高,我们不会把它拿出来商用。

在您看来,策划一款成功的法律科技产品的关键是什么?
 
要更多地将智能化的产品带入到具体场景当中。
 
比如 ROSS。他们做非常垂直的领域,比如破产。用户输入情况,系统告诉你能不能去申请破产。将你输的情况,带到所有可以破产案件里,去做一个相似。最后我们会找到相似的案例,并且找到这些案例的结论。然后,我们的结论做一个验证和判断,最后我们给出最终的结论。
 
里面的算法很多,比如你要做相似性比较的算法,把相似东西找出来,只是代表了把相似的情况找出来,但是不代表这些相似情况的法律结论,是 A 还是 B 的时候,或者是有离散趋势的时候,怎么给受众一个相对明确的结论?
 
你可以告诉用户,相似情况中,有 10% 的时候不准破产,90% 的时候允许破产。但是,这个可能不是用户想要的答案。关键还是,用户需要的是一个明确的答案。
 
面向法官的产品,和面向老百姓的产品,解决的问题确实是不一样的。

老百姓没有专业的法律知识,他只管自己要输入自己想说的话,要系统给他一个终极性的结论。比如,离婚的问题。这婚能离吗?你就告诉她能还是不能,需要采用什么策略和手段。他们只是关心这个。

但法官不一样。他要考量案件的全面问题,具体到某个个案时,他可能会更关心偷录的录音证据是不是非法证据。
 
所以,主要还是在于用户需求,要解决的核心任务,将产品带入到场景中。

如果法院想让产业界的人提供好的人工智能的产品,就必须得有一套标准,有一套所谓的那种验证。

咱们法律垂直领域的 AI 研发到底有多花钱?
 
我们的算法,从 03、04 年开始做,一直到 07、08 年出了一个版本。它是一种引擎,一系列算法,一个支撑平台。这多年来,算法的积累一直没有停止。我们的这套算法都是基于应用产品的目标和任务去发展。如果今天又要研发一套新产品,产品中需要增加一些文本分析与理解的维度,我们就会去扩展这个算法。
 
06、07 年研发纠错软件时,之前那些积累就不提了,仅人工成本,前后就投入了 800 万左右。当时,我们是集中研发一款市场可以接受的版本,基于之前的技术积累,进行软件升级。当时的人工成本不比现在,800 万已经是很大一笔投入了。
 
但是,还可能出现这种情况——到最后,你的算法精度始终没办法达到商用水平。这时就会非常纠结了:前期投入那么多,再投进去有可能是无底洞,而且可能还无法评估效果,怎么办?做出来,有时候用到什么场景,也未必有把握。
 
算法,和传统做软件(写代码然后呈现功能),差别很大,本身就是一个很复杂的东西。

对于我们这种规模的公司来说,专注某个垂直领域,认真去做,也会有我们的收益。不过因为各方面原因,投入确实蛮大。
 
听说西方几个大数据库厂商在智能检索上,投入非常高。其中一个巨头会请多少年执业经历以上的律师在一座大山里封闭式做标注,安保措施级别也非常高。而且每年都得做。看来做 NLP 也很烧钱,NLP 和做图像识比起来,到底谁的成本投入更高?
 
自然语言理解比较高。自然语言理解这一块,至少得做语义做标注。比如,咱们法律要做标注,普通的高中生、大专生还不行。至少得大三的学生。人工标注都不准,没法做训练集。所以,得有大量法律职业者给你做这个标注。
 
之前采访过 LawGeex,他们和国内法律 AI 公司差不多,都靠自己的法律专业团队从事数据标记和系统训练。他们也感慨投入非常高昂。
 
单纯的工程师是肯定不够。对于对咱们法律人来说,从产品设计到最后落地,都需要有法律人全程配合。公司设立这方面的专业团队,才能实现垂直领域的高精度应用成效。生态面前,「人人平等。」现在请一些素质比较高的人进来,人工成本还是很高的。
 
我们当初做的时候,也遇到一样的难题。从零变成一百很容易,自己做也可以。数据量从一百变成一万,咱们这些人几乎就受不了这种重复性工作。从 1 万变成 10 万,靠人力已经有点不现实。从 10 万变成 20 万,30 万就更别提了。在这个过程中,我们也会涉及到请人去标注数据,然后让算法教算法,然后让算法变得更聪明。
 
从 03 年开始,我们大概用了一年多的时间把法规数据库做到接近 20 万部,把国内能收集到的法规全部收到数据库。全部都用计算机的算法拆解出来做,通过自动化的方式实现。用一年左右的时间做了个案例数据库。当时就做了这么两个数据库,都是纯粹用计算机来做的。
 
基于人工智能技术应用到法律领域的巨大投入, 需要国家有关部门组织力量, 构建一些应用指标, 如召回率、准确率等, 使得司法公开成果在公平正义的框架下辐射到各个群体。

除了刚才聊到的这些,您觉得目前产业环境中还有哪些不利于法律 AI 发展的因素?
 
缺乏 Benchmark。类似于 ImageNet(图像)、斯坦福 SQuAD(NLP)那样的数据集。不过标注这么大量的数据集太花钱,一般企业玩不起。
 
但我觉得检察院、法院还是有这个条件组织这个事情的。如果法院想让产业界的人提供好的人工智能的产品,就必须得有一套标准,有一套所谓的那种验证。验证也通过你的验证的产品,法院就放心可以用。
 
其实,这种核心技术是我们企业比较深层次的资产,所以我们不会太对外去宣传这样的东西。我们往往宣传效果,比如这个纠错软件的精准率能到 70% 到 80%。如果别的产品达不到我们这个水平,我的产品卖的贵一点,客户也舍得买。
 
如果精准率不达标,你可以去发学术文章,但不能应用于司法实践,因为司法实践可能会造成系统性的偏差。这是法律领域,不是其他什么娱乐领域。所以,我觉得大家还是要回归到问题的起点,还是几个指标的问题。

说白了,整个体系的设计是基于你的软件目标,这个软件目标怎么一层一层地倒推回来,最后下沉到基础算法。

 

最看好哪些竞争者?
 
有法律基因的公司,懂这个行业的。如果能坚持下来,未来应该说都发展前景都比较好。包括过去从事法律信息化建设的,也算是有法律基因。
 
主要判断标准,还是整个核心团队的核心负责人,他要有很深的法律背景的。现在从整个 IT 行业的发展的趋势来说,越来越黑箱化,就是说,开箱即用。我认为未来可能很有发展前景。
 
法意科技本来就专注于法律领域,现在外部提供了更多的工具,节省了自己的研发成本,现在直接把他们最好的算法拿过来用,并结合法意自主的核心技术结合在一起,形成符合应用指标的应用产品。
 
不过行业的竞争也在加剧,这促使我们必须加快它的这种核心竞争力,加快对外围技术能力的整合。这也是对法意最大的推动力。
 
带着深度学习技术回国的人才呢?
 
倒不是特别看好。全球几大的顶尖的会议, 每年都有好多论文在发表,每年的算法都在推陈出新,不同的研究者都宣称自己在某个点上精度做了什么突破。这些纯算法的这种发展,它是停不下来的。
 
现在这个深度学习的好多平台都越来越封装化,你接入 API 就行。至少 17 年,像腾讯,像百度都开放了 AI 平台,都是开放的,算法变成一个服务。
 
我提到好多其他做人工智能的技术公司,都在开放它的 AI 的平台。开放之后,他们还会把平台积累的一些成熟能力,封装成服务再开发。比如说对于语音识别。这个行业格局一下子又不一样。
 
好多做法律业务有场景的公司,就是利用 BAT 等行业内能够提供通用能力的平台,快速封装,战略合作,切入垂直领域,像用语音识别服务法院的公司就出来好几家。
 
既然算法都能封装成工具,大家都是一样的,那么核心竞争力变成了产品能力。
 
比如,用 LSTM 这种模型,它的参数是要调优的,参数怎么设?需要有法律背景的帮忙。这样,效果才会出得更快。有时候,沟通后发现不大可行,就得立刻终止这样一个方向。对素材更了解,才懂怎么调会更精准。
 
说白了,整个体系的设计是基于你的软件目标,这个软件目标怎么一层一层地倒推回来,最后下沉到基础算法。
 
有时候通过分析,你会发现它只需要解决一个问题,前面那些问题都是冠以整个法律业务场景框架设计的问题,这个前端问题处理好了,深度学习的压力就小。不同的设计方案,他对底层的深度学习算法的要求是不一样的。

 关键的问题还在于产品的设计。
 
这就是我比较注重法律基因的原因。我们通过产品的设计,有时候会回避一些这个有时候很难解决的问题,而不是纠缠于整个产品。
 
给一个深度学习的完整框架,然后你就扔你素材进来,系统给你一个答案,然后这中间你给我海量的文本大数据。我感觉,没有问题域的一个场景,深度学习还没有达到这样的水平。
 
另外,这里面还有一个很关键的原因。至少在法律领域,我觉得是需要我们去这个去辨别的。大数据它更注重解决相关,不注重解决因果。实际也反映了现在这种大数据技术能力,只是给你体现了数据的一个伴随性。

比如,你发现更多的男性,概率机会就要重一点,女性要轻一点。但是,这个东西可能并不是法官要考虑的这个东西。
 
不同法系,比如大陆法系和判例法系,对 AI 技术的采用会有很大影响吗?
 
国内的研究者没有明显发出这样的一个信号。但是,我看到介绍过来的国外文章认为,判例法系的国家,对于这种所谓的法律人工智能的认可度更高。大陆法系这样的成文法的国家,认可度相对低。
 
我理解的是这样的。AI,是通过特征相似性来输出结论。特征相似性,是基于大量案例描述而形成的一个集合体。判例法系,就是以案例的方式描述某个法律规则。每一个案例就像一张图片,告诉你什么是猫,什么是狗。
 
而成文法系中,法条一定要抽象,变成一个法律的规则,以此为基础进行审判,需要一个具体适用的过程。就从这个角度来说,我认为,在计算机理解上,制定法比判例法难度大。
 
你让计算机去理解一个抽象的法律规定,然后输入一个具体适用的判断,这很有难度。至少你要以文本描述实例的方式来表达一个游戏规则(这种数据对象),才能更容易被计算机理解和控制。计算机没办法理解人类的抽象思维。我们有时候理解法条都难理解,更何况电脑。

本文由机器之能原创出品,版权归作者所有,转载请查看要求,机器之能对于违规侵权者保有法律追诉权。

收起阅读 »

365种创业、办公、和生活成长的精华资源

本文由宜_生 同学翻译自Medium https://medium.com/keep-learning-keep-growing/365-awesome-free-resources-for-ent...
继续阅读 »

本文由宜_生 同学翻译自Medium https://medium.com/keep-learning-keep-growing/365-awesome-free-resources-for-entrepreneur-business-and-life-a88a79c6be59

 

只需要具备以下技能,人人都可以成为企业家:经得起失败的考验,思维活跃,新点子不断,能够脚踏实地把新点子转化为产品,并在这个过程中坚持不懈,百折不挠,即使跌倒了,也要及时从失败中学习,迅速投入到下一次冒险之旅中。      ——詹姆斯·阿尔图切尔James Altucher)

接下来这份长长的清单不仅是为企业家、创业者准备的,只要你想过上更惬意的生活,在工作中更加得心应手,这些资料就适合你。我相信这些资料总会帮助到大家甚至是读到这篇文章的每个人。

那我们就来看下能让梦想成真的免费应用/工具!

创业

 

1png.png

社区建设

Brick by Brick:人气社区创建指南。

Telescope :搭建社区的最简单的方法。

FeverBee : 创建在线社区的小贴士。

Neighborly :投资社区的简单方法。

Blnkk:为创客服务的公告板和社交网络。

 

2.png

寻找合伙人

CoFoundersLab:无论你身处何地,从事什么行业,都可以尝试从这里寻找合伙人。

FounderDating :与享誉世界的企业家和顾问取得联系。

YouNoodle:帮助创业公司在竞争中成长。

CodeAr.my :把创意转化为软件公司。

LeanStartupMachine(LSM) :寻找著名的workshop。

StartupWeekend:花54小时创立一家创业公司,跟合伙人洽谈。

Meetup:大家一起学习、分享,做些共同感兴趣的事情。   

City Meetup Women 2.0 :技术生态圈里真实的人之间的真实的互动。

Stanford Entrepreneurial Summer Program:雇佣斯坦福大学学生做实习生。

LetsLunch:充分利用午餐时间。帮你结识你感兴趣的人,扩展交际圈,拓展人脉。

 

3.png

寻找自由职业者

Upwork:雇佣自由职业者;寻找在线工作机会。

Fiverr :花五美元,购买创意或专业帮助。

Gigster:雇佣高水平开发者。

Elance :快速找到自由工作者或工作机会。

AwesomeWeb :轻松为你的项目找到、雇佣自由职业者。(新)

 

4.png

适合企业家或创业公司的免费电子书

The 4 Hour Workweek:作者Tim Ferris。

Transform Your Habits+Mastering Creativity:改变习惯,掌握创造力,作者James Clear。

Unleashing the Ideavirus:打开创意病毒的潘多拉魔盒,让创意飞,作者Seth Godin。

Marketing Guides :营销指南,作者Kissmetrics。

Getting Real: 37 Signals提供的关于如何快速创建web应用的教程。

Learn How to Build a Happy Startup:怎样创建一家快乐的创业公司?The Happy Startup School(快乐创业学院)出品。

EBooks the Smart Way:作者Pat Flynn。

279 Days to Overnight Success :用279天换来一举成名,作者Chris Guillebeau。

Breaking The Time Barrier:突破时间障碍。作者Mike McDerment和 Donald Cowper。

Creative Entrepreneurship:富于创造性的领导力,kbs _ Ventures出品。

GetMore Clarity: Straight Up Startup Advice:再说得明白点:给创业公司的宝贵“诤言”。Clarity出品。

Intercom on Customer Engagement:来自intercom.io。

 

5.png

开发者的免费电子书

Ruby On Rails Tutorial Michael Hartl编写的Ruby On Rails教程。

Build Your First Node.js App: 来自Scotch.io的创建第一个Node.js应用。

Learning Laravel 5 : Building PracticalApplications:学习PHP框架Laravel 5,创建实际应用。作者Nathan Wu。

Your First Meteor Application:你的第一个Meteor Javascript应用。作者David Turnbull。

Developer’s Guide to App Marketing: 开发者的App营销指南。Paddle.com出品。

free-programming-ebooks: Github上免费的编程教程。作者Victor Felder。

 

6.png

设计师的免费电子书

Everything There Is To Know About LogoDesign:关于LOGO(图标)设计,你必须知道的知识。作者Blue Soda Promo。

Design’s Iron Fist :作者Jarrod Drysdale,是Bootstrapping Design的作者。

Pixel Perfect Precision Handbook: 让每一像素都精确。作者ustwo

Designing for the Web: web设计指南。作者Mark Boulton。

The Design Funnel:作者Stephen Hay。

Free eBooks :移动设计指南。作者Bamboo Apps。

 

1.png

灵感

为什么说Richard Branson是举世闻名的企业家?

实现目标最重要的3个问题 作者MindValley。

Nathan Barry 在学习编程的过程中,如果通过App Store赚取19000美元

这个周末如何开始百万美元的事业

怎么用50美元创建AppSumo

最受欢迎的10场TED演讲

斯坦福大学企业家俱乐部

Mixergy:向经验丰富的企业家学习。

Lifetramp:从他人那里寻求灵感。

 

1.png

免费在线课程

SkillShare:向富有创意的专业人士和公司学习。

Khan Academy:可汗学院,永远免费。任何人都可以免费学习任何知识。

Coursera:世界顶尖学校提供的在线免费课程。

CreativeLive:免费的直播课。学习课程,以从中获得启发。

edX: 世界顶尖大学提供的在线免费课程。

Curious:在线学习视频教程,培养自己的技能。

HP Life:学习企业家必备的首创精神。

 

1.png

业务成长

Optimizely:首选的测试平台,提供支持多种设备测试的个性化服务。

SumoMe: 增加网站流量的工具。

Hotjar:集大成的网站分析和反馈工具。

Intercom :如何帮助用户成长,与其交流。

SocialMention:社交媒体实时搜索和分析。

GrowthHackers: 专注成长的营销人士社区。

clicktotweet:在Twitter上做宣传,分享内容到Twitter并进行跟踪的最简单的方法。

Hello Bar:在合适的时间向网站访客推送合适的信息。

Growth Hacker Resources List:业务成长资料集锦,autosend.io出品。

寻找能帮助公司实现业务增长的人  Startup Marketing出品。

 

9.png

学习编程

Code4Startup:通过编写真实的创业项目,学习编程。

Always Learning:学习编程和设计的最佳资料。

Codecademy:通过互动方式,免费学习编程。

Swifty: 学习Swift。

FreeCodeCamp:通过编写非盈利项目,学习编程。

iOS 9大基础教程:  bitfountain出品。

Csphere:免费的Docker系列中文教学视频。(加)

Atom:一款面向21世纪,可自定义的编辑器。

Sublime Text:这款编辑器,用后你将会爱上它。

 

 

10.png

营销创意

Crayon:营销创意,免费但好用。

Ozzr:创建、嵌入、分享问卷。

ShareAsImage:快速将图像、文本转换为吸引眼球的内容,用于发布到社交媒体。

Übersuggest:关键词工具——Google Suggest关键词获取工具。

Bundlr:制作书签;发现有意思的内容。

Receiptful:  用收条管理与每一位用户的互动。

Marketing Podcasts:发现播客,成为更好的营销人士。

Summer of Marketing:从0到每月1万名访客。

Howww.to:浓缩成5秒钟的编程、设计和营销类课程。

Primer:实用的营销建议和指南(Google)

missinglettr:博客营销平台。

 

12.png

人脉

Wildcard:遇见值得认识的人。

Tings:用声音交流的匿名社交应用。

CoffeeMe:向你推荐你想认识的专业人士。

Weave :扩大交际圈的最简单的方式。

Grip: 拓展人脉的最简单的方式。

WeBeam:人际交往小助手。

Quibb:分享行业新闻、动态的社交网。(新)

JobDeer:国内的互联网人才拍卖。(Easy追加)

 

13.png

产品新闻、创业公司咨询

Product Hunt:每天展示最新、最酷的产品。

Hacker News:面向创业人士和黑客的行业日报。

Reddit:互联网头条新闻聚集地。

AngelList:服务于创业公司、投资人、求职者的平台。

BetaList:今天,发现明天的创业公司。 

Funderbeam:发现、跟踪、分析创业公司。

StartupLi.st: 寻找。追逐。推荐创业公司。

TechCrunch:关于创业公司的最新技术新闻和信息。

Startup Launch List:创业之前最好读读这些文章。

 

14.png

项目合作/任务管理

Producteev:简单、强大,不只是在线的任务清单。

Asana:团队合作不再需要邮件。

Trello:免费、灵活,以可视化方式管理个人事务。

Slack:团队协作工具,让一切都井井有条。

Stormboard:头脑风暴,任务优先级安排,动手实践好的想法。

HipChat:讨论组,一对一聊天,文件分享和管理。

Evernote :印象笔记,你的工作空间。

Campfire:用于团队合作的实时聊天工具。

join.me :免费的屏幕分享、在线会议工具。

SyncPad:通过白板进行实时的合作。

HiveFlux:  实时计划、跟踪团队工作。

Gibbon :向团队分享知识更为有效的方式。

Complete: 用于人员、任务管理的应用。

Toggl: 跟踪闲暇时间的软件。

 

15.png

推荐几本书

The Lean Startup,《精益创业》,作者为Eric Ries。从书中,你能读到怎样打造和发布一款产品。

Start With Why,《从问为什么开始》作者Simon Sinek。本书适合于那些想启发别人或是想从别人那里寻求启发的人。

Launch,《创业》,作者Jeff Walker。互联网百万富翁的秘密公式,从中学到如何在线销售几乎你能想到的任何东西,创建你喜欢的公司,过上理想中的生活。

Influence: Science and Practice ,《影响力:理论与实践》,作者 Robert B. Cialdini博士,向你介绍顺从背后的心理学知识。

The Long Tail,《长尾理论》,作者Chris Anderson。为什么未来生意中,不那么热销的产品所占的总额可以很客观?

 

16.png

社交媒体管理

HeadTalker:让自己发的广播在社交媒体上病毒式传播。

Thunderclap:用社交媒体放大广播的影响力。

Buffer:在社交媒体上发布广播的简易方式。

Hootsuite:认真对待社交。

TweetDeck:实时跟踪、管理Twitter账号的工具。

 

17.png

创业公司资料大全

#Startup:Slack平台上的全球创业者社区。

FounderSuite: 帮助创业公司解决疑难问题的工具。

Toolboard:网站、创业工具介绍。

Y Combinator Startup Library

How to Build a Startup: 如何建立创业公司,Udacity课程。

U.S. Digital Services Playbook: 美国数字服务指南。

Google Trends :获得关键字搜索趋势。

Google Insights:了解某一地区关键字的搜索趋势。

Canvanizer: 与团队一起头脑风暴,探索新想法。

Startup Grind:创业磨坊,创业者的社区,在全球170多个城市有分布。

Help for Startups!:创业者加速项目清单(收集中) 。

StartupMovies:关于创业者的电影、连续剧和纪录片。

Startup Tracker:关注酷炫、积极进取的创业公司。

The Pitch:创业者可以在此向投资人宣传自己的公司以获得投资。

CircleUp:投资公司,股权众筹(新)。

 

19.png

写作

Medium: 阅读他人感人故事,写自己的心路历程。

Penflip:获取别人的建议,帮助自己更好地写作。

WordPress.com: 可用来搭建自己或公司的博客。

Tumblr:国外的一个微博平台、社交网站。

Ghost:简单、强大的信息发布平台。

Liberio:简易的电子书制作、发布工具。

RecipeWriter:作者的秘籍。简约、美观。

Writefull:通过将你写作的内容与正确文本比对,帮助你提升写作质量。

Draft :版本控制、协作创作工具,提升写作质量。

业务

 

21.png

客户服务

Streak:Gmail中的客户关系管理系统。

Helprace: 服务台软件,用户反馈平台。

Zopim:与客户实时交谈。

Groove:简单的服务台软件。

Funnel :自由职业者、小公司的客户关系管理系统。

Zoho CRM:花更少时间完成更多交易。

Insightly:客户关系管理系统。

Freshdesk:让客户高兴其实很简单。

Slackin: 帮助公众接入Slack服务器的小型服务器。

Wisestamp:在你发出的每一封邮件中加入营销信息。

LiveChat for Startups:借助LiveChat,促进业务增长。(新)

 

22.png

设计

Canva 惊艳的轻量级图像设计软件。

Fluid UI: 快捷、友好的移动端原型工具。

InVision:用来制作web、移动端原型、UI效果工具,免费。

Ink:响应式邮件框架,ZURB出品。

Pixlr:在线照片编辑工具。

Type Genius:为你的下一个项目寻找最佳字体效果。

Design Hunt:借助Product Hunt,将创意变为产品。

Spec.fm:面向设计师和开发者的播客平台。

Webdesigner Depot:专注于web设计的博客。

Httpster:流行网站,设计风格秀。

Line25:web设计资料。

Niice:收集创意,合作产生创意。

Sidebar.io:每天选出5个最佳设计。

UX Recipe:UX项目可能用到的工具和应用。

Coolors:超快的配色方案生成器。

Coverr :漂亮的免费视频,可用于个人主页。

 

23.png

电子商务

WooCommerce :WordPress中,世上最好的电子商务解决方案。

OpenCart :用PHP开发的、开源电子商务解决方案。

Magento Community Edition:免费、开源的电子商务平台。

Spree Commerce:用Ruby on Rails开发的开源电子商务平台。

Drupal Commerce:由Commerce Guys开发的,基于Drupal CMS的电子商务系统。

数码产品销售袖珍指南 作者Nathan Barry。

Moltin :创建电子商务项目的一条捷径。

Tictail :快速开店。

OpenEntry :电子商务机会。

Carousell :拍照即卖,私讯即买。

 

24png.png

邮件营销

SendinBlue:轻松管理营销邮件、交易邮件和SMS信息。

MailChimp:免费向2000名订阅者发送12000封邮件。

Mandrill :应用向用户发送交易邮件的新方法。

Amazon SES:性价比高的,只能用于发送邮件的服务。

MailTrack.io:确认邮件发出、对方收到邮件的Gmail插件。

Mailgun:面向开发者的邮件服务。

SendGrid:邮件发送和交易邮件服务。

 

25.png

免费的HTML模板

HTML5 UP :响应式HTML5、CSS3网站模板。

Start Bootstrap:免费的,面向HTML初学者的Bootstrap主题和模板。

Templated:由Cherry + AJ开发和设计的848个免费CSS、HTML5网站模板。

Bootstrap Zero :最大的开源且免费的Bootstrap模板。

w3layouts:100个免费的响应式HTML5+CSS3网站模板。

 

26.png

免费图标

Font Awesome:图标、CSS框架。

Iconmonstr :免费、简洁的图标。

GLYPHICONS:单色图标和符号。

Material Design Icons :Google出品的材质化图标,其中包括750种字形。

Smarticons:包括当今web所能用到的800多个图标。

Captain icon:350多个美妙绝伦的、免费的矢量图标。

Endless Icons:免费的图标库。

PaymentFont :付费功能所使用的web 字体。

SVG Porn:面向开发者的可缩放矢量logo。

Makeappicon:一键生成各种尺寸的应用图标。

Themify Icons:320多个web、移动应用图标。

IconStore :来自一流设计师的免费图标库。

Flaticon:最大的免费矢量图标数据库。(新)

免费图标列表:链接1 | 链接2 | 链接3

 

27.png

免费PSD文件

Best PSD Freebies:免费的web设计相关的PSD资源。

Premium Pixels:Orman Clark出品。设计人士不可错过的免费资源。

iOS 8 GUI PSD (iPhone 6) Teehan+Lax出品。

PSDBlast:可供下载的图像设计、PSD、免费图标资源。

FreePSDFiles.net:免费的PSD文件、模板、海报、名片素材。

Free PSD to SVG script:HackingUI出品。

Fribbble:Dribbblers提供的可供下载的PSD文件及其他资源。

Okilla :web、移动应用、UI、原型PSD文件。

Designtory:免费、可供下载的设计资源。

Freebiesbug:为设计师准备的最新的免费PSD文件及其他资源。

 

28.png

免费图像素材

Death to The Stock Photo:加入免费邮件列表,每月获取新照片。

AllTheFreeStock:免费图像、视频、音效、图片的聚集地。

FindA.Photo:啥都不说,全部免费。

Unsplash:高分辨率照片。每10天,推出10张新照片。

Gratisography: Ryan McGuire出品,无版权限制。

Startup Stock:创业相关的图像和技术。

Pexels :最好的免费照片库。

Jay Mantri:免费图像,无版权限制。

StockSnap:用来搜图的,强大的搜索引擎。

Streetwill:免费好图,怎么用随你。

Life Of Pix :免费、高分辨率的好图。

 

29.png

免费Wordpress主题

WordPress Themes: wordpress.org官方出品的主题。

FabThemes:可免费使用的,制作精良的Wordpress主题。

120 Free Premium WordPress Themes 120种珍贵的WordPress主题,可免费使用,文章来自WPMU DEV的博客。

Temlate Stash网站的WordPress主题

 

30.png

应用托管/域名

Heroku :开发者为开发者开发的强大的平台。

Fork-n-Go:使用GitHub上开发者为大家快发的、好用的网站代码。

Freenom: 世界上第一家也是唯一一家免费域名提供商。

OpenShift :红帽开发的混合云应用平台。

AwardSpace:免费空间,支持PHP、MsSQL、邮件服务器等。

 

31.png

发票

Slimvoice: 及其简单的发票管理应用。

Invoice Ninja: 免费、开源在线发票管理和时间跟踪应用。

invoice.to:使用Stripe支付的,简单发票生成器。

Anchor:免费发票、支付管理应用。用Stripe、PayPal快速收款。

Paid:可帮助公司实现应收账款自动化管理的API。

免费发票生成器:链接1 | 链接2

 

32.png

登录/落地页

Launchrock:用于创建预告页的平台。

Instapage:用来制作营销效果更好的登录页。

KickoffLabs:快速开展病毒营销的方法。

如何使用免费的登录页生成器 IncomePress出品。

用Bootstrap制作免费的登录页

#Launch 合作,发现新产品,寻找工作,获得反馈等

Launch Clock 设定实现目标的日期。

Prefinery :用于管理测试版、登录页的软件。

AppStop:把你的App Store应用描述转换为登录页。

有效提升转化率的登录页设计终极指南(新)

 

33.png

为公司取名字

Naminum:免费的主流创业公司、公司、业务名称。

Panabee :公司名称生成器;域名搜索。

Impossibility! :史上最好的域名生成器。

LeanDomainSearch:为网站挑选一个好名字。

NameMes:稍等一会,域名马上就好。

Domainr:快速找到最好的名字。

DomainNameBrain:域名生成器,域名可用性验证。

如何给自己公司起个好名字(播客)

 

34.png

分享个人信息/文件/图像

x.change:在网上发送登录信息的安全方法。

OneShar.es:发送由自己销毁的私人信息。

drp.io:免费、快捷、方便的私人图像、文件分享。

Awesome Screenshot:截图、标注并分享。

 

36.png

调研神器

Super Simple Survey:世上最好的在线调研工具。

SurveyMonkey:免费在线调研工具、问卷生成器。

Polldaddy :根据自己需求定制调研方式。

Polljoy:在游戏中植入问卷的SDK。

Free Survey Creator:创建调研项目,免费活得用户反馈。

Surveypal:提升在线调研任务的用户体验。

Qualtrics:提问,反馈。快速响应。

Surveynuts:免费在线问卷生成器。

 

37.png

字体

TypeInspiration:用现成的CSS实现在web上实现好看的字体。

Lost Type:协作设计字体。

Dive Into Typography:深入了解字体,HackDesign出品。

TypeInspire:字体灵感,设计花园。

 

38.png

可能用到的工具/资料

Hipster Logo Generator:时尚的图标生成器。

Mailbox:重新设计收件箱,让邮件看起来更清爽,加载速度快,对用户更友好。

Fuze :高清视频会议和在线会议。

Zapier:将应用打通,实现任务自动化,从用户数据中挖掘更大价值。

Hemingway App :让你的文字更清爽。

Hive :收集并分享你的数字化生活。

Libraries.io:寻找开源的库、模块及框架。

Kraken.io:强壮、速度飞快的图像优化软件,提升网站速度。

Highrise:小型公司的关系管理工具。

Telegram:信息新时代。

Pitcherific:让宣传信息更有力量。

Million Short:从搜索结果中删除前100万个网站。

Embedly:在任何网站中嵌入内容。

 

39.png

版本控制

GitHub:大家一起做更好的软件。

BitBucket:团队间用Git或Mercury版本控制工具管理代码。

Pixelapse:设计师用来控制设计稿版本。

GitLab:提供免费、不受限制的(私人)仓库,支持协作。

 

40.png

建站工具

Jimdo:分享激情,制作你的网站。

Strikingly:如何搭建自己的网站——最好的网站搭建工具。

Weebly:撞见免费的网站、在线商店或博客。

WebStartToday:免费的网站建设和托管。

Wix:免费建站工具 | 建免费站点。

Yola:分分钟搞定专业、免费网站。

 

41.png

Web/移动端分析工具

Google Analytics:把洞察力转化为行动。

Piwik:开源web分析软件。

Mixpanel:最先进的web、移动端分析平台。

Segment:让用户数据简单可懂。

HeapAnalytics:捕捉用户在web、iOS应用中的每一个动作。

GoSquared :实时用户分析。

TapStream:做移动应用的助推器。

Keen.io :掌控你的数据分析业务。

 

生活

 

&q收起阅读 »

CTO这点事

几乎整个互联网行业都缺CTO,特别是一些草根背景的创业者,这个问题更加显著。从我自己的感受,身边各种朋友委托我找CTO的需求,嗯,算下来超过两位数了,光最近一个月就有3个,而且这三家都是刚拿了A轮的。...
继续阅读 »
几乎整个互联网行业都缺CTO,特别是一些草根背景的创业者,这个问题更加显著。从我自己的感受,身边各种朋友委托我找CTO的需求,嗯,算下来超过两位数了,光最近一个月就有3个,而且这三家都是刚拿了A轮的。其他那些公司CTO大部分空缺了一两年,或者其他高管临时暂代过渡。实话说,我觉得每个公司都不错的,但通常也只能遗憾的说,真没有能推荐的。

其实,根据个人的观察,每个互联网团队都喊需要CTO,但是具体诉求却各不相同,如果说共性,就只有一点,那就是,公司老板对技术的期望值与目前技术团队的能力表现,有较大的差异,而这个差异,对于老板来说,就是一个想法,找个合格的CTO,一切就都解决了。其实,真不是这回事。

今天要说的第一点,就是期望值的控制;很多互联网公司都希望自己走技术驱动的路线,期望小而美,复制美国技术新贵的市场表现;这不能说是一个错误的期望,但是,现实能有多少符合这种需求的人才呢?这样的人才需要技术有前瞻性,对产业格局有判断,对管理有心得,情商还不能低(算了一下,四项里我至少三项不符合。)。整个行业内这样的人有几个?凭什么会跟你? 事实上我身边确实有这样的案例,一个以业务为主的公司,搞定了一个超棒的CTO,很快就转型成以技术为驱动的公司,公司价值极大提升,问题是,这种现象很难具有复制性。

下面我说一下一个最基本的让人纠结的问题,到底什么是CTO?其实,空谈这个名词的定义毫无意义,从我身边很多朋友公司的实例来看,他们对这个角色的定义和定位是差异非常大的。具体而言,不同创业团队,对CTO需求的真实想法,包括如下层面。

  技术选型,这其实是创业公司最纠结的问题;他们往往一上来基于已有的程序员的个人习惯和爱好,选择了一个技术方案,然后到某一天一看,我靠,全是坑(当然,也可能与执行者的能力有关)。而更糟的是,这个技术方案相对冷门,市场上去招聘都很难做。还有就是技术方案成本过高,(不只是钱的问题,特别是时间成本!)结果严重影响到后续的发展速度。 我举个简单例子,最近我给多个创业者提建议,比如做app,很多以内容运营为核心的app,不要用原生态开发,目前一堆第三方的跨平台开发架构,如果选择合适,可以极大减少开发成本,以及降低技术招聘的难度。微信开店开社区,也有一堆第三方平台,这些事情,对于一些创业者来说,就是特纠结的事情,第一,他们并不完全了解这个领域;第二,他们就算有所了解,也很难判断究竟谁家的方案更靠谱?难道要靠百度竞价排名来裁决么? 而对于技术人员,包括相当多技术高手,他们也会有一些自己的打算,比如说,我就熟悉这个,为啥要用我不熟悉的?(没有考虑从公司长远的人力成本和开发效率)。比如说,我本来服务端技术很强,现在用了一个开源服务端框架,比如skynet,我变成写脚本的了,我价值怎么体现?(不知道自己的价值来自于产品的市场表现)。

  万能适配器,公司有了一个基本的起步,比如在某个平台上有了一点成绩,然后希望扩展到不同领域,不同平台,然后老板突然发现,哦,原来程序员不是什么都会的。服务端,前端,运维,安全,数据库,甚至SEO优化(你敢说这不是技术?)最好有个牛人都能带起来,这个牛人,就是他们定义的CTO,咳咳。创业公司,人少而事杂,其实,真的可以理解。我认识不少创业者,最终万般无奈下,硬是把自己逼成了万能哥。话说当年我也是创业的时候,万般无奈才自学怎么做运维的,虽然很多都没学会,但是偶尔也能出去忽悠一下。

  性能调优及架构扩展,很多小公司到了一定的用户规模和并发规模的时候,一下子就扛不住了,甚至严重影响业务的拓展,某著名淘品牌自己做了一个独立网店,结果一搞秒杀活动就崩溃,(吐个槽,他们运营人员也死心眼,就知道搞秒杀,知道技术架构不行,不会搞点别的形式么)。结果独立网店一直就没搞起来。其实很多这些偏传统的互联网公司,他们所遇到的问题,在高手眼里不值一提,但是这个坎过不去,他们真就发展不起来。说个题外话八卦一下,当年腾讯叫oicq的时候,一堆*icq,只有腾讯牛了,其他的为啥不行?真的是产品原因么?其实都是这个问题,到了100万用户的时候,就只有腾讯还能发展新用户,其他的技术全都撑不住了。大家看到的都是剩者为王,我看到的是,数不清非常不错的产品,死在这个环节上了。严格的说,这其实不是CTO的工作,按照分工来说,通常涉及系统分析师,系统架构师,以及DBA来做这方面的工作,但是对于创业公司,根本就没这种角色设定,他们遇到这个问题,通常想到的是,有个好的CTO就好了。

  团队管理和效率提升,这还真是CTO的本职工作了,我遇到技术出身的创业者,他纠结的问题是,当时自己一个人做开发,连带着做运营,七七八八一堆事,也把东西做起来了,现在公司产品知名度有了,拿到投资了,开发团队也搭起来了,怎么开发效率反而下去了?所以,他的理解是,需要一个CTO。 从技术人才招聘,团队培养,技术培训,到开发模式培训(比如现在流行的敏捷开发),产品质量测评体系,信息安全防护等等,这些林林总总的事情,对于创业者来说,就全部归纳为“需要一个CTO”,嗯。

  数据决策体系。 自从“大数据”概念火了以后,基本上所有创业者都在谈,我的业务模式,发展了海量用户后,一定是基于数据驱动,可是数据咋驱动?没几个人真想清楚了,但是没关系,只要有CTO,这个问题就解决了。 我知道真有能搞定此事的CTO,真的有,不过,真的属于稀缺品种,目测比大熊猫还少。因为,要理解数据驱动,首先要理解业务,而理解业务,往往不是技术人员的特长。又要自吹一句,我在百度的时候,最牛逼的事情就是在产品部门里搭出一个技术团队,来做数据,为什么要坚持在产品部门编制?(实话说,当年技术部门的薪酬更高一些),我坚持认为重心在于数据目标和解读,而不是技术实现。 所以,这里我多说一句,数据决策体系,先想清楚具体目标和具体展现,再寻求技术支持,而不是一句话推给技术团队去弄,除非你公司里真有这么一只极品稀缺大熊猫。 实际上,再吐个槽,最基本的数据处理的结果,经过正确严谨的解读,就已经有极大的价值了,而很多人往往无视这些,去追求更高深的技术实现,搞一些莫名其妙的算法和逻辑,来彰显技术价值,其实是舍近求远的表现。 

  重构商业模式,这个,咳咳,怎么说呢,公司觉得自己商业模式不够酷,不够吸引资本关注,希望从业务驱动转为技术驱动,嗯,来个牛逼的CTO,这事真可行,嗯,话说,这事真可行,点到为止,不展开了。 

  以上是我观测到的,身边以及业内一些典型的CTO需求,当然,不同公司诉求真的不一样。有的侧重管理,有的侧重解决瓶颈问题,但是对老板而言,只要他们认为目前技术团队不够好,不够给力,不够预期,那么,这就是他们认为缺乏的,CTO。不仅仅是创业公司,上市公司乃至巨头,这个问题也一样存在,比如说,百度的CTO,貌似空缺了好几年呢。是他们的人才不够优秀么?还不是达不到李厂长期望值。

下面说我的一些观点

第一,相当比例大公司背景的技术牛人,并不适合去创业公司做CTO,原因1:技术再牛,不够全面,这没辙,大公司求深,创业公司求全;原因2:技术再牛,要懂业务。创业公司没有完备严谨的产品经理,没有明确的目标规划,很多工作是一个初步的目标,然后做起来看。如果技术人员不懂业务,很可能就会走弯路,做出很多不伦不类的东西,所以创业公司遇到这样的大牛,要先沟通到位再决定,不要迷信简历,当然,不乏这里有非常出色的。

第二,创始公司老板要想清楚自己当前真正需要的是什么,控制一下目标和欲望,有些事不能强求的。

第三,要给人才成长的空间,CTO也不是天生的,不要认为外面的和尚一定好念经。

第四,遇到真的特别合适的人才,要舍得本钱,理想可以谈,但是让人家舍弃各种丰厚回报的机会来跟你打拼,总要出示一些诚意。要知道这样的人才是稀缺品。

最后解释一下 CTO所需要的四个领域的能力

技术前瞻性,就好比2010年谷歌手机发布了,您还在那里吭哧吭哧跟老板说咱们好好弄塞班。(好多技术牛人,大公司的技术总监都是这样的!!!)。

对产业格局有判断,举例来说,移动互联网起来了,能知道工具型,娱乐性,生活性的应用大概的爆发周期和爆发规模。 能对移动游戏,电商的发展速度和市场顶点在哪里,这样才能给老板正确的技术投入建议和规划目标建议,别市场喷发的时候不去考虑准备架构扩容,还在角落里扣扣索索的算怎么比同行省点运维成本。

管理心得,技术团队的培养和带动,别光顾着自己牛逼,要让团队牛逼。

情商,各种沟通,协调,不解释。、

就这样,有点凌乱,凑活看吧

收起阅读 »

周枫:网易为什么喜欢做“小而美”的产品?

i黑马:网易有道所在的创业大厦在清华科技园最西北角一个略显偏僻的角落,办公区也单调得和我见过的大多数创业公司一样,不带任何装饰。在一个狭小的会议室里和周枫聊完一个多小时走时,发现这里和我来时一样安静。...
继续阅读 »

i黑马:网易有道所在的创业大厦在清华科技园最西北角一个略显偏僻的角落,办公区也单调得和我见过的大多数创业公司一样,不带任何装饰。在一个狭小的会议室里和周枫聊完一个多小时走时,发现这里和我来时一样安静。

.


文 i黑马 许妙成

周枫的气质和网易有道的风格很像。这是我第一次见他,我曾在脑海里无数次把他和王小川、许朝军的形象连起来,那几个被陈一舟从宿舍里 “踹”去创业的清华男。年少成名,想象中的周枫应该带着一丝傲气和激情万丈,看过一些关于他的文章,我只能说见面前我确实有过某种预期。

周枫推门进来时,浅色的外套,里面一件素色的毛线衫和白衬衫。整个谈话过程中他都是一副“安静的理科生”的形象,和我见过的很多激情澎湃、往往谈到某个细节就兴奋异常的创业者大相径庭。

可能也正因为这样的风格,热闹喧嚣的互联网行业每天产生的铺天盖地的新闻中也甚少见到周枫的身影,如果有人对这个名字深感陌生,我也不会感到奇怪。

周枫

1996年,来自于江南灵秀之城无锡的周枫,来到北京的五道口,进入清华大学计算机专业学习。与他当时隔壁宿舍的有位同学,如今恰好也在网易有道所在的清华科技园另一座写字楼里,那个人叫王小川,搜狗公司CEO。事实上,这届学生对中国互联网行业颇有影响,除了王小川,还有前盛大边锋总裁、现啪啪应用创始人许朝军,Google中国的第一任技术总监、浪淘金创始人周杰,团800联合创始人胡琛等。

大三那年,周枫开始担任学生科协主席,和他的同学在清华9号宿舍楼建立的局域网是国内最早的一批局域网。同时这帮二十岁的男孩们开始在校外接项目,包括周枫、王小川、胡琛在内的很多人,参与了一度成为中国最大校园交友网站的ChinaRen的创建。

2002年获得硕士学位后,他赴美国加州大学伯克利分校学习,他的理想是留校伯克利,做一名教授。但2004年他与网易创始人丁磊结识,2005年周枫在丁磊的鼓励下回国创建网易有道,主营业务是搜索。

公开资料中写着一个有趣的细节,彼的丁磊老板正被163邮箱反垃圾邮件的技术问题困扰,为了找到这方面的人才,丁磊翻阅了几乎所有国际顶级期刊的相关内容。最后,丁磊找到了周枫的文章《P2P系统中的近似对象定位和垃圾邮件过滤》,于是,在当天夜里凌晨2点,丁磊就给周枫发了邮件,没有内容,只有一个标题:我是网易的丁磊,找你有事。不久后,周枫便放弃了学术梦想,回国加入网易。

生命中两次转变,周枫好像都是被机会自己找上的,而且找到他的还是在中国互联网发展史上有重要影响力的陈一舟、丁磊。

“小而美”才有新机会

丁磊给了大量的人力物力的支持,允许周枫在网易内部独立创业。但此后,有道的搜索业务发展并不顺利,浮浮沉沉,已近放弃该业务。

在谈及搜索时,周枫说“用户的习惯在搜索这个领域特别重要,搜索我们判断它在用户选择上跟快销品一样,就像你喝的饮料和买的牙膏一样,你不会想买的是哪个,但是基本当你有选择时,每次会买同一个。”

“(搜索)是特别快速决策和快速使用、反复使用的产品,而这个产品用户习惯的惯性特别大。所以很多人问我,移动搜索是个新平台,机会是不是特别大,我觉得这个应该特别小心,因为用户会主动选择,用户只要有机会就会选百度。”

所以现在的有道已差不多放弃搜索业务,正如周枫所言“每个时代有每个时代的产品,产品会成熟,成熟了大家就需要做新的东西,这是市场的力量”。有道和周枫需要寻找别的机会。

周枫说,丁磊一直在网易上下灌输“网易要做小而美”,网易云音乐、新闻客户端、网易公开课等APP都在各自的领域有一批数量不小的用户,且产品精致。而受此影响,周枫也在自己的产品之路上践行着“小而美”之道。

“我们现在的想法是要去做专,做深。我认为互联网的发展阶段,我认为中国互联网以前阶段,只有做平台型的公司才能挣到大钱,以前是这样的,除了游戏,其它的产品只有做到平台地位的,做到入口型的公司才能挣到大钱,其它公司都很惨。但是现在你发现不一样了,这两年开始有做垂直领域的公司能够挣到很多钱。你可以在市场上找到很多的例子”,周枫告诉i黑马。

垂直,小而美。这就是周枫给网易有道树立的方向。

尽管,搜索业务发展不利,有道的词典、云笔记等知识管理产品却在移动互联时代获得了一席之地。

据网易有道的官方数据显示, 2009年1月,有道词典首个手机版本上线以来,截止2014年6月底,网易有道词典(桌面版+手机版)用户量达4.3亿。2014年4月,有道正式宣布进军在线教育行业,同时推出英语学习类应用有道口语大师。2011年6月份,有道推出有道笔记1.0Beta版,旨在以云存储技术帮助用户建立一个可以轻松访问、安全存储的云笔记空间,解决个人资料和信息跨平台跨地点的管理问题。2011年12月6日,有道笔记升级为正式版,并更名为“有道云笔记”。截止2014年6月底,有道云笔记用户量已突破2400万。购物产品方面, 2012年9月,原有道购物搜索、有道购物助手、网易返现全面整合而成的产品惠惠购物助手用户超过5000万。2014年11月4日,内测近半年的云协作也宣布开放,这款主打“团队资料管理和团队通信”的工具,在此之前已经积累了上万的高度活跃内测用户。

“小而美”的路径

在周枫心中,有道的核心用户有着一个清晰的群像,你甚至可以从他的描述中在脑海中描绘出一个具体的形象。

“我们希望服务的人群是:中国这一批有上进心的,有自我提高需求的这样一批人。我们做词典也好,做云笔记也好,云协作也好,教育产品也好,都是面向这批人。一般大家最看得见的群体是学生和白领,我们的用户中学生和白领各占一半。”周枫说。

“我们认为这个群体的人数会越来越大,很多人认为中国互联网只有做娱乐才能挣钱,我们觉得这个是阶段性的。后面社会有上进心的人的比例会越来越高,因为受教育水平越来越高。我们现在变得更有主动意识,有新想法时就会判断这个想法适不适合这批人,娱乐产品可能不适合我们这个团队做,我们更多做的是帮助这群人提高自己,在职场上有突破,或是学习上有突破。”

i黑马认为,周枫也选了一个适合自己的方向:安静内敛性格的他或许也并不适合那些需要让人谈起来兴奋异常的“娱乐方向”产品。用一句俗不可耐的网络语言,也许他真的适合做个“安静的美男子”。

“入手点第一个是笔记,第二个是协作,我们认为协作还是一个全新的阶段。词典更多的是知识,参考;而协作更多的是效率工具,有人会觉得我们跟office在同一个市场里”。

事实上,周枫早在2010年决定加入“个人云”服务时就对自己服务的人群和市场进行过分析和判断,这个逻辑性极强的安静工科男并没有因为看到某个趋势就一头扎进去。

“2010年我们团队是打算做网盘的,但做了三个月后,开了一次很长的会,就决定把网盘全部丢掉,做云笔记。因为网盘的服务是没有差异化的,这种情况下中国人最喜欢干的事情就是价格战,变成大家死磕。而且成本非常高,变成公司非常大的负担。”周枫告诉i黑马

事实上他是正确的,2013年8月份,中国互联网就发生了激烈的“网盘大战”。360云盘、百度云盘、微云等打起了免费存储空间大战。

“没有一家赚钱。”周枫庆幸自己在最早的时候退出这个预料中的“价格竞争”。有道云笔记最新的用户数是2400万,据最近的公开资料显示Evernote的中国用户数在1000万左右。

有道云笔记的用户规模正是网易“小而美”的经典阐释,2400万用户体量的产品,不能算大但也不算小。与此同时,推出云协作加入了企业IT和团队协作市场。但无论如何,他们的用户指向都是明确的,就是那些有上进、自我提高需求的学生和白领。

变现

所有企业绕不开的话题,即使你有再大的情怀,如果你在市场里,你就要考虑怎么挣钱。

周枫告诉i黑马,“之前的互联网女皇报告中提到了“内容+社区+交易”的商业模式,我们自己回顾走的路差不多也是这个意思,只不过内容部分我们加一个工具,第一步是内容与工具,第二步是社区,第三步是交易”。

与此相对应的网易有道的产品就是:词典和云笔记、云协作。

“当然不是所有按照这样规划的东西都能成,不能说照单抓药这三部分就能成。我们发现我们的业务特点是在现有这套体制下当工具内容社区用户量比较大的情况下,我们最后才能挣到钱。而且要做到垂直小领域里是有品牌的,有消费者认知的。”周枫还向i黑马记者给出了挣钱的前提条件。

“我们词典和翻译这块是已经挣钱了,业务增长也不错,用户也喜欢这个产品。如果用户规模缩小十倍就维持不下去了,除非另外一种可能性,那就是用户群小,但每个用户价值很高”。

现在有道系产品的收入主要靠广告,基于有道词典为各大培训机构倒流。除此之外,还推出了一个O2O翻译平台,用户可以在平台上下翻译订单,有道可以利用其原先积累下的翻译团队或个人资源为其对接服务。周枫向i黑马透露,该项目目前一年已经有千万规模流水,并且因为着眼于论文翻译等高端市场,拥有着相当高的利润率。

有道云笔记和刚推出的云协作还没有明显的商业化功能,现在会为付费的VIP用户提供个多的容量和存储空间、附件大小等。周枫称,云笔记并未大推付费功能,还在不断的探索其他的盈利模式,下一步,云协作将会推出增值服务版本。

诚然,“内容+社区+交易”的商业模式要走通,最关键的在于用户量环节,在“个人云”还停留在十分早期的阶段时,这仍是一个待教育和待开发的早期市场。

收起阅读 »

驱动力来自哪里-献给迷茫的程序员

 驱动你做一件事情的动力来源是什么?不知道大家想过这个问题没有。一般人可能会想到两种驱动力。   一种是生存本能带来的驱动力,即生物性驱动力。比如每天要吃饭、睡觉、上厕所,长大了要恋爱、结婚等。这种...
继续阅读 »

 驱动你做一件事情的动力来源是什么?不知道大家想过这个问题没有。一般人可能会想到两种驱动力。

  一种是生存本能带来的驱动力,即生物性驱动力。比如每天要吃饭、睡觉、上厕所,长大了要恋爱、结婚等。这种驱动力保证我们能够生存在这个世界上,是一种原始的驱动力。

  另一种是奖励或者惩罚带来的驱动力,即外在动机。比如老板承诺工作干的好有奖金,我们就努力干活。如果上班迟到会罚款,我们会早起等。这种驱动力会改变人的行为,使其多做鼓励的事情,少做禁止的事情。

  如果只依靠这两种驱动力,那么你的人生会变得精彩吗?很难。为什么那?第一种驱动力只解决了你的生存问题;而第二种驱动力则约束了你的行为。你不想上班,但不得不上班。一旦你做某件事情获得了奖励,你就会对奖励上瘾。而当你认为你得到的奖励与你的付出不成正比时,你的行为就会松懈下来。

  要想保持第二种驱动力长期有效,那么就需要管理者具有相当高的水平,比如确保内部公平和外部公平,报酬要高于平均水平,考核标准衡量因素要广。咱们作为打工的,能碰到这样的领导那肯定是烧了高香。能有10%的领导都做到以上几点就算行了大运了。

  那么除了这两种驱动力,还有没有第三种驱动力那?答案是有。那就是内在动机,即完成某件事情带来的成就感和愉悦感。比如你打LOL,完成了5杀,那感觉嗨翻天了。还有你去跑步,第一次不间断跑了10公里,完成后的感觉肯定会非常奇妙。你修复了一个存在已久的软件故障,那么今天就会感觉很充实。这种没有人主动给你奖励或惩罚的事情你却干的津津有味。为了练好LOL中的大局观,你研习了数千盘比赛录像。为了能够跑的更远,你查阅了很多跑步相关的教程、书籍。为了修复你遇到的bug,你不惜翻墙来搜集相关资料。

  如果你能驾驭这第三种驱动力,那么恭喜你,你的人生会一直前进。关键在于,如何驾驭这第三种驱动力那?你首先要问你自己一个问题,“我真的喜欢编程吗?我能确定我当程序员不仅是为了养家糊口,而是为了实现自己的人生价值吗?” 这一点非常重要,它决定了你是否能利用第三种驱动力来促使你成长。如果你答案是为了养家糊口,那么很可能你成为不了一个优秀的程序员,并且在这条路上你越走越疲倦;如果你的答案是真心喜欢编程,那也很可能说明不了什么问题,除非你每天都在主动的学习和进步。

  在编程的路上想要利用第三种驱动力,请先忘却掉它可能给你带来的奖励,而是切实的学习知识,充实自己,奖励只是你进步途中的副产品。如果你做一件事情先想着它有没有价值,会不会给你带来收益,那么你还是在利用第二种驱动力。能不能带来收益在你当时的环境中你是很难看出来的。举个例子,AngularJs刚面世的时候,我一个同事对其非常感兴趣,研读了很多相关的资料,并积极试用,虽然那时候它极不成熟。在那个时间点其实看不出来它会带来什么收益,说不定过几个月AngularJs框架就会销声匿迹。但是几年下来,我这个同事已经是国内AngularJs的专家了,社区里影响力很大,目前还在写一本关于它的书籍。

  第三种驱动力,内在动力,其实就是自主性。当你做些不是工作范畴之内的事情时,你反而离成功更近。再拿编程来说,很多大牛在上班时间外,会写一些博客,参加一些社区聚会,翻译或者写书。做这些事情都是靠内在动力驱动的。所以他们成了大牛,而按部就班的程序员依然时普通的程序员。当你自发想做一些事情时,你无疑已经领先了很多人一大步,因为他们都在原地踏步。

  第三种驱动力是一种良性循环,很容易就可以把人变得乐观,积极向上,感觉生活充满希望。善于驾驭这种能力的人会在生活和工作中都使用它,而工作和生活统一起来,不再相互冲突。拿我来说,我平时喜欢跑步,从一次只能10公里,跑到了一次可以跑15公里,20公里,42公里….直到上周花了17小时跑了72公里山路,本来计划跑100公里的,但是膝盖受伤,不得不终止。没人强迫我这样跑,我跑完了也没有任何金钱上的奖励,而且跑步本身其实也是蛮花钱的。我为什么这么喜欢跑,那就是一种挑战自己的精神,看看自己的极限在哪里。我不和别人比,只和自己比。只要能证明今天的自己比昨天的自己更优秀,那我今天就没有白过。这种精神也会传染到我的工作中。工作中再大的困难都不算什么,别人能做到我也能。即使现在做不到,那么也会主动的寻找差距去弥补,去提升。如果你能从早上6点跑到第二天早上8点(我参加的比赛关门时间是26小时,从早上6点到第二天早上8点,我认识的好几个人都跑了25个多小时,而我在跑了17小时候因伤退赛),那么你会发现很多以前对你来说不可能的事情都不再那么困难。

  好了,希望大家都能更好的利用第三种驱动力,即内在动机。这种驱动力不仅要用在工作上,更要用在生活上。有了孩子以后,我认为生活比工作更重要,工作只是为了创造更好的生活。

  希望大家都能快乐、开心、充实的过好每一天。

收起阅读 »

美团性能分析框架和性能监控平台

今天讲什么? 性能的重要性不言而喻,需要申明的是,我们今天不讲业界最佳性能实践,这些实践已经有很多沉淀,具体可以参考《高性能网站》和《高性能浏览器网络》等书,另外,我们不打算讲性能优化的结果指标,比...
继续阅读 »

今天讲什么?

性能的重要性不言而喻,需要申明的是,我们今天不讲业界最佳性能实践,这些实践已经有很多沉淀,具体可以参考《高性能网站》和《高性能浏览器网络》等书,另外,我们不打算讲性能优化的结果指标,比如页面完全加载时间,首屏时间,结果指标固然重要,是我们工作成果的量化衡量,但是对于做性能优化工作的工程师来说,过程指标对其起到的帮助作用更大。

既然不讲最佳实践,那讲什么呢?我们按最佳实践提供的方法去实践,但是后来遇到了瓶颈,到底遇到了什么瓶颈?我们是如何突破这个瓶颈的?成效如何?这些对在座的各位又有什么借鉴意义呢?

遇到什么瓶颈?

在遇到瓶颈之前,我们做了很多工作,主要包括:

  • 简单的数据采集,包括完全加载时间,DomReady 时间,需要注意的是这些都是结果指标;
  • 依照“业界最佳实践”快糙猛的做了很多事情:比如异步化,静态化,LazyLoading,BigRender,这些实践效果都还不错;
  • 因为只有结果指标数据,这个阶段我们绝大部分决策都是基于别人的经验,甚至拍脑袋,而不是基于应用的实际性能细节数据;

快糙猛的方式注定不是可持续的,很快,我们遇到了瓶颈,具体是什么瓶颈呢?

  • 首先,如果把业界最佳实践当成燃料,而性能优化当成驾车远行的话,我们的燃料很快就烧完了,因为大家总结出来的通用的优化手段总是有限的,而我们的目标还没有达到;
  • 其次,因为我们只采集了结果指标,只知道整体表现如何,面对异常波动我们显得特别无力,因为显示世界影响性能的因素太多了,对于到底发生什么事情了,我们无从得知;
  • 再次,由于对性能缺少内窥,我们无法找到更多的优化点,实际上,我们需要一个类似于显微镜的东西,来看看应用内部还有哪些可优化的地方;

如何突破瓶颈?

面对这些瓶颈,我们需要想办法去突破它。在坐下来想办法之前,我们往后退一步,仔细考虑这样一个问题:我们到底在优化什么东西?是文档的生成速度?页面资源的加载速度?页面的渲染速度?或者说更高大上的用户体验?这些问题想清楚了,才能分析的更彻底。

其实,大多数的性能优化工作都开始于瀑布流图的分析,下面我们就来看看美团项目详情页的瀑布流图:

瀑布流图

我们把项目详情页的资源分为以下几部分:

  • 主文档,即页面的内容,在拿到主文档之前,浏览器啥都干不了;
  • 核心 CSS,和首屏图片,在拿到这些之后,浏览器可以开始渲染了;
  • 核心 JS,拿到这些内容之后,页面的交互被丰富,但是也会阻塞;
  • 其他内容,比如雪碧图,统计脚本等;

从技术上来讲,我们优化的就是这个瀑布流图的每个环节,那么瀑布流图的背后是什么?

其实就是页面加载过程中各个资源的加载时间分解:从上到下的箭头表示时间轴,从浏览器跳转,缓存检查,再到 DNS、TCP 建连,然后发起主文档请求,再到接收完最后一个字节,再到浏览器开始CSS、JS、图片的下载,最后是页面渲染和交互响应。

瀑布流图的背后

根据《高性能网站建设指南》上的数据以及我们的观察,整个页面的加载可以划分为 3 大块:网络时间、后端时间、前端时间,发生在网络和后端的时间占到整体加载时间的 10% 和 20%,而前端资源加载时间占到整体加载时间的 70% ~ 80%。

前端资源加载是否快速对性能影响是最大的,这里面资源的加载顺序,并发数量,都有很多的工作可做:比如,如果你发现 CSS 加载之前的阻塞时间很长,那很可能是资源加载顺序不合理,这必然会导致浏览器渲染延后。

页面的加载时间还能分解的更细么?到目前为止,我们都是站在浏览器的视角,划清了各个环节。浏览器拿到文档之前,是不会做任何事情的,后端响应速度的变动多数时候能引发性能上的蝴蝶效应,我们的突破口就在后端处理时间上:服务器收到请求之后,会经历请求分发、业务逻辑处理、文档生成这三个阶段,在业务逻辑处理阶段,会涉及到和数据库、缓存以及内部服务的通信,拿到所有的数据之后,渲染模板,最后发送给浏览器。

对页面加载过程中涉及到的所有环节进行分解和细化,就形成了我们的分析框架。

如何把控性能?

有了分析框架,那么如何全面的把控网站的性能呢?

基于这个框架,我们通过统计脚本加上必要的数据统计(这里的统计都是过程指标,只反映页面加载过程中某个环节的健康状况),就能获得对整个网站的很多内窥。

具体来说,我们对数据的要求是这样的:整个流程各环节的,多维度(比如分页面、分地理区域、分浏览器)的,实时的(方便我们快速实验)。所有的数据都必须是能够反映整体的统计量。

而对于统计脚本,需要满足两个条件:

  • 避免对业务代码的入侵;
  • 不影响被测量的页面的性能;

针对第 1 个要求,需要开发独立的统计脚本,避免其与现有的框架耦合,方便移植到其他项目;而针对第 2 个要求,需要在主文档加载完毕之后,再注入统计脚本收集数据,并且尽可能的合并数据请求,减少带宽消耗。

确定了数据统计脚本的约束条件之后,我们从哪里得到这些数据呢?目前使用的主要途径有:

  • 主文档加载速度,利用 Navigation Timing API 取得;
  • 静态资源加载速度,利用 Resource Timing API 取得;
  • 首次渲染速度,IE 下用 msFirstPaint 取得,Chrome 下利用 loadTimes 取得,我们的 Chrome 浏览器用户占比超过 70%;
  • 文档生成速度,则是在后端应用内打点来获得;

对于主文档加载速度,我们从宏观到微观的做了这样的分解,从上到下的时间流,右边的时刻标记了每个指标从哪里开始计算到哪里截止,比如,跳转时间 redirect 由 redirectEnd - redirectStart 计算得到,其他的类推:

主文档加载速度

采集主文档加载速度的具体做法是:

  • 在主文档 load 之前提供可缓存数据的接口,方便在统计脚本载入前就可以准备数据;
  • 在主文档 load 之后注入数据收集脚本,该脚本加载完成之后会处理所有的数据;
  • 利用 Navigation Timing API 收集计算得到上图中的指标;
  • 给所有数据打上页面、地理位置、浏览器等标签,方便更细维度的分析;

对于静态资源的加载速度,我们也做了类似的分解和采集:

静态资源的加载速度

需要特别提示的是,如果你使用 CDN 的话,需要让 CDN 服务商加上 Timing-Allow-Origin 的响应头,才能拿到静态资源的数据。

而对于主文档生成速度,我们则开发了性能统计的 Library,在框架级别集成后端性能的时间指标。

实际效果如何?

通过上面的各种数据采集,我们拿到了页面加载全流程、全方位、多角度的真实用户数据,有这些数据之后,我们能做什么呢?之前遇到的瓶颈不再是瓶颈,因为我们可以利用这些数据做很多事情,下面举几个实际的例子:

Flush Early 是否有效?

《高性能网站进阶指南》上提到要尽快输出文档的第首字节提高性能,我们很早的时候做了这个事情,但是从数据上看,在页面完全加载时间上的收益不大,做了更细的数据采集之后,我们快速的在线上做了这样的实验:在特定页面把 Flush Early 关掉,结果发现,浏览器接收到第 1 个字节的时间增加了 100+ms,如下图(红色箭头表示变更上线时间点):

首字节时间变化

而完成文档传输的时间减少了 150+ms,如下图:

文档传输时间变化

表面上看,似乎禁用 Flush Early 效果好些,但是再看看浏览器的首次渲染时间,增加了 300+ms,如下图:

首次渲染时间

也就是说,有些优化措施,总结果指标上看貌似没啥效果,但是换个角度看效果非常明显。有了全方位的数据,我们能更高效的试错。

发现新的优化点

为了优化文档生成速度,我们一度想到优化函数级别的调用,利用 FaceBook 的 HipHop 为 PHP 加速,通过数据发现,在我们生成文档的时间构成中 30 %是在和缓存交互,这个比例太高了,当优化缓存服务器之后,后端时间大幅下降,缓存占比降到 10% 以下。

另外,美团主站的迭代速度非常快,每天大概 50 次左右的上线,通过数据发现,每次上线都会导致性能的轻微恶化,如果某天上线次数越多,那么性能就好不到哪里去?原因我们合并了大量的 JS 请求,当其中的某个模块在某次迭代中被修改,整个合并的文件需要被重新下载,这就对模块拆分和加载提出了更高的要求。

有了更细节的数据我们能有效发现新的优化点。

性能监控平台

我们不光突破了之前遇到的瓶颈,实际上,我们走的更远,因为我们觉得解决一个问题不如解决一类问题,我们解决问题的思路和工具同样能适用于公司的其他产品线:于是我们在做性能优化的过程中逐步建设起来性能监控平台,目的是为公司的其他产品线和内部系统提供一站式的性能数据收集、计算、存储和展示服务。

性能监控平台

目前性能监控平台已经接入 20 余个公司内部系统,能够支持任意指标、任意维度的实时数据查询。该平台为不同的项目提供了性能仪表盘功能,方便快速了解整体的性能状况:

仪表盘功能

同时还为做性能优化的工程师提供了简单的数据分析功能,方便其以数据驱动的方式的开展性能优化工作:

数据分析功能

总结

以上,就是我们做性能优化时遇到的问题,以及解决的办法,下面大概说下,我对这些事情的总结:

  • 首先,需要深入的剖析问题,性能分析问题的框架,让很多死角暴露无疑;
  • 其次,在性能优化这件事情上,只关注结果指标是不会给你多大帮助的,如果想真的优化,你需要测量过程指标,从过程指标发现更多;
  • 再次,解决一个问题比如解决一类问题,解决问题的思路和工具可以沉淀下来,服务更多的团队和同事;

如果想查看演讲的完整视频,可以猛击这里

至此,本文完!

收起阅读 »

创业之前 ——《黑客与画家》作者最新文章

创业之前 Paul Graham 原文 2014年10月 (这篇文章是我在斯坦福大学举办的Sam Altman创业课堂上的嘉宾演讲稿。本意是写给大学生的,但其中的大部分内容也适合其它年龄的创业...
继续阅读 »

创业之前

Paul Graham

原文

2014年10月

(这篇文章是我在斯坦福大学举办的Sam Altman创业课堂上的嘉宾演讲稿。本意是写给大学生的,但其中的大部分内容也适合其它年龄的创业者。)

有孩子的一大好处是,当你给年轻人意见的时候,你会问自己,“如果是我的孩子的话,我要怎样告诉他?”我孩子还很小,但我可以想象我孩子上大学的时候,我会告诉他创业的哪些东西。然后这正也是我现在要告诉你的。

创业是很违背直觉的。我还不确定原因是什么。可能是创业的知识还没有渗透进社会文化。但不管什么原因,创立一个公司是一件你不能总相信自己直觉的事情。

这个方面来说,创业就像滑雪一样。当你第一次滑雪的时候,你想停下来,你的直觉告诉你要向后倾。但当你向后倾的时候,你会飞起来而失去控制。所以,要想学会如何滑雪,也就要学会如何控制自己的第一冲动。最终,你获得了一种新的习惯,但一开始,要有意识地去控制自己。一开始,当你要滑下山的时候,你有一堆东西要记在心里。

创业就像滑雪那样非本能就会的,所以也有类似的一堆东西要记住。这里,我开始告诉你第一部分——那些如果你未来打算创业你需要记住的事情。

反直觉的

第一件事情是我已经提及过的事实:创业是如此诡异的,如果你总相信你的直觉,你会犯大量的错误。如果你丝毫不知道这个事实,你最好在创业前,先停下来。

当我创立Y Combinator的时候,我经常开玩笑说我们的使命就是告诉创业者们那些他们忽略的事情。这个确实是对的。一轮又一轮,YC的合伙人提醒创业者们那些他们将要犯的错,然后创业者们忽视了他们,然后过了一阵子,他们又回来说,“我希望当时我们能听取意见。”

为什么创业者们会忽视YC合伙人的意见呢?很好,因为那都是些违背直觉的观点:它们跟你的直觉格格不入。它们看起来是错误的。所以你的第一反应是忽视它们。事实上,我开玩笑的话不仅仅是Y Combinator的诅咒使命,也是它存在的理由之一。如果创业者们的直觉总是能给他们正确的答案,他们就不需要我们了。你仅仅需要其他人告诉你让你惊讶的建议。这就是为什么有那么多的滑雪指导员而没有那么多跑步指导员。[1]

当然,你可以,相信你对其他人的直觉判断。然而事实上,年轻的创始人经常犯的一个错误就是自己对其它人的判断,相信得不够。他们很崇拜那些看起来很厉害的人,但好像有时会对他们的观点感到疑惑。然后当事情搞砸的时候,他们说“我知道他说的某些观点或许不对,但我当时没有相信自己,因为对方看起来很厉害。”

如果你觉得你确实和某人交情甚好——其它创业者,一个雇员,或者天使投资者,或者收购公司的人——如果你对他们的观点有疑惑,那么相信你的直觉。如果某个人的想法看起来不可靠,或者感觉像是骗人的,或者在开玩笑一样,不要忽视他们。

这里有一种情况是要尽情去做的。和那些你真心喜欢的人工作,和那些你长期觉得靠谱的人工作。

专家

第二个反直觉的事情就是,知道很多创业的事情并没有那么重要。创业成功的方法并不是成为创业领域的专家,而是成为了解你用户、能解决你用户问题的专家。Mark Zuckerberg 并不会成功如果他是十分了解创业的行家。尽管他完全是创业的新手、菜鸟,但他成功了,因为他十分懂他的用户。

如果你不懂其中的任何事情,比如说,如何拿到天使轮,不要感到难过。那些事都是你要学的时候,你可以马上学,学会之后又能马上忘记的事情。

事实上,我担心的是,不单单是毫无必要学会创业公司运作的机制、具体细节,而这样做也可能是危险的。如果我遇到一个本科生,他知道如何写些变通的文案书面语,很了解劳动合同 和 FF类的股票行情,我不会觉得这个人就比他的同龄人优秀到哪儿去。这些事情都敲响了警钟。另外一个年轻创始人的个性上的错误就是绕过了创业的本质。他们想出了一些听起来十分可信的想法,被估值很高然后拿到了钱,租了一个很酷的办公室,请了一堆人。从外面的世界看来,这就像是创业公司在做的。然后租了办公室、请了人的下一步是:渐渐意识到他们是多么地可笑,因为他们模仿了所有一个创业公司的外在形式的时候,他们忽略了创业内在的必不可少的本质:创造出人们想要的东西。

把戏

我们是如此经常地看见这一类事情发生,以至于给它起了个名字:过家家。最终我意识到这一切是怎样发生的。年轻创业者绕过了创业的本质在于他们就是这样一路被教过来的。想一想你进大学的时候你要干什么,例如,课外活动。尽管在大学课堂,大部分的东西也是人自己生造出来的,就好像操场跑圈圈。

我并不是在攻击教育系统变成这样了。当你被教了某些东西的时候,总是难免其中某些你练习的任务是生造出来的。如果你去衡量他们的学习表现,人们总是不可避免地使用分数的差异,而分数里的大部分东西,都是那些生造出来的练习任务的结果。

我承认上大学的时候,我是这么做的。我发现在大部分的课堂,仅有20到30个观点、知识,是有价值放在最终的考卷上的。我学习如何应对考试的方法不是去熟练课堂上被教的知识,而是去列举可能被考到的问题,然后提前做出答案来。当我期末考的时候,我当时的主要感觉是好奇我预测的哪部分问题会出现在卷子上。这就像一个游戏。

当他们的人生被训练得熟练玩这样的游戏的时候,这并不意外年轻创业者对创业的第一反应是试图找到赢得这样一场游戏的技巧。尽管融资已经成为了衡量创业成功的尺子(另外一个典型的新手错误),他们总是想知道哪些技巧可以让投资者信服。我们告诉他们最好的方法让投资者信服的是让一个创业公司真的做得很好,意味着快速成长,并且也同样告诉投资者们一样的话。然后他们就想知道快速成长的技巧是什么,然后我们告诉他们最好的方法是仅仅去创造人们想要的东西。

所以大多数YC合伙人和创业者们的对话是,创业者问道“我们怎样才能……”,然后合伙人答道“仅仅……”。

为什么创业者们经常把事情搞得如此复杂呢?原因,我想,是因为他们在寻找技巧。

所以第三个反直觉的事情是创业是玩技巧终止的地方。戏弄这个体制可能继续行得通,如果你去大公司的话。取决于这个公司有多腐败,你可以成功,靠巴结到正确的人,给他们一个能力很强的印象,诸如此类。[2],但那在创业里是行不通的。没有老板去欺骗,只有用户,然后所有的用户关心的事情是你的产品有没有满足他们的需要。创业就像物理学那样没有人情味。你必须去创造人们想要的东西,你的成功取决于你做到的程度。

危险的事情是,作假在投资者里可能有几分行得通。如果你超级擅长让人听起来很信服你的话,你可以欺骗投资者至少一到两轮投资。但你不会有兴趣去做的。这个公司迟早都会死定的。所有你做的仅仅是浪费你的时间去把公司停下来。

所以停止去找技巧吧。创业是有技巧,在任何领域都有一些技巧,但它们对比与解决了真正的问题,至少一个量级以上没那么重要。

尽管这听起来很坏,你失去了一个你最擅长的武器。我想,这是令人兴奋的,当你创业的时候,跟系统玩把戏不再行得通了。这是令人兴奋的:世界上真正存在着一些地方是只要你干得好,你就会胜出的。想象一下世界会多么令人沮丧,如果都像学校或大公司那样,那些地方你要么花很多时间在没有价值的事情上要么输给那些谁做了的人。[3]我想如果在大学的时候,我意识到存在某些地方玩把戏和其它东西比起来是远远没那么重要,或者丝毫不重要的,我会很高兴。但其它地方则不一样,这样的不同是当你考虑你的未来,要考虑的最重要的事情之一。不同类型的地方,你要怎样胜出,然后你愿意在什么类型的地方去胜出?[4]

投入一切

这给我们带来了第四个反直觉的事情:创业意味着投入一切。如果你创业,它会把你的生活带到一种你无法想象的程度。如果你的公司成功了,还会持续占领你的生活:至少要几年,或者是十年,或者是你的余生。所以确实有机遇,但也会有代价。

Larry Page 看起来有个令人羡慕的生活,但其中的某些部分并不让人羡慕。基本上,25岁开始他就开始了全速奔跑,他似乎也并未停下来喘过气。每一天新的坏事情在谷歌王国发生,而且只有CEO才能处理,然后他作为CEO,不得不去处理。如果他去度假一周,一个星期的坏事情就会堆积起来。而且他必须毫不抱怨地承受一切,一部分是因为他是整个公司的老爹,不能流露出害怕或软弱,一部分因为亿万富翁谈论他们的困难生活的时候,几乎没有任何同情。其中导致的另外一个边际效应是创立一个成功的公司的艰难几乎没有人知道除了那些成功做到过的人。

Y Combinator 现在投资了几个可以被认为是很成功的公司,然后每个公司的创始人都在说着同样的事情。从来不会变得更简单。虽然遇到的问题有所改变。你在担心伦敦的办公室迟迟未开工,而不是工作室里的空调坏了。但是焦虑的总和从来不会下降,可能还会上升。

创立一个成功的公司就好像有了孩子一样,按了一个不能撤销的按钮。尽管这很棒,有了孩子,但大多数事情在没有孩子之前会更简单,比起有孩子之后。这样的牺牲也会让你有孩子之后能做一个更好的父母亲。既然可以延迟一段时间按这个按钮,大多数富有国家的人便这么做。

但谈到创业,很多人觉得他们应该在大学的时候就开始创立公司。你疯了吗?大学里的管理者、教授也在想些什么呢?他们走出了他们的世界,去确保学生们能有充足的避孕套供应之外,左手边是企业家培训项目,右手边是创业孵化器。

公平地说,大学在这点上是被推动的。很多要来大学的学生对创业很感兴趣。至少实际上,大学希望能培养他们走向职场。所以想创业的学生希望大学能教他们如何创业。然后,无论大学是否能做到,都有一些压力推动他们说可以做到,否则他们就失去一些申请,而被其它宣称可以做到的大学抢去。

那大学可以教学生创业的事情吗?可以又不可以。他们可以教学生创业的事情,但就像我刚刚说的那些,这些并不是你需要学的。你真正要学的是你的用户的需求,然后你并不能学会除非你真的去创业。[5]所以创业本质上是只有你真正去做了才能学会的东西。在大学是不可能学会的,原因就是我刚刚解释的那样:创业占领你的所有生活。你不能真正地创业,作为一个学生。因为如果你真正地创业了,你就不再是一个学生了。你可以在一段时间里名义上是学生,但很快你就不是了。[6]

给出了这个二分法,你愿意选择哪条路呢?做一个真正的学生但不去创业,或者去创业而不再是学生?我可以回答这个问题。大学里不要去创业。怎样创立一个公司仅仅是另外一个更大问题的子集:如何拥有一个美好的人生。然后尽管创立一个公司可以成为很多有抱负的人的部分美好生活,但20岁不是最佳的时间。创立一个公司就像是粗暴的深度优先搜索。大多数人在20岁的时候都在进行宽度优先搜索。

你可以在你20出头的时候做那些你过去或者未来不能做的事情,就像深深投入到一个项目去,仅因为一时的兴致,然后在里面自由生长,没有任何快到截止日期的感觉。对于没有抱负的人来说,这类事情是令人害怕的 “怕失败而不去做的事情”,但对于有抱负的人来说,这类探索具有无与伦比的价值。如果你在20岁创业了然后你还足够地成功,你再也没有机会做这样的事情了。[7]

Mark Zuckerberg 在外国,也永远都不会沦落到乞讨的地步。他可以做大部分人都做不了的其它事情,像载着受特许的蒸汽式飞机去其它国家。但成功也会带走他生活很多的意外惊喜。Facebook 正在操纵他就如他正在操纵 Facebook一样。做一个投入了生命去做的项目不仅仅很酷炫,还有很多好处去创造意外惊喜,尤其是早年的生活。在这些好处中,一个就是能给你更多的选项,来选择你一生从事的工作。

这个或许不是没有去创业的补偿。如果你在20岁的时候不去创业,你并没有失去任何事情,因为你更可能成功,如果你等待的话。在某些几乎不可能的情况,比如你在20岁的时候,做了个项目,像Facebook那样起飞了,你会面临着是否要继续做下去的选择,这看起来继续做下去是很合理的。但通常来说,创业公司起飞的方式是因为它们的创始人投入了很多让它们起飞的,20岁做这件事情看起来是没有必要的。

尝试

那在任何年龄,你应该去尝试吗?我意识到我确实让创业听起来很困难。如果我没有的话,让我再说一遍:创业是一件很困难的事情。那它太难了会发生什么?要怎样才能判断你自己是否有能力接收这个挑战呢?

这个答案是第五个反直觉的事情:你不能判断。活到目前为止,你能大致设想如果你立志成为一个数学家会是怎样,或者打算成为一个职业的足球的运动员会是怎样。但成为一个创业者就不是一回事了,因为你会过上一种未知的生活,你之前从来没有过过的。创立一个公司会改变你很多。所以你尝试去衡量的不仅仅是衡量你是谁,而是衡量你能成长到怎样的程度,和衡量其他谁能与你一起成长。

过去9年,我的工作是预测人们身上是否有那些创立成功公司的品质。很容易知道他们有多聪明,大多数阅读这篇文章的人也应该跨越了那个门槛。困难的是预测他们会变得有多坚韧和有多雄心勃勃。或者除了我,没有谁有更多的经验去预测这个,所以我可以告诉你一个专家对于这个能预测到多少,答案是:并不多。我于是学会了每一轮都以完全开放的心态去思考哪些创业公司最终会成为明星。

创业者有时认为他们知道。有些来到后,确信他们能顺利通过 Y Combintor就好像能顺利通过他们一直以来遇到的那些(相对少的、生造出来的、容易的)考试一样。另外一些人来了,好奇为什么他们进来了然后希望YC不会发现让他们顺利通过的错误。但创业者刚开始的态度和最终他们的公司做得有多好,几乎没有联系。

我读到过类似正确的事实,关于部队的——那些声势浩大、大大咧咧的人,并不会最后真的比那些安静的人表现得更加坚韧。或者因为同样的原因:后来的考验跟他们之前生活上的那些考验太不同了。

如果你真的很畏惧去创业,你或者不适合去做。但如果你不确定你是否能够做,唯一去找到答案的方式就是去尝试。但不是现在。

创业点子

如果你某一天想创业,那你在大学应该做些什么?仅有两件事情你一开始要做的:一个点子和几个创业伙伴。拥有这两个的方法是相同的。这里衍生出了我们第六个也是最后一个反直觉的观点:获得创业点子的方法是不要去想创业点子。

我已经写过很多关于创业点子的文章了,不会在这里重复了。一个短的版本是,如果你真的下意识的去找创业点子,那想出来的点子不仅仅会很糟糕,而且还会听起来很可信,意味着你将会浪费很多时间在上面,直到你意识到它们很糟糕。

想出一个好的创业想法的方法是,后退一步。与其下意识去想一个创业想法,不如投入到创业想法自己会诞生的领域上去。事实上,点子来得如此无意识,以至于你一开始都不认为它们是创业点子。

这不单单是可能的,Apple、Yahoo、Google和Facebook 都是这样开始的。这些公司没有一个一开始意味着要做成一个公司。它们都是一些业余项目,但好点子是如此地异类,以至于你有意识的大脑都不认为它们能成为任何创业点子。

好,那如何打开你的思维,投入到能无意识地产生创业点子的事情上去?(1)学习很多有意义的东西,然后(2)投入到那些感兴趣的问题上(3)和你喜欢和尊重的人。第三个,令人感到意外的是,获得创业伙伴之时,也正是你获得创业点子之时。

第一次我写这篇文章的时候,而不是“学习很多有意义的东西”,我写道“擅长某种科技”。但这个方法,尽管充足,但未免太狭窄了。Brian Chesky和Joe Gebbia 身上特别的不是他们很擅长某种科技。他们擅长于设计,或者更重要的是他们真的很擅长组织群体、让项目诞生。所以本质上你并不需要投入某种科技,只要你投入到能充分挑战你的问题上去即可。

那么那些问题又是什么?一般来说,很难回答。历史里,有大量年轻人投身于他们认为重要而同时代的人不认为重要的问题的例子,尤其是他们的父母不认为重要。另一方面,历史里也同样充满着父母认为他们孩子在浪费时间而父母们确实是对的的例子。所以,你如何知道你投入的事情是对的呢?[8]

我知道我自己是怎么知道的。真正的问题是有趣的,我在这方面是尽可能让自己尽情去做的,尽管没有人在意它们(事实上,尤其是没有任何人在意的时候),然后发现自己很难在无聊的问题上投入进去,尽管那些问题被认为很重要。

我的生活充满着我开始解决某个问题只是因为有趣,而最终发现它们在更广阔的范围也很有价值的例子。Y Combinator 一开始也是因为仅仅觉得有趣我才去做的。所以我好像有某种指南针来帮助我。但我不知道其他人头脑中都有些什么。或许,我可以想多一点,我可以提出辨别真正有趣问题的启发式算法。但现在我可以给的是可能疑问比较多的建议是,如果你有发现真正有趣的问题的品味,尽情投入到有趣问题是最好让你准备好去创业的最佳方式。确实,或者也是最好的生活方式。[9]

但尽管一般而言我不能解释什么是有趣的问题,我可以告诉你大部分有趣的问题。如果你把科技当成正在扩散开来的分形的碎片,每个边上移动的点都意味着一个有趣的问题。所以一个确保打开你思维、让你拥有好点子的方法是让你自己处在科技的边缘处——来让你自己,就像 Paul Buchheit 说的那样,去“活在未来。”当你到达那里的时候,那些让人们看来非常惊讶的先见之明在你眼里是如此明显。你或许没有意识到它们是创业点子,但你会知道它们是迟早会出现的东西。

例如,在90年代中期的哈佛,我朋友 Robert和Trevor的一个研究生校友写了个 IP电话软件,他并不知道会变成创业想法,他也不会去用它去创业。他仅仅希望能和他在台湾的女朋友聊天,而不用为长途电话付费。然后既然他是互联网的专家,对于他来说,做这个事情显然是把声音放在传输包里,然后通过互联网传输。他除了用这个和女朋友聊天之外没有用来做其它。但这恰恰是最好的创业公司诞生的来源。

所以奇怪的是,如果你想成为一个成功的创业者,最佳的做法不是某些新的、有助于创业的专注于“企业家精神”的大学教育。而是回归教育本身的大学教育。如果你想毕业后创立一间公司,你在大学里需要做的就是学习威力强大的东西。如果你有真正的知识上的好奇心,那就是你仅仅追随你爱好,你本来会去做的。

企业家精神中真正重要的是成为领域专家。成为Larry Page的方法是成为搜索引擎专家。成为搜索引擎专家的方法是让真正的好奇心驱动自己,而不能靠其它的动机。

最好的情况是,创立公司仅仅是为了满足好奇心而去做的事情。而如果你把这种动力贯穿了整个过程,你会做得最好。

所以这是给年轻的潜在的创业者的终极建议,浓缩成一句话:仅仅去学习知识。(just learn)

注解

[1] 某些创始者比别的人更善于倾听,而这个倾向于成为判断人是否能成功的根据。Airbnb在YC的日子里,我记得的一件事情他们是如此专心地倾听。

[2]事实上,这是创业公司存在的一个理由。如果大公司在效率方面没有遭受内部的折磨,他们会成比例地更加能干,留下很少的空间给创业公司。

[3]在一个创业公司,你需要花费大量时间在笨蛋身上,这类工作仅仅是无聊的,却并不是虚假的事情。(译者注:指相对于那些在大公司搞好关系的事情)

[4]如果你职业上擅长的就是跟体制玩把戏,那你应该做什么呢?管理咨询。

[5]这公司并不一定是要注册成立,但你要开始去获得大量用户的时候,你不得不创立公司,不管你自己有没有意识到。

[6]大学不能教学生如何成为优秀的创业者,这并不令人感到意外,因为他们也不能教自己如何成为一个好员工。

大学“教”学生如何成为好员工的方法是推开一个任务给公司,通过实习生项目。但你不能为创业做同样的事情,因为如果学生干得好的话,他们不再回来了。

[7] Charles Darwin(达尔文) 22岁的时候获得了一个邀请,作为一个自然学家乘坐 HMS 贝格尔号去旅游。这仅仅因为他比较空闲,以至于能接受邀请。如果他没去旅行的话,或者我们就不知道他的名字了。

[8] 父母有时会在重要问题上特别保守。有些父母认为重要的问题仅仅是那些能通向医学学校的那些问题。

[9]我确实想到了启发式方法来判断你是否有判断有趣点子的品味:你是否发现所知的无聊点子都非常难以忍受?你可以忍受学习文学理论或者学习如何在大公司担任中层管理人员?

[10]事实上,如果你的目标是创立公司,你可以更近距离地看看过去几代所接受的教育。那时学生们大多数毕业后主要专注于找工作,他们想的是,起码想到了一些,他们上的课程在公司员工看起来会是怎样的。或者更糟糕的是,他们会从困难的课程中退出来,直到获得了一个很低的分数,而这会影响最重要的GPA。好消息是:用户并不关心你的GPA分数。我也从来没有听说过投资者会关心。Y Combinator当然不会问你在学校里上了哪些课程以及你考了多少分。

感谢 Sam Altman, Paul Buchheit, John Collison, Patrick Collison, Jessica Livingston, Robert Morris, Geoff Ralston, and Fred Wilson 阅读了初稿。

收起阅读 »

推荐系统的那点事

推荐系统的误区 回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了...
继续阅读 »

推荐系统的误区

回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了这篇文章。

第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候,那时候,【机器学习】和【大数据】都是新概念,但是差不多半年后,【大数据】的概念就开始风靡全球了,到现在已经被爆炒得面目全非。

那年还因此买了一本项亮的书《推荐系统实践》,那本书和现在的很多热门书籍一样,都是跟着概念热起来的。 虽然有一些作者自己的实战经验在里面,但是总体上来说并没有太多值得重复翻开的地方。

几乎所有宣扬【推荐系统】的人,都要拿【啤酒和尿布】,【亚马逊推荐占营收20%】之类的经典例子来说力证推荐系统的牛逼之处。到处宣扬【推荐系统】插上【机器学习】等算法的翅膀,就能让电子商务变得精准无比,能智能的猜出用户想买的东西。

殊不知,其实这两个例子和所谓的【算法】其实关系不大。

1. 啤酒和尿布

首先是【啤酒和尿布】,超市的人员发现买啤酒的男人容易顺手买尿布。这其实是一种数据分析,是根据数据统计加上人工分析得出,是一种以经验来改善销售的行为。和【机器学习】【数据挖掘】等算法的关系不大。 刚接触【推荐系统】的时候,【协同过滤算法】大热, 我也曾经迷恋得研究过该算法,以为发现了什么宝贝一样。但是实际上,在工程中【协同过滤】出来的效果往往惨不忍睹,所谓的【算法工程师】每天能做的就是在那调整【协同过滤】算法的相关参数,然后看看第二天的点击率有没有上升。然后调整到最后你会发现,牛逼哄哄的【协同过滤】其实还不如简简单单的【看了又看】效果来的好,虽然协同过滤算法本质上也是一种【看了又看】的思想。

2. 亚马逊的推荐系统

亚马逊的推荐系统占了营收比,我记得是20%,不知道现在上升了还是下降了。这个说辞会让很多人误以为只要你搞好了推荐系统,你的营收就能上升20%以上一样。其实不然,对于亚马逊来说,为什么推荐能起到这么高的销量,一个很重要的原因在于,【亚马逊的首页点击率高的部分位置划分给了推荐系统的】,从广告学上讲,广告位置的好坏极大的决定了广告的销量。这个很容易理解,假设你的产品的广告牌能挂上天安门城楼的话,你觉得你还需要担心该产品的销量吗?

当然不可否定的是亚马逊的推荐系统应该是很牛逼的,但是这并不说明他们采用的【推荐算法】非常牛逼。推荐系统我认为其实和搜索系统并无太大差异,我一直认为推荐系统其实只是一个个性化的搜索引擎。之前在【秘密】上很火的有个爆料是:“360搜索的Rank刚开始就是用【机器学习】的算法去做,屎一样的效果,是我把百度的基于规则的算法偷过去之后才变好的。” ,这个爆料出来不少人讽刺【基于规则】,觉得这是在黑百度的算法。 其实不是这样的,记得当时阿里搜索挖了一个谷歌搜索的员工,该人在阿里分享的时候就说过:【谷歌的搜索效果比别人好的原因就是规则库牛逼,关于算法使用的都是成熟的人尽皆知的算法,并没什么新奇酷的算法】。 可能也是这个原因,谷歌研究院的科学家几乎全是【工程师背景】出身的。还记得上次【CCF推荐系统前言讲座】,刚开始叫了几个学院派的讲师在那大讲特讲各种酷炫掉渣天的算法,然后淘宝的大数据负责人车品觉 上台之后直接来了句【我们实验出各种算法效果不太好,还不如最基本的 关联规则 效果来的好】直接把前面的学院派专家们打脸打得都肿了。

我心目中的推荐系统

不管是电商,或者是新闻,都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的,因为既然热门,也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题,把那些不热门的东西,但是很可能符合某特定用户品味的商品【挖掘】出来,推荐给特定的用户群。

首先,在推荐中,醒目的推荐位应该是【热门推荐】或者【人工推荐】,【人工推荐】是指比如在体育新闻中,巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可,就是此新闻一出,马上登上头条,而不是在那磨磨唧唧的计算特征值,计算相似度,计算是否符合用户兴趣。 对于推荐中的【冷启动】,最理想的推荐就是【相关推荐】。说到这里,整个推荐系统的 80% 已经搭建完毕,【热门推荐+人工推荐+相关推荐】,这三者都是【个性化】都没什么关系,也算法关系也不大,但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好,就开始想一步登天,很可惜,这样的捷径是不存在的。 接下来是 20% 的【个性化】的做法,如上所说,个性化是为了解决【长尾】问题,正是因为长尾占商品的 20% ,所以在此我认为【个性化】其实也只有 20% 。要解决个性化,首先就是要对用户分析,最成熟的办法就是对用户打标签(是否让你想起来社交网络为什么经常让你选用合适的标签描述自己,没错,就是为了分析你)。

其实,给用户打标签,逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词,那些所谓的算法工程师可能就会开始扯什么高大上的算法,机器学习,自然语言处理,数据挖掘等各种算法。其实在我看来,算法很大情况根本派不上用场,我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来,统计他最常点击的东西,最常去的频道,然后给他打上这些频道或者商品的标签。或者收集更详细的信息,比如年龄,打上【青少年,男人,女人,老人】等标签,根据这些标签进行推荐。比如当推荐护肤的商品时,就可以偏向于女人,推荐运动产品时,就可以偏向于男人和青少年,推荐保健品时,就可以偏向于老年人。所以,光看年龄这个标签的维度,就可以做很多文章。所以标签库的设计和积累,是非常广泛和重要的,而这方面需要大量依赖于【人工分析】,而不是看论文调算法能做到的。 就好比现在的中文分词,拼到最后大家都在比词库的积累,谁的词库好,谁的效果就好,【搜狗】的【拼音输入法】效果好也是因为词库比别人好。

最后就是根据标签的定向推荐,这个推荐概率是有【权重设置】在里面,就比如刚才对年龄这个维度的权重,是需要给予对应的权重值,如何给定呢?其实就是【拍脑袋】,当然,如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化,查Bad Case,然后再对权重进行调整,也就是根据评测和反馈来调整,没有【评测和反馈】,整个系统等于是一个黑盒,谈何优化?在我看来,【推荐系统】本质上首先是一个系统,需要不断的对各种效果进行【评测】,查各种【Bad Case】,而这些都不是看论文可以学到的东西。

总结

  1. 实力派的【算法工程师】往往都是ABC[always be coding],这样的算法工程师才能根据实际问题建立模型或者建立规则库,是真正能解决问题的人。往往是一些有研究背景,经验丰富的研究员,更加重视工程,因为工程架构上一些恰当合理的设计,效果往往就能远远高过于模型算法优化。
  2. 学院派的【算法工程师】往往是为了算法而算法,而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后,不是研究算法而是让他们整天在那看数据报表?【因为发现算法没啥好研究,只能让他们在那看看报表找找规律了。】
  3. 【几乎所有所谓的智能推荐算法都是花拳绣腿】
  4. 当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。
  5. 儿童节快乐
收起阅读 »

话题标签添加说明

大家有新需要加的话题标签,在底下留言,到时我们审核后会加上去。