部落格焦虑贴文的增加…可以预测出标普500指数出现走跌的压力

“Ebola Outbreak 2014”由Glrx – 上传者自己的作品。基于CC BY 3.0经由Wikimedia Commons授权。

[adsense][/adsense]

前几天老婆问我伊波拉病毒的事，我说：“看过它的新闻”，老婆就开始紧张的说，最近要来台湾的沙发客应该都要注意是否有感染这个病毒才行，我说，海关应该会检查到吧。直到今日我再次以预测为主题，找到了这篇“人算不如“演算”！WHO 发现的九天前，这套演算法就预测到伊波拉病毒的出现”，这篇文章提到：

抢先在人类之前。HealthMap，一个由波士顿儿童医院开发出来，以资料驱动为基础的地图投影工具，在挖掘数千个以网页为基础的资料来源之后，侦测到一个“神秘的出血性发烧”。

共同创办人 Clark Freifeld 说，操作 HealthMap 的时间已经超过八年了，而最重要的，就是让 HealthMap 一直获得利用网路 = 搜寻到大量的公开事件资料，换句话说，就是一直保持资料的丰富性和充足的来源。

演算的资料来源从哪来？

包括新闻报导、社交媒体、国际卫生组织、政府官方网站，以及在影响范围内的卫生照护工作者的个人部落格等等；这个团队以顾客建立的网路爬虫（Web Crawler，又称为网路蜘蛛，是一种‘自动化浏览网路’的程式，是搜寻引擎的重要组成）阻碍了 RSS Feed（一个个能提供订阅的网站内容，只要订阅了一个 Feed，使用者就能即时看到所有此分类的标题，帮助读者可以快速浏览并点选资讯观看），从来源的内容文字，来分析疾病相关的术语及地理环境的线索。

更确切地来说，即使五年前，这样的技术还是很难以想像；然而，伴随着新颖的大数据潮流与机器智能，原本不可能的，都会在不远的未来实现。

又是一个以大数据来做预测的应用，只要你是跟处理这一类问题相关的专业人才，你都可能藉此大发病毒财。不过这风险大，一不小心碰到就有可能身亡，比较安全一点的大数据运用，可能就像消费者行为之前的心理学这书提到的使用人的生理资料来预测购买行为，这可能比较方便，另外也有一种间接的方法，如同HealthMap利用公开的资料来预测，就是本文的篇名提到的，用部落格贴文来预测股市的涨跌，只要预测的够准，获利不是问题，这个技术已经开始实作测试，我则是在预测分析时代的Chapter 3 资料效应──资料多不见得有用的大众情绪可以预测股市走势看到，“他们计算2008年一百七十四个股市交易日的焦虑指数，以LiveJournal网站上总计超过二千万篇贴文为资料，并对同期内标普500活动进行相关衡量。然后，他们应用诺贝尔经济学得主格兰洁(Clive Granger)为预测关系所设计的统计测试。”实际上，根据注解所言，其研究没有预测标普500指数的涨跌，而是预测标普500指数的变动速率。

言归正传了，如果要搞大数据赚点钱，技术门槛应该不会低，虽然我也是资讯挖矿出身的工人，但是技术长久不用，总是有点退化，之前我的程式技术瓶颈在于处理大数据的程式要怎么写，相关的硬体该如何扩充，种种问题对我来说仍是未知数，可能继续读点书比较实在，写点部落格贴文来骗骗想要以此招预测股市的人士，也可以，不然就是去出本大数据的书好了，反正目前荣景可期，最不得已才真的得熬夜写只程式，爬网路上的部落格贴文来预测台湾股市的涨跌了，不然金矿要怎么挖？

嗯，最近选举也满热的，不然用部落格贴文来预测选举好了，我来试试看。