
在大数据时代,可获取的数据资源正朝着多维化、立体化和丰富化发展;但同时,大量冗余数据、噪音、不相关信息亦充斥着互联网 Cyber空间。大数据4V特性,即Volume(大量),Velocity(高速),Variety(多样)和Value(价值),其最终着眼点落在Value上。
即,基于大数据的增值数据分析与数据服务。如何快速高效的从海量数据中捕获人们所真正关注的重要信息,更好地利用大数据优势,越来越成为企业界和学术界重点关注的课题。
与传统的数据统计分析相比,基于大数据的数据挖掘、数据分析和数据服务有着更为鲜明的行业特性。通常来说,需要以具体行业为应用场景,深入了解行业背景知识,应用需求特点,面临的具体问题后,再依据行业所能获取到的数据资源,定制出适合该类场景的算法、模型和解决方案,类似于裁缝之量体裁衣,医生之问切看诊。
通常来说,数据资源都是受限的。在当今大数据时代,所能获取到的数据资源不仅在数量上大大增加,且越来越呈现出细节化,多维化,立体化的特点,这使得更全面地描述和反映个体和群体的方方面面,更贴切的为个体和群体提供个性化服务,更立体以数据驱动的方式理解自然界和社会规律成为了可能。
证券市场是一直以来都是一个可以利用信息不对称而获利的市场。例如,股票市场每时每刻都与海量数据密不可分。这些数据包括结构化数据,如交易数据、行情数据、报单数据、各类统计数据等;非结构化数据,如新闻、股票论坛、公司信息披露等等。投资者们需要及时地获取尽可能全面而准确的信息,以快速做出有利决策,这给业内人士提出了各种难题和挑战。
一、证券行业数据资源概况
证券行业相关的数据资源涉及面较广,最为常用的为结构化数据,如行情数据、成交数据等等。技术分析、量化投资、资产配置等等均大量使用结构化数据进行分析决策。然而价格通常有着不可解释的部分,很多信息隐藏在非结构化数据中。
例如,各种新的“概念”和“热点”的挖掘。研究报告上的点评的理解、解读和联系,这些都需要对非结构化数据进行分析。股票所涉及的非结构化数据种类繁多,例如上市公司公告、行业研究报告、网络新闻、论坛、微博等等。需要对大量文本信息进行加工,分析,识别行业术语,联系基本面,探寻其与股价之间的联系。这其中,首先需要对非结构化数据进行收集和整合。
1、结构化数据
证券行业结构化数据主要有:行情数据、成交数据、持仓数据、业务数据、经济、金融指标等其它结构化数据。
2、非结构化数据
证券行业非结构化数据主要包括: 公司数据、新闻相关数据、社交网络、论坛数据、行业研究报告及其他相关资讯等。
二、证券行业大数据服务
大数据时代,数据资源的多维化、丰富化、立体化,使得基于“全视角”数据,可派生出丰富多彩的增值服务。基于数据挖掘、知识发现的数据服务类似于“高级定制”,可从海量数据中发现隐藏的规律、信息和知识,从大数据中采矿。这些技术可帮助人们更好的利用大数据所带来的优势,为人们提供个性化增值服务,促进证券市场的繁荣发展。
1、基于结构化数据的数据服务
证券行业的结构化数据大量用于投资决策、量化交易、组合管理等投资活动中,基于这类数据有着大量的软件、模型、算法和服务。国内外各大券商、数据资讯商、和软件服务提供商已形成成熟的商业模式和结构,为投资者提供专业的行情服务,下单服务,历史行情查询等服务。
本节以NASDAQ两个公开数据服务产品,Market Pathfinders和MarketReplay为例,简要介绍基于非结构化数据可提供的增值数据服务。其中MarketPathfinders数据服务主要基于实时成交数据,将各类增值的分析结果第一时间推送给用户。MarketReplay主要基于历史行情数据,使得用户可以通过市场回放程序实时模拟市场情况。
1.1 Market Pathfinders
NASDAQ Market Pathfinders是由NASDAQ提供的一个数据传送产品,覆盖了美国境内所有市场,包括NASDAQ,NYSE以及美国其它地区交易所上市的证券产品。Pathfinders基于市场交易数据进行统计分析,为用户提供交易的汇总实时数据、日内数据,基于NASDAQ市场参与者的实时交易决策,度量市场情感倾向性,供有经验的场内交易者监测买卖意向的变化,市场的方向、动力和流动性;通过分析市场参与者的买入和卖出行为,以确定长期投资者;通过标明盘后买卖订单意向是否汹涌,来判断市场的方向;额外的,投资者可以生成一个投资组合,MarketPathfinders会对其进行定期更新。
Market Pathfinders指标每分钟发布一次,数据统计时间段为 1分钟、5分钟和60分钟。其发布的数据建立在至少75%市场参与者的交易数据分析结果上,通过计算一个时间窗口内买卖双方预设价格阈值来统计各种比例和指标数据。
1.2 市场回放服务(Market Replay)。
纳斯达克市场回放服务(NASDAQMarketReplay)是2008年纳斯达克官方推出的一个基于云平台的数据服务,供广大用户回放和分析证券市场的活动。这个新工具是基于AdobeFlex和AIR平台建立的,并且利用 Amazon简单存储服务 (AmazonSimpleStorageService,S3)对历史市场数据进行持久化。S3和AIR的组合的部署模型很强大,并且只需要很少的内部基础设施的支持。AIR运行时是跑在客户端机器上的,因此其部署简单而健壮。
用户可以通过市场回放程序实时模拟市场情况,了解任一时间点的最高出价和最低报价,定位并且查看微秒级别的事件。另外,投资者还可以对最佳成交原则和美国国家市场系统管理规则(RegNMS)的执行情况进行监督。经纪人和交易员能复查交易发生那一刻的情况,及时发现问题所在,并分析是否有疏漏的机会。经纪人可以提供给客户经官方验证的交易回放,让客户对经纪人的业绩进行评估。纳斯达克市场回放程序可以为各类投资者提供其需要的市场信息,让他们更好地了解市场上到底发生了些什么。
2、基于非结构化数据的数据服务
非结构化数据主要为新闻、论坛等文本数据。专业的资讯服务商如彭博、路透、万德等均提供行业相关的新闻速递服务,同时加大信息分析、整合的力度与深度,以求在信息爆炸时代迅速高效的提取有用信息。证券行业投资综合性社区、股吧、论坛等等也成为行业相关文本数据的一大来源,亦为证券行业中尤为重要的一类信息获取通道。
在专业资讯供应商方面,传统的行业巨头也在加大信息分析、整合的力度与深度,以求在信息爆炸时代更好的提取有用信息。基于文本信息整合、分析和挖掘等技术的高端文本挖掘分析服务也在逐渐兴起。
2.1 机器可读新闻速递服务。
机器可读新闻 (MachineReadableNews)为结构化或半结构化新闻数据,以电脑可读的语言编写,由一连串的字符和数据组成,没有传统新闻中的完整的句子成分。通常经济数据以二进制格式存储,新闻文本类数据以XML格式(或类XML)格式存储。这类数据通常在公司发布收益报告或政府发布经济统计数据的时候自动提取产生,经过处理转换后直接提供给另外一些根据新闻进行计算或交易的计算机系统。
机器可读新闻通常会保存一些特定的信息,例如,相关联的公司、涉及到的知名人名、以及描述该新闻故事的若干标签。通过这些信息规整,使得计算机可以在毫秒级别时间内捕获新闻的重要信息内容,其速度远非人眼阅读之所能及。机器可读新闻可与量化模型终端相连接,可在毫秒级别的时间内自动将最新信息加权至模型中并快速进行决策指令,这将大大提高信息传递速率。
2.2 文本情感倾向性服务。
文本情感倾向性服务,是基于自然语言处理、文本挖掘、情感分析、分类、聚类等算法的高端文本数据服务。其数据源主要来源于互联网的新闻、博客、微博以及各类社区,以及社交网站的大数据展开深度挖掘与分析。
以美股情感分析服务 StockSonar为例,其可检索、读取和分析来自文章、博客、新闻稿公共信息等广泛的在线资源,为用户提供即时的美股文本情感分析服务,用于辅助交易决策。StockSonar面向所有人群免费开放。对于个人投资者而言,并不需要自己去搜集各种新闻,编程分析情感倾向性,而是可以直接使用这类第三方专业服务,可以将大大促进信息的快速传递。
2.3 基于互联网大数据的新闻追踪及监管服务
互联网大数据的传播速度和影响力的特性既可以加快真实信息的传播,也可能成为散布虚假消息的媒介。对于上市公司而言,需要实时追踪互联网上与公司相关的新闻和传言,如有不实传言则可以第一时间及时辟谣,以避免引发二级市场剧烈动荡。对于交易所也同样如此。这类服务需要实时搜集并分析海量互联网文本数据,通过文本挖掘、自然语言处理、异常行为监测、事件挖掘、时空事件演化分析等挖掘分析技术对相关新闻文本进行追踪及预警。
以韩交所监察系统SyberSurveillance为例,该系统基于大数据服务,从各大社交媒体上实时采集数据,如Twitter,Facebook以及各种论坛等。期望通过持续跟踪网络信息,及时发现可疑的散布可能引发市场动荡的假新闻,以及操纵市场、诱导集结群众的行为,以便快速做出决策反应。
3、证券行业大数据综合平台型服务
建立证券综合性服务平台,可集多种大数据服务于一体,针对不同的用户开展针对性的服务。例如面向各券商、基金等机构提供 B2B服务,面向中小投资者提供B2C服务。在为用户提供数据服务的同时,平台亦可生成并积累宝贵的用户行为数据。通过分析用户行为数据,可以进一步地为用户提供个性化、细节化的服务,进而形成一个数据循环生态系统。
B2B服务平台的主要服务对象为机构投资者,如基金公司、证券公司等等,可提供专业性较强的服务。例如,市场回放服务,机器可读新闻服务等等。B2C金融服务云平台主要服务于个人投资者,提供诸如行情查询,关注股票、公司信息实时推送等等。
证券行业大数据平台可提供的服务有:
*市场回放服务。用户可以通过市场回放程序实时模拟市场情况,了解任一时间点的最高出价和最低报价,定位并且查看微秒级别的事件。可以为各类投资者提供其需要的市场信息,让他们更好地了解市场上发生的细节。
*机器可读新闻推送。将新闻以机器可读的格式存储和传输,通过接口API与用户端系统相连接,可在毫秒时间获取新闻信息。同时,将新闻关键信息以标签方式提取出来,供用户横向纵向快速检索、浏览、查询和比较。
*数据按需下载服务。按需数据下载服务可以为各投资者提供历史股票交易等公开数据的按需下载服务。投资者可以自定义查询条件,查找自己所需要的订制历史数据,批量下载到本地计算机,或者云端个人账号上。该服务可按照下载数据量计费。
*各类指数发布与推送。定制指数编制方法,依据实时行情数据和监测数据实现指数计算并将结果公布或推送给投资者。
*新闻媒体网络情感指标。情感倾向性指标在一定程度上反映了投资者的信心,是对市场进行判断的重要关键因子之一。可基于爬虫技术和文本挖掘算法,实时分析网络情感倾向性并制定相应的情感指标和投资者信心指标,并提供便捷的页面展示和数据接口,以供投资者决策参考。
*个性化订制、推送、推荐服务。基于海量行为数据,分析投资者行为特点,为投资者提供各种个性化的推送信息。
*个性化风险评估和预警。结合投资者交易数据,平台浏览记录,论坛讨论和关注数据等等,综合评估投资者风险偏好,并根据投资者行为进行风险预警。
*证券市场行情展示、查询,交易记录查询。
*投资者交流互动平台。投资者可在平台上对政策、公司以及各类信息进行资讯和讨论。
*上市公司公告快速披露平台。根据用户订制,实时将最新公司信息推送给关注该公司的用户。
*研究报告发布平台。研究报告发布平台可供国内外各大知名券商研究员通过实名认证开设专栏,上载最新研究报告。研究报告平台提供快速检索和高级搜索服务,投资者可以通过行业、股票、研究员名、时间等等各种属性设置查找所需要的研究报告。
通过建立一个权威的,具有公信力的证券行业服务平台,为各类投资者提供专业性更强、透明度更高、参与度更广、平均成本更低、操作更便捷的金融服务,以更好的服务广大市场参与者,有利于证券市场的信息流通,促进证券行业繁荣发展。
三、证券行业未来大数据发展方向
1、基础信息展示
行业内应披露的信息为海量数据,包括公告信息、产品信息、市场信息、监管信息,时时刻刻都会有大量的数据产生。通过定期的采集数据将所有的信息分类整理归档,将这些信息赋予很多属性,有序列的存储起来。当用户根据关键字进行查询时,会迅速的定位到相应的信息。如何制定分类规则,如何高效的分析用户的需求,提供用户所要的数据,这是必须通过大数据思维思考的。
2、价格预测
价格对于用户很重要,能够直接决定是否盈利。准确的价格预测对大众在选择股票及回避风险的过程中起到重要的作用。根据实际数据建立数据挖掘模型-时间序列模型、正态分布模型等,但是每个模型都有不同的差异,需要对相应的数据差异进行修正。从大量数据中发现数据模型只是数据挖掘的开始,需要做大量的分析工作,以期望达到更好修正值。如果在设计预测模型时,将开盘价、最高价、最低价、成交量、成交额等所有的参数都考虑到预测模型中去,就会有更大量数据的计算工作,也能够更切实的贴近实际数据的走势,达到更好的预测效果。所以,这是一个未来需要探索的重要方向。
3、用户行为信息分析
通过对大量的个性化用户行为信息进行分析,可以抽象出用户的行为习惯,细分客户。账户基本信息、账户状态、账户价值、交易习惯、投资偏好以及投资收益,来对用户进行分类和细分,从而发现用户的交易类型,找出最有价值和盈利潜力的客户群, 了解他们最需要的服务, 更好地配置资源和政策, 抓住最有价值的客户。
四、小结
总的来看,大数据在证券行业的应用刚刚开始,虽然比互联网行业稍晚,但是其应用的发展空间无限。证券行业有其自己的特点,大数据技术的应用仍然有很多的问题有待解决,开发出适应其自身的应用,还需要走很长的一段路。相信经过不断的努力,在未来的发展中,在先行者互联网的驱动下,证券行业的大数据应用将迎来突破性的发展。