爱拍,一文读懂如安在金融网站运用算法买卖AI?,保护环境



在这篇文章中,咱们将要点重视bars:它们有什么问题?怎么正确地处理以用于机器学习模型?在重新认识bars之后,你会发现几种从bars构建输入和输出的新办法。咱们将会以核算和实验的办法来进行比较。


K线图(蜡烛图)的问题是什么?


咱们习惯用所谓的“蜡烛图”来表明特定时刻段(几分钟到几天不等)的开盘价,最高价,最低价和收盘价。

蜡烛图的首要问题是:商场并不遵从这一时刻规矩,人徐小迪腹语们不会在特定的时刻或每隔N分钟/小时之后进行生意比目鱼v5。此外,现代商场是由算法驱动的,人们必定是在需求的时分下注,而不是在特定的N秒后。若是依据固定的时刻距离对前史数据进行采样——当生意十分活泼时,咱们会取样过少,生意低迷时则取样过多。

终究,依据上面说到的,能够得出下列定论(实证定论):依据时刻采样的bars具有“糟糕”的核算特性,即较低的序列相关性,存在异常值,常态不文教父带你嫖韩日散布测验不成功。

解决办法是依据其他规矩对bars取样:

Tick:当呈现N个Tick时,对OHLC(开凹凸收价) bar采样

成交量:当某项财物成交量达X股时,对OHLC bar采样

成交额:当某项财物成交额达Y美元(或其他钱银)时,对OHLC bar采样

不平衡:当价格的涨跌率或生意比率与期望值有误差时,对OHLC bar采样

鄙人面的时刻序列例图中,能够直观地看到怎么获取这些bars:



用以上说到的办法对香港专业教育学院(IVE)的bars采样的爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境比较图

上面说到的一切办法都是为了创立包括相同数量信息的bars:每个tick bars的生意爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境数量相同,可是成交量却大有不同,因而采样成交量bars会更好,这样每笔生意的成交股数就相同了。成交额江雨瞳bars则更进一步,每一个bar的生意的商场价值相等。不平衡金珍锡bars可用于tick,成交量和成交额bars。关于不平衡的tick bars,我的解说是,它是从N个ticks收集的样本,且遵从相似的价格趋势。

正如你所看到的,一切的办法都十分依靠商场的微观结构来重建时刻序列。让咱们检查一下这些bars是否当之无愧。这儿的时刻bar为十分钟,每100个bars采样一个tick bar,每到达10000股高温轴承shgbzc生意采样一次成交量bar,成交额每到达1000000美元采样闫荣磊一次成交额bar(从数个月的数据中收集样本)。










依据不同的bars采样规矩得到的收益散布比较图


它们的核算特性怎么呢?依据其序列相关性,规范偏耀莱集团綦建虹女儿差和正态性查验等不同参数得到的bars的比较图如下。




能够看到,关于每一个参数,用其他规矩采样bars比依据时刻采样bars作用要好(方差在外,一切的方差都很低)。


怎么正确符号数据集?


有人从前猜测过N个bars之后的价格改变,例如,猜测下一个30分钟后的价格改变,然后依据猜测来买进或卖空,但从业者和生意员真的会像猜测的那样做吗? 他们会在收到一些信号后开仓,紧记自己的获利和止损方针。这表明咱们要更重视在这30分钟里发作的事,而不是30分钟后。其次,获利和止损方针可能会随时刻改变,由于商场是会动摇的。别的,由于咱们是依据商场价格意向下注,咱们要知道应该投多少钱。终究,咱们更重视猜测的可信度,让咱们能够依据模型的主张,不需求在随机的信号上浪费时刻。

因而,咱们选用全新的符号办法:

考虑收益的动摇性

考虑获利和赢利

不只要知道下哪支注,还要知道下注的巨细

动态阈值


咱们先从收益的动摇性开端评论。考虑一个简略的结构,结构中仍有固定的预爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境测值,然后符号三个等级:现时值和远期价的收益(r)超越某个阈值T(比方r=0.2, T=0.1),小于-T(比方r=-0.12, T=0.1),或许不同不大(有痕迹显现r小于T,比方 r=0.05, T=0.1)。咱们能够将整个数据集的T值固定,也能够依据收益的规范差来核算T。让咱们实验一下,选定60个tick bars的收益的阈值T=0.025,然后将其与T比较,这将与上100个收益的绝对值的规范差相等。



固定阈值的符号直方图




固定猜测值依据商场动摇符号的直方图

能够看到,依据动摇来符号的成果散布仍相差较大,但依据固定阈值符号时,基本上大部分的成果都散布在标签0(-1表明下降, 1 表明上升,0表明不同不大)。要着重的是,这些标签是在用滑动窗口循环遍历爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境bars的时分创立的,这并不是对数据点进行采样的最佳办法,咱们爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境后边再评论这个问题。

三大壁垒符号法

现在研讨另一种符号数据集的办法,在书中这一办法被称为“三大壁垒符号法(triple barrier method)”。咱们想知道鄙人一个N个bars期间会发作什么——会遇到止损的状况吗?或许咱们能够获利?或许价格将仅仅稍稍改变,最好不要下注?或许会遇到以上所用的状况?能够将这三种状况称为“三大壁垒(three barriers)”:两个横向壁垒(别离代表止损和获利),一个笔直壁垒,表明终究的横向成果(前面比如中的固定猜测值)。当然,横向壁垒不是对称的(例如,你是个有野心的投资者,相关于赢利方针,你的止损方针较低)。



下注巨细和元符号

好了,考虑到商场的动摇以及止损和获利方针,咱们已经有了有用的办法来符号价格的涨跌,可是仍是不知道究竟应该投多少钱(以及该不该投钱)。 Lopez de Prado提出了两步符号法( two-step labeling),一个符号是针对价格涨跌意向,另一个则是关于是否要下注(当然,还有下注的巨细)。

将每一个样本符号为1,将动态阈值设置为初始的止损或获利壁垒(基本上,咱们得知道价格是涨仍是跌),符号首要会上涨或跌落。

知道价格涨跌之后,是否要下注就取决于预先确认的止损和获利方针,因而,假如第一个符号显现“涨”,咱们要承认是否能到达获利方针,承认后,将第二个符号设为1。假如第一个符号显现“跌”,并且有可能要止损, 依然将第二个符号记为1。 只有当第一个符号的涨跌方向和止损或获利之间没有相关性时,才将其符号为0。

接下来是最酷的部分。在预备数据集的时分,练习爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境一组特性,建一个可猜测一边的模型(符号1),再练习第二个模型,在模型中也输入一切之前的特征,并将其符号为1。在第一个模型猜测了方向之后,用第二个模型承认,依据第二个模型输出的0到1之间的数值,能够得出适宜的下注数额落风洞窟。例如,假如第一个模型显现“涨”,可是第二个模型显现的数字是0.05,这代表尽管价格会上涨,但咱们很可能达不到预期的获利方针。


回忆和平稳性又怎么呢?

咱们知道,在将数据传输到机器学习模型之前,需求以其他办法将其规范化或规范化或让其保相等泄组词稳。关于金融时刻序列,在大多数状况下,咱们运用推迟微分(一般推迟1秒,称为收益)。这的确让时刻序列安稳,但嫡女宛秋假如时刻序列内的信息有回忆的时分会怎么样呢?这些信息被删掉了,为什么?由于1秒的推迟微分看起来仅仅推迟了1个bar, 并且不知道之前发作的事。

在前史时刻窗口中,为了数据的安稳,咱们对一切的bars都这样做。但咱们依然想得到哥哥好坏一个安稳的,没有删去悉数有用信此面向上成果怎么做息的时刻序列,要怎么做?要是只能用小于1的微分处理睬怎样?这便是所谓的分数微分(fractional differentiation)。更多的细节能够在相关的书或其他资源找到。现在假定能够用0.1,0.3,或0.75的推迟微分处理时刻序列,这能给咱们更多的回忆。



恣意阶的滞后算子(来自维基百科)

对数价格和不同的微分以及安稳性之间的相关性的信息有多少保存下来了呢?用ADF查验得到的成果如下:




Tick bars的相关性和ADF查验成果


时刻bars的相关性和ADF查验成果

能够看到,在tick bars时刻序列中,分数微分不能带来更好的平稳性,但的确有更多的相关性的回忆。在时刻bars序列中,用0.5-0.75阶的微分能够略微改善数据。


将其悉数输入神经网络

好了,是时分看看用新的方针来为新bars建模会怎么样了。咱们将运用十分简略的softma回归函数作为分类算法(用dropout函数完成正规化),并经过前史窗口将收盘价、成交量和收益规范化来作为特征。用Keras建的模型如下:

main_input = Input(shape=shape, name='main_input')x = Flatten()(main_input)x = Dropout(0.25)(x)output = Dense(3, activation = "softmax")(x)


长窗长度为100,短窗长度为50,预期值为25个bars。阈值T=0.01,数据集由tick bars组成:



用于练习的tick bars(蓝色),验证(黄色)测验集(绿色)

能够看到,在数据集之间有空白区,这被称为“制止区(embargo)”,能够协助承认模型在未来仍能作业。之后会具体介绍它。现在先将其视为一个更实在的割裂场景。为了处理等级的不平衡的问题,依据练习和测验数据集将各个等级的比重核算出来。


固定阈值VS动摇阈值VS三大壁垒

咱们的基线仅是猜测价格涨跌或猜测其不超越吉祥巴普阈值T。等级分类阐明如下:(0代表下降,1表明不同不大,2表明上升)

不同没有很大对吧?精确度/回忆以及数据集符号都没有很不平衡。动摇阈值怎么呢?



得到的数字更好了。在精确性/回忆没有不平衡(这阐明分类算法是公正的,跟着算法和特征的改善,能够的确进步精确性),现在数据集的不平衡没有那么重要了。好了,现温州医学院王静在让咱们用三大壁垒对依据动摇的翻滚阈值T,并且有对称的获利和止损方针的比如进行实验。



均匀成果差不多相同,由于在这儿,第二类别代表的笔直壁垒是十分少的,假如忽视它们,那么依据止损清宫良妃传和获利的涨跌意向的精确率会比之前的比如的要高,但精确性/回忆会稍有不平衡。这些猜测可作为二进制猜测模型的元符号教保网,有了它们就能够猜测符号的一边,它们具有下列的精确性:


分数微分VS整数微分

现在用已分数微分的对数价格替代特征会集的收益,设口jd爱拍,一文读懂如安在金融网站运用算法生意AI?,保护环境=0.5, 然后看相同的实验下其成果怎么。基线(依然不同不大)

横向的动摇已比用“往常”的微分得到成果要好了:


终究是三大壁垒以及元符号法:

现在咱们能够确认,分数微分是十分有用的转化东西,能够从原始时刻序列中保存更多的信息。


结语


在这篇文章中,咱们回忆金融网站上的bars的创立办法,并提出新的创立办法。咱们评论了它们的核算特性,并得出定论,成交量bars和成交额bars比规范的依据时刻的bars要愈加有用。依据不断动摇的商场以及预先确认的获利和止损方针,发现符号输出的更有用的谭芷昀的妈妈个人资料办法。终究,咱们回忆了可使金融时刻序列安稳而又不失掉悉数回忆的办法。咱们还评价了一切的数据和符号实验,从中能够看到,一切的具有含义的进步都能够让猜测成果更安稳,更精确。

完好代码:

https://github.com/Rachnog/Advanced-Deep-Trading/tree/master/bars-labels-diff

点击展开全文

上一篇:

下一篇:

相关推荐