博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ES学习笔记之-AvgAggregation的实现过程分析
阅读量:5970 次
发布时间:2019-06-19

本文共 4375 字,大约阅读时间需要 14 分钟。

我们需要查看数据的统计量时,均值是最重要的特征之一。

对于海量数据,这类简单的聚合ES可以做到秒级别返回。聚合是ES的特色功能。

那么ES是如何实现这一功能的呢?

我们知道,ES的数据存储在各个节点中, 所以ES的实现AvgAggregation时基本思路就是先统计各个节点,然后汇总。

先了解ES是如何统计单个节点: 参考AvgAggregator

@Override    public LeafBucketCollector getLeafCollector(LeafReaderContext ctx,            final LeafBucketCollector sub) throws IOException {        if (valuesSource == null) {            return LeafBucketCollector.NO_OP_COLLECTOR;        }        final BigArrays bigArrays = context.bigArrays();        final SortedNumericDoubleValues values = valuesSource.doubleValues(ctx);        return new LeafBucketCollectorBase(sub, values) {            @Override            public void collect(int doc, long bucket) throws IOException {                counts = bigArrays.grow(counts, bucket + 1);                sums = bigArrays.grow(sums, bucket + 1);                values.setDocument(doc);                final int valueCount = values.count();                counts.increment(bucket, valueCount);                double sum = 0;                for (int i = 0; i < valueCount; i++) {                    sum += values.valueAt(i);                }                sums.increment(bucket, sum);            }        };    }

即实现Collector类的collect()方法。然后通过doc_values机制获取文档相关字段的值,分别汇入counts和sums两个变量中。

收集完成counts和sums过后,就需要汇总各个节点的值, 这在搜索的第二阶段。

从第一阶段到第二阶段,整个链路如下:

s1: 前端请求发送到集群某一节点的TransportSearchAction.doExecute()方法中。

switch(searchRequest.searchType()) {               .....           case QUERY_THEN_FETCH:                searchAsyncAction = new SearchQueryThenFetchAsyncAction(logger, searchService, clusterService,                        indexNameExpressionResolver, searchPhaseController, threadPool, searchRequest, listener);                break;              ......        }        searchAsyncAction.start();

见到start()方法,我以为这个是另启一个线程,后面发现原来不是的。 这个start()方法把整个查询过程分为两个阶段:

阶段一:

performFirstPhase(), 即把请求分发到各个节点,然后记录节点处理的结果。如果返回的分片是最后一个分片,则转入阶段二。

阶段二:

performFirstPhase() -> onFirstPhaseResult() -> innerMoveToSecondPhase() -> moveToSecondPhase() 。这里利用了模板设计模式。在阶段二中,会再次向各个节点发起请求,通过docId获取文档内容。

s2: 对于聚合而言, 阶段二最重要的链路是moveToSecondPhase() -> executeFetch() -> finishHim() -> searchPhaseController.merge() , merge()中包含了如下的业务逻辑: 合并hits, 合并suggest, 合并addAggregation 等。 这里我们关注聚合。

聚合的入口方法是InternalAggregations.reduce(), 如果熟悉hadoop, reduce方法的执行逻辑看这个名字也能理解一部分。reduce的中文翻译“归纳”,挺生动形象的。整个链路的入口为InternalAvg.doReduce()

@Override    public InternalAvg doReduce(List
aggregations, ReduceContext reduceContext) { long count = 0; double sum = 0; for (InternalAggregation aggregation : aggregations) { count += ((InternalAvg) aggregation).count; sum += ((InternalAvg) aggregation).sum; } return new InternalAvg(getName(), sum, count, valueFormatter, pipelineAggregators(), getMetaData()); }

其逻辑相当简单,count相加, sum相加。获取最终的结果就是

public double getValue() {        return sum / count;    }

上面讲述了ES分发会汇总的关键节点,那么分发到各个节点的业务逻辑是怎样的呢?

首先定位入口:

class SearchQueryTransportHandler extends TransportRequestHandler
{ @Override public void messageReceived(ShardSearchTransportRequest request, TransportChannel channel) throws Exception { QuerySearchResultProvider result = searchService.executeQueryPhase(request); channel.sendResponse(result); } }

然后定位到QueryPhrase.execute(), 在QueryPhrase这个阶段,主要做的事情如下:

aggregationPhase.preProcess(searchContext): 解析ES的语法,生成Collector.

execute: 在调用Lucene的接口查询数据前,组合各个Collecotr, collector = MultiCollector.wrap(subCollectors); 然后查询Lucene索引。对于AvgAggregator, 其关键逻辑是:

@Override            public void collect(int doc, long bucket) throws IOException {                counts = bigArrays.grow(counts, bucket + 1);                sums = bigArrays.grow(sums, bucket + 1);                values.setDocument(doc);                final int valueCount = values.count();                counts.increment(bucket, valueCount);                double sum = 0;                for (int i = 0; i < valueCount; i++) {                    sum += values.valueAt(i);                }                sums.increment(bucket, sum);            }

这个已经是第二次出现了, 它的功能就是收集每个命中查询的doc相关信息。 这里获取每个docId对应的value,是基于doc_value的正向索引。

以上就是整个Avg Aggregation的实现流程。 通过源码,可以确认, AvgAggregation是精确可信的。 还有几个聚合函数,其思路跟AvgAggregation是一致的,就不细说了,他们分别是: Max, Min, Sum, ValueCount, Stats 。。。

转载于:https://blog.51cto.com/sbp810050504/2324922

你可能感兴趣的文章
度量时间差
查看>>
通过jsp请求Servlet来操作HBASE
查看>>
Shell编程基础
查看>>
Shell之Sed常用用法
查看>>
Centos下基于Hadoop安装Spark(分布式)
查看>>
3D地图的定时高亮和点击事件(基于echarts)
查看>>
mysql开启binlog
查看>>
设置Eclipse编码方式
查看>>
分布式系统唯一ID生成方案汇总【转】
查看>>
并查集hdu1232
查看>>
Mysql 监视工具
查看>>
Linux Namespace系列(09):利用Namespace创建一个简单可用的容器
查看>>
博客搬家了
查看>>
Python中使用ElementTree解析xml
查看>>
jquery 操作iframe、frameset
查看>>
解决vim中不能使用小键盘
查看>>
jenkins权限管理,实现不同用户组显示对应视图views中不同的jobs
查看>>
批量删除用户--Shell脚本
查看>>
Eclipse Java @Override 报错
查看>>
linux的日志服务器关于屏蔽一些关键字的方法
查看>>