当前位置:首页 > TAG信息列表 > 日志收集框架对比如何有效完整地收集log日志?介绍

日志收集框架对比如何有效完整地收集log日志?介绍

日志收集框架对比 如何有效完整地收集log日志?

如何有效完整地收集log日志?

你指的是什么?

你表达的不够全面

如何优化日志系统?

日志收集框架对比 如何有效完整地收集log日志?

答:此题邀请xinghua来解答,他总结了实际项目中对elk系统的一些调优的经验,与你分享百亿级elk日志系统优化纪实。

导语:elk是搭建实时日志分析系统的通用解决方案,通过elk可以方便地收集、搜索日志。但随着日志量的增加,根据实际应用场景的优化调整能够更充分的利用系统资源。本文主要记录我们项目中对elk系统的一些调优。随着王者人生相关业务的快速发展,我们每天日志量很快超过了20亿条,存储超过2tb,elk日志系统的压力逐渐增加,日志系统的调整优化已经迫在眉睫。

1、日志系统架构

(elk日志系统架构)

filebeat是一个轻量级的日志收集处理工具(agent)。

elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。

logstash主要是用来日志的搜集、分析、过滤日志的工具,支持大量的数据获取。

kibana可以为logstash和elasticsearch提供的日志分析友好的web界面,可以帮助汇总、分析和搜索重要数据日志。

2、优化日志系统以下主要介绍filebeat、logstash、elasticsearch的一些优化调整

2.1filebeat优化

(1)负载均衡

问题:当日志量非常大(单机超过每天超100gb)的模块上报日志时,日志落地延时大,要等一段时间才能在es里查出来。

原因:

当filebeat.yml配置文件里hosts配置了多个logstash主机,并且loadbalance设置为true,则输出插件会将已发布的事件负载平衡到所有logstash主机上。如果设置为false,则输出插件仅将所有事件发送到一个主机(随机确定),如果所选主机无响应,则会切换到另一个主机。默认值为false。

方案:配置多个hosts,配置loadbalance为true

(修改配置前只有一个连接)

(负载均衡优化后多个连接)

效果

单机filebeat吞吐量变大

(多连接优化后单机出流量变大)

(es创建索引的速度变大)

(2)上报采集源服务器ip

问题:不是所有日志都会打印本机ip,比如异常错误日志往往无法打印服务器ip。这部分日志收集之后无法区分来源,难以定位问题。

原因:filebeat目前不支持上报本机ip

方案:添加字段client_ip,重启脚本动态修改client_ip为本机ip

filebeat.yml部分配置

restart_示例

效果

异常日志也能定位服务器ip

2.2logstash优化

(1)日志清洗、格式化

问题:采集的原始日志不规范,需要过滤,格式化

方案:利用logstash进行清理

示例

效果

以删掉message字段为例看效果

(删掉message前冗余一份完整原始日志)

效果

平均每条日志存储空间从1.2kb下降到0.84kb,减少了近30%的存储

(每天日志统计)

2.3elasticsearch优化

(1)优化模板_template配置

问题:随着王者荣耀wifi特权上线,日志量激增,默认配置下磁盘达到瓶颈。

原因:默认配置满足不了项目需要

number_of_shards是数据分片数,默认为5

当es集群节点超过分片数时,不能充分利用所有节点

number_of_replicas是数据备份数,默认是1

方案:调整模板配置

number_of_shards改为72

number_of_replicas改为0

效果

每天日志的72个分片均匀分部在36个节点

(每个节点分配了2个分片)

备份从1改成了0,减少了一半的写入

(io使用率降低)

3.总结通过以上调整,目前elk日志系统可以支持每天超过20亿条,2.2tb的日志,峰值创建索引超6万qps

后续优化:不同配置(磁盘空间)机器按权重分配,充分利用资源

日志系统方案elk效果


圣世安 太⽩号

  • 关注微信关注微信

猜你喜欢

微信公众号