生产EMR集群高可用升级
1、背景 在业务发展初期,数据量较少,统计需求也较少。基于成本考虑,EMR集群规模为1个master主节点+3个核心节点。 主节点负责管理集群,它通过运行软件组件来协调在其它节点之间分配数据和任务的过程以便进行处理。主节点跟踪任务的状态并监控集群的运行状况。 核心节点具有运行任务 »
1、背景 在业务发展初期,数据量较少,统计需求也较少。基于成本考虑,EMR集群规模为1个master主节点+3个核心节点。 主节点负责管理集群,它通过运行软件组件来协调在其它节点之间分配数据和任务的过程以便进行处理。主节点跟踪任务的状态并监控集群的运行状况。 核心节点具有运行任务 »
前言 前面有讲过因为主机内存资源不足导致主机及pod均NotReady的状态,今天分享一个因为主机磁盘资源不足导致pod Evicted的故障。 故障现象 收到告警,有大量pod处于Evicted状态。 故障排查 查看告警后发现有问题的pod,均是调度到了同一台主机后出现的Evi »
背景 某业务服务端接口有验签逻辑、Postman调用接口自测加签麻烦 需要服务端多个环境域名切换测试 服务端接口部分需要登录后测试 Pre-request Script简介 Postman 有一个基于 Node.js 的强大运行时,它允许我们向请求和集合中添加动态行为。允许我们编 »
1、问题现象 hdfs 其中一个datanode宕机后,在此datanode上的block损坏,导致hdfs进入安全模式。 在hdfs的首页可以当前safe mode是on开启的状态。表明当前HDFS已经进入安全模式。 2、什么是安全模式 Hdfs 的安全模式,即 HDFS s »
故障现象 收到告警,有主机处于NotReady状态,并且该主机的cpu使用率,内存使用率,负载都很高。 故障排查 登陆容器,查看node状态,发现主机处于NotReady状态。 查看主机内的容器状态,发现部分pod处于“删除中”状态,部分pod处于“重启”状态。 登陆华为云,查看 »
一、实时数仓建设背景 1. 实时需求日趋迫切 目前公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高 »
前景: 最近经历了TuTu和Yaame 的开发之后,发现国际化过程占用了大量的时间成本。国际化过程工作量大,没有什么技术含量。 思考 能不能通过脚本来实现iOS项目的文案国际化的流程呢?把从获取项目内的文案,到翻译,再到更新到本地的Local文件内,最后修改项目内的代码。 方案 »
一、背景 项目升级JDK11,主要基于以下几个出发点: 目前公司使用的JDK8,在2019年1月已经停止更新维护 越来越多的框架和第三方库新版本不再兼容低版本JDK,如果想使用新版本的特性就必须升级。以下是一些常见的框架和第三方库,在其最新版本中需要使用JDK11及以上版本: S »
一、开发背景 业务组内前端项目有大量日历黄历相关计算,且需要应用在H5、小程序等诸多平台,这部分算法原先放在js文件中作为模块导出,并没有封装成库。这样做的缺点有: API没有统一的文档,使用不方便。 需要重复通过调用函数实现业务。 不便于管理,算法中有错误没法及时修改到 »
一、背景 企业生产环境中,会出现大量依赖中间状态的实时任务,目前flink的状态存储有Memory、FileSystem 和 RocksDB 三种可选,且 RocksDB 是状态数据量较大(GB 到 TB 级别)时的唯一选择。RocksDB 的性能发挥非常仰赖调优,如果全部采 »