生产EMR集群高可用升级

1、背景 在业务发展初期,数据量较少,统计需求也较少。基于成本考虑,EMR集群规模为1个master主节点+3个核心节点。 主节点负责管理集群,它通过运行软件组件来协调在其它节点之间分配数据和任务的过程以便进行处理。主节点跟踪任务的状态并监控集群的运行状况。 核心节点具有运行任务 »

k8s故障排查之主机资源不足-磁盘篇

前言 前面有讲过因为主机内存资源不足导致主机及pod均NotReady的状态,今天分享一个因为主机磁盘资源不足导致pod Evicted的故障。 故障现象 收到告警,有大量pod处于Evicted状态。 故障排查 查看告警后发现有问题的pod,均是调度到了同一台主机后出现的Evi »

生产HDFS进入安全模式故障处理

1、问题现象 hdfs 其中一个datanode宕机后,在此datanode上的block损坏,导致hdfs进入安全模式。 在hdfs的首页可以当前safe mode是on开启的状态。表明当前HDFS已经进入安全模式。 2、什么是安全模式 Hdfs 的安全模式,即 HDFS s »

K8S故障排查之主机NotReady

故障现象 收到告警,有主机处于NotReady状态,并且该主机的cpu使用率,内存使用率,负载都很高。 故障排查 登陆容器,查看node状态,发现主机处于NotReady状态。 查看主机内的容器状态,发现部分pod处于“删除中”状态,部分pod处于“重启”状态。 登陆华为云,查看 »

微鲤实时数仓建设方案及整体规划

一、实时数仓建设背景 1. 实时需求日趋迫切 目前公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高 »

怎样以最小的时间成本实现iOS项目的文案国际化----支持OC和Swift项目

前景: 最近经历了TuTu和Yaame 的开发之后,发现国际化过程占用了大量的时间成本。国际化过程工作量大,没有什么技术含量。 思考 能不能通过脚本来实现iOS项目的文案国际化的流程呢?把从获取项目内的文案,到翻译,再到更新到本地的Local文件内,最后修改项目内的代码。 方案 »

JDK升级总结

一、背景 项目升级JDK11,主要基于以下几个出发点: 目前公司使用的JDK8,在2019年1月已经停止更新维护 越来越多的框架和第三方库新版本不再兼容低版本JDK,如果想使用新版本的特性就必须升级。以下是一些常见的框架和第三方库,在其最新版本中需要使用JDK11及以上版本: S »

前端库开发经验小结

一、开发背景 业务组内前端项目有大量日历黄历相关计算,且需要应用在H5、小程序等诸多平台,这部分算法原先放在js文件中作为模块导出,并没有封装成库。这样做的缺点有: API没有统一的文档,使用不方便。 需要重复通过调用函数实现业务。 不便于管理,算法中有错误没法及时修改到 »

Flink优化--RocksDB状态及Checkpoint调优

一、背景 企业生产环境中,会出现大量依赖中间状态的实时任务,目前flink的状态存储有Memory、FileSystem 和 RocksDB 三种可选,且 RocksDB 是状态数据量较大(GB 到 TB 级别)时的唯一选择。RocksDB 的性能发挥非常仰赖调优,如果全部采 »