实时计算框架 Flink 在教育行业的应用实践
如今,越来越多的业务场景要求 OLTP 系统能及时得到业务数据计算、分析后的结果,这就需要实时的流式计算如 Flink 等来保障。例如,在 TB 级别数据量的数据库中,通过 SQL 语句或相关 API 直接对原始数据进行大规模关联、聚合操作,是无法做到在极短的时间内通过接口反馈到前端进行展示的。若想实现大规模数据的...
View Article乐心医疗的 Kubernetes 云平台建设实践
Kubernetes 自 2014 年被 Google 开源以来,很快便成为了容器编排领域的标准。因其支持自动化部署、大规模可伸缩和容器化管理等天然优势,已经被广泛接纳。但由于 Kubernetes 本身的复杂性,也让很多企业的 Kubernetes 探索之路充满挑战。 从最初的自建 Kubernetes 到后来迁移至 UK8S 平台,整个过程遇到了哪些问题并如何解决的呢?本文将带来乐心医疗在...
View Article浅谈Forrester零信任架构评估的7个技术维度
零信任是由Forrester Research的分析师John Kindervag在2009开发,并在2010年正式提出的。在过去的10年间,随着云计算、移动互联等技术发展以及全球范围内部威胁的不断涌现,零信任越来越为产业界所接受。Google从2011年开始探索和实践零信任,并在2014年发表了BeyondCorp系列研究论文,成为零信任大规模实施的典范。...
View Article风险控制:信用评分卡模型
什么是信用评分卡模型?评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点:判断快速:系统只...
View ArticleOptuna自动调参使用指南
在日常工作中用到的比较多的还是树回归模型,由于LightGBM不需要的类别数据进行预处理所以用得特别多,中间涉及到超参数优化时通常使用随机参数优化方法。在...
View ArticleVue 3 组件开发:搭建基于SpreadJS的表格编辑系统(环境搭建)
Vue是一套用于构建用户界面的渐进式框架,与其它大型 JS 框架不同,Vue 被设计为可以自底向上逐层应用,更易上手,还便于与第三方库或既有项目整合,因此,Vue完全能够为复杂的单页应用提供驱动。2020年09月18日,Vue.js 3.0 正式发布,作者尤雨溪将其描述为:更快、更小、更易于维护。Vue 3都加入了哪些新功能?本次发布, Vue框架本身迎来了多项更新,如Vue 此前的反应系统是使用...
View Article知名网站热门排序算法分析
很多内容网站都会根据用户的交互信息等对内容进行排序。这里整理了一些比较知名的内容网站的排序规则,每个网站都有不同,在此过程中,我们不仅仅要了解其排序规则(公式),更多的期望了解公式背后的逻辑。Hacker NewsHacker News是一家关于计算机黑客和创业公司的社会化新闻网站,由 Paul Graham 的创业孵化器 Y Combinator 创建。与其它社会化新闻网站不同的是 Hacker...
View Article抖音推荐机制与算法的研究
最近公司的部分运营工作涉及到的抖音短视频的宣传。为了达到更好的效果,于是对抖音的推荐机制进行了简单的整理和研究。通过数据的分析,我们发现在传播效果方面,抖音>小红书>微信朋友圈>新浪微博。究其原因是内容分发的逻辑存在非常大的差异。微信朋友圈、新浪微博:订阅模式,用户仅能看到好友或关注者的信息抖音、小红书:非订阅模式,用户可以看到个除关注用户以外的其他内容微信虽然可以通过转发传播,但...
View Article有道精品课实时数据中台建设实践
撰文/ 李荣谦编辑/ Ryan来源:有道技术团队(ID: youdaotech)0 序言本期文章中,有道精品课技术团队将和大家分享有道精品课 数据中台的架构演进过程以及 Doris 作为一个 MPP 分析型数据库是如何为不断增长的业务体量提供有效支撑并进行数据赋能的。本文以我们在实时数仓选型的经验为切入点,进一步着重分享使用 Doris 过程中遇到的问题,以及我们针对这些问题所做出的调整和优化。1...
View Article通过SQL定义用户浏览Session
PC时代,用户问页面时,我们会先检查用户的Cookie中是否存在SessionId,如果不存在,则会通过随机数的方式生成一个SessionId存入Cookie中。如果存在,我们会更新这个Cookie的失效时间(30分钟后)。即只要用户访问的间隔在30分钟内则被认为是同一个Seesion,超过30分钟则会生成一个新的SeesionId,将浏览定义为一个新的Session。APP时代或者小程序的时代,通...
View Article从源码中来,到业务中去,React性能优化终极指南
前言:我们从React源码入手,结合有道精品课大前端的具体业务,运用三大原则对系统进行外科手术式的优化。同时介绍React Profiler这款工具如何帮我们定位性能瓶颈前言:我们从React源码入手,结合有道精品课大前端的具体业务,运用三大原则对系统进行外科手术式的优化。同时介绍React Profiler这款工具如何帮我们定位性能瓶颈作者/ 安增平编辑/...
View Article盲盒是变相赌博OR智商税?
盲盒的起源盲盒顾名思义,就是看不见内容的盒子,其内部放置着不同的物品,消费者凭运气抽中商品。小小的盒子里装着不同样式的玩偶,在拆封之前永远不知道里面是什么,正是这种随机化的体验,让用户欲罢不能。盲盒营销最早可以追溯到明治末期的日本,其“前身”是日本百货公司在新年期间用来促销的福袋,福袋促销的方式通常用来作为商品尾货处理,用户既能获得趣味性体验,商家也可以成功清理库存。福袋的营销思路延续到了80年代的...
View Article为了效率不应该做的7件事
把自己弄得忙忙碌碌,但回头看碌碌无为。无意看到这篇文章,感觉对自己非常有用,记录下来自勉。设想一下有一个不停工作的小业务员,努力工作并不能帮助他战胜成千上万的竞争对手。...
View Article游戏排名算法:Elo、Glicko、TrueSkill
Elo等级分制度Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad...
View Article线性回归实战:波士顿房价预测
了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit和Statsmodels。数据集的准备美国波士顿房价的数据集是sklearn里面默认的数据集,sklearn内置的数据集都位于datasets子模块下。一共506套房屋的数据,每个房屋有13个特征值。from sklearn.datasets import load_boston...
View Article数据分析该知道的IP地址知识
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址。即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析。最近在推进风控项目时又有遇到,所以抽时间把相关的知识点做下简单的整理。什么是IP地址?IP地址(英语:IP Address,全称Internet Protocol...
View Article服务高可用之限流
在不同场景下限流的定义也各不相同,可以是每秒请求数、每秒事务处理数、网络流量。通常我们所说的限流指的是限制到达系统并发请求数,使得系统能够正常的处理部分用户的请求,来保证系统的稳定性。限流的英文是Rate limit(速率限制),维基百科中的定义比较简单。我们编写的程序可以被外部调用,Web 应用通过浏览器或者其他方式的 HTTP...
View Article用户体系搭建之ID-Mapping
ID-Mapping简介在推进用户画像和风险控制时,遇到的最大的问题是用户身份信息的混乱:相同设备,不同账号间切换相同用户,不同渠道下账号不相同,如微信小程序和APP同个用户,在不同的设备商登录…ID-Mapping是大数据分析中非常基本但又关键的环节,ID-Mapping通俗的说就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业...
View Article