主办方:APIGM

讲师介绍: Bin Zhu(Not Box) 16+ 年多平台软件开发经验 10+年数据库实战,曾任职美洲最大成人网站Pornhub研发经理,Montreal大数据架构专家。目前在蒙特利尔FaimData担任Co-Founder从事人工智能相关的工作。他也是蒙特利尔猿媛群(500+)的群主,为了能让更多人联系起来近期开放了一个无人数限制的交流群:Telegram ID: t.me/mcyyq。通过多次线上线下的分享讲座,蒙特利尔的程序员们也从中受益匪浅,很多都通过一系列的培训,讲座,人脉扩展找到了更好的工作。

他也曾于2016年在大数据文摘发表一篇名为:【如何用 Kafka + Samza 实时处理百亿数据-成人网站如何实时处理百亿数据?】的帖子,目前被多家国内媒体转载,可谓是声名远扬海内外啊。

接下来就来看看干货啦:

大数据系列 Part I

大数据系列 Part II–Big data 进阶与未来

大数据系列 Part III实战运用-笔记版

用户画像
地理位置 喜好 mainstream的广告 停留时间
kafka 分布式的queue 直接存硬盘
cluster需要限制 不是越大越好 50-100台以内
系统恢复时 网卡上限 1-10G
多对多的读写 producer comsumer
topic只是一个group 物理分区叫partition
offset是primary key
partition leader-》2follower分别在不同的partition里 避免单点故障
garanter先进先出 只能保证每个partition里 不能保证是topic里面
Kafka保证数据至少处理一次 没有只处理一次
rmq 处理-acknowledge
每分钟/每秒上传处理过的数据
Kafka需要自己处理维护偏移值 RMQ其实是单点坏了转换到slave
删除方式:批量删除 设置TTL time to live
复制compaction生成新文件只有24hr以内的
3-7天
Kafka如何扩展保证无单点故障?samza流处理框架 重启一致性
数据层Kafka
执行层 Hadoop yarn
处理层 samza 生成offset(记录处理了多少)存回Kafka
topic partition决定并发的数量,根据预期来定义
VS spark 伪streaming mini batch
VS storm top logic耦合 会影响到别的业务 都需要停下来
大数据文摘.jpg

 

Advertisements