Big Data Arch

背景

行业案例

腾讯游戏大数据应用

大数据背后的价值 - 腾讯游戏大数据应用

大数据落地应用 = 数据 + 系统 + 算法 + 应用场景
腾讯游戏用户数据分层体系
腾讯游戏数据处理系统架构

饿了么数据仓库治理及数据应用

大数据背后的价值 - 饿了么数据仓库治理及数据应用

数据仓库的建设

标准化和规范化

统一日志搜集框架

原则

主题划分
数据一致性
维度建设

TODO

数据权限管理
数据使用记录
数据开放平台

Uber Freight Carrier Metrics With Near-Real-Time Analytics

Uber Final System Design

目录

Introduction
How We Did It
- Backend Requirement
- Potential Solution Considered
- Final System Design
- Data Schema
- Flink stateful Stream Process
- Hybrid Pinot Table
- Golang GRPC Service
Impact
Conclusion

通用方案

存储读取/写入

Data Lake 系列：关于 EMRFS S3 优化的提交程序，你了解吗文章与 FileOutputCommitter 进行了比较。

同时在 github repo s3committer 引出了 multi-part upload API 技术，可以用于处理大文件上传慢的问题。

但是对于小文件上传问题，是否可以就并发上传就行了呢？ No

方案：压缩上传，上传完成后通过 AWS Lambda 来解压缩。其中通过流（Stream）的方式解决 Only 500MB of disk space per instance 的限制^[1]，但执行时间有15分钟的限制，对于超大文件还是有。

参考

[1] John Paul Hayes: How to extract a HUGE zip file in an Amazon S3 bucket by using AWS Lambda and Python

·End·

最后修改 September 3, 2022 : add uber freight carrier system design (e664774)