腾讯云授权服务中心
查看授权资质
大数据处理套件完整覆盖数据抽取、转换、加载、建模、分析、报表呈现、数据治理等数仓建设环节,用户可借助TBDS大数据套件在公有云、私有云、非云化环境快速建设TB到PB级的企业数据仓库和数据集市,搭建专属的大数据应用。
通过大数据处理套件,用户可显著降低基于企业数据仓库的数据应用开发周期,降低开发成本,还可大大降低数据仓库、数据处理、数据应用的运维成本
用户可基于腾讯大数据套件快速开发本行业在实时流式场景下的大数据处理、分析的应用程序,以实现对企业实时业务的风险监控与告警,以占据大数据时代的优势地位。
流式数据处理可用于金融行业的风险管控、物联网的海量传感器数据处理、工业生产线的实时故障预警、病人特征数据实时分析、实时交通流量分析、互联网实时流量分析等应用场景。
腾讯大数据套件基于Hadoop体系的MapReduce、HIVE、PIG、SPARK技术向企业用户提供的强大的数据离线批处理能力,用户可以便捷的使用腾讯大数据套件对企业数据进行抽取、转换、加载等离线数据处理加工。
通过离线数据处理引擎,用户可迅速的对企业所积累的数据进行ETL处理,快速发掘海量历史数据的商业价值和社会价值。
通过腾讯大数据处理套件所提供的强大数据分析与探索挖掘能力,用户可快速对企业在PB级规模下的大数据进行可视化的数据分析探索,在纷繁复杂的商业数据中快速获取数据洞察力,占领商业先机。
用户还可通过腾讯大数据处理套件所提供的强大机器学习能力对企业数据进行深度挖掘,进一步发掘海量数据中蕴藏的无限价值。
优势点 | TBDS | 开源Hadoop体系 |
---|---|---|
安全性 | 国际认证的系统安全加固服务。 |
外部安全风险防控严重依赖企业安全团队能力。 |
易用性 | 数据接入、处理、存储、分析、展现、机器学习的拖拽式全链路大数据开发。 |
部署复杂,平台建设周期长达数月,后期大数据架构调整困难。 |
可用性 | 数据节点分布式部署,可选多份备份。 |
人才储备能力的差异性带来大数据平台稳定性的不可预测。 |
可运维 | 超大规模服务支撑,单集群可支撑近万节点。 |
运维入口分散,随集群规模和组件规模的增长,运维成本非线性急剧增加。 |
性能 | 高性能数据接入引擎,内部业务日接入五万亿条数据。 |
性能上严重依赖硬件设备能力和开发工程师、运维工程师的技术能力。 |
成本 | 冷热数据区分及差异化高强度压缩技术有效降低至72%的存储成本。 |
IT能力薄弱的企业无足够的能力对现有的大数据硬件成本进行深度优化。 |
服务 | 专家级架构咨询及技术咨询服务。 |
通过邮件、论坛等离线渠道求助于开源社区,沟通周期可能长达数周。 |
易用、安全、稳定、高性能的全链路大数据开发引擎。提供拖拽式的可视化数据开发IDE,为用户的大数据集成、存储、计算环节提供完整而稳定的企业级解决方案。用户能借助于大数据套件获取到强大的大数据开发能力,聚焦于进行企业的业务创新。
支持Flume、Tube、Kafka的数据实时接入。
支持Mysql、Postgre、Oracle等主流关系数据库高效导入,支持文本类日志数据离线导入。
支持高强度数据压缩及加密传输,历经每天峰值1.46P、5万亿条数据接入考验。
支持块存储、分布式文件、对象存储、SQL、NoSQL从GB到PB量级的存储解决方案,满足企业客户复杂存储应用场景。
存储系统高可靠容灾设计,可靠性可达99.996%,用户按需选择数据热备数量,支持冷热数据分治,支持数据冷备策略自定义。
高可扩展设计,存储系统可动态随企业数据量增加从G到P级的动态扩容,支持系统不停机动态扩容。
集群数据平衡成本最小化。
支持MapReduce、Hive、Pig等批处理计算作业。
支持Spark分布式内存计算框架,以支持复杂的数据挖掘算法和图计算算法。
支持丰富的作业调度策略,包含分钟、小时、天、月级周期或非周期的任务执行策略。
支持TStorm(腾讯对社区Storm流处理引擎重写的java版本)、Storm流式任务作业引擎,覆盖实时要求极高的流式作业场景。
支持基于Spark上的Spark Streaming,满足毫秒级的实时计算场景需求,如实时推荐、用户行为分析等。
拖拽式的工作流开发IDE,简单Web式拖拽操作来完成整个大数据工作流的任务开发。
内置丰富的处理器,囊括离线数据导入导出、在线实时数据接入、Java程序、Shell脚本、机器学习等多种任务的配置集成。
万级纬度、千亿数据规模下向用户提供毫秒级高性能检索分析服务,满足用户的检索分析场景需求。
基于Lucene的文本搜索服务器ElasticSearch向用户提供友好的RESTful接口的分布式多用户能力的全文搜索引擎,支持TB级别的全文检索应用。
功能强大的数据分析与探索挖掘引擎。包含基于纬度建模的多维分析、交互式探索分析、机器学习、深度学习、可视化敏捷报表门户等功能,向用户提供强大的数据分析与数据挖掘能力,助力用户大数据的价值发现。
基于Apache Kylin开源分布式分析引擎,为用户提供基于Hbase存储的数据Cube预建模及百亿行规模的SQL数据分析能力,满足企业级用户面向部门的数据集市建设需求。
采用列存储技术、万维标签查询处理技术为用户提供实时的多维交互式SQL查询、统计、分析系统,支撑万级维度、千亿级规模下的秒级数据统计分析需求,支持数据离线导入及在线数据实时接入。
支持核心SQL 2003标准的分布式关系数据库,完全兼容PostgreSQL的SQL语法,支持主键、触发器、约束、函数、存储过程、跨节点join等绝大部分的SQL特性。
同时满足百T级数据规模的OLTP和OLAP应用场景。
单机20000TPS,支持服务器在线扩容,扩容后性能表现接近线性扩展。
内核级支持数据库分库分表,分库分表逻辑对业务完全透明化,简化业务的数据访问逻辑。
内核级支持冷热数据分治,业务无需感知底层存储介质的差异,对外提供统一的数据库视图,可有效降低服务器硬件成本。
可选多份数据热备,保障系统高可用,故障秒级切换。
可视化数据源配置,可视化自助创建报表门户,轻松把握业务脉搏,助力企业决策。
数据内容的可视化配置推送,支持邮件、微信渠道报表定向推送。
内置十余种图表模板,表格、曲线图、柱状图、饼图、雷达图等主流图表模板一应囊括。
集成Spark、Python、R、XGBoost等四种机器学习框架,支持图计算和深度学习。
内置分类、回归、聚类、关联规则等60余种丰富算法。
可视化的Web拖拽式机器学习任务流开发。
支持团队协作开发。
开箱即用的数据治理工具。面向企业数据治理需求,提供完善的数据元信息管理功能。支持细到字段级别的数据权限管控,包含库表数据字典、数据血缘跟踪与溯源、热点数据分析等特色功能,以帮助企业客户提高海量数据资产的管理效率。
提供文件、库、表、字段级的数据权限控制能力。
支持基于项目、用户、角色纬度的数据权限验证和授权,保障企业数据资产安全。
完善的访问审计及敏感访问预警模型。
可视化元信息管理工具,满足用户对海量数据的元信息检索、标注、数据口径标准化等诉求,有效提高企业数据资产管理效率。
包含血缘分析、直系分析、重要性分析等数据治理工具。
用户可通过元数据分析直观了解到数据的来源、数据之间的关系、数据与任务的计算关系、数据流向、数据被引用次数等重要信息,便于用户直观的把握数据资产状况。
降低提数门槛,业务人员也可自助提数,减少沟通环节,提数周期从周降低到分钟级别,大大提高企业的商业决策效率。
完备的数据权限管控机制始终贯穿自助提数的整个环节,在降低成本的同时更降低数据安全风险。
一站式的可视化运维管理平台。包含一键式集群部署、增量部署、丰富的可视化运维工具、完善的面向多租户的计算资源管控体系和完善的用户权限管理体系为客户提供企业级的大数据平台运维管理能力支撑。
平台一键式部署,用户的部署时间成本从数周降低到数小时。
适应企业数据规模增长一键式线性扩容。
30余组件一键式增量部署,用户可根据企业的快速发展实时调整大数据架构。
集群运维仪表盘的实时呈现,完善的可视化监控视图为用户提供集群运行状态实时感知能力。
支持自定义短信、邮件渠道的服务异常告警。
完整多租户方案面向企业提供部门级的计算、存储资源分配与隔离。
支持资源的动态调整,结合完善的资源指标监控系统可为用户极大程度的提升系统吞吐量。
支持以项目,角色为主体的数据、计算资源申请使用。
项目任务的可视化运维,包含项目内的实时、离线、机器学习等任务的运行状态指标。
内置项目管理员、运维工程师、开发工程师三种项目角色,满足大多数部门级大数据处理场景。
支持基于项目的角色自定义,企业客户可根据企业特点打造专属的大数据项目管理模型。
基于用户、用户组、项目的用户管理体系。
单点登录,统一访问策略体系。
100倍
5 天
免费
1V1
7×24