一、ODPS(MaxCompute)基础教程
1. 什么是ODPS
简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。
本命其实叫 MaxCompute ,本文介绍统称为ODPS
官方文档链接:
DataWorks 开发套件
是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。
官方文档链接:
2. 登录篇(阿里云子账号)
子账号登录地址:
产品列表:数加 · DataWorks
账号赋权:如需要进行数据开发,需要根据业务需求,赋对应的工作空间的对应权限。
进入DataWorks> 工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)
2.使用篇
目前数据仓库的整体概况
目前承载的业务
业务操作日志备份分析
其他日志:系统运行日志
BI 数据分析相关(市场部BI)
开发前环境准备
开通DataWorks 权限的子账号
创建项目(1)
官方的文档:
目前我们的工作空间
新建调度资源(2)
一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)
需要进行特殊的数据集成、数据操作时会用到自定义资源
PyOdps 资源组:执行py脚本的资源组
mongoDB 资源组:进行MongDb --> ODPS 时会用到资源进行数据同步。
新增数据源(3)
路径:选择项目 -> 选择数据集成 -> 同步资源管理 -> 数据源
按照官方文档新增即可
数据源列表
批量数据上云(4)
路径:选择项目 -> 选择数据集成 -> 同步资源管理 -> 数据源 -> 整库数据迁移
数据开发前准备工作完成,可以进入开发阶段。
3 开发篇
数据开发
基本概念:
业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。
解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。
其他的概念:
数据开发流程:
数据开发流程:
选取两个现有的业务进行数据开发演示
财务部门需求
数据埋点分析
流程图如下
4 运维
运维中心:
二、数据分析系统有哪些?
1、 Cloudera Cloudera
提供一个可扩展、灵活、集成的平台,可用来方便的管理您的企业中快速增长的多种多样的数据,从而部署和管理Hadoop和相关项目、操作和分析您的数据以及保护数据的安全。Cloudera Manager是一个复杂的应用程序,用于部署、管理、监控CDH部署并诊断问题,Cloudera Manager提供Admin Console,这是一种基于Web的用户界面,是您的企业数据管理简单而直接,它还包括Cloudera Manager API,可用来获取集群运行状况信息和度量以及配置Cloudera Manager。
2、 星环Transwarp
基于hadoop生态系统的大数据平台公司,国内唯一入选过Gartner魔力象限的大数据平台公司,对hadoop不稳定的部分进行了优化,功能上进行了细化,为企业提供hadoop大数据引擎及数据库工具。
3、 阿里数加
阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现,图形展示和客户感知良好,但是需要捆绑阿里云才能使用,部分体验功能一般,需要有一定的知识基础。maxcompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能,一个是6小时处理100PB的数据,相当于1亿部高清电影,另外一个是单集群规模过万台,并支持多集群联合计算。
4、 华为FusionInsight
基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。完全开放的大数据平台,可运行在开放的x86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件。
5、网易猛犸
网易猛犸大数据平台使一站式的大数据应用开发和数据管理平台,包括大数据开发套件和hadoop发行版两部分。大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理及多租户管理等。大数据开发套件将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来,提高了数据开发工程师和数据分析工程师的工作效率。Hadoop发行版涵盖了网易大数据所有底层平台组件,包括自研组件、基于开源改造的组件。丰富而全面的组件,提供完善的平台能力,使其能轻易地构建不同领域的解决方案,满足不同类型的业务需求。
三、odps 和 分析性数据库的区别
1,oracle支持多种操作系统,sql server只支持windows。
2,oracle给dba更多的灵活性,可以根据实际情况调整参数,使你的应用的性能最佳,因而带来一个缺点是很难上手;sql server则相反,当然很容易上手。 体系结构 oracle的文件体系结构为: 数
四、maxcomputer客户端建的表在表管理中看不到
应该是反应慢,刷新一下就有了。
刚创建好的表是在管理表的地方看不见的,说明他还没有反应过来,需要刷新然后就会显示了。
大数据计算服务MaxCompute(原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。
五、阿里巴巴运用大数据包括哪些?
大数据计算服务(MaxCompute,原ODPS)
Data IDE(原BASE)
数据集成(原CDP云道)
大数据基础服务包括 Maxcompute 分析型数据库等
大数据分析于展现包括 Date V Quick BI 画像分析等
大数据应用 包括 推荐引擎 企业图谱
阿里云大数据专业认证(ACP级-Alibaba Cloud Certified Professional)介绍
阿里云大数据专业认证(ACP级-Alibaba Cloud Certification Professional)是面向使用阿里云大数据产品的架构、开发、运维类人员的专业技术认证,主要涉及阿里云大数据类的几款核心产品,包括大数据计算服务(MaxCompute,原ODPS)、Data IDE(原BASE)、数据集成(原CDP云道)等。通过该技术认证可以有效证明该认证人员具备以下能力:
具备大数据的存储、处理以及分析的基础知识
能够根据企业的业务需求,基于阿里云的产品制定有效的技术解决方案和企业最佳实践
能够熟练的使用阿里云的大数据计算服务、Data IDE以及数据集成等产品
能够诊断基于阿里云大数据产品构建的业务系统在运行中出现的常见问题并找到相应的解决方案
六、阿里云的主要功能是什么?
阿里云致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。
阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。
扩展资料:
阿里云主要产品:
1、弹性计算:
云服务器ECS:可弹性扩展、安全、稳定、易用的计算服务
块存储:可弹性扩展、高性能、高可靠的块级随机存储
专有网络VPC:帮您轻松构建逻辑隔离的专有网络
负载均衡:对多台云服务器进行流量分发的负载均衡服务
弹性伸缩:自动调整弹性计算资源的管理服务
资源编排:批量创建、管理、配置云计算资源
容器服务:应用全生命周期管理的Docker服务
高性能计算HPC:加速深度学习、渲染和科学计算的GPU物理机
批量计算:简单易用的大规模并行批处理计算服务
E-MapReduce:基于Hadoop/Spark的大数据处理分析服务
2、数据库:
云数据库RDS:完全兼容MySQL,SQLServer,PostgreSQL
云数据库MongoDB版:三节点副本集保证高可用
云数据库Redis版:兼容开源Redis协议的Key-Value类型
云数据库Memcache版:在线缓存服务,为热点数据的访问提供高速响应
PB级云数据库PetaData:支持PB级海量数据存储的分布式关系型数据库
云数据库HybridDB:基于GreenplumDatabase的MPP数据仓库
云数据库OceanBase:金融级高可靠、高性能、分布式自研数据库
数据传输:比GoldenGate更易用,阿里异地多活基础架构
数据管理:比phpMyadmin更强大,比Navicat更易用
3、存储:
对象存储OSS:海量、安全和高可靠的云存储服务
文件存储:无限扩展、多共享、标准文件协议的文件存储服务
归档存储:海量数据的长期归档、备份服务
块存储:可弹性扩展、高性能、高可靠的块级随机存储
表格存储:高并发、低延时、无限容量的Nosql数据存储服务
4、网络:
CDN:跨运营商、跨地域全网覆盖的网络加速服务
专有网络VPC:帮您轻松构建逻辑隔离的专有网络
高速通道:高速稳定的VPC互联和专线接入服务
NAT网关:支持NAT转发、共享带宽的VPC网关
2018年6月20日,阿里云宣布联合三大运营商全面对外提供IPv6服务。
5、大数据:
MaxCompute:原名ODPS,是一种快速、完全托管的TB/PB级数据仓库解决方案。
QuickBI:高效数据分析与展现平台,通过对数据源的连接,和数据集的创建,对数据进行即席的分析与查询。并通过电子表格或仪表板功能,以拖拽的方式进行数据的可视化呈现。
大数据开发套件:提供可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作等功能,拥有强大的OpenAPI为数据应用开发者提供良好的再创作生态
DataV数据可视化:专精于业务数据与地理信息融合的大数据可视化,通过图形界面轻松搭建专业的可视化应用,满足您日常业务监控、调度、会展演示等多场景使用需求
关系网络分析:基于关系网络的大数据可视化分析平台,针对数据情报侦察场景赋能,如打击虚假交易,审理保险骗赔,案件还原研判等
推荐引擎:推荐服务框架,用于实时预测用户对物品偏好,支持A/BTest效果对比
公众趋势分析:利用语义分析、情感算法和机器学习,分析公众对品牌形象、热点事件和公共政策的认知趋势
企业图谱:提供企业多维度信息查询,方便企业构建基于企业画像及企业关系网络的风险控制、市场监测等企业级服务
数据集成:稳定高效、弹性伸缩的数据同步平台,为阿里云各个云产品提供离线(批量)数据进出通道
分析型数据库:在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索
流计算:流式大数据分析平台,提供给用户在云上进行流式数据实时化分析工具
6、人工智能:
机器学习:基于阿里云分布式计算引擎的一款机器学习算法平台,用户通过拖拉拽的方式可视化的操作组件来进行试验,平台提供了丰富的组件,包括数据预处理、特征工程、算法组件、预测与评估
语音识别与合成:基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验
人脸识别:提供图像和视频帧中人脸分析的在线服务,包括人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等独立服务模块
印刷文字识别:将图片中的文字识别出来,包括身份证文字识别、门店招牌识别、行驶证识别、驾驶证识别、名片识别等证件类文字识别场景
7、云安全:
服务器安全(安骑士):由轻量级Agent和云端组成,集检测、修复、防御为一体,提供网站后门查杀、通用Web软件0day漏洞修复、安全基线巡检、主机访问控制等功能,保障服务器安全
DDoS高防IP:云盾DDoS高防IP是针对互联网服务器(包括非阿里云主机)在遭受大流量的DDoS攻击后导致服务不可用的情况下,推出的付费增值服务,用户可以通过配置高防IP,将攻击流量引流到高防IP,确保源站的稳定可靠
Web应用防火墙:网站必备的一款安全防护产品。通过分析网站的访问请求、过滤异常攻击,保护网站业务可用及资产数据安全
加密服务:满足云上数据加密,密钥管理、加解密运算需求的数据安全解决方案
CA证书服务:云上签发Symantec、CFCA、GeoTrustSSL数字证书,部署简单,轻松实现全站HTTPS化,防监听、防劫持,呈现给用户可信的网站访问
数据风控:凝聚阿里多年业务风控经验,专业、实时对抗垃圾注册、刷库撞库、活动作弊、论坛灌水等严重威胁互联网业务安全的风险
绿网:智能识别文本、图片、视频等多媒体的内容违规风险,如涉黄,暴恐,涉政等,省去90%人力成本
安全管家:基于阿里云多年安全实践经验为云上用户提供的全方位安全技术和咨询服务,为云上用户建立和持续优化云安全防御体系,保障用户业务安全
云盾混合云:在用户自有IDC、专有云、公共云、混合云等多种业务环境为用户建设涵盖网络安全、应用安全、主机安全、安全态势感知的全方位互联网安全攻防体系
态势感知:安全大数据分析平台,通过机器学习和结合全网威胁情报,发现传统防御软件无法覆盖的网络威胁,溯源攻击手段、并且提供可行动的解决方案
先知:全球顶尖白帽子和安全公司帮你找漏洞,最私密的安全众测平台。全面体检,提早发现业务漏洞及风险,按效果付费
移动安全:为移动APP提供安全漏洞、恶意代码、仿冒应用等检测服务,并可对应用进行安全增强,提高反破解和反逆向能力。
8、互联网中间件:
企业级分布式应用服务EDAS:以应用为中心的中间件PaaS平台、
消息队列MQ:ApacheRocketMQ商业版企业级异步通信中间件
分布式关系型数据库服务DRDS:水平拆分/读写分离的在线分布式数据库服务
云服务总线CSB:企业级互联网能力开放平台
业务实施监控服务ARMS:端到端一体化实时监控解决方案产品
9、分析:
E-MapReduce:基于Hadoop/Spark的大数据处理分析服务
云数据库HybirdDB:基于GreenplumDatabase的MPP数据仓库
高性能计算HPC:加速深度学习、渲染和科学计算的GPU物理机
大数据计算服务MaxCompute:TB/PB级数据仓库解决方案
分析型数据库:海量数据实时高并发在线分析
开放搜索:结构化数据搜索托管服务
QuickBI:通过对数据源的连接,对数据进行即席分析和可视化呈现。
参考资料:
百度百科-阿里云