首页 > 数据可视化 > YOCSEF学术年会“大数据与智能交互”笔记
2014
12-16

YOCSEF学术年会“大数据与智能交互”笔记

上周五我一个人单枪匹马地参加了CCF YOCSEF北京学术年会。本次会议的议题是“大数据与只能交互”,因为与我研究内容相关,即使没有同行的同伴我也要参加。本着避免睡着的需要,我一般开会或者上课都会记笔记,以下是我个人的笔记整理,与实际PPT内容或许有出入,但是与会者的PPT并未全部公开,故而我这里稍作记录留存吧。

报告一:大数据人工智能

报告人:百度 余凯 大数据人工智能 深度学习研究院

1. 现今工程上的思路:搜索数据 – 大数据人工智能 – 商业价值

2. 关于人工智能的奇点临近——人类对于新技术,总是在短期内高估,在长期内低估

3. 人工智能包含三大方面:

  • 感知
  • 思考
  • 控制

4. 如何区分一个产品拥有智能?

随着用户使用越来越多 ,它能变得聪明;学习能力,是智能的本质之一。

例如,移动设备的摄像头,已经成为人类眼睛的延伸

5. 大数据时代

万物互联 – 万物智能

深度学习2013年十大科技创新之一

6. 介绍百度的百度大脑产品

  • 理解用户意图:文本分析,图像识别,语音识别
  • 匹配用户需求:优化搜索结果智能排序
  • 精准推送广告和服务:估计和优化点击率和转化率

7. 为什么目前深度学习是最适合大数据的机器学习方法?

  • 模拟大脑的行为
  • 特别适合大数据
  • End to end 学习
  • 提供一套建模语言

从统计学方面考虑原因:

  • Ÿ 所有统计模型都是错的,但是有一些是有用的;
  • 数据永远是有限的,并且是不完美的;
  • 统计学习理论的的范畴:假设计算资源无限

考虑以上因素,那么一个人工智能算法的推广误差可总结为:

推广误差= approximation error + Estimation error + optimization error

(model class)                (data size)               (algorithm)

传统人工智能算法,在数据规模上升到一定程度后,效果就不再提升;而深度学习算法则不会。过去工业界常用线性模型,已经被摒弃。现在的模型都较为复杂。深度学习算法的模型都几十层。

8. 深度学习是一套灵活的建模语言

建模一开始就是从数据模型开始(现在已经不从人工识别特征开始了),然后经过大量数据训练。

9. 深入百度大脑:同时理解图像和自然语言

深度学习显著提升百度风巢广告系统

今天最强计算机的 计算能力与 人脑 还差很远。

提问环节:

  1. 大数据时代的个人隐私和安全?答:这个你应该问360,360保护你们的营私,哈哈哈
  2. 判断用户性格? 答:用户画像,用户画像是一个高维度的信息集合
  3. 预测可以判断宏观事务,不能判断细枝末节? 永远做不到100%满意,只要能提升一点就可以创造价值
  4. 深度学习的理论研究似乎不好做?深度学习都是公司推进,因为需要大量资源,小实验室玩不起。同时数学工具还不够powerful,以至于研究不具备完备性。

 

二 panel: 奇点临近,离我们有多远

(注,奇点临近是库兹韦尔写的一本科幻类书籍,认为人工智能与人类只能的结合将创造新的纪元,而这个中间节点就是奇点。详见这个豆瓣书评,我觉得写的不错。)

山东大学-陈宝权:恐怖谷的故事:当计算机逼近真实到95%相似以后,人民就会盯着5%的缺点去看,会持负面观点。而之前人们都拥抱技术,呈正面观点。我们现在还没到奇点,所以我们还是拥抱着这技术。

百度-余凯:做宣传的时候可以大喊人工智能,改变世界什么的。做事情的时候可千万别这么想。图灵测试,是人工智能一个重要参考。但是这里有个误区,为什么我们一定要作出跟人一样的机器呢?我们只要做能帮助我们的在某一方面有特长的机器就可以了。例如,搜索引擎,就是一种人工智能系统,它对社会产生了重要影响,而不是取代人。而且从商业角度来讲,这样更有价值。回过头来说奇点,我没有任何证据说明这个概念的正确与错误,除非从娱乐角度去讲。当然它煽起了大众对于这些技术的兴趣。

中科院-陶建华:人工智能领域,或者模式识别领域,大家还在主要解决可用性问题。5年前我们只能做一些特定环境的语音识别的问题,但是现在语音助手已经是非常有用的工具。但是可用性和易用性之间还是有差别。从现有意义上说,人工智能可用性的奇点已经来临,但是易用性的奇点还有很多路要走。

北京理工大-黄华:人工智能解决知识表达的方式:字典方式,规则方式,字典和规则结合方式。深度学习本质上是按照规则的。大数据是提供了完备样本,即为提供完备字典提供了基础。现在有了大数据提供较为完备字典,深度学习提供规则,二者结合未来人工智能会有极大发展,会有广泛应用。但是这是从理性问题考虑。人类思维有很多不是理性思维,还有感性思维;例如在复杂环境下有很多复杂上下文,不知道该用什么上下文,有时候是感性思维在做判断。故而奇点是终极目标,人工智能无法完全超越人脑。

北大-袁晓如:首先要搞清楚什么是奇点。人类智能和人工智能完全是两码事。例如围棋,很多时候难以做精确判断。如果都能做精确算法来算,那岂不是把有趣的事情变得索然无味?按照西方思维,人要考虑的是怎么去征服,让机器服务人;而从中国思维,是要如何天人合一,机器如何与人类协作。因此人类要与机器共同进化

卡内基梅隆-胡宁:人类往往短期多于乐观,长期过于悲观。关于奇点临近,很多行业内机器学习专家的感觉是怎么又来了一波热潮啊?(笑)计算机科学本身是面向应用的科学,但所有科学本质上是为了去解决某种哲学问题,例如我是谁,我从哪来到哪去。深度学习需要大量数据和很多计算资源,所以百度才玩得起。神经元隐形层有三层就很复杂了,但是他们玩得起几十层。硅基智能与人工智能还是不太一样。

百度余凯:深度学习可以说是人工智能的一个best-shoot, 但是远未到解决问题的阶段。我们现在正在爬坡,我们不去想山顶有什么。未来一段时间,我们认为在医疗领域人工智能将有很大发展。

 

我的观点:我是中国传媒大学研究数据可视化方向的博士生,前端时间与兰州大学医学院一帮博士合作,想写一篇关于大数据与临床医疗结合的论文,结果发现自己掉进了医疗信息化无底洞。之前余凯老师说,在医疗领域,数据挖掘,人工智能会有非常大的作为。我也曾以为,医生看病就像一个数据挖掘过程,医生看病收集资料,然后依据规则判断病情。但就我了解的情况看,医疗诊断涉及非常复杂的专业知识,复杂度完全远超吴清源下围棋之上。而现代医学信息系统复杂度也很高,通常一个三甲医院信息系统有上百子系统,并且数据收集也很不完备。医学不像咱们计算机,它直接关系性命,是非常保守的。一个标准化电子病历标准这么多年都没实现。曾有公司想做病例数据挖掘,结果只有三万份电子病例,而国家认定的各种疾病类型就有四万种。最后挖掘出来的东西根本不能用。也许随着突破各种政策困难,我们能够做到在2045年用大数据平台诊断95%的疾病,但是可以预料到的结果是北京的三甲医院依然会爆满,专家号会更难排队。计算机学科难以独自解决这类问题,只有其他学科共同发,交叉寻找突破点。人工智能本身是是人类智慧的结晶。拿一个个人智能,与一群顶级专家的智慧结晶去比似乎没太大意义。或者说,人类社会组织本身也隐含着一套人类智能,未来人工智能的发展很可能是在这方面做文章。

 

报告三:数据可视化

北大-黄晓如教授

 

1. 引子-数据新闻

洋流油画

风场

。。。

2. 从数据到可视化

可视化/可视分析 :人类对事物建立心理模型(mental model)或者心理图像的过程(mental image)

Data – image – mental-model /insight

3. 可视化发现过程

  • Ÿ   记录信息
  • Ÿ   支持推理分析
  • Ÿ   信息呈现

Data – 可视化(visualization) 图像(image) 设置 (specification)

– 感知和认知 探索 知识

4. 可视化模型

Visualization Designer -à visualization user

5. 可视分析

可视分析是由交互可视化界面支持的分析推理的科学

第一篇提到大数据的论文:NASA关于visualization

5. VAST challenge 2014

大数据时代,可视化即服务

 

报告四:互联网精准广告中的大数据应用技术与挑战

Media V CTO 胡宁

1. 精准营销时代的网络广告

2. 精准广告技术——定向

  • 行为定向
  • 上下文定向
  • 人群定向

3. 精准广告技术——实时竞价

整个投放过程:0.02秒

4. 系统架构

硬件:定制服务器(为了降低cost),600多台节点,每个节点32个硬盘,在行业内也算多的了(但还是玩不起深度学习)

存储:SATA PCIe SSD

计算:GPU (用nvidia GPU比intel多核CPU进行数据挖掘运算快11倍!)

大数据架构;数据处理,从mapreduce转移到Spark效率提升18倍!

报表分析:关系型数据库,nosql数据库,数据仓库

5.实时数据库如何选型?

要求:存储海量数据,标签数据,能承载高速读写访问

系统选择: redis/Memcacheed, mongoDB/Cassandra

6.挑战:单条数据越来越大

7.系统功能:

  • 识别:内容识别(文字,图形),
  • 行为识别(用户画像),
  • 反作弊(垃圾网页, 异常行为,如机器人点广告)
  • 预测:点击率预测/转化率预测

8.计算模型:

Logistic regression 线性模型

Deep learning 深度学习

(百度花了一年做了深度学习,提高了广告投放5%的准确率。百度每年四五百亿的广告收益,那么深度学习带来多少收益)

 

报告五:异构大数据机器学习报告会

天大教授-胡清华

 

1. 大数据的异构特性:

非结构化异构多模态数据爆炸增长,尤其是医疗领域

例子:天文大数据,每天1.5T,可以随意下载

2. 异构数据的挑战性问题:

传统机器学习算法:KNN,决策树,linear SVM, no linear SVM中的数据都是向量模式。但是如果向量中的数据时一个图片,怎么办?

3. 解决方法:

认知计算:人脑的信息处理机制

多通道感知

多模态数据的向量表示

  • 将图形,语音等提取特征值来进行向量化描述,然后再进行机器学习
  • 将图模型与向量模型结合来做,例如语义分析可用有向无环图来处理
  • 在张量空间中来做图像的机器学习

4. 异构数据处理的关键问题

5. 多模态数据的距离问题

例子:医疗多模态数据的表示问题

6.融合表达,多模态数据的融合稀疏矩阵

7.多模态深度学习

例子:973项目,抑郁症的预警与干预

973项目,空间天气预报

 

报告六:7*24小时数据中心监控服务系统

并行科技–陈健

在线运维可分为三步:

  • 数据收集:远端:消耗低,但是足够多
  • 数据传输:数据的整理
  • 云端:web可视化界面,一秒一刷新

自动化生成报表,周报,月报,年报

在线运维软件也有手机APP

应用运行中心:应用运行特征

 

报告七:情感计算

中科院自动化所-陶建华:

情感计算:目的是通过赋予计算机识别、理解、表达、好适应人的情感能力来建立和谐人机环境,并使计算及具有更高的智能。

情感计算近年来受到大量关注.

国外:mit, 早稻田….

国内:中科院软件所能智能界面,自动所…

应用: 自动电话系统,老人关怀,等等

情感具有三种成分:

  • 主观体验
  • 外部表现
  • 生理唤醒

基本情绪:一般认为有六大类情感,这种属于离散情感模型,很多人使用这类模型的研究实际把问题归入了模式识别,并未深入情感领域,于是又以下三级情感模型FOX模型,和情感轮(矢量表达模式),现在国际上流行的方式为情感空间模型(三个维度:激活度,愉悦度,强度维度)。

情感分析还未进入大数据时代,原因在于需要人工整理数据

用作分析比对样本的情感数据库:

  • ·波尔菲斯特情感数据库
  • ·柏林情感数据库
  • ·汉语普通话情感数据库

情感识别:

分成更多维度识别:语音,面部表情,口型…

使用深度学习网络,输出情感空间模型的激活度、愉悦度、强度

研究情感识别的新思路:注意情感历史

情感传递网络,使用markov模型

融合情感历史:方法——分类器

 


留下一个回复

你的email不会被公开。