感冒为什么会流鼻涕| 太阳穴疼吃什么药| 大拇指疼痛什么原因引起的| 为什么会便血| 不领情是什么意思| 女人喝什么茶减肥好| 视线模糊是什么原因| 钙吃多了有什么副作用| 孕妇喝什么汤最好最有营养| 血糖高看什么科| 石骨症是什么病| 秦皇岛为什么叫秦皇岛| 孩子第一次来月经要注意什么| 眉眼是什么意思| 捌是什么数字| 苔藓是什么植物| 什么的交流| 蹼是什么意思| 蔬菜用什么肥料最好| 直肠癌是什么原因引起的| 烂脚丫用什么药最好| 血常规可以查出什么病| 食物中毒吃什么解毒最快| 拉姆藏语什么意思| 狗是什么生肖| 翻墙软件是什么| 龙胆草长什么样| forever21是什么牌子| 梦见大便是什么预兆| 为什么妇科病要肛门塞药| 吃什么补脾| et是什么| 韩信属什么生肖| 蔗去掉草字头读什么| 柳絮吃了有什么好处| 2月12日什么星座| 男生下巴长痘痘是什么原因| essence什么意思| 戒断反应什么意思| alba手表是什么牌子| 福布斯是什么意思| 一步两步三步四步望着天是什么歌| 为什么明星不激光祛斑| buy是什么意思| 什么妖魔鬼怪什么美女画皮| 淋巴细胞升高说明什么| 985211是什么意思| 痔疮吃什么水果好得快| 中医经方是什么意思| 孔雀蓝是什么颜色| 不寐病属于什么病症| 交叉感染是什么意思| 治疗股癣用什么药膏| 蒲公英泡水喝有什么功效| 更年期什么意思| 什么风化雨| 参天大树什么意思| 女性缺镁有什么症状| 人参和什么泡酒能壮阳| 新生儿ad滴剂什么时候吃最好| 手上的纹路代表什么| 林冲到底属什么生肖的| 跖疣是什么样子图片| 薄姬为什么讨厌窦漪房| 请佛像回家有什么讲究| 1991年是什么年| 婴儿长牙有什么症状| 小孩吃鹅蛋有什么好处| 6月6日什么星座| 自残是什么心理| 心电图p波代表什么| 肝钙化灶是什么意思| 低烧是什么病的前兆| cha什么意思| 1997年属牛的是什么命| 胃酸是什么原因造成的| 灰指甲应该挂什么科室| 消化不良吃什么水果好| 肝内多发钙化灶是什么意思| 胃糜烂是什么症状| 清远有什么好玩的| 吃芒果后不能吃什么| 湿热吃什么食物好得快| 你会不会突然的出现是什么歌| 慢性子宫颈炎是什么意思| igm是什么意思| 兰花代表什么象征意义| 五险一金的一金是什么| 烟酸是什么| 肾有问题有什么症状| 可卡因是什么| 女人性冷淡吃什么药效果好| 经常长溃疡是什么原因引起的| 黄色配什么颜色好看| 尿道口为什么叫马眼| 什么是月经不调| 篱笆是什么| 聚乙烯醇是什么材料| 吃什么可以补气血| 男人蛋皮痒用什么药| 鸡胸是什么病| 血红蛋白浓度偏高是什么原因| 歪理是什么意思| hpv病毒是什么原因引起的| 儿童吃什么长个子最快| 吃什么水果对心脏有好处| 牙龈经常出血是什么原因| 什么叫白内障| 心绞痛是什么症状| 什么是雷达| 息肉有什么危害| 三楼属于五行属什么| 特别想睡觉是什么原因| 68年属猴的是什么命| 来龙去脉是什么生肖| vs是什么牌子| 眼睛肿是什么原因| 玉屏风治什么病最好| 频繁打嗝是什么原因| 黄麻是什么| 三顾茅庐的顾是什么意思| 胃一阵一阵的疼是什么原因| 沙棘不能和什么一起吃| 贫血吃什么补血| 什么粥减肥效果好| 18k是什么金| 二次元是什么| 双子座男和什么座最配对| 月经来了不能吃什么东西| 挠头什么意思| 东倒西歪的动物是什么生肖| bobby什么意思| 蜂蜜喝了有什么好处| 尿酸高吃什么药最好| amh是什么| 早泄什么症状| 为什么今年夏天特别热| 金字旁加各念什么| 预防中暑喝什么水| 拘禁是什么意思| 抗皱用什么产品好| 见好就收是什么意思| 结石什么原因引起的| 老睡不醒是什么原因| 菠萝蜜不能和什么一起吃| 女生的下面长什么样| 蒙昧是什么意思| 淋球菌是什么病| 一个火一个宣念什么| 为什么经常拉肚子| 白芍有什么功效和作用| 早上起来流鼻血是什么原因| hsil是什么意思| 咳嗽不停是什么原因| 应用化学是干什么的| 喜欢闻汽油味是什么原因| 鬼长什么样子| 晕车药吃多了有什么副作用| 梦见捡了好多钱是什么预兆| 头晕可以吃什么药| 智齿为什么会发炎| zn是什么元素| 胃痛吃什么药最有效| 非典型腺细胞是什么意思| 总胆固醇高有什么症状| 黍米是什么米| 银联是什么| 吸入物变应原筛查是什么| 三个贝念什么| 血稠是什么原因造成的| 张三李四王五赵六后面是什么| 艾滋病人有什么特征| 什么叫引产| 什么是糙米| 什么有助于睡眠| 碧文圆顶是什么意思| 什么是缘分| 性生活是什么意思| 张少华什么时候去世的| 82年属什么的生肖| 体质是什么意思| 蕾字五行属什么| 订单号是什么| 避孕药叫什么| 双瞳电影到底讲了什么| 晚上十点是什么时辰| 腹腔多发淋巴结是什么意思| 男人为什么会得尿结石| 枸杞泡水喝有什么好处| 颈椎轻度退行性变是什么意思| 反流性咽喉炎吃什么药最好| 庚字五行属什么| 人为什么要吃盐| 神经电生理检查是什么| 面部脂溢性皮炎用什么药| 一叶知秋下一句是什么| 肩周炎是什么原因引起的| 补肾吃什么药效果最好| 怀孕10天有什么症状| 硬化是什么意思| 芦根煮水的功效是什么| 8.3是什么星座| 虾不能和什么东西一起吃| 叶酸是什么| 黑京念什么| 碰到蛇是什么征兆| 石英岩玉是什么| 全身检查挂什么科| 女生喝什么茶对身体好| 玉米须煮水喝有什么好处| 什么是膜性肾病| 耳石症是什么原因引起的| 憋不住尿是什么原因| 氨水是什么东西| 心脑血管疾病吃什么药| 什么叫引产| 格格是什么意思| 逍遥丸什么时候吃最好| 为什么女人比男人长寿| 粘纤是什么面料| 胆囊小是什么原因| 核糖是什么| bodywash是什么意思| 不完全性右束支传导阻滞是什么意思| 吃什么对牙齿好| sp是什么面料| 阳历5月20日是什么星座| 胆汁淤积症有什么症状| 7月份可以种什么菜| 骨关节响是什么原因| 雪莲果什么季节成熟| 拉肚子肚子疼吃什么药| 一语惊醒梦中人是什么意思| 外阴瘙痒用什么药膏好| 一什么河| 胆囊毛糙是什么意思| 为什么qq| 寄居蟹用什么水养| 较前相仿是什么意思| 润月是什么意思| crp偏高说明什么| 4月1号什么星座| 梦到丢了一只鞋是什么意思| dunk是什么意思| sama是什么药| 珊瑚是什么| 一个月一个寸读什么| 脚踝韧带拉伤吃什么| 近视是什么原因造成的| 宫颈cin1级是什么意思| 脸上涂什么可以美白| 两个月没有来月经了是什么原因| 胃结石有什么症状表现| 六允读什么| 精囊在什么位置| 尿维生素c阳性是什么意思| 支气管扩张什么症状| 什么原因得疱疹| 死后是什么感觉| 和氏璧是什么玉| 淋巴细胞数偏高是什么意思| 眼睛痛是什么病| 视网膜病变是什么意思| 包皮有什么影响| 百度
logo
people
本期封面人物:朱小杰

【中国证券网】中国制造业供给指数首次发布 2月

百度 在曹静楼老师的指导下,豪盛红木赞比亚紫檀《新明式无束腰长桥案》更具明式之韵,成为一件精品佳作。

来源:Gitee 封面人物 丨 2025-08-04

北京航空航天大学计算机系硕士,2013 年加入中国科学院计算机网络信息中心,主要研究大数据处理,大数据流水线。PiFlow 项目技术负责人。

本期嘉宾
朱小杰 :硕士,毕业于北京航空航天大学计算机系。2013年加入中国科学院计算机网络信息中心,主要研究方向大数据处理,大数据流水线。 国家重点研发计划-云计算和大数据专项“面向智能制造的供应链流程管控软件平台”项目子课题负责人。PiFlow 项目技术负责人。
PiFlow :混合型科学大数据流水线系统,包含丰富的处理器组件,是一个简单易用,功能强大的大数据流水线系统。2019 年 3 月入选 GVP—Gitee 最有价值开源项目。

正文

PiFlow 项目是怎样开始的?为什么在今年3月份的时候选择开源?

在大数据的时代背景下,大数据正在影响我们的社会、生产、生活方式。但在产业落地的过程中,存在专业技术门槛高、专业人员少、落地困难的问题。而中国科学院计算机网络信息中心在大数据方面有多年的技术积累,为了能让大数据技术更多地普惠产业,让技术走进生产生活,结合国家大数据的战略计划,PiFlow 项目应运而生了。
PiFlow 是一个大数据处理流水线系统,在项目最初阶段,我们并没有一个很好听的名字,而是本着解决大数据处理过程中的实际问题的初心,启动了这个科研项目。在项目初期,部门领导给予了充分支持和鼓励,我们曾一度有8人投入在这个项目中。而后,有越来越多的 PiFlow 可以解决的问题作为实际需求被提出,我们也发现业界对大数据流水线技术的追逐越来越热,而市面上并没有完全满足相关技术需求的产品,基于我们对专业性和其价值的判断,我们决定将其开源。

PiFlow 的团队规模和构成是怎样的?男女比例如何?

PiFlow 团队由产品经理、架构师、后端核心开发人员、前端核心开发人员组成。最多的时候有 1 个产品经理、1 个架构师、2 个前端,3 个后端人员在投入。其中博士 2 名,硕士 3 名,和本科生 3 名。人员男女比在3:1。

输入图片说明

PiFlow 是一个混合型科学大数据流水线系统,可以着重介绍一下 PiFlow 的特性,以及未来的发展规划吗?

PiFlow 是一款基于分布式计算 Spark 开发的大数据处理系统,以所见即所得的简洁方式,实现大数据采集、处理、存储与分析流程化配置、运行与智能监控,提供了 100+ 的标准化组件, 包括 Hadoop 、Spark、MLlib、Hive、Solr、Redis 等,更支持面向领域、灵活的二次组件开发。PiFlow 未来将会在系统的功能性、稳定性、可靠性等方面进一步完善。

您作为 PiFlow 的技术负责人,项目开发过程中遇到的最大的困难是什么?

PiFlow 在项目开发的后期,团队成员由于工期等各方面原因都被借调参与其他项目,曾经很长一段时间,Gitee 上只有我一个人在提交代码,导致 PiFlow 的开发进度不是很理想,一度想过要放弃。不过想到当初做 PiFlow 的初心,部门领导也调动资源大力支持,我在这个过程中也备受鼓舞,最终我们坚持下来了,并取得了非常不错的成绩。不忘初心方得始终!

PiFlow 是科学大数据开源社区这个组织开源的其中一个项目,这个开源社区成立的背景是什么?未来会有更多的开源计划吗?

2016 年,由我们所——中国科学院计算机网络信息中心联合中科院计算所、清华大学、北京大学、西安交通大学等十多家院所与高校,共同承担了国家科技部重点研发计划“科学大数据管理系统”,主动提出构建科学大数据开源社区构想,旨在将项目所产生的科学大数据软件开放出来,服务更多的科研工作者和企事业单位。PiFlow 开源项目是该重点研发项目众多开源软件中的一个,相较于其他开源软件,它针对科学大数据处理的流程化组织、设计与实现可能与企事业用户在互联网、业务大数据中的共性会更大些,因此得到公众的关注多些。
未来会有越来越多的我们国内的研究团队研发的软件贡献到国际、国内开源社区,PiFlow 项目研发团队也希望将它推送到更大的平台,服务更多的用户。

输入图片说明

很多人认为,现在大数据的价值在一定程度上被夸大了,对此您有什么看法?您认为大数据未来的研究方向是什么?这项技术如何更好地落地?

要坚定地认为大数据的价值非常大。首先大数据自身能够创造出更多的价值,并且数据本身将为整个信息化社会赋能。大数据的发展正在推动科技领域的发展进程,大数据的影响不仅仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,大数据也起到了重要的作用,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。

您负责的课题是关于“面向智能制造的供应链流程管控软件平台”,那么您对大数据与传统行业之间的结合有什么看法和展望?

产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点。

大数据近年来一直备受关注、热度很高,有很多想要从事大数据相关工作的程序员,您有什么好的学习建议、学习方法分享,或是学习资料推荐吗?

首先可以看看大数据相关的书籍,对大数据概念有一个整体的了解。大数据的相关技术栈还是比较丰富的。然而,从事大数据相关工作,并不仅仅是完善个人对大数据相关的技术框架和知识体系的构建。更重要的是不断学习、探索和思考大数据的应用场景,这时需要更多地开阔眼界,从程序世界中走出来,多看产业难题,并利用自身的大数据技术知识重建对问题的理解,寻求大数据时代下的解决方案。

输入图片说明

当初大学为什么选择了计算机专业?之后又是如何接触到大数据,开始研究大数据的?

我从小就很喜欢数学,对数字感兴趣。大学毕业后,很多同学去了各行各业,也有改行做销售的。但我一直选择从事我喜欢的工作内容,兴趣是最大的驱动力。开始接触大数据也是跟部门的发展方向紧密相关的,我们部门是大数据部,主要的一个研究方向是知识图谱。而知识图谱构建会涉及到海量多源异构大数据处理,我们在这个过程中通过需求的提炼,形成了大数据流水线系统 PiFlow。

中科院计算机网络信息中心的工作氛围如何?内部开发项目的流程是怎样的?

在中科院计算机网络信息中心工作可以接触有很多有挑战的前沿理论和科研项目,这些往往需要投入大量时间去做。用技术和产出说话,大家都很自驱,工作可以很纯粹。而且周围很多人都是高校毕业的高材生、博士生,跟优秀的人一起工作,是件很开心的事。
内部开发流程也非常规范,每个项目都会配备专门的项目经理,从项目的需求阶段开始,到设计、开发、测试,全程协调。

中科院计算机网络信息中心作为一个科研机构,在研发过程中,如何确定研发方向?如何收集和了解需求?遇到技术瓶颈时如何解决?

应该说所有的软件研发都是需求驱动的,PiFlow也不例外。我们团队在与领域科学家的合作过程中,需要面向不同学科领域的数据特征,进行数据的抽取、清洗与分析工作,科学家们提出的组件化需求、复用性需求、可装卸需求、可监控需求以及大规模处理能力需求,是我们的直接且有效的需求来源。
产品研发难免有遇到困难的时候,通常的方法一是查阅最新的文献是否有前沿的理论方法,二是借鉴开源社区是否有相同的问题以及技术实现路径。

在科研领域,关于大数据的研究已有不少激动人心的成果,您认为这样的前沿技术如何在各行各业中得到更好的应用?

前沿的新技术研究是必不可少的,是国家科技的核心竞争力。目前大数据在更高效的存储、计算、分析的理论、模型和算法上都在开展前沿性的研究,如果公众能够及时了解到最新的研究成果并应用到各自的行业中,就可产生巨大的社会与经济效益,当然这也离不开像 Gitee 这样的开源社区的积极宣传与推广作用。

输入图片说明

您平时比较关注哪些开源社区或开源项目?

开源的本质是共享技术,作为程序员,需要不断学习编码的最新趋势,需要不断练习以进一步磨炼自己的技能,开源是攀登这两座高峰的阶梯。因为我对大数据技术非常感兴趣,同时本身工作也是与大数据相关,平时会关注大数据开源项目多一些,比如 Spark、Hadoop、Neo4j,Ambari 等。

您作为科研界的一员对开源有什么看法?开源 2019 年热度空前,您觉得开源这种方式会对科研领域带来什么影响吗?

就整个开源社区而言,科学家群体一直是一支积极的参与和贡献力量,比如现在大家耳熟能详的大数据计算框架 Spark,就是 2010 年伯克利大学的 AMPLab 实验室贡献给开源社区的。事实上,科学家群体在天文、物理、生物等各学科领域里,都是积极的开源倡导者与实践者,公众对学科领域比较陌生,因此对学科领域内的开源社区与软件了解会相对少些。科研界对开源一直持开放与支持的态度,科研工作者们将一如既往地积极参与社区、贡献社区。

您如何平衡工作与生活?可以分享一下您的业余爱好吗?

我喜欢自律一些的生活,通常到单位的时间比较早,当然也不喜欢工作得很晚,我喜欢高效有计划性地工作。科研工作需要有清醒的头脑,累了就换换脑筋。每周我都会跟同事们一起做做健身操,从运动中感受快乐。
业余时间我也喜欢看看影视综艺,逛逛淘宝,但更多的时间是在教育孩子。工作与生活并不是很容易平衡,尤其是在项目紧张的阶段,难免需要有时间的倾向,也特别感谢我的家人的支持和理解。

封面人物小档案

  • 人物:朱小杰
  • 技能:大数据处理、大数据流水线
  • 码龄:10年
  • 技术界的偶像:马云
  • 最爱的开源项目:Spark
  • 最爱的电子产品:kindle
  • 爱好:打木球
文章内容为受采访者独立观点,不代表官方立场。
本文版权属Gitee.com 所有,转载或内容合作请联系 git@oschina.cn , 未经授权不得转载、摘编或利用其它方式使用本文内容。违反上述声明者,将追究其相关法律责任。
bg

你可能感兴趣的封面人物

查看全部
发布评论前,请先 登录
精彩评论 ( 68 )

搜索帮助

无聊可以干什么 刚拔完牙需要注意什么 睡觉时身体抽搐是什么原因 考试穿什么颜色最吉利 做梦掉粪坑什么征兆
锦鲤可以和什么鱼混养 海苔是什么 胃疼吃什么药最好 户口所在地是什么意思 cj是什么意思
常青藤是什么意思 95年的属什么生肖 宫寒吃什么药调理最好 大胯疼是什么原因引起 弟弟的老婆叫什么
西洋参补什么 尿蛋白十一是什么意思 二级教授是什么意思 财神叫什么名字 铅中毒用什么解毒
雷字五行属什么hcv9jop3ns9r.cn 平均红细胞体积偏低是什么原因hcv9jop5ns1r.cn 仙是什么意思hcv9jop3ns1r.cn 脚长水泡是什么原因hcv8jop4ns8r.cn 什么水果泡酒最好喝hcv9jop3ns5r.cn
书五行属什么hcv9jop6ns3r.cn 老鳖吃什么hcv8jop1ns2r.cn 长辈生日送什么好hcv9jop1ns6r.cn 1988是什么年wzqsfys.com sub是什么意思cl108k.com
rpr阴性是什么意思bfb118.com 细思极恐是什么意思hcv8jop6ns0r.cn tony是什么意思hcv9jop6ns4r.cn 梦见悬崖峭壁是什么意思hcv7jop9ns9r.cn 性生活是什么dajiketang.com
两个土念什么字hcv8jop9ns7r.cn 酝酿是什么意思hcv8jop5ns3r.cn 鼻子经常出血是什么病征兆hcv8jop3ns6r.cn 手上三条线分别代表什么hcv7jop5ns3r.cn 四平八稳是什么生肖hcv7jop5ns2r.cn
百度