大赛题目 | Questions 当前位置:大赛官网 / 大赛题目


2017厦门国际大数据大赛

1

通过社交媒体数据分析电影主创对电影票房的贡献价值
Analyzing the Contribution of Actors/Actress for the Box Office Using Social Media Data

——By Tiger Movie


虎影(厦门)科技有限公司

应用行业(Industry) 影视类
Film Industry
产业环节(Industry links) 数据分析
Data analysis
任务说明(Task Description) 根据社交媒体网站抓取数据,分析电影主创与电影票房的关系,分析电影主创对电影票房的贡献价值,并作出预测和指导。
Nowadays, Dozens of movie studios produce hundreds of movies each year, some of these movies will earn hundreds of millions of dollars in box office revenues but many of them will just have millions of dollars. How to use social media and movie information to evaluate the contribution of cast in a given movie for the box office is an important research problem. Fetching data on social media websites, competitors should analyze the relationship between film actors/actress in a movies and the box office, after that competitors need propose a model to evaluate the contribution of cast in a given movie for the box office, and use the model to do prediction.
数据来源(Data Sources)

参赛者自行提供,并附上数据说明。

数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。

Tiger Movie will provide some samples. Competitors should collect related data from social media and related websites such as IMDB (http://www.imdb.com/) and China Box Office (http://www.cbooo.cn/).

数据格式(Data Format)
时间范围(Time Range) 电影从上映前一月到上映后一个月
题目说明 点击查看说明

近几年随着电影市场的热度提升,大量资本涌入电影行业。但中国电影产业尚处于发展阶段,市场的不成熟使得电影投资呈现出高风险高回报的特点。为了追求高收入,通常办法是使用众多的“明星大腕”,通过粉丝效应提升票房,当然只有极少的作品获得成功。但是却造成了明星身价飙升,制作成本随之提升的后果。究其原因,明星大碗虽然有庞大的粉丝基础,但明星与作品的匹配程度、明星粉丝特性与作品的匹配程度都是影响最重票房的重要因素。所以我们需要一种办法评估主创对电影票房的贡献价值,使用此办法来作为评估电影投资分析控制的一个依据,而微博这样的社交媒体是社交信息主要的交换平台。

数据要求:通过分析电影从上映前一月到上映后一个月的相关微博数据、明星粉丝数据和发布内容等,评估出一个贡献值。数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。注意点:1.分析结果要突出明星效应对票房带来的“贡献”,这里的“贡献”需要区分正面贡献和负面贡献。正面贡献指可能带来的票房或者观影意愿的增加;负面是对票房带来的负面以形象,打消了观影意愿。此题不是简单的情感分析,要突出购票转化的影响。

技术要求:使用spark 机器学习或者python 相关算法。

提交成果:原理说明介绍文档/ppt ;可执行演示程序;程序源码。

2

证券公司基于大数据的A股市场“选股”咨询平台
Stock Picking Consultation Platform of the A-share Market for Securities Companies based on Big Data

——By SHINE


福建新意科技有限公司

应用行业(Industry) 金融类
Finance
产业环节(Industry links) 数据分析
Data analysis
任务说明(Task Description) 根据爬虫抓取A股市场各种公开数据、定期财报、机构调研报告和股东增减持/交易龙虎榜公告等信息,分析上市公司的基本面、市场交易状况和经营情况。并能够理解普通投资者的“自然语言”表述,通过对问题文字的理解,返回给公众投资者合理的选股建议。
According to the information fetching by the crawler from the A-share Market, such as open data, regular financial reports, institutional research reports, announcement about increase or decrease in the shareholding or chart topping hits, competitors should analyze the fundamentals, market transactions and operating conditions of listed companies. Furthermore, through comprehending the text, the Platform can understand ordinary investors’ natural language and return to public investors with reasonable stock-picking recommendations.
数据来源(Data Sources)

参赛者自行提供,并附上数据说明。

所需数据均可通过交易所等公开渠道拿到。

Data should be provided with the description by the competitors themselves. SHINE provides some data samples, and the competitors should collect or supplement related data by their own.

具体数据项 A股市场的公开交易数据;两大交易所网站上的上市公司定期报告(季报、年报等)和日常公告(可限定在:股东增减持、融资和对外投资、龙虎榜);互联网上公开发布的各上市公司或其主业所在行业的调研报告、互联网上主流媒体(可限定在:新浪财经、第一财经、腾讯财经和凤凰财经)的相关公司新闻报道以及百度搜索指数等舆情信息。
数据格式(Data Format) TXT、PDF等
TXT or PDF
时间范围(Time Range) 20140101-20170701
Jan. 1st,2014 - Jul. 1st ,2017
题目说明 点击查看说明

近年来由于数据分析及AI技术的高速发展,将人们带入了一个全新的大数据时代,通过对全网数据的整合、分析,它在部分领域甚至已经展现出“未卜先知”的能力。在金融市场,作为普通投资者(也称:公众投资者)处在互联网当中,也可以通过优秀平台提供的全面快速整合公司公开数据和新闻报道的能力,辅助投资者进行数据解读并提供投资建议。

其中,数据解读的问题一直以来受到广大公众投资者的高度重视,因为大家并非专业投资者,对企业以及行业的经营数据、最新新闻数据缺乏解读能力。如何有效的帮助广大股民解决这个知识门槛并提供更好的咨询建议服务,是当前和今后的一段时期内证券公司经纪业务部门亟待解决的问题之一。

本课题以破除知识门槛为切入点,通过大数据分析技术,对当前A股市场的主要上市公司进行各维度上的投资潜力评级(基于基本面等数据的解析)和中短期投资回报预测(根据机构研究报告和互联网舆情信息的大数据分析),帮助非专业的公众投资者进行选股。具体实现内容如下:

一、基本面数据的收集和解析

分析上市公司在财务、经营、股东、交易、市场等方向的数据,并建立相应的选股模型。尝试运用1~2种方法建立数学模型,对投资潜在价值进行分析,由此来预测未来中短期的买入和持有价值。主要将基于相关基本面数据的解析,给出相关价值评分,具体数据大类和评级维度分别为:a.市值和股东情况评级(投资者成熟度):流通市值和比例、十大股东持股比例、机构持股比例、股东户数及平均持股数 b.经营和财务指标评级(价格便宜度):每股净资产和盈利、市盈率和市净率、每股现金流、主营收入、主营成本、资产负债率c.交易指标(交易活跃度):创阶段新高/新低、阶段放量/缩量、平台突破、阶段涨幅和换手、阶段振幅d.市场指标(市场关注度):龙虎榜买入净额、机构买入净额、1年内机构买入/持有/卖出评级、机构调研次数。

以上数据形成后,即可给出在同类(类似行情软件中的同类板块)及类似规模企业的对比数据,能够更直观的对公司运营形态进行了解。除了帮助投资者对某个上市公司的当前形态进行直观理解,还可针对所在行业的当前平均财务指标、交易状况等细分情况,预估出该股票相对于整体市场和所在行业的未来中期潜在投资价值。

二、互联网数据的收集和分析

通过自然语言处理和挖掘技术等,对每日重要媒体或权威部门渠道发布的相关新闻报道、行业报告以及上市公司公告进行数据收集和分析,并对目标公司进行打“标签”和动态评级。

首先,对上市公司在互联网上的关注度进行简单的“量化”考评。

接着,对挖掘出的热点名词和热点概念,对接到相关联较大的上市公司,给他们打上“标签”,方便后期选股问股的检索。

最后作为可选项,我们建议答题团队,对挖掘出的最有可能影响投资回报的新闻或公告,基于相似个股发布的所有同类公告,分析出该股票中短期的投资潜力和投资风险的简单评级,为投资者提供参考。

三、选股和问股——自然语言方式的人机交互

本平台可以理解客户的自然语言提问内容,并给出相应的建议。

对于选股:特别是新兴产业和创业板公司,因为这些行业或是领域大家了解的比较少,而且公众投资者一般没有太多时间去仔细研究每个上市公司的数据。平台将根据上面数据分析的成果,从中找到符合投资者投资逻辑的股票,还可进行深入筛选,得到最终的选股结果。

典型问题:

(1) 请问现在市场上比较便宜、交易刚刚活跃、机构投资者较为关注的公司有哪些?…这些公司中 主营是IT相关 并和 “AI” 概念(验证“标签”体系)关联度大的 是哪些?

(2) 市场中市盈率20倍以下、年收入和年盈利最近3年保持20%增长的公司是哪些?…这些公司中最近公众关注度较高(验证“关注度”指标)的是那些?

对于问股:可以基于基本面数据解析和互联网舆情分析的结果,对该公司的中短期投资价值或投资风险进行提示。

典型问题:

(1)请问XX公司(或:代码600XXX),交易是否逐渐活跃?大家的关注度是否在提升?

(2)请问我当前跟踪的几个“AI”概念的公司中,有一定的市场“关注度”、“投资风险”较低的上市公司有哪些?

四、本题为发散性课题

要求参赛者基于A股市场上市公司相关公开数据资源,同时收集其他相关数据,集成媒体、政府、企业和市场参与者等多角度数据,结合投资者的实际需求进行分析,以实际可演示的开发项目形式,要求包含详细分析过程、模型以及展现实际应用效果,并得出结论。

如果在其中融入AI的应用场景,例如引入互联网社交平台的舆情数据并使用机器学习方法进行“市场舆情”维度上的智能评分,将在大赛评比环节得到加分。

3

健康医疗问答系统构建与实现
Construction and Realization of Health Medical Treatment Q&A System

——By YLZ Information Technology


易联众信息技术股份有限公司

应用行业(Industry) 健康医疗类
Health Care
产业环节(Industry links) 数据分析与数据应用
Data Analysis and Data Application
任务说明(Task Description)

题目从辅助诊疗的角度出发,提出了健康医疗问答系统构建与实现,具体内容如下:

1.参赛者能够基于给定的有关健康医疗的问答数据,通过导引问答的方式,并利用自然语言处理技术、文本挖掘和深度学习等技术,构建一套健康医疗问答系统。

2.本系统需提供多个可能性的问题所对应的疾病分类及其多个答案排序,并提供最佳的问题分类和答案。

3.需要提供构建思路,过程,程序代码,效果演示,评测结果等。

From the point of auxiliary medical treatment, the construction and realization of health medical treatment Q&A system is put forward. Specific requirements are as follows:

1.Based on the given Q&A data about health medical treatment, competitors should build a health medical treatment Q&A system, through the way of Q&A guidance and technologies like natural language processing, text mining and deep learning.

2. The system should provide more possibilities of classification of diseases and ranks of multiple answers corresponding to the questions, and ever provide the best one.

3. Competitors should provide the idea of constructing, procedure, program code, the effect of demonstration, evaluation results, etc.

数据来源(Data Sources) 参赛者自行提供,并附上数据说明。
YLZ provides some data sample. Competitors should collect or supplement related data with description attached.
数据格式(Data Format)
Unrestricted
时间范围(Time Range)
Unrestricted
题目说明 点击查看说明

目前,中国正面临一系列健康风险:人口老龄化加剧、慢病患者数量巨大、老年病“年轻化”、亚健康常态化、医学敏感人群上升、心理问题严重等。与此同时,传统的医疗行业存在诸多痛点:医院资源配置不合理,诊疗效率低下;医患需求不匹配,医患纠纷频发;用户看病难、看病贵。因此,个人、医疗机构以及相关企业对健康医疗与大数据的需求迫切,合理利用健康医疗大数据,使得医疗资源能够充分发挥其优势,从而降低国家所面临的健康风险。

针对以上所面临的健康风险以及对于健康医疗大数据的需求,题目从辅助诊疗的角度出发,提出了健康医疗问答系统构建与实现,具体内容如下:

1.参赛者能够基于给定的有关健康医疗的问答数据,通过导引问答的方式,并利用自然语言处理技术、文本挖掘和深度学习等技术,构建一套健康医疗问答系统。

2.本系统需提供多个可能性的问题所对应的疾病分类及其多个答案排序,并提供最佳的问题分类和答案。

3.需要提供构建思路,过程,程序代码,效果演示,评测结果等。

4

大数据在财税发票稽核与信息分析中的应用
The Application of Big Data in Tax Invoice Auditing and Analysis

——By Onlyou.com


唯你网

应用行业(Industry) 财税类
Finance & Taxation
产业环节(Industry links) 数据分析与数据可视化
Data Analysis and Data Visualization
任务说明(Task Description)

根据题主提供的发票明细数据,构建发票明细的语义分类模型,分析区域经济循环指数;参赛者可根据需要,自行收集和补充其他相关数据;

Building a semantic classification model and analyzing regional economic cycle index, based on the data about details of the invoice provided by Onlyou.com. Contestants can also collect or supplement related data on its own.

数据来源(Data Sources) 参赛者自行提供,并附上数据说明。
Contestants can supplement related data with data description attached.
数据格式(Data Format) 文本
Text
时间范围(Time Range) 20170101-20170630
1st Jan. 2017 —30th Jun. 2017
题目说明 点击查看说明

背景说明:

若说企业中最重要的是什么?除了安全就是财务了。而与财务有亲密关系的就是会计了。因此会计人员必须有足够的知识和经验,其中关于记账凭证的相关知识是必须要知道的,可见凭证在财税领域的作用是显著的。

应用场景描述:

国家税务总局从2016年开始推行《商品和服务税收分类与编码》,每个开票的内容必须对应编码表上的一个税码,目的是增强增值税的征管,杜绝虚开增值税发票。编码表上列示了超过4000个税码,将常见的商品及服务囊括其中,对应17%、13%、6%、3%、0%五档税率。

对于企业而言,对外开具销售发票时选择对税码是基本要求,选错税码则可能适用了高税率多缴税,或者适用了低税率漏缴税而造成税务稽查罚款,总之会给企业带来经济和声誉上的损失。从税务机关和审计机构来看,要做好企业税务进行稽查或审计,检查开票税码的准确性是一定要执行的程序。但是实际社会上流通的商品远远不足此数。据不完全调查某国有大型超市就售卖15万种商品,京东有超过100万种商品,淘宝则更多,这些还只是实物商品,服务还不在此列。面对如此浩繁的商品品类,没有一个企业财务、税务或审计人员敢保证开票税码的100%准确。

如果能通过大数据、深度学习及语义理解技术,通过商品名称特征来确定其税码归属,对于企业财务、内审、税务稽查及审计领域将有不可限量的应用前景。

同时,发票承载着企业购销两端的信息,企业采购和销售什么品类的商品,用什么样的价格进行买卖,购销行为发生的大致时间,均可以从发票上发现,因此,发票信息拥有很高的挖掘价值。

题目说明:

大数据在财税发票稽核与信息分析中的应用

1)发票大数据稽核应用:分析发票中的开票明细、《商品和服务税收分类与编码》之间的关联关系,将发票明细映射至相应的编码类别,编码类别按粒度从大到小有篇、类、章、节、条、款、项、目、子目、细目;分类粒度原则上越细越优,同时要求对发票分类的准确性。

2)企业购销行为分析及应用:分析某一区域内发票大数据中的相关方购销行为信息,从中分析挖掘出企业的购销行为信息,判断企业大量销售或采购的商品信息,通过构建关系图谱模型,分布模型,在此基础之上发现企业购销撮合、集中采购等商机。

应题要求:

本题为发散性课题,要求参赛者根据自身对该课题应用的理解,基于发票大数据资源,同时收集和补充其他相关数据,以政府、企业和个人等角度为出发点,运用自然语言处理、语义分析建模、深度学习等方法,提出基于发票明细的创新性应用;结合应用进行分析,以论文和实现原型的形式展开,要求包含详细分析过程、模型以及展现实际应用效果,并得出结论。

5

基于历史数据的智能高考志愿填报推荐系统
Smart Recommendation System on Application for Universities

——By CENTURY OCEAN


世纪海航(厦门)科技有限公司

应用行业(Industry) 教育类
Education
产业环节(Industry links) 数据分析
Data analysis
任务说明(Task Description)

根据历年各高校在特定地区的各专业录取分数,相应地区考生的考分和志愿填报情况,以及最终的录取结果,训练一套智能的高考志愿填报推荐系统,能够对未来的高考志愿填报进行分析和智能引导

Based on College enrollment marks of different majors in a specific area,students’ grades and voluntary reports and the result of admission,train and build a smart recommendation system on application for universities,aiming at analyzing and intelligently guiding students to apply for universities in the future.

数据来源(Data Sources) 参赛者自行提供,并附上数据说明
CENTURY OCEAN provides some data sample. Competitors should collect or supplement related data with data description attached.
数据格式(Data Format) 见附件数据文件
See the Attachment
时间范围(Time Range) 2016年福建省高考数据、志愿填报数据和录取信息(2016)
题目说明 点击查看说明

高考志愿填报,关系到考生和家长的切身利益,高校数量多,专业多,每年在各地的招生录取情况复杂,对于考生来说,高分掉档的情况非常普遍。考生和家长需要查阅大量的录取和专业信息,才能做出相应的志愿填报决策,很多时候并不能全面地分析高校信息,导致志愿填报最终不能符合考生和家长的预期。所以我们需要构建一套智能的高考志愿填报推荐系统,以历史高考数据为训练样本,对考生和家长的志愿填报进行智能化的推荐和辅助决策。

数据要求:

以2016年的福建省高考中,各高校各专业在福建省进行的一本、二本和三本招生数据为训练数据,通过分析招生数据、考生分数和最终的录取信息,训练出一个只能的高考志愿填报推荐系统。数据可以从福建省或各地招办获取。注意点:1. 模型训练完毕后,模型的输入为(1)文科或者理科(2)考试分数(3)报考地区(4)偏好专业(5)考生所在地区和学校(6)考生性别,模型的输出为一、二、三本各批次10条权重最高的相关推荐高校和专业。分析结果要客观,并且要避免推荐结果出现热点集中现象,比如相似的条件,都推荐同样的结果。

技术要求:使用各种适合的机器学习算法

提交成果:原理说明介绍文档/ppt ;可执行演示程序;程序源码。

6

交通领域的大数据方案探索
Exploration of Big Data Application Scenario in Traffic Field


2017厦门国际大数据大赛

应用行业(Industry) 交通旅游类
Traffic Travel
产业环节(Industry links) 数据分析、数据应用、数据可视化或数据应用
Data Analysis, Data Application, Data Visualization or Data Application
任务说明(Task Description)

目前交通运输部已经开放了大量的交通数据,以供公众号使用和研究。本次厦门国际大数据大赛,特别设立交通领域的开放性赛题,不设具体的场景和特定的业务需求,在这些开放的数据和案例中得到启发,结合自己的能力与思考,自有探索大数据在交通领域的应用,产出优质的大数据方案。

As an open theme,according to the traffic data opened by Ministry of Transport, competitors can explore and complete big data application scenario in traffic field as they wish.

题目说明 点击查看说明

大赛简介

在福建省经济和信息化委员会的指导下,由厦门市经济和信息化局主办的“2017厦门国际大数据大赛”将于 2017 年 5 月至 10月隆重举行。本次大赛突出“国际化、服务产业、人才导向、技术引领”四大特点,主要包括大数据大赛、产业高峰论坛、大数据企业展等内容,共六道赛题,旨在为人才拓宽就业渠道,为企业发现高端人才,推动产业升级,展现创新风采。

赛题简介-交通领域的大数据方案探索

交通的规划、管理、决策等各方面都要以大量交通数据的分析和预测为支撑,是天然的大数据行业。而今,随着全国智能城市、感知公路等信息化建设的推进,以物联网为方向的信息采集技术逐渐普及,3G/4G网络传输技术迅猛发展,交通海量数据正在通过不同的途径成级数增长。这为交通大数据的发展提供了条件。

目前,交通大数据的发展氛围已经形成,无论是政府部门,还是企业单位,都认识到了其发展必然性和巨大价值潜力。但从全国来看,交通大数据的应用尚处于探索、小范围尝试阶段,研究应用所采用的数据较为单一。例如,交警部门利用系统内部数据对事故易发点进行分析和治理;交通研究机构采用利用手机指令数据提供的个体活动链特征,将其与居民出行调查数据库等传统数据相结合,建立模型,从而提高模型的校验、预测精度及动态特征;土地评估咨询单位基于大众点评网等网络数据,对火车站周边商圈货物的OD进行分析,从而对火车站周边度用地进行评估等等。可见,规模化的大数据应用态势尚未形成,交通大数据发展发展潜力巨大。

目前交通运输部已经开放了大量的交通数据,以供公众使用和研究。本次厦门国际大数据大赛,特别设立交通领域的开放性赛题,不设具体的场景和特定的业务需求,我们期待各位参赛者,在这些开放的数据与案例中得到启发,结合自己的能力与思考,自由探索大数据在交通领域的应用,产出优质的大数据方案。