.txt

  利用人工智能预测问题疫苗企业
  摘要
  进入2018年7月中,假疫苗事件频频曝光,不仅对人民生活和社会舆论带来极为不利的影响,而且事件的处理过程更是直接关系到政府机构在人民心中的诚信度,因此如何在快速的过程中,有效地预测和判断哪些企业可能涉及问题疫苗,不仅是广大人民群众,也是政府监管机构关心的话题。我们利用人工智能的方法,通过已公开的相关数据去捕捉信息,在一定的置信区间范围内预测可能会出现问题的疫苗企业,力图帮助社会和政府对其进行监管,提前介入,达到有效预判并更为高效地处理问题疫苗企业。
  一、 引言
  假疫苗事件牵动着每一个中国人的心,假疫苗事件不仅给涉及到的家庭带来了巨大的伤害,也给政府监管部门带来新的思考,为何假疫苗事件曝发力度如此之大,而如何才能提前判断,防止此类事件的发生,更是成为牵动政府官员和普通老百姓切身利益的事情。

  1、搜集全国各个省份公布的第二类疫苗招投标文件、中标结果公示及相关数据;
  3、搜集和整理所有涉事疫苗信息,提取相关企业的数据作为比对和验证;
  5、利用人工智能算法对得到的数据进行模型训练和检验,并将最终得到的预测结果与政府发布的信息相比较,以归纳总结。
  二、 数据采集
  数据采集是整个数据挖掘过程中最繁琐,也是最消耗计算时间的环节,而从海量数据中提取有效数据,对数据的清洗更是直接关系到结果的可靠性。我们收集了如图1所示27个省市自治区官方已公布的第二类疫苗招投标数据,其中包含了采购疫苗的名称、编号、规格、剂型、包装、GMP证书编号、生产厂家、分包装企业、中标价格等等,如表1所示。
  

  
  表1 第二类疫苗挂网阳光采购表结构
  针对以上收集得到的原始数据,首先需要对其进行格式转换,确保表结构统一,再对数据表格中的某些关键特征项进行拆分和提取,以获得尽可能多的信息。同样规格的产品,按照不同的包装类型进行拆分,其对应的价格也不一样。为避免数据的信息冗余,我们还剔除了一些与此次分析无关联的特征项,如药品ID和供应商电话等。

  
  表2 疫苗产品特征项拆分整合表
  通过对数据的分析,我们发现问题疫苗企业在各个省份的分布相对来说比较均匀,已公布的21家问题企业,在所调查的省份均有10家左右,如图2所示。

  图2 问题疫苗在各省分布情况
  除此之外,我们还特意收集了官方公布的所有问题疫苗及供应商的信息,并为其贴上疑似问题疫苗的标签,以便模型训练时进行检验,如表3所示。

  表3 问题疫苗供应商信息表
  为了避免数据的干扰,防止因特征值来源单一对模型造成的影响,我们还需要获取一些相关联的外部数据。
  这个流程,我们采用当前极为流行的Python语言构建相关程序,从企业查询网站上获取到相关疫苗企业的基本信息,如股东构成、对外投资情况、风险分析、以及存在哪些法律纠纷或收到过哪些行政处罚等等。再将这些信息提取并整理成为新的特征项,供模型训练,相关Python语言构建的代码见附件一。
  通过公司的企业图谱、关联图谱、以及股东高管分析等相关商业内容,我们从海量信息中提取得到判断信息,进而将与问题疫苗企业相关联的疫苗企业归为一类。如下图3所示。图中,如长春长生生物科技有限责任公司,与其有直接关联的企业有长春生物科技股份有限公司、长春祈健生物制品有限公司、以及北京祥瑞生物制品有限公司,在模型训练时将其分为一类,作为特征项。

  图3 关联疫苗供应商分类
  同时,我们将自身风险、关联风险、失信信息、被执行人、法院公告、裁判文书、行政处罚等风险信息提取出来,也作为特征项统一到表单中,如表4所示。

  表4 疫苗供应商风险信息特征项
  通过分析,我们发现以上这些特征项与被公布的问题企业有一定的相关性。例如,将自身风险和关联风险与涉事的疫苗企业做关联对比分析,可得到如图4所示的相关内容。

  

  

  附件一 Python代码:获取企业查询网站上相关疫苗企业基本信息

  附件二 Python代码:筛选最佳特征项组合

  

Posted in 未分类

互喷

发表评论

邮箱地址不会被公开。 必填项已用*标注

19 + 5 =

Next Post

-违约拖着不退定金,怎么办?求助!

周四 4月 8 , 2021
  利用人工智能预测问题疫苗企业   摘要   进入2018年7月中,假疫苗事件频频曝光,不仅对人民 […]