TF黑科技与泰坦尼克

TF黑科技与泰坦尼克

摘自《零起点TensorFlow快速入门》

经典大片《泰坦尼克》(Titanic),以1912年泰坦尼克号邮轮在其处女启航时触礁冰山而沉没的事件为背景,描述了处于不同阶层的两个人——穷画家杰克和贵族女露丝抛弃世俗的偏见坠入爱河,最终杰克把生命的机会让给了露丝的感人故事。

在机器学习领域,《Titanic数据集》是与《IRIS数据集》并列的经典数据集。
Titanic数据集,是根据泰坦尼克号上的人员是否存活的数据集,是国际著名的机器学习大赛Kaggle的入门练手题。
Titanic数据集共有1237个数据,其中819个训练集和418测试集。
数据集中共有12个字段,包括年龄、性别、船厂等级等12个属性:

《泰坦尼克》案例,就是通过使用神经网络算法,根据Titanic数据集,计算经典大片《泰坦尼克》(Titanic)的两位男女主人公:穷画家杰克和贵族女露丝,每个人的生存机率。
这个问题,初一看,似乎是“不可能完成的任务”,不过TensorFlow(TF神经网络、深度学习平台),既然被誉为自Internet以来唯一的黑科技,自然有其解决的办法。
曾经有历史学者,通过研究历史数据当中的食盐、布匹消费量,而推断当时相关国家的人口、经济、军事等实力,并衍生出一个计量历史学这样一个学科。
马云曾经说过:“要么电子商务,要么无商可务。”
也许,未来的学术领域,也会“要么AI,要么NO-A。” ,这里的A,代表Anything

相信,随着类似Titanic数据集案例、梵高画风等一系列,基于TF等神经网络、深度学习项目的不断涌现,未来的各个学科,对会基于AI人工智能,进行新的学术重组。

Kaggle机器学习公开赛当中,这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。
参见:[url]https://www.kaggle.com/c/titanic-gettingStarted/[/url]

其中的一个案例,计算结果表明:
杰克获救的机会是16.7%,露丝是95.8%。

发表评论

电子邮件地址不会被公开。 必填项已用*标注