Z Courses

A Simple Web Classroom

用户工具

站点工具


课程:python数据分析与应用:python数据分析概述

python数据分析概述

数据案例

1. 啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

2. 数据新闻让英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

3. Google成功预测冬季流感

2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

《长安十二时辰》——大案牍术

思考:上述案例说明了什么?

中国的数据中心分布图

讨论:数据如何成为发展动能?

什么是数据分析

什么是数据

百度百科关于数据的定义:

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。 在计算机系统中,数据以二进制信息单元0,1的形式表示。

因此,数据不同于信息,没有固定的格式去规定其呈现形式。

数据分析的目的

数据分析的目的在于:将隐没在一大批看起来杂乱无章的数据中的信息集中和提炼出来,以找出所研究对象的内在规律。从而帮助人们做出判断,进行决策。

数据分析概念的界定

数据分析的作用

最初,数据分析用来进行数据保护,现在已发展成数据建模的方法论,成为了一门真正学科。模型实际上是将所研究的系统转化为数学形式。一旦建立数学或逻辑模型,对系统的响应能做出不同精度的预测,我们就可以预测在给定输入的情况下,系统会给出怎样的输出。

数据分析的范畴

学科范畴

通过以上的示意图不难发现,做好数据分析依赖于数学知识、统计学知识和计算机应用知识。可以说,数学是根基、统计学是方法、计算机是工具。

案例: 某互联网公司希望激活数量可观的沉默用户,设计了3个方案,将所有沉默用户随机分布在规模相同的三个群中,将3套方案实施在这3个群体中,观察3个群体中每天成功唤醒的用户数量,下图是3个方案实施8天后的数据:

这些都是数据采集的结果,接下来就是应该是分析师根据统计学的知识,借助于计算机的手段来分析确定哪一种方案更适合最初的目的了。

数据分析的流程

对于一个需要依靠数据来进行认证的问题,我们一般可以将其划分为以下几个步骤,从而实现数据的分析。

需求分析

需求分析是指,从用户的需要出发,挖掘用户的真实意图,并转化为产品需求的过程。数据分析中的需求分析,决定了数据分析的方向和方法。

数据获取

数据是数据分析工作的基础,数据获取是指根据需求分析的结果提取、收集数据。

大数据时代之前,一些传统的数据获取方式有档案采集、抽样问卷等等。进入大数据时代之后,网络成为了最大的数据生产市场,通过一些网络方式就可以获取到相关的信息,这时网络爬虫就起到了重要的作用。爬虫的对象是网络数据,而网络数据包含了:视频、音频、图像、文字等等。

实例:从古诗文网上获取指定作者的诗歌

数据预处理

数据的来源往往不尽相同。对于不同规模、不同格式的数据,在使用前要进行相应的预处理,以使其达到可用状态。

数据预处理是对获取到的数据进行清洗和标准化的处理,以及把数据变换为优化过的形式。例如去年重复、缺失、异常、不一致的数据。

数据分析与建模

数据分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中的有价值信息,并得出结论的过程。

数据分析与建模的用途:

一是预测系统所产生的数据的值,使用回归模型;

二是为新数据分类,使用分类模型或聚类模型。

模型评估

模型评估是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。

最终部署

数据分析的最后一步是部署,旨在展示结果,就是给出数据分析的结论。