面试数据分析最重要的 30+ 问题
in 数据分析 with 0 comment

面试数据分析最重要的 30+ 问题

in 数据分析 with 0 comment

文章内容总结至知乎-磊叔的回答,阴差阳错找到的,大佬的数据分析面试题,全是干货!

答案是根据磊叔的Live总结的,供面试前复习用

来源:互联网公司在面试数据分析师的工作时具体会被问什么样的问题? - 磊叔-数据化运营的回答 - 知乎

逻辑性和统计学

平均数、中位数、众数、分位数、IQR、方差、正态分布等

将不同指标的考察基准拉到同一个水平线上,或拉到同一个基线上对比

微信365天的日活数据,怎么判断是异常波动?

方差,异常值判断:Q1(1/4)Q3(3/4)IQR(Q3-Q1)

Q1-1.3*IQR

Q3+1.3*IQR

环比:相连续的上一个统计周期进行对比

同比:同期的统计数据进行对比

相关:两个或多个变量的相互影响程度,关键:互为相关

因果:前一个事件对后一个事件的相关和程度,关键:有严格的先后顺序

皮尔逊相关系数,前提是相互独立

各个变量是相互独立的,业务:每个指标之间是没有影响的

大于0.5(强相关)小于0.05或0.1(弱相关)

相似的对象通过一些算法划为不同的类别,关键:分类数量未知、仅制定分类的特征

应用场景:

1)用户画像中的年龄段分布:未知年龄段的数量,也不知道每个年龄段的范围

2)内容特征工程:内容提取出来的标签,会根据标签和标签之间的相似度来生成上一级的主题词/概念词分类(今日头条、UC头条之类的内容分发平台的内容分类体系,标签系统)

常见算法: k-mean算法

分类的数目和特征都明确

应用场景:基于文本内容的垃圾短信识别、商品图片分类

常见算法:逻辑回归、SVM、决策树、knn

区别:聚类分类数量未知,只制定特征;分类的分类数量和特征都明确。

R^2>0.4,拟合效果好

说明:可决系数R2的值为0~1之间的值。R2越接近于1,说明模型的效果越好,越接近于0,说明的模型效果越差。

核心:93%的人类行为可预测

指数平滑,特点:对不同时间的周期进行加权,离现在越近的数据权重越高,越远的数据权重越低

时间间隔是固定的;最近的数据对于预测影响程度越大;有季节性

回归:自变量(可以是任何数据,包括时间)对于因变量的影响趋势;无季节性

时间序列:时间对于因变量的影响趋势;有季节性

数据分析思路类

找出问题,分析问题,解决问题

必须要落地业务,同时推动业务切实执行,并跟进执行效果,即必须!必须!闭环

观察表象-标注变化-多维分析-交叉分析-预测趋势-生成策略-推动落地-复盘效果

  1. 描述性统计:下跌了多少?
  2. 观察变化:同比?环比?
  3. 评估变化/方差分析:跌幅是否在合理范围?
  4. 交叉分析/相关性分析:有哪些指标可能和日活下跌有关系,有关系到什么程度?
  5. 业务分析:这些指标的运营部门?他们是否有某些运营策略或者活动对造成了这些指标的变化,间接导致日活下跌
  6. 回归分析/预测:还会跌几天?跌幅最坏去到什么程度
  7. 风险/损失评估:日活下跌对产品的核心kpi有什么影响
  8. 制定策略:如何挽回损失/如何下次避免

数据分析技能类

指标就是反应业务特征及其变化的数据

指标的组成:类型、名称、业务口径、技术口径、关联维度、更新频率、数据源

指标体系:指标有机结合起来的,具有严格逻辑和分类的体系

如何建立?从上至下:顶层战略指标/KPI逐步细拆;从下至上:原子指标加减乘除向上汇总

按业务分

指标/度量:目前同义,tableau中度量就是表字段的聚合值,也就是指标

维度:是描述指标的角度

语文:维度是定语,指标是主语/宾语

增长率:指标

过去3年/广州地区/A产品/月活:维度

主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

对小样本的后验方法,对样本随机选取后进行对比,通过对比选取最合理的方案

网页版本、app按钮等等新功能

A/B 测试是多方案并行的,并不是传统认知上的 A、B 两种方案

一个 A/B 测试只有一个变量,但是一个变量可以有很多值

评估连续业务流程的节点转化率

连续业务节点

  1. 步骤不要超过5步
  2. 转化率不要小于1%
  3. 两种转化率计算:每一步作为下一步的基线;第一步作为后续步骤的基线
  1. 60分:看转化
  2. 80分:还要看流失
  3. 90分:每一步还要结合其他指标看,例如每步的停留时间
  4. 100分:看转化率的时间变化
  5. 120分:每步的用户画像变化

数据敏感性类

见下图。其中,要求至少说出3条所看出的事实。

img

考察点:

  1. 数据变化的敏感度
  2. 有限信息下的数据分析思路
  3. 多维分析思路

image-20210531204321247.png

image-20210531204346177.png

image-20210531204409699.png

image-20210531204431614.png

其他好玩的问题

数据分析是一种能力,通用的技能,它并不枯燥,有很多数据分析的方法和工具是数据分析变得很有意思

怎么在没有导航和电子狗的情况下知道道路的限速,只要你的速度不比大多数车开得快就行。