下面是小编为大家整理的数据分析专员试题及答案分析(全文完整),供大家参考。
数据分析专员试题及答案分析
如果您想从事数据分析专员这份薪资高、行业前景乐观的职位,首先应具备过硬的技术能力以及丰富的实操经验今天小编整理了数据分析专员试题及答案供大家参考,一起来看看吧!
数据分析专员试题及答案
一、选择题
1、有2堆宝石,A和B一起玩游戏,假设俩人足够聪明,规则是每个人只能从一堆选走1个或2个或3个宝石,最后全部取玩的人获胜,假设2堆宝石的数目为12和13,请问A怎么可以必胜?
答:A只要取完宝石后给B留4的倍数就能赢,留下4的倍数,B就没有办法取完。而A每次都可以按照B取的数量来修正,保证每次留给B的是4的倍数。到最后B没有办法一次取完4个,而且必须要取,剩下的A取完就赢了
2、从数字集合{1,2,3,4,… ,20}中选出4个数字的子集,如果不允许两个相连的数字出现在同一集合中,那么能够形成多少个这种子集?
答:插空法,16个数17个空任选四个插入数字便可得,C17,4=2380
3、将4个不一样的球随机放入5个杯子中,则杯子中球的最大个数为3的概率是?
答:C4,3 ※ C4,1 ※ C5C1 / (5^4) = 16/125
4、已知y=f(x)的均差f(x0, x1, x2)=14/3,f(x1, x2, x3)=15/3,f(x2, x3,x4)=91/15,f(x0,
x2, x3)=18/3,那么均差f(x4, x2, x3)=( )
答:91/15(18/3、14/3、15/3、91/15)
均差f(x4, x2, x3)=f(x2, x3,x4)=91/15,(对称性)差商与插值节点的顺序无关
5、一个快递公司对同一年龄段的员工,进行汽车,三轮车,二轮车平均送件量的比较,结果给出sig.=0.034,说明
答:按照0.05显著性水平,拒绝H0,说明三类交通工具送件量有显著差异。
6、小明在一次班干部二人竞选中,支持率为百分之五十五,而置信水平0.95以上的置信区间为百分之五十到百分之六十,请问小明未当选的可能性有可能是
答:3%
【0.5,0.6】的概率在0.95以上,0.55属于区间内,故一定有某个子集区间包含0.55且概率为0.97
7、某销售车辆公司某一时间段各类商品的销售量如下图,
销售员需统计以下公式所示数据=SUM(SUMIF(C2:C9,{" <10","<6"})※{1,-1})
请问,该公式返回值为
答:14
C2:C9按照"<10","<6"条件分别求和,再按照1,-1求和,即23-9=14
8、SQL语句执行的顺序是
答:1.FROM
2.JOIN ON
3.WHERE
4.GROUP
BY
5.HAVING
6.SELECT
7.ORDER BY
9、随机地掷一骰子两次,则两次出现的点数之和等于8的概率为:
答:5/36,35,53,26,62,44
10、设随机变量X和Y都服从正态分布,且它们不相关,则( )
答:X与Y未必独立
错误答案:(X, Y)服从二维正态分布、X与Y一定独立、X + Y服从一维正态分布
A.只有当(X,Y) 服从二维正态分布时,X与Y不相关⇔X与Y独立,本题仅仅已知X和Y服从正态分布,因此,由它们不相关推不出X与Y一定独立,故A错误;
B.若X和Y都服从正态分布且相互独立,则(X,Y)服从二维正态分布,但题设并不知道X,Y是否独立,故B错误;
C.由A、B分析可知X与Y未必独立,故C正确;
D.需要求X与Y相互独立时,才能推出X+Y服从一维正态分布,故D错误.
11、某地区每个人的年收入是右偏的,均值为5000元,标准差为1200元。随机抽取900人并记录他们的年收入,则样本均值的分布为()
答:近似正态分布,均值为5000元,标准差为40元
错误答案:近似正态分布,均值为5000元,标准差为1200元;
右偏分布,均值为5000,标准差为40;
左偏分布,均值为5000元,标准差为1200元
中心极限定理,样本量N只要越来越大,抽样样本n的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。
12、抽取30个手机用户,计算出他们通话时间的方差。要用样本方差推断总体方差,假定前提是所有用户的通话时间应服从()
答:正态分布
一个总体的方差的区间估计其前提条件是总体服从正态分布,在置信水平下的置信区间服从卡方分布
13、把黑桃、红桃、方片、梅花四种花色的扑克牌按黑桃10张、红桃9张、方片7张、梅花5张的顺序循环排列。问第2015张扑克牌是什么花色?
答:梅花
2015/31 = 65 所以最后一张应该是梅花
14、命题A:随机变量X和Y独立,命题B:随机变量X和Y不相关。A是B的______条件。
答:充分不必要
前者可推出后者,后者推不出前者
15、假定树根的高度为0,则高度为6的二叉树最多有_______个叶节点。
答:64
一棵树当中没有子结点(即度为0)的结点称为叶子结点。所以2^6=64
16、已知一棵树具有10个节点,且度为4,那么:
答:该树的高度至多是7
树的高度:从所有叶节点开始数高度到根节点,其中的最大值;
也就是从结点x向下到某个叶结点最长简单路径中边的条数。
树的深度:树根下中所有分支结点层数的最大值,递归定义。(一般以根节点深度层数为0)
17、对于以下关键字{55,26,33,80,70,90,6,30,40,20},增量取5的希尔排序的第一趟的结果是:
答:55,6,30,40,20,90,26,33,80,70
{55,26,33,80,70,90,6,30,40,20} 增量为5, 从55开始每隔5个距离取值分为1组,共分为5组,
分别为{55,90} {26,6}{33,30}{80,40}
先组内排序取最小值:55,6,30,40,20,
后取剩余值:90,26,33,80,70
18、设二叉排序树中关键字由1到999的整数构成,现要查找关键字为321的节点,下面关键字序列中,不可能出现在二叉排序树上的查找序列是:
答:888、231、911、244、898、256、362、366
2、252、400、398、300、344、310、321;
888、200、666、240、312、330、321;
2、398、387、219、266、283、298、321
二叉排序树的特点就是
若左子树不空,则左子树上所有结点的值均小于或等于它的根结点的值
若右子树不空,则右子树上所有结点的值均大于或等于它的根结点的值
左、右子树也分别为二叉排序树
看B选项的最后两个数,321 和 362 比较以后,明显321< 362,必然会去寻找362的左子树,此时应该去寻找362的左子树,但是366大于362肯定不是左子树
二叉排序树的算法就是
首先将待查关键字key与根节点关键字t进行比较:
a.如果key = t, 则返回根节点指针。
b.如果key < t,则进一步查找左子书。
c.如果key > t,则进一步查找右子树。
19、用13的瓷砖密铺320的地板有几种方式?
答:1278
一共可能有2,5,8,11,14,17块砖头竖着放((20-2)%3==0其余数字同理。)
竖着放代表长度为3的边刚好接触。A6,6代表6!也等于6的阶乘
当有2块竖着放,一共有8(2+(20-2)/3=8)块转,其中6块为竖着放,2块横着。A8,8/(A6,6※A2,2)=28;
当有5块竖着放,一共有10块转,其中5块为竖着放,5块横着。A10,10/(A5,5※A5,5)=252;
当有8块竖着放,一共有12块转,其中8块为竖着放,4块横着。A12,12/(A8,8※A4,4)=495;
当有11块竖着放,一共有14块转,A14,14/(A11,11※A3,3)=364;
当有14块竖着放,一共有16块转,A16,16/(A14,14※A2,2)=120;
当有17块竖着放,一共有18块转,A18,18/(A17,17※A1,1)=18;
当有20块竖着放,结果为1;
以上加总为1278;
20、有20个人去看电影,电影票50元。其中只有10个人有50元钱,另外10个人都只有一张面值100元的纸币,电影院没有其他钞票可以找零,问有多少种找零的方法?
答:16796
卡特兰数问题C(n,2n)/(n+1)=C(10,20)/11=16796
二、大题(注意下面的※代表的是星号)
1、好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户'小明'提交的母婴类目"花王"品牌的好评率(好评率=“好评”评价量/总评价量):
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式'2017-01-01'),
user_name(用户名称),goods_id(商品id,外键) ,
sub_time(评价提交时间,格式'2017-01-01 23:10:32'),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:
b 字段:good_id(商品id,主键),bu_name(商品类目), brand_name(品牌名称)
select sum(case when sat_name ='好评' then count(sat_name) end) / count(sat_name) as "好评率"
from a join b on a.good_id = b.good_id
where a.user_name ='小明'
and b.bu_name = '母婴'
and b.brand_name ='花王'
and a.sub_time between to_date('2018-1-1','yyyy-mm-dd') and to_date('2018-1-31','yyyy-mm-dd')
[/code]
--2、考拉运营"小明"负责多个品牌的销售业绩,请完成:--
--(1)请统计小明负责的各个品牌,在2017年销售最高的3天,及对应的销售额。--
--销售表 a:--
--字段:logday(日期,主键组),SKU_ID(商品SKU,主键组),sale_amt(销售额)--
--商品基础信息表 b:--
--字段:SKU_ID(商品SKU,主键),bu_name(商品类目),brand_name(品牌名称),user_name(运营负责人名称)--
--(2)请统计小明负责的各个品牌,在2017年连续3天增长超过50%的日期,及对应的销售额。--
```code(注意下面的※代表的是星号)
select a.logday. bbrand_name, a.sale_amt
from a join b on a.sku_id = b.sku_id
where year(a.logday)='2017' and b.user_name = '小明'
group by b.brand_name
oerder by a.sale_amt desc limit 3;
cte_2
as
(select A.logday,B.sale_amt,B.brand_name,
COUNT(※) over (partition by A.logday) AS qty,
1.5※lag(sale_amt,1,0) over (partition by A.logday order by B.logday) as last_amt
from cte_1 A
join cte_1 B on A.brand_name=B.brand_name and B.logday between A.logday and DATEADD(DAY,3,A.logday))
select ※ from cte_2 A
where qty=4
and not exists (select 1 from cte_2 where A.logday=logday and A.brand_name=brand_name and sale_amt<last_amt)
3、考拉海购始终以用户为中心,为用户提供高品质的商品,帮助用户“用更少的钱,过更好的生活”。为了满足不同用户的需求(比如新客户的要求可能跟老客户不同,流失客户需要特殊的关怀)
,请你设计一套具体的方案,合理划分不同用户,并能给出相应的建议。
针对用户类型进行划分。
1、新用户——引导性信息收集
任何电商品牌都有一套属于自己的推荐算法,但是对于新用户和新商品这种冷启动问题一般还是没有很好的解决方法。实际上,新商品有很多性能参数,可以根据相近商品进行预测,而新用户对于算法来说是一个完全空白的样本,不利于探测客户需求,所以建议在新用户注册时设计一套能够捕捉购买方向和趋势的问卷,并配合问卷选择发放一些对应的优惠券,这样一方面可以引导新用户在情愿的情况下给出真是的购买意愿,另一方面也能够在最快的时间内捕捉到该用户的一些信息,再一方面促进了用户购买商品的几率。
2、规律用户——捕捉规律行为
大部分用户的购买行为存在周期性,比如优惠周期,使用周期,系统可以根据用户在过去的购买和浏览行为探索用户购买周期,然后预测下一个购买周期,并且发送优惠信息,这样既让用户享受到了优惠,又实现了营销。
3、流失用户——捕捉细节
万事皆有原因,一个用户流失要么是在这里吃过亏,要么是觉得买不到想要的,要么是别的平台更便宜,无非这三大类原因,所以应该捕捉用户最后的浏览信息,浏览表明有购买意愿,针对这些商品基于一些优惠,吸引用户再次浏览,根据一次次吸引浏览来判断不购买原因,再对症下药。
注:要区分流失用户和规律用户,这两类行为存在很大的相似性,但是后者其实并不需要太多优惠或行为进行挽留。
数据分析题目选择题
1. 为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?
2. 你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?
3. 什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?
4. 对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?
5. 除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?
6. 你如何建议一个非参数置信区间?
7. 你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?
8. 什么是归因分析?如何识别归因与相关系数?举例。
9. 如何定义与衡量一个指标的预测能力?
10. 你觉得下一个20年最好的5个预测方法是?
11. 你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?
12. 从阿里数据分析师笔试看职业要求
13. 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。
14. 一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
15. 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
16. Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
17. 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
18. 点评:考察的内容是统计学基础功底。
19. 什么是cron任务?
20. 你是怎么开始对数据科学感兴趣的?
21. 什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
22. 什么是推荐引擎?它是如何工作的?
23. 什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?
24. 你认为怎么才能成为一个好的数据科学家?
25. 你认为数据科学家是一个艺术家还是科学家?
26. 什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?
27. 给出一些在数据科学中“最佳实践的案例”。
28. 什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?
29. 你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
30. 你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?
31. 是假阳性好还是假阴性好?
32. 你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
33. Zillow’s算法是如何工作的?
34. 如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?
35. 你如何创建一个新的匿名数字帐户?
36. 你有没有想过自己创业?是什么样的想法?
37. 你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
38. 你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?
39. 哪位数据科学有你最佩服?从哪开始?
40. 如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?
41. 如何创建一个关键字分类?
42. 什么是僵尸网络?如何进行检测?
43. 你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?
44. 什么时候自己编号代码比使用数据科学者开发好的软件包更好?
45. 可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?
46. 什么是概念验证?
47. 你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
48. 你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?
数据分析有哪些证书
数据分析的证书有CDA数据分析师、CPDA项目数据分析师、BDA商业数据分析师、Professional in Business Analys(PBA)。
1、CDA数据分析师
证书概述:全称为Certified Data Analyst,CDA证书面向商业职场数据分析,共分为三个等级,由经管之家(原人大经济论坛)主办。颁证机构:美国CDA数据分析师协会。
2、CPDA项目数据分析师
证书概述:CPDA由中国商业联合会数据分析专业委员会评定认证。颁证机构:中国商业联合会。
3、BDA商业数据分析师
证书概述:BDA数据分析师由国家统计局与教育部主办的调查分析师升级拓展而来,具有国家工信部认证。BDA数据分析师证书级别分为初级、中级、高级。颁证机构:中国商业统计学会。
4、Professional in Business Analys(PBA)
证书概述:PBA是美国项目管理协会PMI推出的项目管理领域商业分析(需求分析)专业人士认证。PMI于2016年6月在中国大陆区正式启动商业分析专业人士(PMI-PBA)认证考试。颁证机构:国际项目管理协会(PMI)。