许多人都在问youtube网站热门视频的数据集里面包含哪些内容。许多人都对该平台的数据集跟业务背景的介绍不是特别了解。许多人都对youtube数据集等这方面的内容感觉到非常陌生。接下来就带各位来说一说关于youtube数据集等这方面的内容进行探讨交流欢迎大家进来讨论。
youtube网站数据集
这个数据集是youtube网站上Trending List的每日统计信息。时间跨度是2017年11月14日至2018年6月14日。它里面含有美国、英国、德国、加拿大、法国等国家跟地区,每个地区一个文件,在这里选取了美国的数据。
“Trending List”的该官方中文翻译是“时下流行”,大家能够明白为热门视频的榜单。相似微博的热搜机制,榜单内容在同一地区是相同的,不按照用户个人的喜好而做个性化推荐。然而Trending List并不只是按照播放量等单一指标来进行排序的,该平台综合了多种因素权衡用户对视频的互动热度(里面含有播放量、分享数、评论跟点赞等等)。
youtube的数据集简介
数据来源通过Google数据搜索引擎,在Kaggle上找到的数据Trending YouTube Video Statistics,www.kaggle.com。
数据集为csv格式,文件大小59.8M。数据总共16个字段,40726条。
详细字段如下:
video_id(视频ID)
trending_date(推荐日期)
title(标题)
channel_title(频道标题)
category_id(类型id)
publish_time(发布时间)
tags(标签)
views(观看数)
likes(点赞数)
dislikes(不喜欢数)
comment_count(评论数)
thumbnail_link(缩略图链接)
comments_disabled(是否允许评论)
ratings_disabled(是否允许打分)
video_error_or_removed(视频是否损坏或移除)
description(描述)
业务背景
用户可以使用极值能够处理底下的相关问题:
Trending榜单中
哪些视频跟频道被收录热门榜单(Trending List)天数最多?
哪类视频播放量最高/最低?
哪类视频评论率最高/最低?
哪类视频的点赞率最高/最低?
热门榜单(Trending List)中标题长度多少词的视频最多?
用户使用箱型图能够描述不同类别的整体情况:
各类视频的观看数、点赞数、评论数的整体情况
用户可以使用正态分布,来取得知道观看数、点赞数、不喜欢数、评论数等分别是不是相符正态分布,从而能够再验证它们之间是不是存在线性相关(Pairs plot 矩阵散点图、协方差矩阵及其相关系数)
用户可以用底下业务问题来进行处理
1.哪些因素会影响该网站视频的受欢迎程度?是怎么影响的?
2.人们最感兴趣的是哪种类型的视频?
3.Trending榜单上的视频一般可以存放多少天?
4.视频的发布日期跟被推荐日期之间是不是存在某种联系?
5.视频的标签数越多越好吗?视频描述越详细越好吗?
6.是不是存在视频发布的黄金时间(每月/每周中是不是存在周期性的高热度)?
a.时间
trending_date(推荐日期)
publish_time(发布时间)
b.内容类型
channel_title(频道)
category_id(类型id)
c.互动
views(观看数)
likes(点赞数)
dislikes(不喜欢数)
comment_count(评论数)