汇总:【爬虫+数据分析实战】采集北上广深天气数据
前言
你好你好!我是栗子
这几天冷吗?温差大吗?有风吗?发抖。
不用担心!从下周开始,我的朋友们要傻眼了。不信你看全国基本都在降这个点!——
温度!- 是的!不要问你为什么得出这样的结论?冬天来得太快,就像龙卷风一样。. .
这几天真的很冷,很干燥。我的嘴唇都快干秃了!受冷空气影响。温度随处可见
明显下降,昼夜温差大。看看这看起来像不是最新的你?
所有文章完整资料+源码都在
粉丝免费源码福利,请移步CSDN社区或文末公众号获取免费。
的
好了,废话太多。下面开始今天的话题:爬取天气数据并做数据可视化,我们就来
采集北京、上海、广州、深圳的历史天气采集,一起来看看历年的天气数据吧!目测分析后可以得出各种结论
~ 不信你看看。
正文 1. 前期准备学习到的知识点有:
动态数据抓包
发送请求
结构化+非结构化数据解析
操作环境:
[开发环境]:
3.6 运行代码
2021 辅助敲代码
第三方模块 pip 模块名
镜像源安装 pip -i // +模块名
+ 安装包 安装教程视频
+ 社区版 专业版 及 激活码免费找我拿即可
2.代码实现
爬虫
批量采集数据(文本 视频 音频 图片)
原理:
模拟成 浏览器(客户端) 向 服务器 发送请求(跟服务器 打交道)
爬虫:
分析数据来源 找到数据
%%5D=54511&%%5D=2&date%%5D=2022&date%%5D=4
实现代码: 1. 发送请求 2. 获取数据 3. 解析数据 4. 保存数据
1)爬虫代码:
# 第三方模块(额外安装) 发送请求
# 解析数据 第三方模块
csv# 内置模块
with open('北上广深历史天气.csv', mode='a', ='', ='utf-8') as f:
= csv.(f)
.(['日期', '最高温度', '最低温度', '天气', '风向', '城市'])
= [54511, 58362, 59287, 59493]
for city in :
for year in range(2013, 2022):
for month in range(1, 13):
url = f'%%5D={city}&%%5D=2&date%%5D={year}&date%%5D={month}'
# 1. 发送请求
= .get(url=url)
# : 请求成功
# 2. 获取数据
= .json()# 字典 text 文本 字符串
# 3. 解析数据 (提取数据)
= ['data']
# .-table tr
= .()
trs = .css('.-table tr')[1:]
for tr in trs:
# ::text: 获取标签文本内容
# .(): 获取所有的td标签
td = tr.css('td::text').()
if city == 54511:
td.('北京')
elif city == 58362:
td.('上海')
elif city == 59287:
td.('广州')
elif city == 59493:
td.('深圳')
print(td)
with open('北上广深历史天气.csv', mode='a', ='', ='utf-8') as f:
= csv.(f)
.(td)
2)
显示结果:
3)北上广深天气数据采集表存储
好的!观想就等大家自己动手了。当然你也可以直接找我要源码哈哈哈!
下面是视觉动态图~
总结
北上广深的朋友们大家好!!!本周天气,看天气预报!!!
如果要问本周穿什么,那就是冬天了!!!~~~来来来~~~ 看看这个文章就OK了!
学了这篇文章,你就什么都懂了,随便爬一下。你家乡的天气怎么样?我先来:最近气温有点
孩子最近一周恢复平均在12到-3左右。
✨完整素材源码等:可以滴我哦!或点击文末hao免费领取~往期推荐文章——
项目 1.7
【实战】朋友因为股票亏损而非常愤恨。当天,我分析了原因:你是怎么做到的?(听说跟着我的人会发财)
1.8【实战】海量表情包来袭,快来pick战斗新姿势吧~(超好玩)
1.9【实战】《*敏*感*词*》专属游戏小助手帮你吃鸡:极品小助手也牛逼~(《运气好,今天吃鸡》)
0.8【抢票神器】优采云抢票软件靠谱吗?衡量 - 最终战略。
0.9【实战】WIFI密码小工具,丢*敏*感*词*十街,WIFI随意连~(附源码)
文章总结——
文章集合| (介绍实战、游戏、、案例等)
(文章总结,更多案例等你学习~源码可以免费找!)
事实:百度如何对待重复内容和采集站?
重复内容一直是 SEO 行业关注的问题。重复内容会被搜索引擎惩罚吗?有朋友发现他的文章被转发了,他的排名还是比他的原创高,那么百度是怎么处理网络上这么多重复内容的呢?
重复的内容和 采集 网站是否会受到搜索引擎的处罚?
1、百度是否会惩罚重复内容?在这里,首先要明确的是,重复内容和采集网站还是有一定区别的。目前百度并没有明显打击重复内容的迹象,可以这样理解,百度不会对重复内容进行处罚。尽管如此,很多SEO专家在做网站诊断时,还是会讨论外部站点的重复内容量。一般他们会用站长工具来统计是否附上原链接!这里有个大家一直纠结的问题:文章被转发后,排名比自己高。百度显然一直在努力解决这个问题,但目前还处于测试阶段。我们在最近上线的熊掌中可以看到这一点 希望有授权的站长可以在熊掌账号下提交原创保护下的原创内容。一个很特别的地方是文章发布时间需要精确到秒:
这是一个非常明确的信号。对于受原创保护的站点,一旦提交的链接被审核通过,原创标签就会被添加到移动端的搜索显示中,排名自然会高于转发文章 高。
2、为什么采集的内容排名这么高?这里的采集内容应该分为两种,主要有以下两种情况:
(1) 权威站转载 百度推出雄跑后,权威站转载会得到明显改善,那么百度为什么要给这些网站转载内容高排名呢?这与网站的权限和原创的比例有一定的关系。同时,为了更好的在搜索结果页展示优质的文章,从信息传播的角度也无可厚非,权威站点的转发都会附上版权链接,这对于新网站也是一种友好的方式。的外部链接。
(2) 全站采集 全站采集完全不同,虽然采集的海量内容会保持网站持续更新的频率,同时时间,它也会发现收录还不错,但是采集的内容几乎没有排名,这也是目前新闻外链存活下来的一点原因!百度推出飓风算法后,其明确的态度是严厉打击不良采集网站。看来以后连收录都要前功尽弃了。
3、内部重复内容是否会被处罚
对于这个问题,百度的表述比较模糊。在最近推出的清风算法中,百度强调不要过多优化标题,通过堆砌关键词来提升排名。言外之意就是标题不要太重复。
一些 SEO 专家早些时候也表示:
使用同义词或伪装成关键词作为标题来创建多个页面覆盖关键词目前不提倡,尽量精简为一个文章,例如:
银耳的功效与作用
银耳的营养价值
这两个标题,你会看到在很多美食网站中都有独立的页面,但是就它们的内容而言,答案几乎是相似的。百度会希望你能把这两个问题结合起来,比如:银耳的营养价值,它的功效和作用是什么?
总结:
SEO是一种策略,尤其是面对重复内容和采集内容时,有时很难判断。很多站长到了临界点,及时止损。毕竟想要有流量就必须有排名,而收录就是这个关系中不可或缺的一部分。不要挑战百度的宽容度,否则你还是会受伤的。
本文由沉阳网站建设与微信小程序开发团队整理整理于网络。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。