如何使用 Yahoo Finance stock API 获取股票数据？

2024-05-13

1. 如何使用 Yahoo Finance stock API 获取股票数据？

1、通过API获取实时数据
请求地址
http://finance.yahoo.com/d/quotes.csv?s=&f=
参数
s – 表示股票名称，多个股票之间使用英文加号分隔，如”XOM+BBDb.TO+JNJ+MSFT”，罗列了四个公司的股票：XOM, BBDb.TO, JNJ, MSFT。
f – 表示返回数据列，如”snd1l1yr”。更详细的参见雅虎股票 API f 参数对照表 。
2、通过API获取历史数据
请求地址
http://ichart.yahoo.com/table.csv?s=&a=&b=&c=&d=&e=&f=&g=d&ignore=.csv
参数
s – 股票名称
a – 起始时间，月
b – 起始时间，日
c – 起始时间，年
d – 结束时间，月
e – 结束时间，日
f – 结束时间，年
g – 时间周期。Example: g=w, 表示周期是’周’。d->’日’(day), w->’周’(week)，m>’月’(mouth)，v->’dividends only’一定注意月份参数，其值比真实数据-1。如需要9月数据，则写为08。
3、通过API获取深沪股票数据
雅虎的API是国际性的，支持查询国内沪深股市的数据，但代码稍微变动一下，如浦发银行的代号是：600000.SS。规则是：上海市场末尾加.ss，深圳市场末尾加.sz。
股票数据的获取目前有如下两种方法可以获取:
1. http/javascript接口取数据。2. web-service接口。
3.http/javascript接口取数据。
4.1Sina股票数据接口。
以大秦铁路（股票代码：601006）为例，如果要获取它的最新行情，只需访问新浪的股票数据。接口：

2. 如何用python抓取股票数据

在 Python的QSTK中，是通过 s_datapath 变量，定义相应股票数据所在的文件夹。一般可以通过 QSDATA 这个环境变量来设置对应的数据文件夹。
具体的股票数据来源，例如沪深、港股等市场，你可以使用免费的WDZ程序输出相应日线、5分钟数据到  s_datapath 变量所指定的文件夹中。然后可使用 Python的QSTK中，qstkutil.DataAccess进行数据访问。

3. 如何获取实时的股票数据

下载个股票行情软件就可以看实时行情了 例如同花顺 通达信 东方财富等等，如果已在证券公司开户，也可以下载证券公司专用的软件

如何获取实时的股票数据

4. 如何用python 取所有股票一段时间历史数据

各种股票软件，例如通达信、同花顺、大智慧，都可以实时查看股票价格和走势，做一些简单的选股和定量分析，但是如果你想做更复杂的分析，例如回归分析、关联分析等就有点捉襟见肘，所以最好能够获取股票历史及实时数据并存储到数据库，然后再通过其他工具，例如SPSS、SAS、EXCEL或者其他高级编程语言连接数据库获取股票数据进行定量分析，这样就能实现更多目的了。

5. 怎样用python处理股票

用Python处理股票需要获取股票数据，以国内股票数据为例，可以安装Python的第三方库：tushare；一个国内股票数据获取包。可以在百度中搜索“Python tushare”来查询相关资料，或者在tushare的官网上查询说明文档。

怎样用python处理股票

6. 如何使用python抓取炒股软件中资金数据

这个说来有点复杂，用fiddle监控软件跟服务器间的通讯，找到数据源地址，然后用excel或python抓这个源地址数据，可能还要加上反扒代码，构造时间戳等等，你网上找python网抓视频教程看看就知道了。

7. 如何用python 爬虫抓取金融数据

获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。
本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。
一、网页源码的获取
很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。

import urllib.requesturl='ar.com/stock/ranklist_a_3_1_1.html'  #目标网址headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)"}  #伪装浏览器请求报头request=urllib.request.Request(url=url,headers=headers)  #请求服务器response=urllib.request.urlopen(request)  #服务器应答content=response.read().decode('gbk')   #以一定的编码方式查看源码print(content)  #打印页面源码 

虽说抓一页的源码容易，不过在一个网站内大量抓取网页源码却经常遭到服务器拦截，顿时感觉世界充满了恶意。于是我开始研习突破反爬虫限制的功法。
1.伪装流浪器报头
很多服务器通过浏览器发给它的报头来确认是否是人类用户，所以我们可以通过模仿浏览器的行为构造请求报头给服务器发送请求。服务器会识别其中的一些参数来识别你是否是人类用户，很多网站都会识别User-Agent这个参数，所以请求头最好带上。有一些警觉性比较高的网站可能还会通过其他参数识别，比如通过Accept-Language来辨别你是否是人类用户，一些有防盗链功能的网站还得带上referer这个参数等等。
2.随机生成UA
证券之星只需带User-Agent这个参数就可以抓取页面信息了，不过连续抓取几页就被服务器阻止了。于是我决定每次抓取数据时模拟不同的浏览器发送请求，而服务器通过User-Agent来识别不同浏览器，所以每次爬取页面可以通过随机生成不同的UA构造报头去请求服务器，
3.减慢爬取速度
虽然模拟了不同浏览器爬取数据，但发现有的时间段可以爬取上百页的数据，有时候却只能爬取十来页，看来服务器还会根据你的访问的频率来识别你是人类用户还是网络爬虫。所以我每抓取一页都让它随机休息几秒，加入此句代码后，每个时间段都能爬取大量股票数据了。
4.使用代理IP
天有不测风云，程序在公司时顺利测试成功，回寝室后发现又只能抓取几页就被服务器阻止了。惊慌失措的我赶紧询问度娘，获知服务器可以识别你的IP，并记录此IP访问的次数，可以使用高匿的代理IP，并在抓取的过程中不断的更换，让服务器无法找出谁是真凶。此功还未修成，欲知后事如何，请听下回分解。
5.其他突破反爬虫限制的方法
很多服务器在接受浏览器请求时会发送一个cookie文件给浏览器，然后通过cookie来跟踪你的访问过程，为了不让服务器识别出你是爬虫，建议最好带上cookie一起去爬取数据；如果遇上要模拟登陆的网站，为了不让自己的账号被拉黑，可以申请大量的账号，然后再爬入，此处涉及模拟登陆、验证码识别等知识，暂时不再深究...总之，对于网站主人来说，有些爬虫确实是令人讨厌的，所以会想出很多方法限制爬虫的进入，所以我们在强行进入之后也得注意些礼仪，别把人家的网站给拖垮了。
二、所需内容的提取
获取网页源码后，我们就可以从中提取我们所需要的数据了。从源码中获取所需信息的方法有很多，使用正则表达式就是比较经典的方法之一。我们先来看所采集网页源码的部分内容。


为了减少干扰，我先用正则表达式从整个页面源码中匹配出以上的主体部分，然后从主体部分中匹配出每只股票的信息。代码如下。
pattern=re.compile('')  body=re.findall(pattern,str(content))  #匹配之间的所有代码pattern=re.compile('>(.*?)和<之间的所有信息
其中compile方法为编译匹配模式，findall方法用此匹配模式去匹配出所需信息，并以列表的方式返回。正则表达式的语法还挺多的，下面我只罗列所用到符号的含义。
语法    说明    
.    匹配任意除换行符“\n”外的字符    
*    匹配前一个字符0次或无限次    
？    匹配前一个字符0次或一次    
\s    空白字符：[\t\r\n\f\v]    
\S    非空白字符：[^\s]    
[...]    字符集，对应的位置可以是字符集中任意字符    
(...)    被括起来的表达式将作为分组，里面一般为我们所需提取的内容    
正则表达式的语法挺多的，也许有大牛只要一句正则表达式就可提取我想提取的内容。在提取股票主体部分代码时发现有人用xpath表达式提取显得更简洁一些，看来页面解析也有很长的一段路要走。
三、所得结果的整理
通过非贪婪模式(.*?)匹配>和<之间的所有数据，会匹配出一些空白字符出来，所以我们采用如下代码把空白字符移除。
stock_last=stock_total[:] #stock_total：匹配出的股票数据for data in stock_total:  #stock_last：整理后的股票数据if data=='':stock_last.remove('')
最后，我们可以打印几列数据看下效果，代码如下
print('代码','\t','简称','   ','\t','最新价','\t','涨跌幅','\t','涨跌额','\t','5分钟涨幅')for i in range(0,len(stock_last),13):        #网页总共有13列数据print(stock_last[i],'\t',stock_last[i+1],' ','\t',stock_last[i+2],'  ','\t',stock_last[i+3],'  ','\t',stock_last[i+4],'  ','\t',stock_last[i+5])

如何用python 爬虫抓取金融数据

8. 哪本书介绍python获取雅虎股票数据

应该没有书专门介绍  如何获取雅虎股票数据吧？
你是想了解爬虫方面的吧？
基本模块：urllib/urllib2/requests  用于发出URL请求，获取相应雅虎数据；
beautifulsoup或者lxml 用于解析上面获取到的html内容；
如果要小题大做的话，你也可以了解一下爬虫框架：scrpy