幻象客 - 博客

    利用股市找到已有或潜在食品安全问题的上市企业


    in Python , 程序语言 , 算法 , 闲谈 2018-05-26

    当某个股票保持下跌的时候,你可以肯定该股票一定有什么地方不对,要么是它的市场,要么是它的公司。——利弗莫尔

    最近食品安全项目成功升到国家级,对我而言真的是个挑战,无论是朴素贝叶斯分类新闻还是数据分析其实都到了瓶颈阶段(即便过了瓶颈还有瓶盖),真的是绞尽脑汁都不知道问题出现在哪里。因此想换一个思路,结合自己最近的研究,提出了这个比较新颖的想法:利用股票市场找到已有或潜在食品安全问题的企业。

    为什么会有这个想法呢?我们知道食品安全事故发生的时间点和媒体报道的时间点之间实际上是有一个间隔的,然而相关利益人士、内部人士却能提前知道事件的发生。比如说,2012年11月19日,酒鬼酒被国家质检总局爆出塑化剂超标247%,但是在19号之前,酒鬼酒的收盘价却神奇地从2012年11月2日的55元回落到2012年11月16号的46元。然而国家质检总局的消息是在2012年11月19号才发布的。而且这样的下跌,明显违背该股票当时上涨的趋势,在10月底时,它的股价已突破周K的压力线,却很不自然地下跌了?而且还违背了许多技术指标,如1号、14号、16号,KDJ和BOLL指标明显提示上涨,在股市这种情绪化的市场中,有人却不为所动,仍然售出大量股票导致其不正常下跌。

    股市 食品安全

    2012年11月19号消息公布时紧急停牌,复牌后有三个跌停,股价暴跌48%,但我相信某些人已经成功躲开了这场股灾。

    找到已有或潜在食品安全问题

    阅读更多...

    做了一个自动分享到微博的插件


    in php , 干货 , 技术原理 , 程序语言 2018-02-25

    网站的宣传是一个特别令人头痛的问题,为了增加流量,进军微博是个好方法。昨天花了一天的时间做了个WordPress文章发布时自动分享到微博的插件。支持自定义模板和图片。

    阅读更多...

    <博客重构>基于Anyproxy使用"中间人攻击"爬取公众号推送


    in JavaScript , 干货 , 技术原理 , 爬虫 , 程序语言 , 计算机安全 2017-11-12

    感谢:https://zhuanlan.zhihu.com/p/24302048

    以前博客一直使用的是别人制作的框架,typecho、WordPress等都有使用过,但由于是别人的框架,始终不知道其内部运作的原理。这次使用Node.js完全重构了一遍,使得我对整个博客的运作原理清晰了许多,以前看起来很复杂的东西(WordPress 留下的第一印象,虽然WordPress其实不全是用来做博客的),现在看起来竟是这么简单,如果有用框架搭建博客的朋友,建议完全自己做一个试试。当然,这些都不是本次推送的重点,半自动化爬取自己的公众号推送才是重点。

    爬取所需要的环境与工具:

    后端:Node.js + MongoDB

    代理服务器:Anyproxy

    一个安卓模拟器

    服务器环境:

    Node.js + MongoDB

    首先介绍一下Anyproxy, 这是一个基于Node.js的代理服务器,本项目中,Anyproxy的作用如下:若把我们本机当做代理服务器,手机模拟器中的微信当成客户端,那么其运作原理可以如下图所示。手机客户端(Client)发送请求给代理服务器(Server,即本机),本机再将这个请求发送给微信服务器,微信服务器返回信息需要经过本机,再由本机传递给手机客户端。

    anyproxy 中间人攻击 爬取 微信公众号 文章

    在这个过程中,本机承担中间人的作用,而接受到微信返回的信息后,我们可以对那个信息植入脚本,再发送给手机客户端。这就是

    阅读更多...

    使用决策树判断各种标准对新生加入社团的影响


    in Python , 机器学习 , 程序语言 , 算法 2017-09-23

    决策树 新生 社团 加入 标准

    倘若我们拥有许多数据,而且能够恰当地使用决策树,我相信将能创造不小的价值

    由于微信编辑器的问题,没办法上传源代码上来若您需要源代码进行参考请访问https://alltoshare.com/dt_judge/

    在尝试的过程中,您或许会发现很多问题,比如Python中文编码问题,matplotlib编码问题等等,希望在这过程中您可以妥善地利用搜索引擎解决问题

    其实决策树的应用非常广泛,尤其是在预测方面,我所介绍的不过其冰山一角。更详细的参考文献,请看维基百科https://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91

    幻象客 二维码

    阅读更多...

    使用BeautifulSoup爬取新浪所有国内要闻


    in Python , 爬虫 , 程序语言 2017-09-10

    教你如何用beautifulSoup和lxml解析器爬取新浪新闻

    阅读更多...

    使用k近邻算法根据数据识别性别


    in 算法 2017-08-20

    使用k近邻算法利用数据来识别性别(机器学习)

    阅读更多...

    想要优惠券?自己来领吧!


    in 干货 2017-07-24

    最近由于辅修、社团等事情,时间比较少,但还是把这件自己一直想做的事情做了,那就是将淘宝和天猫的优惠精选也移植到了极致淘客(https://wanttoshop.cn/jingxuan.php)上,主要是以优惠券的形式进行优惠,像下面这样的

    优惠券 (7.9 - 5 = 2.9 ... 我自己撸了一张)

    优惠券 九块九一个散热器、还有这种操作?:

    整体外观如下,我还是尽量想做到应有尽有的:

    优惠券

    现在大家可能会有疑问了,这样的网站到底怎么做的?别急哈,让我来告诉你。

    看起来网站的数据好像非常庞大,这么庞大的数据我怎么可能手动地去上传呢?其实啊,它是全自动的。关键就是一个蕴含了许多精选商品的表格,利用php读取然后转换成html缓存页面显示出来,当然,你需要一定程度地了解PHP的特性才行。

    事实上,目前的精选还不是我最想要的状态,我想要的是能实现真正的全自动化的网页。

    我会继续向这个方向迈进。其实本来是想做完搜索功能再发布的。但是时间不太够,明天辅修假期就结束了,还是提前发布吧!希望大家喜欢:https://wanttoshop.cn/jingxuan.php

    阅读更多...

    为京东秒杀列表网添加缓存机制


    in php , 技术原理 , 程序语言 2017-07-10

    制作PHP缓存页面,否则每一次用户访问这个网站都会访问一次那个接口,当访问人数变得很多很多时,这个接口将会非常拥挤

    阅读更多...

    常用hosts文件项目列表及其作用


    in 干货 2017-06-05

    1.host文件是什么?

    平时我们访问网站的时候是经由DNS服务器获得域名IP地址。而hosts文件则允许我们指定访问的服务器IP地址,这样我们就可以给访问的域名指定IP地址进行访问。

    2.为什么修改hosts文件能够让我们访问某些大型网站?

    因为这些大型网站总是不止有一个IP, GFW只是将域名和部分服务器IP存入到黑名单当中,这样就不免会有漏网的IP可以通过修改hosts访问。

    3.通过修改hosts进行访问安不安全啊?

    一般是安全的。建议查看域名的https是否有效,且不能忽略证书无效的提示,避免访问被中间人监听或者篡改。

    4.hosts文件在哪里?

    Microsoft Windows NT、2000、XP、7、8、10C:\Windows\System32\drivers\etc\hosts如果系统盘或系统目录不一样,请注意修改。Unix、类 Unix 系统(如 Linux、Ubuntu、Mac OS X 等)/etc/hosts

    右键记事本打开即可编辑。

    5.正确认识GFW

    GFW为国家互联网发展做出了不少贡献。倘若没有GFW,和美国强大的网络公司相比,国内大部分公司都不具有优势。而且互联网上总充斥着不显示、不客观、不恰当的言论,在国民素质不高的情况下,封闭这些言论对于国家安全的意义重大。所以希望大家能正确看待GFW。

    其实hosts还可以用来干很多事情。比如去除迅雷、优

    阅读更多...

    移植"京东秒杀列表"到我的网站上


    in 干货 , 闲谈 2017-06-02

    还记得上次我们逆向的一款软件叫“京东秒杀列表”吗?这款软件可以提取京东的秒杀优惠,优惠项目一览无余。如图:

    移植京东秒杀列表

    这几天正好有空闲的时间,于是想要把它移植到网站上。核心代码是根据我们上次所提取出来的API(id代表产品类别)进行格式化,核心代码是这样的:

    <?php
    
    $url = 'https://ai.jd.com/index_new?app=Seckill&action=pcSeckillCategoryGoods&callback=pcSeckillCategoryGoods&id=19&_=1494553816298';
    
    $content = file_get_contents($url);
    
    $ptn = "/\{.*\}/";
    
    preg_match($ptn,$content,$matches);
    
    $result = json_decode($matches[0]);
    
    foreach($result->goodsListas $key){
    
        $ptn2="/^\d*/";//链接的
    
        $ptn3="/_.*_/";
    
        preg_match($ptn2,$key->sourceValue,$url);
    
        preg_match($ptn3,$key->sourceValue,$result);
    
        echo $result[0];...

    阅读更多...