网络爬虫SCRAPY爬取GOOGLE PLAY APPS

Posted on 2018-10-01 | In 系统 , 系统架构

Scrapy框架介绍

scrapy架构图
scrapy作为一种可以轻易扩展为分布式的爬虫框架，其内部框架采用类似于消息队列的方式进行任务的调度分发也就不奇怪了，消息队列使得各组件低耦合。至于这个消息队列是存在于单机内存中还是分布式集群中的一个节点，就看业务的需要了。采用生产者-消费者模式进行组织的系统实际上就是三块：任务的生产者，消费者以及消息队列。对应框架图上：
生产者：Spiders
消费者：Downloader
消息队列：Scheduler以及Engine
各部分组件由Engine进行驱动，Engine可以看做是一个main函数吧。生产者生产任务（在这里就是要爬取的url）放到消息队列，消费者从消息队列中取得任务进行实际的下载。下载结果交给生产者进行解析，解析结果的一部分是我们要提取的信息，它直接进入Pipeline进行处理，另一部分则是从下载结果中提取的新的任务（url），它将进入消息队列中。整个流程是：

(1)一开始Scheduler的队列是空的，所以需要人工hard code一个起始的种子url列表，spider将这些url封装成Request，Engine将这些Request转给Scheduler
(2)与此同时，一旦Scheduler队列非空，Engine将从Scheduler中抽取一个Request给Downloader进行实际下载，Downloader的产出即Response由engine转给spider
(3)Spider抽取Response里面两类信息：第一类就是页面上我们实际要爬取的内容Item，以及这个页面包含的符合要求的url列表。Item由Engine转入Item的深层加工流水线Pipeline，进行进一步的筛选、存储等， url由Spider封装为Request经由Engine交给Scheduler。重复(2)
框架图中engine和各组件交换Request和Response的过程中可以插入各种额外的流程，称之为中间件，所以不难想象一共有两种种中间件：Downloader middlewares(对应图中4，5)和 Spider middlewares(对应图中6，7)。除此之外，Item Pipeline中可以插入处理Item的各个步骤。

UBUNTU搭建DEEPSPEECH语音转录系统

Posted on 2018-10-01 | In 系统 , 环境配置

介绍

Mozilla开源了百度的DeepSpeech，实际上模型的关键突破在于既提高了速度，也提高了准确性，其提升来源于RNN的结构设计，还有匹配的并行化方案。开源的版本由于修改了CTCLoss的计算op，因此配置上比较恶心，需要一个特定版本的tensorflow，实际上我们可以通过修改代码，直接将WarpCTC作为一个op动态加载进来。
DeepSpeech项目地址： https://github.com/mozilla/DeepSpeech
Test WarpCTC地址（暂时不会用到）：https://github.com/baidu-research/warp-ctc

注意我们这里直接根据DeepSpeech的项目进行部署，不进行任何修改，也不手动引入WarpCTC。

安装

在介绍其原理前，我们首先将这个库跑起来。关键步骤实际上都在https://github.com/mozilla/DeepSpeech/blob/master/README.md中，但是由于其采用了一个修改的op，因此还是会出现一些坑。以下安装流程基于 Ubuntu 14.04 x86_64， python 2.7基础上。

使用模型

1、安装git large file storage
各平台的安装说明在https://github.com/git-lfs/git-lfs/blob/master/INSTALLING.md, 针对Ubuntu 14.04, 执行下面代码即可：

1	curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh \| sudo bash

2、下载代码
安装完git-lfs之后，我们直接clone repo即可。

1	git clone https://github.com/mozilla/DeepSpeech

3、下载预训练好的文件（非必要）
项目自带了一个英文的语音识别模型，大小为1.2G，可以另开一个线程下载，用于deepspeech的尝试。由于下载时间较长，到这步可以放着下载，先做后面的步骤。

4、创建python虚拟环境
（当然也可以装在系统python中）,这里起名字py27，注意要安装virtualenv。

1 2	virtualenv py27 --python=python2.7 source py27/bin/activate

5、安装deepspeech的python客户端(Python Binding)
deepspeech有预编译的二进制文件（也可以自己编译）

1	pip install deepspeech

到这一步已经能够完成了整个的使用了，具体的使用参数为：

1	deepspeech -h

6、安装deepspeech的二进制命令行客户端（python和命令行客户端任选其一即可，只是个客户端程序）

1	python util/taskcluster.py --target .

至此，仅仅使用deepspeech进行inferrence的情况下，配置完成，如果需要训练自己的模型，还需要进行下面的配置。

用cmake发布库

Posted on 2018-05-13 | In 语言基础 , C++

基本原理

除了用cmake进行库的编译以外，我们还需要掌握如何写一个cmake方便别人在使用我们的库的时候能够顺利链接。
本篇仅说明一下整个链接和安装的思路，理清看文档的顺序，其具体的参数和函数签名都有详细的文档的。

首先推荐大家下载这一个Toy Example:
https://gitlab.kitware.com/cmake/community/uploads/a91192d30ee2df45bd225b08c3a20c1d/FooBar.zip
其展示了一个最小的，支持安装以及被其他库find_package的写法。
另外可以参考这篇文章，用中文讲述地比较清晰：
http://www.yeolar.com/note/2014/12/16/cmake-how-to-find-libraries/
这里是关于find_package的完整API阐述：
https://cmake.org/cmake/help/latest/command/find_package.html#command:find_package
通过本篇文章，咱们希望知道以下目的是怎样达成的：

将我们需要对外公布的lib以及header安装在指定的位置
提供多个.cmake脚本（XXConfig.cmake, XXTarget.cmake, XXConfigVersion.cmake），使得客户在调用find_package的时候能够成功找到所需库和头文件的位置，这里我们用name来表示库的名字，这相当于设置了以下的变量：
1
2
3
4
<NAME>_FOUND
<NAME>_INCLUDE_DIRS or <NAME>_INCLUDES
<NAME>_LIBRARIES or <NAME>_LIBRARIES or <NAME>_LIBS
<NAME>_DEFINITIONS

find_package做了啥

为了理解要给find_package提供什么内容，我们首先要理解find_package到底做了哪一些步骤。find_package找库的位置可以分为两种方法：

模块模式(Module Mode)：查找形如Find<name>.cmake这样的脚本，通过该脚本定义以上的变量。查找的位置有两处：1. 设置的${CMAKE_MODULE_PATH}(由当前CmakeLists.txt脚本或调用命令行等设置)下；2. <CMAKE_ROOT>/Modules/ ，比如CMAKE_ROOT=/usr/bin/cmake/share/cmake-3.10, 这个位置保存了cmake认为编程人员常用的库，如lua: FindLua.cmake等。这些路径保留了Find<name>.cmake这样的路径，cmake匹配上后将直接执行，类似于include(Find<name>.cmake)。如果模块模式找不到相应的cmake文件，那么就会启动配置模式，配置模式则比较复杂。
配置模式(Config Mode )

The CONFIG option, the synonymous NO_MODULE option, or the use of options not specified in the basic signature all enforce pure Config mode. In pure Config mode, the command skips Module mode search and proceeds at once with Config mode search.

配置模式指定配置所在的位置非常直白，它有一系列的搜索顺序，但是日常我们只需要设置<name>_DIR为包含config的文件夹路径即可。如果<name>_DIR找到了所需的配置文件，那么就会停止搜索，否则会按照顺序进行搜索，可能构造的搜索地址为：

CMake constructs a set of possible installation prefixes for the package. Under each prefix several directories are searched for a configuration file. The tables below show the directories searched. Each entry is meant for installation trees following Windows (W), UNIX (U), or Apple (A) conventions:
1
2
3
4
5
6
7
8
9
10
<prefix>/                                                       (W)
<prefix>/(cmake|CMake)/                                         (W)
<prefix>/<name>*/                                               (W)
<prefix>/<name>*/(cmake|CMake)/                                 (W)
<prefix>/(lib/<arch>|lib*|share)/cmake/<name>*/                 (U)
<prefix>/(lib/<arch>|lib*|share)/<name>*/                       (U)
<prefix>/(lib/<arch>|lib*|share)/<name>*/(cmake|CMake)/         (U)
<prefix>/<name>*/(lib/<arch>|lib*|share)/cmake/<name>*/         (W/U)
<prefix>/<name>*/(lib/<arch>|lib*|share)/<name>*/               (W/U)
<prefix>/<name>*/(lib/<arch>|lib*|share)/<name>*/(cmake|CMake)/ (W/U)
On systems supporting macOS Frameworks and Application Bundles the following directories are searched for frameworks or bundles containing a configuration file:
1
2
3
4
5
6
<prefix>/<name>.framework/Resources/                    (A)
<prefix>/<name>.framework/Resources/CMake/              (A)
<prefix>/<name>.framework/Versions/*/Resources/         (A)
<prefix>/<name>.framework/Versions/*/Resources/CMake/   (A)
<prefix>/<name>.app/Contents/Resources/                 (A)
<prefix>/<name>.app/Contents/Resources/CMake/           (A)

这其中<prefix>的变量替换顺序为(其实不用记住这么多，实际上常用的就是<name>_DIR)：

Search paths specified in the _ROOT CMake variable and the _ROOTenvironment variable, where <PackageName> is the package to be found. The package root variables are maintained as a stack so if called from within a find module, root paths from the parent’s find module will also be searched after paths for the current package. This can be skipped if NO_PACKAGE_ROOT_PATH is passed. See policy CMP0074.
Search paths specified in cmake-specific cache variables. These are intended to be used on the command line with a -DVAR=value. The values are interpreted as semicolon-separated lists. This can be skipped if NO_CMAKE_PATH is passed:
1
2
3
CMAKE_PREFIX_PATH
CMAKE_FRAMEWORK_PATH
CMAKE_APPBUNDLE_PATH
Search paths specified in cmake-specific environment variables. These are intended to be set in the user’s shell configuration, and therefore use the host’s native path separator (; on Windows and : on UNIX). This can be skipped if NO_CMAKE_ENVIRONMENT_PATH is passed:
1
2
3
4
<PackageName>_DIR
CMAKE_PREFIX_PATH
CMAKE_FRAMEWORK_PATH
CMAKE_APPBUNDLE_PATH
Search paths specified by the HINTS option. These should be paths computed by system introspection, such as a hint provided by the location of another item already found. Hard-coded guesses should be specified with the PATHS option.
Search the standard system environment variables. This can be skipped if NO_SYSTEM_ENVIRONMENT_PATHis passed. Path entries ending in /bin or /sbin are automatically converted to their parent directories:
1
PATH
Search paths stored in the CMake User Package Registry. This can be skipped if NO_CMAKE_PACKAGE_REGISTRY is passed or by setting the CMAKE_FIND_PACKAGE_NO_PACKAGE_REGISTRY to TRUE. See the cmake-packages(7)) manual for details on the user package registry.
Search cmake variables defined in the Platform files for the current system. This can be skipped if NO_CMAKE_SYSTEM_PATH is passed:
1
2
3
CMAKE_SYSTEM_PREFIX_PATH
CMAKE_SYSTEM_FRAMEWORK_PATH
CMAKE_SYSTEM_APPBUNDLE_PATH
Search paths stored in the CMake System Package Registry. This can be skipped if NO_CMAKE_SYSTEM_PACKAGE_REGISTRY is passed or by setting theCMAKE_FIND_PACKAGE_NO_SYSTEM_PACKAGE_REGISTRY to TRUE. See the cmake-packages(7)) manual for details on the system package registry.

Search paths specified by the PATHS option. These are typically hard-coded guesses.

config的名字只能有这两种形式：<name>Config.cmake 或者 <lower-case-package-name>-config.cmake，一旦设置好<name>_DIR，并且cmake通过这个路径找到了相应的两种形式(之一)的配置文件，就会设置<name>_CONFIG为找到的配置文件(两者之一)的全部路径。

自定义模块config.cmake

find_package. 不管是配置式还是模块式，最终都是设置相应的库的路径。

模块模式

下面我们看一下模块式的一个例子：FindMFC.cmake

# Distributed under the OSI-approved BSD 3-Clause License.  See accompanying
# file Copyright.txt or https://cmake.org/licensing for details.

#.rst:
# FindMFC
# -------
#
# Find MFC on Windows
#
# Find the native MFC - i.e.  decide if an application can link to the
# MFC libraries.
#
# ::
#
#   MFC_FOUND - Was MFC support found
#
# You don't need to include anything or link anything to use it.

# Assume no MFC support
set(MFC_FOUND "NO")

# Only attempt the try_compile call if it has a chance to succeed:
set(MFC_ATTEMPT_TRY_COMPILE 0)
if(WIN32 AND NOT UNIX AND NOT BORLAND AND NOT MINGW)
  set(MFC_ATTEMPT_TRY_COMPILE 1)
endif()

if(MFC_ATTEMPT_TRY_COMPILE)
  if(NOT DEFINED MFC_HAVE_MFC)
    set(CHECK_INCLUDE_FILE_VAR "afxwin.h")
    configure_file(${CMAKE_ROOT}/Modules/CheckIncludeFile.cxx.in
      ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeTmp/CheckIncludeFile.cxx)
    message(STATUS "Looking for MFC")
    # Try both shared and static as the root project may have set the /MT flag
    try_compile(MFC_HAVE_MFC
      ${CMAKE_BINARY_DIR}
      ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeTmp/CheckIncludeFile.cxx
      CMAKE_FLAGS
      -DCMAKE_MFC_FLAG:STRING=2
      -DCOMPILE_DEFINITIONS:STRING=-D_AFXDLL
      OUTPUT_VARIABLE OUTPUT)
    if(NOT MFC_HAVE_MFC)
      configure_file(${CMAKE_ROOT}/Modules/CheckIncludeFile.cxx.in
        ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeTmp/CheckIncludeFile.cxx)
      try_compile(MFC_HAVE_MFC
        ${CMAKE_BINARY_DIR}
        ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeTmp/CheckIncludeFile.cxx
        CMAKE_FLAGS
        -DCMAKE_MFC_FLAG:STRING=1
        OUTPUT_VARIABLE OUTPUT)
    endif()
    if(MFC_HAVE_MFC)
      message(STATUS "Looking for MFC - found")
      set(MFC_HAVE_MFC 1 CACHE INTERNAL "Have MFC?")
      file(APPEND ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeOutput.log
        "Determining if MFC exists passed with the following output:\n"
        "${OUTPUT}\n\n")
    else()
      message(STATUS "Looking for MFC - not found")
      set(MFC_HAVE_MFC 0 CACHE INTERNAL "Have MFC?")
      file(APPEND ${CMAKE_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/CMakeError.log
        "Determining if MFC exists failed with the following output:\n"
        "${OUTPUT}\n\n")
    endif()
  endif()

  if(MFC_HAVE_MFC)
    set(MFC_FOUND "YES")
  endif()
endif()

配置模式

具体参考
https://gitlab.kitware.com/cmake/community/uploads/a91192d30ee2df45bd225b08c3a20c1d/FooBar.zip 关键是提供<name>Config.cmake和<name>ConfigVersion.cmake两个文件，并且在Version中配置PACKAGE_VERSION_COMPATIBLE和PACKAGE_VERSION_EXACT两个变量。

Export及其使用

我们虽然通过find_package能够定义这些库所在的位置以及头文件的位置，但是需要一种方式将其作为一个target加进来，以用于编译和链接(否则他们只是纯粹的放在内存里的几个变量而已。这些需要通过target脚本来实现，一般target脚本都是和配置模式一起使用的，<name>Config.cmake中常include ("${CMAKE_CURRENT_LIST_DIR}/<name>-target.cmake")来直接调用target，直白来说，target里面就是添加了这几个库作为target，一个例子如下, 这个脚本是cmake通过export命令生成的，具体可以参考https://cmake.org/cmake/help/v3.12/command/export.html：：

# Generated by CMake

if("${CMAKE_MAJOR_VERSION}.${CMAKE_MINOR_VERSION}" LESS 2.5)
   message(FATAL_ERROR "CMake >= 2.6.0 required")
endif()
cmake_policy(PUSH)
cmake_policy(VERSION 2.6)
#----------------------------------------------------------------
# Generated CMake target import file.
#----------------------------------------------------------------

# Commands may need to know the format version.
set(CMAKE_IMPORT_FILE_VERSION 1)

# Protect against multiple inclusion, which would fail when already imported targets are added once more.
set(_targetsDefined)
set(_targetsNotDefined)
set(_expectedTargets)
foreach(_expectedTarget foo bar)
  list(APPEND _expectedTargets ${_expectedTarget})
  if(NOT TARGET ${_expectedTarget})
    list(APPEND _targetsNotDefined ${_expectedTarget})
  endif()
  if(TARGET ${_expectedTarget})
    list(APPEND _targetsDefined ${_expectedTarget})
  endif()
endforeach()
if("${_targetsDefined}" STREQUAL "${_expectedTargets}")
  unset(_targetsDefined)
  unset(_targetsNotDefined)
  unset(_expectedTargets)
  set(CMAKE_IMPORT_FILE_VERSION)
  cmake_policy(POP)
  return()
endif()
if(NOT "${_targetsDefined}" STREQUAL "")
  message(FATAL_ERROR "Some (but not all) targets in this export set were already defined.\nTargets Defined: ${_targetsDefined}\nTargets not yet defined: ${_targetsNotDefined}\n")
endif()
unset(_targetsDefined)
unset(_targetsNotDefined)
unset(_expectedTargets)


# Create imported target foo
add_library(foo SHARED IMPORTED)

# Create imported target bar
add_executable(bar IMPORTED)

# Import target "foo" for configuration "Debug"
set_property(TARGET foo APPEND PROPERTY IMPORTED_CONFIGURATIONS DEBUG)
set_target_properties(foo PROPERTIES
  IMPORTED_LOCATION_DEBUG "/Users/rmk/Downloads/FooBar/cmake-build-debug/foo/libfoo.dylib"
  IMPORTED_SONAME_DEBUG "/Users/rmk/Downloads/FooBar/cmake-build-debug/foo/libfoo.dylib"
  )

# Import target "bar" for configuration "Debug"
set_property(TARGET bar APPEND PROPERTY IMPORTED_CONFIGURATIONS DEBUG)
set_target_properties(bar PROPERTIES
  IMPORTED_LOCATION_DEBUG "/Users/rmk/Downloads/FooBar/cmake-build-debug/bar/bar"
  )

# This file does not depend on other imported targets which have
# been exported from the same project but in a separate export set.

# Commands beyond this point should not need to know the version.
set(CMAKE_IMPORT_FILE_VERSION)
cmake_policy(POP)

生成配置模式所需文件的CMakeLists.txt脚本

摘自https://gitlab.kitware.com/cmake/community/uploads/a91192d30ee2df45bd225b08c3a20c1d/FooBar.zip

# Add all targets to the build-tree export set
export(TARGETS foo bar
  FILE "${PROJECT_BINARY_DIR}/FooBarTargets.cmake")

# Export the package for use from the build-tree
# (this registers the build-tree with a global CMake-registry)
export(PACKAGE FooBar)

# Create the FooBarConfig.cmake and FooBarConfigVersion files
file(RELATIVE_PATH REL_INCLUDE_DIR "${INSTALL_CMAKE_DIR}"
   "${INSTALL_INCLUDE_DIR}")
# ... for the build tree
set(CONF_INCLUDE_DIRS "${PROJECT_SOURCE_DIR}" "${PROJECT_BINARY_DIR}" CACHE PATH "")
configure_file(FooBarConfig.cmake.in
  "${PROJECT_BINARY_DIR}/FooBarConfig.cmake" @ONLY)
# ... for the install tree
set(CONF_INCLUDE_DIRS "\${FOOBAR_CMAKE_DIR}/${REL_INCLUDE_DIR}")
configure_file(FooBarConfig.cmake.in
  "${PROJECT_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/FooBarConfig.cmake" @ONLY)
# ... for both
configure_file(FooBarConfigVersion.cmake.in
  "${PROJECT_BINARY_DIR}/FooBarConfigVersion.cmake" @ONLY)

# Install the FooBarConfig.cmake and FooBarConfigVersion.cmake
install(FILES
  "${PROJECT_BINARY_DIR}${CMAKE_FILES_DIRECTORY}/FooBarConfig.cmake"
  "${PROJECT_BINARY_DIR}/FooBarConfigVersion.cmake"
  DESTINATION "${INSTALL_CMAKE_DIR}" COMPONENT dev)

# Install the export set for use with the install-tree
# allowing others to include FooBarTargets.cmake
install(EXPORT FooBarTargets DESTINATION
  "${INSTALL_CMAKE_DIR}" COMPONENT dev)

参考资料

http://www.voidcn.com/article/p-ydfqrabf-ru.html
https://gitlab.kitware.com/cmake/community/wikis/doc/tutorials/How-to-create-a-ProjectConfig.cmake-file
http://www.yeolar.com/note/2014/12/16/cmake-how-to-find-libraries/

例子：https://gitlab.kitware.com/cmake/community/uploads/a91192d30ee2df45bd225b08c3a20c1d/FooBar.zip
export函数: https://cmake.org/cmake/help/v3.12/command/export.html

由人脸识别引发的Softmax改进

Posted on 2018-05-11 | In 理论基础 , 神经网络

背景

Softmax由于其每个分类正负样本的概率是对称的，使得其类内不够紧凑，针对这一缺点各种文章百花齐放，各种小修小改，其关键目的就是提高inter-class dispension和intra-class compactness.对于close-set的人脸识别任务，现有的分类手段已经能够做得比较好了，但是对于open-set的人脸识别任务，就要求即使是不在训练集里面的人脸，也应该要将同一个人的脸的feature映射到特征空间里一个紧凑的位置从而使得无监督的聚类算法可以介入。这里有一个基本的要求，就是类内的最大距离一定不能大于类间的最小距离，部分文章还额外加上一个margin，也就是类内的最大距离要小于类间的最小距离减去margin，也就是还得留出一定的隔离带。这个要求也被大部分的Siamese类network所接受。open-set的人脸识别实际上是一种metric learning，学的关键就是这个feature，而不是后面的classifier

下面我们来看看基于改进softmax的每一家具体的方案。
注意：以下的x是需要学习的样本的特征表示，是要学习的目的之一啊，不是固定的，我们要学的就是一个可以无监督分类的x，所谓metric learning, 可以理解为固定W学习x然后固定x计算新的W，W对应FC层的权重，x则是这之前的神经网络提取的特征，Wx一般输入到Softmax中，下面的所有推导中，都假设当前W固定，下一步是优化x，并说明为啥这些改动会使得得到的x更加紧凑

CenterLoss (ECCV2016)

这是由 https://kpzhang93.github.io/papers/eccv2016.pdf (A Discriminative Feature Learning Approach for Deep Face Recognition)这篇文章提出的。并且这样类似的方法并不只此一家，softmax + 某种能够强调类内compactness的loss都可以，比如softmax + tripletloss（不实用，好难设计样本对，exmaple mining不好做，训练时直接一步loss为0欠拟合是喜闻乐见的）等等。毕竟属于社会主义初级阶段，依然还是loss之间的排列组合。这篇文章还澄清了一对很重要的概念，那就是separable features和discriminative feature。separable feature可以理解为神经网络fc前最后一层，是线性可分的。而discriminative则不仅要separable，还必须保持类内紧凑，从而方便最近邻聚类等算法进行聚类，以保持对未知类别的可分性。换句话说，给一个不在训练集里面的人脸的多个样本，输出的feature不仅要和库里面的不同，并且这几个额外的样本在特征空间里面是要聚成一团的，可以无监督地得出这是一个新的类别。这样子就使得人脸识别模型在新来一个人的脸后不需要重新进行训练。从close-set的识别能力扩展到了open-set。

sep-dis

正如其名字所表示的那样，center loss在每一个batch中，对每一类的所有样本的feature算了一个均值，然后损失函数为原softmax（类间差异）+center loss（类内紧凑）。
这篇文章开了一个类内紧凑的头，但是缺点是每个batch都得要预先算一个中心，每个batch中心又是在不断改变的，这就导致了不一定会收敛(实际上作者将centor loss的权重调的比较小所以这个问题在实验中并没有体现出来。

center-loss

这篇文章还有一个副产物，那就是发现softmax的结果总是天然地按照弧度扇形分布，这个结果被后续的文章所使用，并产生了angular margin这么一个新的热词。

centerloss-softmax

SphereFace (CVPR2017)

https://arxiv.org/pdf/1704.08063.pdf
首次提出angular margin，不再是之前画个二维散点图然后用直线区分几个分类的那种（Euclidean margin，比如SVM），现在它将样本看做是分布在圆弧(二维)或者高维球面上的点，根据圆（球）心角来区分几个不同的分类。

sphereface

第一阶段 Modified-Softmax也是初步的A-Softmax

作者提出，softmax的结果虽然很像可以按角度去进行区分，实际上却又不是那么简单（比如上图a在不限制$W$的模长的情况下，样本在特征空间上的分布是不均匀的），于是需要对softmax进行一些修改。
为了方便说明，这里以二分类为例，对于原始softmax, 两个类的分界线可以写成：

$W_1x+b1=W_2x+b2\Rightarrow (W_1-W_2)x + b_1-b_2=0$

这就是softmax上面的幂指数相等的那个线。在原始的softmax函数中，两个W的模能够对分界线有较大的影响，想象到极限情况下，$\lVert W_1\rVert=+\infty,\lVert W_2\rVert=0$，这时候符合第一类的样本只需要满足$W_1x>0$,bias此时已经变得不重要了。这个条件此时是非常容易满足的，只要不是完全和$W_1$正交就好，也就是$W_1$这边x的空间会摊得非常大，而$W_2$这边就被压缩的几乎看不到了，图b能够稍微看到一些这样的迹象，但是不准确。当然，一个正常训练的样本均衡的模型实际上并不会出现这样的$W$。如图b所示，两个向量的中间位置的夹角，并不能够区分两类样本（稍微调整下位置还是可以的），也就是，这个中心，还不够‘中心’，因为组成这个中心的两边是不平衡的。中心不平衡带来的问题就是，从$W_1$到$W_2$这个扇形里面，每一个单位弧度所包含的样本概率密度是不一样的，靠近$W_1$这边，由于$W_1$的模较大，其对应的同角度的x的模长范围就限制得比较松，或者同等模长的$x$则可以取值的角度范围较大，此时的实际分界线是偏向于模长较短的$W_2$这边的(即留给$W_1$更多位置)，而不是图b中的二分位置。有问题吗？没问题，只是没必要这样而已，如果能够限制两$W$的模长一致，那么就不需要算这个实际的分界点了，直接就是$(W_1+W_2)/2$，也就是角平分线就可以了。
为了方便，假如我们限制$\lVert W_1\rVert = \lVert W_2\rVert$,且$b_1=b_2=0$,那么我们有这样的分界线：

$\lVert x\rVert (cos(\theta_1)-cos(\theta_2))=0$

这时候学习到的样本空间就能够很好地由角度分开了(毕竟现在就是在直接优化$\theta$啊，能学不到嘛。。。实际上是优化x和W来达到优化$\theta$的目的)，对应上图d。至此，我们已经能够用angular来替代euclidean softmax了,但是仅仅是替代，依然还没解决类内不紧凑的问题。

第二阶段增加类内紧凑性后的A-Softmax

为了进一步分开两类，显然像SVM一样引入一块间隔margin能够增加模型的鲁棒性。这块margin中的样本不会被判断为任何一个类，实际上模型学习到的feature不会映射到这个区间内。看图f，在没有引入m之前，中间的Angular Bisector就是两类的分界线，在分界线的左边，以$W_1$为中心，越往两边其被分为第一类的置信度就越低，在分界线附近分为任何一类的置信度就一样了。要引入一个间隔，实际上就是以angular bisector为中心，在附近引入一块区域，特征落在这块区域中时，既不是第一类，也不是第二类。压缩的办法比较粗暴，那就是在bisector左边压缩$\theta_1$，而在右边压缩$\theta_2$，以左侧为例，引入下式作为判断类1的分界点：

$\lVert x\rVert (cos(m\theta_1)-cos(\theta_2))>0$

右侧判断类2的则相应的是：

$\lVert x\rVert (cos(m\theta_2)-cos(\theta_1))>0$

看左边对应的公式，这条式子的特别之处就是$\theta_2$是不变的，而使用$m\theta_1$来整体替代之前的$\theta_1$，$m$是一个大于1的数值，这就会压缩$\theta_1$的取值范围，又不影响$\theta_2$,如果此时$\theta_1$靠近bisector附近，那么$\lVert x\rVert (cos(m\theta_1)-cos(\theta_2))<0$, 此时该样本不能被判为类1.同理用一样的方法对另一边进行操作，也会压缩另一个类2的取值范围，类2也会出现一个区域不能被判为2，这段既不能为1也不能为2的区域就组成了我们要的margin.训练过程中落在这些区域的样本由于被梯度往左右两边(拉向$W_1, W_2$)时loss会更少，因此充分训练后，可分的样本都不会出现在这个区域中。

CosFace

cosface的想法也是比较类似的，但是m放的位置不同，它采用的是：

$\lVert x\rVert (cos(\theta_1)-m-cos(\theta_2))>0$ $\lVert x\rVert (cos(\theta_2)-m-cos(\theta_1))>0$

注意这个减号，因为cos在$[0, \pi]$之间是单调递减的，这个作用大致也是相当于往$\theta$乘上一个大于1的数，来压缩相应边$\theta$的取值范围。

ArcFace

https://arxiv.org/pdf/1801.07698.pdf
一样的配方，m放在了cos里面，间隔改成了：

$\lVert x\rVert (cos(\theta_1 + m)-cos(\theta_2))>0$ $\lVert x\rVert (cos(\theta_2+m)-cos(\theta_1))>0$

几种Loss的区别

ArcFace里面详细分析了几种修补版softmax的区别，并指出只有ArcFace这种方式能够保持间隔在每个$\theta_1, \theta_2$保持一致。

compare

C++虚函数的意义

Posted on 2018-05-07 | In 语言基础 , C++

下面以一个简单的例子说明virtual的作用，作为继承和多态的重要组件，如果没有虚函数，那么多态的实现将非常的困难。首先明确一点，类成员函数中this的类型取决于该函数定义的位置，在父类中，this的类型是父类，在子类中，this的类型是子类。比如父类A和B，父类有一个成员函数test(), 其函数体中通过this调用了test1, 如果子类没有override这个函数，那么子类中，test()函数体里面this的类型依然是父类的类型。我们看下面三个例子来理解这一点：

#include <iostream>
#include <thread>
//This function will be called from a thread
class A{
public:
    void test(){
        this->test1();
    }
    void test1(){
        std::cout << "I am base" << std::endl;
    }
};

class B:public A
{
    virtual void test1(){
        std::cout << "I am Not Base" << std::endl;
    }
};

int main() {
  //Launch a thread
  B b;
  b.test();
  return 0;
}
// 运行结果
// I am base
// I am base

这个例子中，子类B没有覆盖A::test，因此test函数体内，this类型依然是A*，这就造成了b.test()调用的是A::test1()，这往往不是想要的结果。而如果加上virtual, 那么就能够调用到真正想要调用的函数了，看下面的改动：

#include <iostream>
class A{
public:
    void test(){
        this->test1();
    }
    virtual void test1(){
        std::cout << "I am base" << std::endl;
    }
};

class B:public A
{
    virtual void test1(){
        std::cout << "I am Not Base" << std::endl;
    }
};

int main() {
  B b;
  b.test();
  
  A a;
  a.test();
  return 0;
}
// 运行结果
// I am Not Base
// I am base

这个例子中，test1是虚函数，因此即使B没有覆盖test函数，this的编译时类型依然是A*，但是在调用this->test1()的时候会查找虚函数表，然后知道this实际类型应该是B*并调用B::test1()。具体要调用A::test1还是B::test1只能在运行时知道。注意哦，如果子类同时覆盖了调用的函数test，那么也是能够调用到想要的test1的，因为此时编译时this的类型就已经是B*了。看下面的代码：

#include <iostream>
class A{
public:
    void test(){
        this->test1();
    }
    void test1(){
        std::cout << "I am base" << std::endl;
    }
};

class B:public A
{
public:
    void test1(){
        std::cout << "I am Not Base" << std::endl;
    }
    void test(){
        this->test1();
    }
};

int main() {
  B b;
  b.test();
  
  A a;
  a.test();
  return 0;
}
// 运行结果
// I am Not Base
// I am base