2017-06-23

Kerasのサンプルソースが何をやっているか読んでみる

機械学習ディープラーニング Python Keras

前回は、Kerasのインストールを行い機械学習を行うための環境を構築しました。

inon29.hateblo.jp

しかし、今の状態だと何をどうすればどう使えるのかも全く分からないため、とりあえずKerasのサンプルソースを読んで理解を深めていこうと思います。

その前にニューラルネットワークの前提知識が完全にゼロでソースを理解するのはおそらく難しいだろうなと思い、各所で紹介されている以下の書籍を読みました。

ただし、数学や計算処理については、完全に理解するのは大変そうだったため、難しそうな部分はサラッと流しています。

まずは、なんとなく理解したディープラーニングについて自分なりの解釈をまとめます。

www.oreilly.co.jp

※ これは自分の学習用のまとめになります。 ※ 上記のため単語やアルゴリズムの解釈が間違っている。齟齬がある。場合があるかとおもいます。 ※ 理解がない人が初めて触れた時に噛み砕くための解釈として捉えてもられれば幸いです。

MLPとは何なのか？

多重パーセプトロンの略(Multi-Layer Perceptron)。パーセプトロンとは複数の信号を入力として受取り一つの結果を返す有るゴリスムのこと。このパーセプトロンの層を複数に重ねたものを多重パーセプトロンという。この多重パーセプトロンをニューラルネットワークと表現する。このニューラルネットワークを利用した学習をディープラーニングと呼ぶ。

Kerasを使ったディープラーニングの大まかな流れ

① 多重パーセプトロンのための層を構築する
- このサンプルではSequentialというモデルを使って構築する
② モデルの最適化アルゴリズムなどの設定(compile)
③ モデルに学習データを与えて学習させる(fit)
④ 損失値(どれだけ精度がでているか)を計算する(evaluate)

※ ② ~ ④を繰り返し、モデルを最適化(損失値を少なく)する

⑤ 実際の予測値を算出する(predict)

大枠こんな感じかと思います。

訓練データとテストデータ

機械学習では、学習と推論という2つのプロセスがあります。学習のプロセスでは予め用意したデータを使ってパラメタをモデルに学習させます。

その時に使うデータとして訓練データというものを用意します。

学習が完了したあとは、モデルに対して推論(実際にある値に対しての分類を抽出する)を行い精度を検証していきます。上記検証に使うデータをテストデータといいます。

サンプルの読み込み

では、サンプルソースを追っていきたいと思います。

サンプルソースには、reuters_mlp.pyというロイターのニュース・トピック分類のサンプルを使用しています。

このサンプルを選んだ理由としては、自前のMacでは計算にGPUを使えないこともあり、動かして色々と見て見るにはテキストデータの方が計算が早そうだなと思ったためです。

サンプルデータの説明は、こちらのページに載っています。

'''Trains and evaluate a simple MLP
on the Reuters newswire topic classification task.
'''
from __future__ import print_function

import numpy as np
import keras
from keras.datasets import reuters
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.preprocessing.text import Tokenizer

max_words = 1000
batch_size = 32
epochs = 5

print('Loading data...')
# ① サンプルデータの読み込み
(x_train, y_train), (x_test, y_test) = reuters.load_data(num_words=max_words, test_split=0.2)
print(len(x_train), 'train sequences')
print(len(x_test), 'test sequences')

# ② ラベルの最大値を求める
num_classes = np.max(y_train) + 1
print(num_classes, 'classes')

# ③ テキストをベクトル化する
print('Vectorizing sequence data...')
tokenizer = Tokenizer(num_words=max_words)
x_train = tokenizer.sequences_to_matrix(x_train, mode='binary')
x_test = tokenizer.sequences_to_matrix(x_test, mode='binary')
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

# ④ ラベルをバイナリクラス行列に変換する
print('Convert class vector to binary class matrix '
      '(for use with categorical_crossentropy)')
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)
print('y_train shape:', y_train.shape)
print('y_test shape:', y_test.shape)

# ⑤ モデルを構築する
print('Building model...')
model = Sequential()
model.add(Dense(512, input_shape=(max_words,)))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes))
model.add(Activation('softmax'))

# ⑥ 学習の設定
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

# ⑦ 学習の実行
history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_split=0.1)
                    
# ⑧ 損失値の計算
score = model.evaluate(x_test, y_test,
                       batch_size=batch_size, verbose=1)
print('Test score:', score[0])
print('Test accuracy:', score[1])

① サンプルデータの読み込み

(x_train, y_train), (x_test, y_test) = reuters.load_data(num_words=max_words, test_split=0.2)

訓練データとテストデータをKerasが用意しているデータ・セットから読み込んでいます
num_wordsで指定しているのは単語の最大数です。このサンプルでは1000個の単語を使用するということになります。
test_splitでは、使用するデータに中でテストデータとして使う割合です。(20%をテストデータとして使用するということ)
(x_train, y_train), (x_test, y_test)はnumpy.arrayのタプルです
trainには訓練データ、testにはテストデータが返ってきます
x_train, x_testには、ニュース文字列のインデックス値(文字列を一意に特定する値)が入っています。
- このサンプルだと8982の文字列が格納されています。((*, 8982)の2次元配列ということ)
- num_wordsで単語の最大数をしているため各配列に格納されている値は、1~1000の値になります。
- [1, 2, 699,・・・ 12]のようなデータが格納されている
y_train, y_testには、分類のラベルが格納されています。ラベルとは分類される値(正解のようなもの)が格納されています。
- ラベルはIntegerの値で格納されています

② ラベルの最大値を求める

num_classes = np.max(y_train) + 1
print(num_classes, 'classes')

ラベルの値で使われている最大値を求めます。
後述しますが、このラベルの値はKerasの計算においては、0と1の配列として変換する必要がありその要素数として使われます。
- 1を加算するのは、配列の要素は0から始まるため

③ テキストをベクトル化する

print('Vectorizing sequence data...')
tokenizer = Tokenizer(num_words=max_words)
x_train = tokenizer.sequences_to_matrix(x_train, mode='binary')
x_test = tokenizer.sequences_to_matrix(x_test, mode='binary')
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

Tokenizerというのは、テキストをベクトル化するクラスです。
①で取得した単語データの配列(長さ8982の配列)は可変長のためこれを1次元の配列に変換します。
- 例えば、3という数値については、[0, 0, 0, 1]という配列に変換します。
- [1, 2]という配列であれば[0, 0, 1, 1]となります
Tokenizerの初期化時にnum_wordsというパラメタを渡しています。これはnum_words長の配列に変換するということです。
- 配列にはmax_wordsの数値しか格納されていないため、最大長をmax_wordsの配列にすれば、全てのデータが1次元配列に変換できるということです。

x_train shape: (8982, 1000)
x_test shape: (2246, 1000)

printの出力は上記になります。最大長が1000(max_words)の配列に変換されていることがわかります。

④ ラベルをバイナリクラス行列に変換する

y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)
print('y_train shape:', y_train.shape)
print('y_test shape:', y_test.shape)

ラベルデータについても、③のように0と1の行列データに変換します。(https://keras.io/ja/utils/np_utils/)
num_classesにはラベルで使用されるデータの最大値が格納されているためnum_classesを要素数とする配列に変換されます。

y_train shape: (8982, 46)
y_test shape: (2246, 46)

printの出力は上記になります。最大長が46(num_classes)の配列に変換されていることがわかります。

⑤ モデルを構築する

print('Building model...')
model = Sequential()
model.add(Dense(512, input_shape=(max_words,)))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes))
model.add(Activation('softmax'))

Kerasが用意するSequentialモデルを使用することで複数の層を重ねるモデルが作成できます。

model.add(Dense(512, input_shape=(max_words,)))

一番はじめの層で入力する次元数を指定します。
max_words(=1000)なので1000個の入力を受け取る指定になります
第一引数は出力次元数です(512の意味はまだわかってません..)
Kerasでは2層以降の入力数は指定しなくていいようです。
Activation('relu')は活性化関数の指定です。(reluはアルゴリズムの方式)
- 活性化関数とは入力信号に対して出力を求める時にその総和を活性化するため?のアルゴリズムを指すようです。(ココらへんはおいおい深掘りできたらと)
Dropout(0.5)は過学習を防ぐためにニューロンを無効化する処理です。引数はその割合(この場合は半分の値を捨てている)を指します。
Dense(num_classes)で2層目の指定をしています。ここでは出力をnum_classes(=ラベルのクラス数)に指定しています。
Activation('softmax')2層目の活性化関数にはsoftmaxというアルゴリズムを使っています。

⑥ 学習の設定

model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

層を構築したモデルに対して学習の設定を行います。
lossは損失関数の指定です。categorical_crossentropyは交差エントロピー誤差というアルゴリズムを指定しています。
- 損失関数とは、どれだけ精度が出ているかという指標として使われる関数で、どれだけ正しくないか?という値を求めるためのものです。(この結果が小さい=精度が高いと判断できます)
optimizerは、パラメタ最適化のための探索アルゴリズムを指定しています。
- ニューラルネットワークでは、損失関数ができるだけ小さくなるための最適パラメタを学習によってもとめます。その為に指定するアルゴリズムの手法をここで設定しています。
metricsは評価を行うためのリストの方式?を指定します。
- 一般的に['accuracy']を指定する?

⑦ 学習の実行

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_split=0.1)

モデル層の構築、学習の設定から実際に学習を行います。
第一引数は、訓練入力データ
第二引数は、訓練ラベル
batch_sizeは、同時計算するサンプル数
- ニューラルネットワークではある一定のデータ量をまとめて処理することができる。まとめて計算することで計算上のコストを削減させている。
epochs 学習のサイクル数
verbose 結果の出力
validation_split ホールドアウト検証として使うデータの割合
- 標本から一定数の事例を無作為に選択し、残りを訓練事例として使う。

⑧ 損失値の計算

score = model.evaluate(x_test, y_test,
                       batch_size=batch_size, verbose=1)
print('Test score:', score[0])
print('Test accuracy:', score[1])

学習完了したモデルからテストデータを使って損失値を計算する
第一引数は、テスト入力データ
第二引数は、テストラベル
batch_sizeは、同時計算サンプル数(fitと同じ)
socoreの0番目には損失値(1-損失値)が入っている
socoreの1番目には、accuracy(精度)が入っている
- ⑥のmodel.compileのmetricsで指定した値が入る
※ lossとaccuracyの使い分けがあまりわかっていません。ココらへんもおいおい。

score: 0.889519923517
Test accuracy: 0.793410507569

printの出力結果は上記になります。結果としてこのモデルの精度は79%となっています。

まとめ(感想)

ざっくりとやっていることを追っていくとなんとなくどんなことをやっているかは理解できました。ただ、これらを使って自分がやりたい学習をどう実現するか？どのようなモデルを構築すればよいか？などはまだまだ理解できていません。自分で学習したいデータを作成する方法など、少しずつ勉強していきたいと思います。

2017-06-22

Kerasの環境をMacに構築する

機械学習入門 Python Mac

最近、今更ながら機械学習の勉強をしてみようと思い、色々調べていました。
僕は行列計算などの高校数学もほとんどわからないのですが、最近はPythonでのエコシステムがかなり充実してきているようで、頑張れば簡単なもの位は作れるようになるかなと思い、１から勉強しようと思っています。

まずは、Macに環境構築するところから始めます。機械学習のライブラリとしては、Google製のTensorFlowが有名(僕が知らないだけですが..)ですが、色々みていると、Chainer、Kerasというのが最近の人気のようです。

Chainerは、日本製とのことで日本語の資料が充実しているらしいのですが、今回はKerasを使ってみます。理由は、GoogleのTensorFlowをバックエンドに使えるということもあり、今後も成熟が期待できそうだからです。

環境構築の方法は、TensorFlowの公式ページなど色々みてみましたが、Dockerを使ったクリーンな環境構築なども推奨されているようです。

ですが、僕自身Dockerの知識がそこまで豊富でないため、Docker周りのトラブルが出ても面倒なのでとりあえず普通にMacにインストールしてみたいと思います。

Pythonのバージョン管理ツールをインストール

brew install pyenv
brew install pyenv-virtualenv

まずはPythonのインストールから行います
homebrewを使ってインストールします

パスを通す&初期設定

PYENV_ROOT=~/.pyenv
export PATH=$PATH:$PYENV_ROOT/bin
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

.bashrcや.zshrcにpyenvのパスを通します

Pythonのバージョンインストール

pyenv install anaconda3-4.3.1

今回は機械学習の為にPythonを使うため、Anacondaという計算系のライブラリがオールインワンになっているディストリビューションをインストールします。
- ※ Anacondaの詳細については割愛します

virtualenvで環境を作る

conda create -n keras python=3.6.1 anaconda

※ 追記一番はじめは以下のようにpyenv-virtualenvで環境を作っていましたが、コンソールを切り替えた時などに上手く環境が切り替えられずcondaコマンドを使った方法に変更しました

pyenv virtualenv anaconda3-4.3.1 keras

ローカル環境用のディレクトリを作成する

mkdir keras
cd keras

keras用の作業環境を作成するためディレクトリを切ります

ローカル環境を切り替える

pyenv local anaconda3-4.3.1/envs/keras

keras用の環境設定をローカル環境として設定します

Tenserflowをインストール

pip install tensorflow

kerasをインストール

pip install keras

その他必要なモジュール

pip install h5py

学習後の結果を保存するためのファイル(h5形式)を扱うライブラリ

設定ファイル

mkdir ~/.keras
echo '{"epsilon": 1e-07, "floatx": "float32", "backend": "tensorflow"}' >> ~/.keras/keras.json

backendをtensorflowにするための設定ファイルを作成します。
- ※ tensorflowがインストールされている状態だとデフォルトでtenserflowになっているようなので必要ないかも

以上で、インストールは完了です。

動作確認

試しにsampleソースを動かしてみます。

kerasでは、幾つかのサンプルソースが提供されています。

その中でも機械学習のチュートリアルでもよく出てくるMNISTという手書き数字を認識するためのサンプルを動かしてみました。

https://github.com/fchollet/keras/blob/master/examples/mnist_mlp.py

'''Trains a simple deep NN on the MNIST dataset.
Gets to 98.40% test accuracy after 20 epochs
(there is *a lot* of margin for parameter tuning).
2 seconds per epoch on a K520 GPU.
'''

from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop


batch_size = 128
num_classes = 10
epochs = 20

# the data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(10, activation='softmax'))

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

このソースを実行します

python mnist_mlp.py

以下が結果です。

Using TensorFlow backend.
60000 train samples
10000 test samples
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
dense_1 (Dense)              (None, 512)               401920
_________________________________________________________________
dropout_1 (Dropout)          (None, 512)               0
_________________________________________________________________
dense_2 (Dense)              (None, 512)               262656
_________________________________________________________________
dropout_2 (Dropout)          (None, 512)               0
_________________________________________________________________
dense_3 (Dense)              (None, 10)                5130
=================================================================
Total params: 669,706
Trainable params: 669,706
Non-trainable params: 0
_________________________________________________________________
Train on 60000 samples, validate on 10000 samples
Epoch 1/20
2017-06-22 12:47:14.203012: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed
up CPU computations.
2017-06-22 12:47:14.203031: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up
CPU computations.
2017-06-22 12:47:14.203037: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU computations.
2017-06-22 12:47:14.203042: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up
CPU computations.
60000/60000 [==============================] - 8s - loss: 0.2422 - acc: 0.9254 - val_loss: 0.1386 - val_acc: 0.9573
Epoch 2/20
60000/60000 [==============================] - 6s - loss: 0.1014 - acc: 0.9699 - val_loss: 0.0768 - val_acc: 0.9771
Epoch 3/20
60000/60000 [==============================] - 6s - loss: 0.0753 - acc: 0.9771 - val_loss: 0.0798 - val_acc: 0.9758
Epoch 4/20
60000/60000 [==============================] - 6s - loss: 0.0615 - acc: 0.9815 - val_loss: 0.0732 - val_acc: 0.980
Epoch 5/20
60000/60000 [==============================] - 6s - loss: 0.0495 - acc: 0.9850 - val_loss: 0.0902 - val_acc: 0.9783
Epoch 6/20
60000/60000 [==============================] - 6s - loss: 0.0443 - acc: 0.9866 - val_loss: 0.0860 - val_acc: 0.9797
Epoch 7/20
60000/60000 [==============================] - 6s - loss: 0.0380 - acc: 0.9883 - val_loss: 0.0719 - val_acc: 0.9834
Epoch 8/20
60000/60000 [==============================] - 7s - loss: 0.0351 - acc: 0.9900 - val_loss: 0.0869 - val_acc: 0.9822
Epoch 9/20
60000/60000 [==============================] - 8s - loss: 0.0327 - acc: 0.9906 - val_loss: 0.0764 - val_acc: 0.9827
Epoch 10/20
60000/60000 [==============================] - 7s - loss: 0.0308 - acc: 0.9911 - val_loss: 0.0786 - val_acc: 0.9836
Epoch 11/20
60000/60000 [==============================] - 9s - loss: 0.0285 - acc: 0.9918 - val_loss: 0.0814 - val_acc: 0.9835
Epoch 12/20
60000/60000 [==============================] - 7s - loss: 0.0248 - acc: 0.9930 - val_loss: 0.0928 - val_acc: 0.9824
Epoch 13/20
60000/60000 [==============================] - 7s - loss: 0.0259 - acc: 0.9927 - val_loss: 0.1057 - val_acc: 0.9823
Epoch 14/20
60000/60000 [==============================] - 7s - loss: 0.0231 - acc: 0.9933 - val_loss: 0.1030 - val_acc: 0.9820
Epoch 15/20
60000/60000 [==============================] - 7s - loss: 0.0232 - acc: 0.9939 - val_loss: 0.1116 - val_acc: 0.9815
Epoch 16/20
60000/60000 [==============================] - 7s - loss: 0.0204 - acc: 0.9947 - val_loss: 0.1055 - val_acc: 0.9829
Epoch 17/20
60000/60000 [==============================] - 6s - loss: 0.0217 - acc: 0.9947 - val_loss: 0.1281 - val_acc: 0.9821
Epoch 18/20
60000/60000 [==============================] - 7s - loss: 0.0197 - acc: 0.9950 - val_loss: 0.1176 - val_acc: 0.9839
Epoch 19/20
60000/60000 [==============================] - 7s - loss: 0.0229 - acc: 0.9942 - val_loss: 0.1120 - val_acc: 0.9831
Epoch 20/20
60000/60000 [==============================] - 7s - loss: 0.0228 - acc: 0.9944 - val_loss: 0.1078 - val_acc: 0.9834
Test loss: 0.107835494385
Test accuracy: 0.9834

と動いているようです。

The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up
CPU computations.

あたりの警告は、ソースからコンパイルしていないTenserFlowの場合CPUの拡張オプションが使えないのでスピードアップができないみたいなことみたいです。

とりあえず、よくわかってませんが動く環境をつくるところまでは成功しました。

ここから徐々に機械学習への理解を深めていきたいと思います。

参考

Installing TensorFlow on Mac OS X | TensorFlow

pyenvとanacondaを共存させる時のactivate衝突問題の回避策3種類 - Qiita

Python: Keras/TensorFlow の学習を CPU の拡張命令で高速化する (Mac OS X) - CUBE SUGAR CONTAINER

2017-04-30

独自のDockerImageを作成する

Docker Mac Docker for Mac

Dockerでは、自分で独自のimageを作成することが可能です。独自のdocker imageを作成する方法は主に2つあります。

① docker container commitコマンドを使う ② Dockerfileからビルドする

今回は、①の起動中のDockerコンテナから新しいイメージを作成する方法を試してみます。

※ 実行環境は、Docker for Macを使っています。 ※ 環境構築については過去記事のとおりです。

inon29.hateblo.jp

`docker container commit`コマンドを使う

ベースイメージの準備

今回はnginxのイメージを元に独自のイメージを作成してみます。まずは、ベースとなるnginxのimageをDocker Hubからダウンロードします。

docker image pull nginx:latest

docker image pull <イメージ名>:<タグ名>
※ タグ名をlatestにすると最新のバージョンを取得

イメージを確認してみます。

docker images

REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
nginx               latest              46102226f2fd        4 days ago          109 MB

取得したイメージからコンテナを起動します。

docker run -d -p 80:80 --name webserver nginx

docker run -d -p <ポート> --name <コンテナ名> <イメージ名>
-d: コンテナをバックグラウンドで起動する
-p: ポート指定、<ホストのポート>:<コンテナのポート>で割当を行う。例: <80>:<12345> コンテナの12345ポートをホストの80ポートに割り当てる　
--name: コンテナに名前を割り当てる

localhostにアクセスして確認します。

スクリーンショット 2017-04-30 16.30.15.png

nginxが起動してデフォルトのindex.htmlファイルが表示されていることが確認できました。

コンテナの内容を編集

dockerのコンテナにアクセスしてこのindexファイルを編集してみます。

docker exec -it webserver /bin/bash

docker exec -it <コンテナ名> <コマンド>
-i: コマンド入力後にコンテナの標準入力をホストの標準入力と接続する
-t: コンテナ内の仮想端末と、Dockerホストの標準出力と接続する

cd /usr/share/nginx/html
echo "<h1>Welcome my nginx</h1>" > index.html

localhostに再度アクセスするとindex.htmlの内容が変更されていることが確認できます。

スクリーンショット 2017-04-30 17.03.54.png

docker imageを作成

index.htmlを編集した状態の今のコンテナからimageを作成します。

docker container commit webserver mynginx:latest

docker container commit <コンテナ名> <イメージ名>:<タグ>

イメージを確認してみます

docker images

REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
mynginx             latest              fa7dff65a5ba        5 seconds ago       109 MB
nginx               latest              46102226f2fd        4 days ago          109 MB

起動中のコンテナを削除して今作ったイメージからコンテナを起動します。

docker stop webserver
docker rm webserver

docker stop <コンテナ名>: コンテナを停止
docker rm <コンテナ名>: コンテナの削除

docker run -d -p 80:80 --name myserver mynginx

localhostにアクセスして確認します。

スクリーンショット 2017-04-30 17.03.54.png

先程に編集した状態でイメージが起動していることを確認できました。

2017-04-09

Docker for Macを使ってみる

Docker Mac Docker for Mac

現状は、Vagrantを使って開発環境を構築することが多いのですが、最近はDockerを使って開発しているという話をよく聞きます。 DockerだとマシンスペックをVMほど使用しないというのがメリットの一つらしく、素早く軽量に開発環境を整えるため役立つのかな？と思い勉強したいと思います。

Dockerのインストール

公式ページからMacアプリをダウンロードすることもできますが、今回はHomebrew経由でインストールします。

brew cask install docker

インストールが完了したらDocker.appを起動

スクリーンショット 2017-04-09 14.36.48.png

Docker appがシステムにアクセスするための許可を求められるためOKを押下してパスワードを入力

スクリーンショット 2017-04-09 14.37.21.png

上記画面が表示されるようになってDockerコマンドが使えるようになっていればインストール完了です

docker --version

Docker version 1.12.3, build 6b644ec

docker run -d -p 80:80 --name webserver nginx

Dockerコンテナを起動する

Dockerのチュートリアルの通り2つのイメージを起動してみます。

hello-world

% docker run hello-world


Hello from Docker!
This message shows that your installation appears to be working correctly.

To generate this message, Docker took the following steps:
 1. The Docker client contacted the Docker daemon.
 2. The Docker daemon pulled the "hello-world" image from the Docker Hub.
 3. The Docker daemon created a new container from that image which runs the
    executable that produces the output you are currently reading.
 4. The Docker daemon streamed that output to the Docker client, which sent it
    to your terminal.

To try something more ambitious, you can run an Ubuntu container with:
 $ docker run -it ubuntu bash

Share images, automate workflows, and more with a free Docker ID:
 https://cloud.docker.com/

For more examples and ideas, visit:
 https://docs.docker.com/engine/userguide/

docker run コマンドはdockerイメージからのコンテナを起動するコマンドです。
上記の出力を見るとローカルにimageが存在しないときは、Docker Hubから該当するimageを探してダウンロードするようです。

nginx

% docker run -d -p 80:80 --name webserver nginx

cdea6236c8862e3768b3560034c28c41dd7534a706a1e76b30a25c763962b32c

出力されているのは、コンテナの識別IDです。
-d: コンテナをバックグラウンドで起動する
-p: ポート指定、<ホストのポート>:<コンテナのポート>で割当を行う。例: <80>:<12345> コンテナの12345ポートをホストの80ポートに割り当てる　
--name: コンテナに名前を割り当てる

この状態で、localhostにブラウザでアクセスするとnginxのデフォルト起動画面が確認できます。

スクリーンショット 2017-04-09 15.41.00.png

% docker ps

CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS                         NAMES
cdea6236c886        nginx               "nginx -g 'daemon ..."   4 minutes ago       Up 4 minutes        0.0.0.0:80->80/tcp, 443/tcp   webserver

docker psで現在起動中のコンテナを確認できます。

その他のDockerコマンド

イメージの一覧

ローカルに保存されているDocker imageを確認する

docker images

コンテナの停止

dockerコンテナを停止する

docker stop <name or ID>

コンテナの削除

dockerコンテナを削除する
同じ名前のコンテナは作成できないため一度削除する必要がある

docker rm <name or ID>

参考

Dockerのインストール(公式)

2017-04-02

CentOS7にJavaをインストール

Java

jdkをオラクルページからをダウンロード

ダウンロードページ
rpm経由でインストールするため Linux x64のrpmファイルをダウンロード

インストール

sudo rpm -ivh jdk-8u121-linux-x64.rpm

確認

java -version

2017-03-26

Oracle Database ExpressをCentOSにインストールする

Oracle

Oracle Databaseは、基本的には商用(有償)のDBMSですが無償で使えるパッケージが有るみたいなので試してみます。

環境

CentOS 7.1 (Vagrant)

パッケージのダウンロード

ダウンロードページから Oracle Database Express Edition 11g Release 2 for Linux x64をダウンロード
http://www.oracle.com/technetwork/jp/database/database-technologies/express-edition/downloads/index.html
※ ダウンロードには、Oracleのアカウント登録が必要です

sudo yum install -y unzip
unzip oracle-xe-11.2.0-1.0.x86_64.rpm.zip

インストール

必要なコマンドをインストール

sudo yum install -y glibc make gcc binutils libaio libaio-devel bc net-tools

※ CentOS7から標準でnet-toolsがインストールされていないらしい…
oracleではスワップが2048M以上必要なためスワップ領域を追加する

sudo dd if=/dev/zero of=/swap bs=1M count=2048
sudo chmod 600 /swap
sudo mkswap /swap
sudo swapon /swap
cat /proc/swaps

vi /etc/fstab

/swap swap swap defaults 0 0

解凍したディレクトリ(Disk1)の中にあるoracle-xe-11.2.0-1.0.x86_64.rpmをインストールする

sudo rpm -ivh Disk1/oracle-xe-11.2.0-1.0.x86_64.rpm

インストール成功すると最後に

You must run '/etc/init.d/oracle-xe configure' as the root user to configure the database.

と表示されている

これはDB構成のコマンドらしいのでそのまま実行

sudo /etc/init.d/oracle-xe configure

対話型で設定が聞かれる

Oracle Database 11g Express Edition Configuration
-------------------------------------------------
This will configure on-boot properties of Oracle Database 11g Express
Edition.  The following questions will determine whether the database should
be starting upon system boot, the ports it will use, and the passwords that
will be used for database accounts.  Press <Enter> to accept the defaults.
Ctrl-C will abort.

// デフォルトのHTTPポート番号
Specify the HTTP port that will be used for Oracle Application Express [8080]:


// オラクルのポート番号
Specify a port that will be used for the database listener [1521]:

/etc/init.d/oracle-xe: line 405: netstat: command not found

// SYSTEMユーザーのパスワード
Specify a password to be used for database accounts.  Note that the same
password will be used for SYS and SYSTEM.  Oracle recommends the use of
different passwords for each database account.  This can be done after
initial configuration:
Confirm the password:

Do you want Oracle Database 11g Express Edition to be started on boot (y/n) [y]:y

Starting Oracle Net Listener...Done
Configuring database...
Done
Starting Oracle Database 11g Express Edition instance...Done
Installation completed successfully.

DBへアクセス

コマンドの読み込み

. /u01/app/oracle/product/11.2.0/xe/bin/oracle_env.sh

sqlplusでアクセス

sqlplus system

パスワードを聞かれるため、先程設定したものを入力

sqlplus system

SQL*Plus: Release 11.2.0.2.0 Production on 日 3月 26 10:49:30 2017

Copyright (c) 1982, 2011, Oracle.  All rights reserved.

パスワードを入力してください:


Oracle Database 11g Express Edition Release 11.2.0.2.0 - 64bit Production
に接続されました。
SQL>

正しくログインできれば設定完了

MySQLより説明が少なく少なくイメージがありますね。

2017-03-19

さくらVPSにOSをインストールしてroot以外のUserを作成する

Chef 環境構築 Linux

さくらVPSで新規に環境をインストールしたときにroot以外の作業ユーザーを構築する方法をメモ
環境構築には、Chef zero(Knife zero)を使用する

1.さくらVPSにOSをインストール

各種設定 > OSのインストール > 標準OSインストール

スクリーンショット 2017-03-19 10.34.38.png

今回は、CentOS7を選択

rootで接続できるか確認

ssh -p 22 root@<IPアドレス>

※さくらVPS上のコンソールからrootでログインできるかを確認してもOK

2.Chefの環境を構築

Chef自体のもろもろの設定についての説明は割愛する
- Chefの設定は色々難しいので間違っているかもしれない…

Chefのツールのインストール

Chef Development Kitのインストール
- https://downloads.chef.io/chef-dk/mac/
knife-zeroプラグインのインストール

chef gem install knife-zero

Chefのリポジトリ作成

chef generate repo <chef-repo_name>

knifeの設定ファイル作成

knife configure

~/.chef配下にknife.rbができる

vim .chef/knife.rb

ローカルプロジェクトの設定

local_mode true
log_level                :info
log_location             STDOUT
chef_repo_dir = File.absolute_path( File.dirname(__FILE__) + "/.." )
cookbook_path ["#{chef_repo_dir}/cookbooks", "#{chef_repo_dir}/site-cookbooks"]
node_path     "#{chef_repo_dir}/nodes"
role_path     "#{chef_repo_dir}/roles"

リモートサーバーのknife zeroを初期化

knife zero bootstrap <IPアドレス> --ssh-user root --node-name reter-product

※ 途中rootのパスワードを聞かれるため、手順1で設定したパスワードを入力

作成が成功するとプロジェクト配下のclients/、nodes/配下にリモートnodeの設定ファイルが作成される

3.ユーザーを作成する

ユーザーの作成は、サードパーティのcookbookを使用する
cookbookの管理にはBerkshelfを使用する

外部cookbookのインストール

vim Berksfile

site :opscode
cookbook 'user'

chef exec berks vendor ./cookbooks

userというcookbookはLWRPという方法でuserの作成を提供しており準じた形式で記述するだけでユーザーを簡単に作成できる

ログインユーザー用のssh-keyを作成

ssh-keygen -t rsa -b 4096 -f <ファイル名>

作業ユーザーのssh用のキーを作成

user作成用のcookbookの作成

cd site-cookbooks
chef generate cookbook site-user

vim site-cookbooks/site-user/recipes/default.rb

user_account '<作成するユーザー名>' do
  action :create
  ssh_keys  ['
ssh-rsa ... 
'] # 作成したsshの公開鍵を指定する
end

本番用のロールを作成

vim roles/initial_setting.json

{
    "name": "initial_settings",
    "description": "This is initial recipes.",
    "chef_type": "role",
    "json_class": "Chef::Role",
    "default_attributes": {
    },
    "override_attributes": {
    },
    "run_list": [
        "recipe[user]",
        "recipe[site-user]"
    ]
}

実行するレシピをnodeファイルごとに制御するのは、大変なのでロールに分けておく
roleのrun_listには、インストールした外部cookbookであるuserと自作したsite-userを追加する
- 実行順序はuserが先

ロールをnodeに追加

knife node run_list add <bootstrapのときに作成されたnode名> 'role[initial_settings]'

リモートサーバーに反映

knife zero converge "name:reter-production" --ssh-user root

sshでログインできるか確認

ssh <ユーザー名>@<サーバーIP> -i <sshの秘密鍵>

ログインできていれば正しくユーザーが作成されている

作成したユーザーのSudo権限を許可

レシピをダウンロード

vim Berksfile

site :opscode
cookbook 'user'
cookbook 'sudo' # 追加

chef exec berks vendor ./cookbooks

環境設定のファイルを作成

chef exec knife environment create production -e vim

ユーザー個別の設定は、環境依存のため設定ファイルを作成

sudo設定を記載

vim environments/production.json

{
    "name": "production",
    "description":"Production User and Parmission",
    "chef_type": "environment",
    "json_class": "Chef::Environment",
    "default_attributes": {},
    "override_attributes": {
        "authorization": {
            "sudo": {
                "users": ["<sudo権限を与えるユーザー>"],
                "passwordless": "true"
            }
        }
    }
}

nodeファイルを編集して環境をproductionに変更する

chef exec knife node edit reter-production -e vim

設定を反映

knife zero converge "name:<ロール名>" --ssh-user root

sudoを実行できるか確認

ssh <ユーザー名>@<サーバーIP> -i <sshの秘密鍵>

sudo vim /etc/sudoers

設定したuserにsudo設定がされていればOK

MLPとは何なのか？

Kerasを使ったディープラーニングの大まかな流れ

訓練データとテストデータ

サンプルの読み込み

① サンプルデータの読み込み

② ラベルの最大値を求める

③ テキストをベクトル化する

④ ラベルをバイナリクラス行列に変換する

⑤ モデルを構築する

⑥ 学習の設定

⑦ 学習の実行

⑧ 損失値の計算

まとめ(感想)

Pythonのバージョン管理ツールをインストール

パスを通す&初期設定

Pythonのバージョンインストール

virtualenvで環境を作る

ローカル環境用のディレクトリを作成する

ローカル環境を切り替える

Tenserflowをインストール

kerasをインストール

その他必要なモジュール

設定ファイル

動作確認

参考

docker container commitコマンドを使う

ベースイメージの準備

コンテナの内容を編集

docker imageを作成

Dockerのインストール

Dockerコンテナを起動する

hello-world

nginx

その他のDockerコマンド

イメージの一覧

コンテナの停止

コンテナの削除

参考

jdkをオラクルページからをダウンロード

インストール

確認

環境

パッケージのダウンロード

インストール

DBへアクセス

1.さくらVPSにOSをインストール

rootで接続できるか確認

2.Chefの環境を構築

Chefのツールのインストール

Chefのリポジトリ作成

knifeの設定ファイル作成

リモートサーバーのknife zeroを初期化

3.ユーザーを作成する

外部cookbookのインストール

ログインユーザー用のssh-keyを作成

user作成用のcookbookの作成

本番用のロールを作成

ロールをnodeに追加

リモートサーバーに反映

sshでログインできるか確認

作成したユーザーのSudo権限を許可

レシピをダウンロード

環境設定のファイルを作成

sudo設定を記載

nodeファイルを編集して環境をproductionに変更する

設定を反映

sudoを実行できるか確認

`docker container commit`コマンドを使う