標準化 - MIKU勉強会

こちらにて、標準化の話が出たので勉強する。

■まず標準偏差について。
・こちらが分かりやすい。
・英語では、standard deviation
・Rで計算してみる。(こちらから)

身長 <- c(151, 164, 146, 158)
体重 <- c(48, 53, 45, 61)

data <- data.frame(身長, 体重)

result <- matrix(0, 2, 3)
rownames(result) <- c("身長", "体重")
colnames(result) <- c("平均", "分散", "標準偏差")

result[,1] <- mean(data)       # 平均
result[,2] <- diag(var(data))  # 分散
result[,3] <- sd(data)         # 標準偏差
result

ちなみに…分散について…

var(data)  # これで出来る2×2行列こそが、分散共分散行列？
diag(var(data)) # 2×2行列、var(data)の斜め成分(1,1)(2,2)を取りだす

分散/標準偏差には、不偏と標本とがある。違いは？

■標準化
・標準化とは、平均値が０に、分散（と標準偏差）が１になるように変換すること
・こちらがとても分かりやすい
・Rで計算してみる。(こちらとこちらから)


身長 <- c(151, 164, 146, 158)
体重 <- c(48, 53, 45, 61)

data <- data.frame(身長, 体重)

result <- scale(data)[,] #データの標準化　[,]の意味は？
rownames(result) <- rownames(data)
result