Statistics the average nodes

Bài viết này mình sẽ tổng hợp các cách biểu diễn central tendency trong numpy, Central tendency là giá trị mô tả cho độ tập trung của một dãy số, hoặc dataset và có rất nhiều kiểu biểu diễn central tendency.

Central Tendency

Các các biểu diễn central tendency cơ bản

Mean (arithmetic)

Là cách đo phổ biến của central tendency

import numpy as np
np.mean([1, 1, 2, 3, 4])

# Result :  2.2

Median

Median là giá trị ở giữa khi chúng ta sắp sếp dãy số

  1 2 | 3 | 4 4 
  median = 3

Với trường hợp dãy số có số lượng phần tử chẵn không tìm đc giá trị ở giữa ta có thể lấy kết quả trung bình của 2 số ở giữa ví dụ

1 2 | 3 4 | 4 5
median = 3.5 

Để tính median trong numpy ta thực hiện như sau 4

np.median([1, 2, 3, 4, 4, 5])

Mode

Mode là số có tần xuất xuất hiện nhiều nhất trong dãy số, nếu một dãy số có nhiều phần tử có tần xuất xuất hiện bằng nhau thì người ta thường lấy số có giá trị nhỏ nhất. Các bạn có thể quan sát ảnh sau

central tendency mode

Central tendency mode

Để tìm mode trong 1 numpy array ta có thể làm như sau

import numpy as np
from scipy import stats
a = np.array([1, 1, 1, 2, 3 ,4 ,4 ,4])
m = stats.mode(a)
print(m.mode[0])
# Kết quả: 1

Mình vừa giới thiệu cho các bạn về central tendency trong statistics chúc các bạn học vui vẻ.

Written on July 8, 2019