Thứ Sáu, 27 tháng 5, 2016

case study về ứng dụng f-test, f-statistic

Đây là một case study về ứng dụng f-test, f-statistic
Câu hỏi :
Giá cả quần áo của 3 thương hiệu thời trang Snapzi , Irisa và LoloMoon là “như” nhau hay không ?
Ta có giả thuyết null :
Note. Như vậy giả thuyết null trong one-way ANOVA hay f-statistic thường sẽ là "tất cả chúng nó giống nhau"
Còn giả thuyết thay thế sẽ là có ít nhất 2 "thằng" khác nhau

Đây là dữ liệu thu thập được
Như bài trước chúng ta hoàn toàn có thể dùng t-test để trả lời câu hỏi trên . Tuy nhiên nhược điểm của t-test là chỉ kiểm tra được 2 nhóm , với số nhóm lớn số lần thực hiện t-test sẽ rất lớn , nó sẽ bằng tôt hợp chập 2 của N nhóm. Nên trong trường hợp này chúng ta sẽ sử dụng f-test .
Bước 1 . Tính giá trung bình của từng nhóm , tính giá trung bình của toàn bộ data , từ đó tính SSbetween dựa trên công thức dưới.
SSbetween còn được gọi là Between-Group Variability hay variance of the group means hay Sum of square Between-Group .
Tiếp theo sẽ tính SSwithin theo công thức :
Bước tiếp theo là tính bậc tự do , với df1 bằng số nhóm - 1 = 3-1 =2
Với DF2 sẽ bằng tổng số sample trừ đi số nhóm = 12-3=9
Tiếp theo là tính Mean Squares , bước này đơn giản là lấy SS chua cho DF
Tiếp theo ta có thể tính được f-statistic = Ms1/Ms2 = 15.72
Để có thể kết luận chấp nhận giả thuyết null hay không ta tính f-critical (chọn alpha = 0.05)
 Tra bảng f-table (0.05) với df1=2 và df2=9
Ta có :
F-critical = 4.2565
Vậy f-statistic > F-critical-value nên có thể kết luận không chấp nhận giả thuyết null . Điều nài có thể phát biểu rằng , giá của 3 thương hiệu thời trang Snapzi , Irisa và LoloMoon là không giống nhau .

Thứ Tư, 25 tháng 5, 2016

Note 1 case study về t-test

Đây là một cái quiz trong khóa inference statistic at  udacity .
Trong quizz này chúng ta muốn nghiên cứu xem đàn ông hay phụ nữ có nhiều giày hơn .
Đầu tiên chúng ta đặt giả thuyết null rằng số giày của đàn ông và phụ nữ là “giống” nhau, vậy giả thuyết thay the của nó sẽ là số giày của 2 nhóm này là “khác” nhau
Đây là bảng dữ liệu thu thập được trong công ty udacity (nhân viên)
Để kiểm tra xem giả thuyết của chúng ta là đúng hay sai , chúng ta thực hiện t-test trên tập dữ liệu này .
Đầu tiên chúng ta tính giá trị trung bình và SD (Standard Deviation) của 2 nhóm trên
Ta ký hiệu như sau
Tiếp theo chúng ta tính SE (Standard Error) theo công thức :
Tiếp theo ta tính t-statistic theo công thức :
Chọn alpha bằng 0.05 tra bảng t-table sau
Ta có giá trị t critical value bằng 2.120
Tổng cộng chúng ta có 7 nữ và 11 nam = 18 người , để tính bậc tự do ta trừ tổng này đi 2 vì bậng tự do = N - 1 , nên tổng bậng tự do = N - 1 + M - 1 = N + M - 2  = 16 .
Do chọn alpha = 0.05 và tính giá trị theo cả 2 chiều nên giá trị này phải chia 2 = 0.025. Vậy chọn cột 0.025 và hàng có df = 16 ta có giá trị t-critical = 2.120 như trên hình .
Vậy do t-statistic = 0.96 nằm trong khoảng +- t-critical nên có thể ra quyết định chấp nhận giả thuyết null .
Chấp nhận giả thuyết có nghĩa là số giảy của 2 nhóm này là không khác nhau , ít nhất là trọng công ty udacity . Như vậy case study trên trình bày ngắn gọn cách kiểm tra một giả thuyết dựa và t-test và 1 sample data .