Crúc thích: Nguim phiên bản nội dung bài viết này bàn về “reproducible research”, tại đây chúng tôi lâm thời dịch là “nghiên cứu và phân tích khả lặp”, định nghĩa bắt lược về “phân tích khả lặp” là một số loại phân tích công nghệ không chỉ có gồm report kết quả nghiên cứu bên cạnh đó bao gồm vừa đủ công việc triển khai, mặt khác ra mắt các đọc tin quan trọng (dữ liệu, thuật toán thù sử dụng,…) để bạn khác có thể triển khai lại nghiên cứu nhằm xác nhận tính đúng đắn với mở rộng phân tích dựa trên gốc rễ nghiên cứu và phân tích cũ. Tại trên đây “reproducible” xuất xắc “reproducibility” mang nghĩa có công dụng lặp lại, có công dụng triển khai lại nghiên cứu và phân tích đã có ra mắt.Quý khách hàng đang xem: Reproducibility là gì

Khoa học tập hiện nay được biết đã lâm vào cảnh cuộc rủi ro về khả năng tái lặp. Khả năng tái lặp có vẻ như được hoan nghênh và hay là nhân tố buộc phải đối với các phân tích mang ý nghĩa cộng đồng (chẳng hạn trên những tập san nhỏng nature tốt science). Luận điểm chung đến Xu thế này là Việc các nghiên cứu có công dụng được tiến hành lại một phương pháp tự do thì sẽ sở hữu được tính tin yêu cao hơn nữa phần lớn nghiên cứu quan yếu triển khai lại một biện pháp độc lập. Cũng yêu cầu chú ý rằng nghiên cứu và phân tích khả lặp không những có ý nghĩa xác minh, không dừng lại ở đó nữa nó sẽ mang đến tiện ích thiết thực mang đến Việc không ngừng mở rộng nghiên cứu hay thi công những nghiên cứu và phân tích tương tự. Khó hoàn toàn có thể search thấy đầy đủ chủ ý bội phản bác bỏ các luận điểm bên trên, nhưng bắt buộc xét cho tới thực tế rằng với từng đội nghiên cứu cũng cần được chi tiêu một nguồn lực nhất định vào câu hỏi làm cho những phân tích của họ trở thành khả lặp so với những đơn vị nghiên cứu và phân tích độc lập. Chẳng hạn câu hỏi tái diễn tổng thể phần lớn phân tách vào chống phân tích. Tuy nhiên cũng có khá nhiều thay đổi thể đơn giản hơn, chẳng hạn như kĩ năng lặp lại so sánh dựa trên những bộ dữ liệu đang biết.

Bạn đang xem: Reproducibility là gì

Các nhiều loại nghiên cứu công nghệ không giống nhau vẫn khác nhau về kĩ năng tái lặp. Một ví dụ là nghiên cứu toán học, trong nhiều trường hợp những phân tích này cho phép bài toán khả lặp dựa trên hồ hết pmùi hương trình trong bạn dạng thảo. Một ví dụ không giống là các nghiên cứu hiện nay trường, thường thì kết quả phụ thuộc vào những nguyên tố không kiểm soát điều hành được. Chẳng hạn Việc tái lập tổng thể một nghiên cứu về ảnh hưởng của một cơn lốc ngay lập tức trước và sau thời điểm nó xảy ra hình như là vấn đề thiết yếu, tối thiểu xét về tính công dụng của chính nó.

Phạm vi hiện giờ về kỹ năng tái lập đang ở đâu đó giữa nhì ví dụ mà lại Shop chúng tôi chỉ ra sinh hoạt trên, và phạm vi này thu nhỏ tốt mở rộng nhờ vào vào những cỗ khí cụ sẵn có cho các bên nghiên cứu. Phần mềm mối cung cấp msinh sống, điện toán đám mây, lưu trữ tài liệu và vô vàn các công cụ năng lượng điện toán thù sẵn tất cả đã mở rộng phạm vi này trong việc được cho phép những phân tích khả lặp có thể được thực hiện trên các một số loại nghiên cứu và phân tích rộng hai ví dụ nghỉ ngơi bên trên. Tuy nhiên, lối chơi chữ về một cuộc rủi ro của nghiên cứu và phân tích khả lặp cho biết thêm rằng các bộ chế độ hiện nay, mặc dù hết sức quan trọng đặc biệt, dẫu vậy không xử lý được sự việc một phương pháp triệt nhằm.

Lúc Này Shop chúng tôi đang thao tác làm việc vào một dự án về một phân tích gồm mức độ tinh vi vừa phải với cùng 1 lượng tài liệu cũng vừa bắt buộc (49061 dòng) cùng Cửa Hàng chúng tôi đã thí nghiệm coi nhằm vươn lên là nó thành một nghiên cứu và phân tích khả lặp hoàn toàn thì cần được có tác dụng các gì. (Nghiên cứu giúp này trả lời cho 1 câu hỏi vô cùng 1-1 giản: các loại thân gỗ chiếm tỉ trọng từng nào trong giới thực vật?). Kinc nghiệm của Cửa Hàng chúng tôi trong việc nỗ lực trở thành phân tích này trở thành khả lặp rất có thể hữu ích mang lại đa số bàn bạc tiếp theo về kiểu cách có tác dụng thế làm sao để những bên công nghệ đề nghị ít thời hạn với ít yếu tố kĩ thuật rộng chúng tôi để thực hiện các nghiên cứu khả lặp của riêng họ. Nói giải pháp khác, bài toán có tác dụng này cho biết thêm Shop chúng tôi có lợi đến hơn cả như thế nào vào câu hỏi mở rộng phạm vi khả lặp mang lại những nhiều loại nghiên cứu và phân tích rộng cùng bằng phương pháp kia, khiến cho khoa học ngày càng đáng tin cậy rộng.

Cuối cùng, so với với report của Shop chúng tôi đã được tái lặp một bí quyết tự do cùng kha khá dễ ợt mang đến đông đảo ai ao ước tái lặp nghiên cứu và phân tích này, mà lại để tiến hành được vấn đề tái lặp ở tầm mức độ này không phải là không cần bỏ công sức. Cho đa số ai quan tâm, toàn thể mã lệnh và tư liệu của chúng tôi bao gồm sẵn tại địa chỉ này.

Có 2 phần trong câu hỏi biến một dự án trsinh hoạt phải khả lặp: dữ liệu cùng các phân tích vẫn triển khai. Chúng tôi cũng xem xét rằng thực tế dự án này là khả thi vị hầu hết phát triển gần đây trong việc tàng trữ tài liệu. Công vấn đề viết một mã lệnh để cài dữ liệu chủ yếu trường đoản cú Dryad cùng chuẩn bị mang lại việc đối chiếu nó tương đối là đơn giản. Tuy nhiên, vấn đề này chỉ chứng tỏ một bắt đầu mang đến thách thức: bước so với tài liệu bây giờ biến đổi bước khó khăn tuyệt nhất. Những điều ngay tiếp sau là list nlắp hồ hết bài học đúc kết từ bỏ trong thực tế làm việc của Shop chúng tôi. Mỗi bài học kinh nghiệm cho thấy một thử thách Shop chúng tôi bắt buộc vượt qua trong quy trình thực hiện phân tích khả lặp với điều khoản Shop chúng tôi chọn để đối đầu và cạnh tranh với thử thách kia.

Những thử thách với hiện tượng mang lại bài toán tái lặp

Sử dụng mối cung cấp tài liệu tiêu chuẩn

Chúng tôi tải tài liệu về từ bỏ các nguồn chuẩn chỉnh (Dryad cùng The Plant List) còn chỉ sửa đổi chúng sử dụng các câu lệnh nhằm đảm bảo an toàn đầy đủ chuyển đổi bảo toàn được nguyên ổn vẹn đặc thù của dữ liệu thuở đầu. Lợi ích của những dữ liệu msinh hoạt đang chỉ được phân biệt trường hợp bọn họ kính trọng tính định danh của dữ liệu và không tạo nên hàng ngàn bạn dạng sửa thay đổi chỉ không giống nhau chút xíu. Điều này cũng hỗ trợ cho bài toán ghi công của không ít người góp sức dữ liệu. Tuy nhiên các sự việc như những tiêu chuẩn phân các loại không thống độc nhất vô nhị vẫn đã là một trong những đồ cản bự so với những tài liệu về sinh thái học.

Kết phù hợp lưu ý đến và mã lệnh

Chúng tôi sử dụng gói knitr cho R để tiến hành những phân tích theo kiểu xây dựng tất cả phân tích và lý giải. Toàn bộ các phân tích, bao hàm những biện giải cho những hàm cơ bản hoàn toàn có thể kiếm tìm thấy trên trên đây. Tuy nhiên, thao tác làm việc với những đội mã lệnh lâu năm xuất xắc đề xuất thời hạn đáng kể nhằm chạy vẫn vẫn là một vấn đề đau đầu.

Xem thêm: Kaytee Là Gì - Những Lưu Ý Khi Lót Chuồng Cho

Kết xuất những thông số kỹ thuật động

Tự đụng tàng trữ những thành tố phụ thuộc

Chúng tôi sử dụng GNU make nhằm quản lý các thành tố dựa vào vào dự án công trình, chỉ biến hóa phần đông phần bắt buộc sửa lại. Công cụ này cũng hỗ trợ cho quy trình trở nên tân tiến dự án biến một tiến trình từ bỏ đóng gói.

Quản lý phiên bản

Toàn bộ mã lệnh của công ty chúng tôi được quản lý phiên phiên bản áp dụng git từ dịp ban đầu, điều này có thể chấp nhận được Cửa Hàng chúng tôi kiểm soát điều hành những phiên bạn dạng cũ một phương pháp dễ dàng. Đây cũng là trung trung khu tài liệu của các trang bị công ty chúng tôi làm cho. Xem bài viết này để xem sứ mệnh to lớn to của quản lý phiên bản tới quy trình phân tích.

Tự hễ kiểm soát những biến đổi để bảo vệ ko gây ra vấn đề

Chúng tôi thực hiện môi trường khối hệ thống tích phù hợp liên tục (continuous integration) Travis CI nhằm thống kê giám sát thay đổi vào so với nhằm ngăn ngừa lỗi. Mỗi Lúc Cửa Hàng chúng tôi tạo ra một biến đổi, khối hệ thống này cài đặt mã nguồn của Cửa Hàng chúng tôi xuống mặt khác với những dữ liệu tương quan cùng chạy phân tích, cùng vẫn gửi mang đến công ty chúng tôi một tlỗi điện tử ví như vì chưng nguyên do gì đấy so với bị lỗi. Hệ thống này thậm chí là còn cài đặt lên những phiên bạn dạng sẽ biên dịch của phân tích với ghi crúc mỗi khi chạy.

Đóng gói những thành tố prúc thuộc

Chúng tôi sử dụng gói packrat đến R nhằm quản lý với lưu trữ các gói R phụ thuộc vào để chắc chắn kĩ năng khả lặp trong tương lai. Về khía cạnh kim chỉ nan, vấn đề đó tức thị nếu phiên bạn dạng của gói ứng dụng kia thay đổi không ít tới nấc tạo ra lỗi vào mã lệnh của công ty chúng tôi thì Cửa Hàng chúng tôi sẽ có sẵn một bạn dạng lưu trữ có thể thực hiện được. Đây là một trong những cơ chế mới, Shop chúng tôi chưa chứng thực được nó gồm chuyển động hay là không.

Những thách thức còn vứt ngỏ

Chúng tôi nhận ra rằng câu hỏi đổi khác phần đông so với đã chuyển động từ máy vi tính của người này (cùng với đông đảo tùy chỉnh cấu hình cá thể mang lại laptop của họ) sang trọng tín đồ khác là một trong Việc khó khăn. ví dụ như nhỏng sự việc này. Thật khó khăn để dự đoán được các ngulặng nhân mang đến không nên sót: vào quy trình tái lặp nghiên cứu và phân tích này vày Carl Boettiger một vụ việc đã gây ra bởi vì bài toán không hoàn thiện tài liệu về những phiên bản gói hỗ trợ R quan trọng.Gói mã lệnh triển khai những quá trình trên là tương tự về size Khi thực hiện đối chiếu trong thực tế; đây là một thử thách thiệt sự cho các công ty nghiên cứu và phân tích. Việc sử dụng những ngữ điệu với framework không giống nhau có tác dụng tăng thêm yêu cầu về những mảng kiến thức mang tính chất kĩ thuật hơn, cũng như tài năng xẩy ra những vụ việc đang tăng lên. Càng tự động hóa hóa quy trình này thì những nghiên cứu khả lặp sẽ càng trnghỉ ngơi cần thông dụng.

Phương pháp tiếp cận thực hiện khối hệ thống tích phù hợp tiếp tục gồm tiềm năng to hỗ trợ cho việc thống trị các dự án phân tích dựa vào công nghệ điện toán trngơi nghỉ buộc phải thuận tiện hơn. Tuy nhiên, tuy vậy đối chiếu của chúng tôi mang tính chất nguyên tắc nhiều hơn nữa là ứng dụng thực tiễn, nó có khả năng sẽ bị số lượng giới hạn sống những mặt: yên cầu dự án công trình đề xuất là mối cung cấp mngơi nghỉ, đối chiếu bắt buộc chạy tương đối nkhô nóng (bên dưới 1 giờ). Những số lượng giới hạn này là phù hợp đối với các hình thức dịch vụ miễn tổn phí tuy nhiên nó sẽ không thể đáp ứng nhu cầu được các dự án công trình nghiên cứu và phân tích thực hiện những báo cáo “nhạy cảm cảm” với các tính tân oán rất có thể kéo dãn dài những giờ đồng hồ xuất xắc những ngày.

Chúng tôi nhận biết phương châm khả lặp mang lại dự án công trình đang trở thành một ví dụ hữu dụng, và nó đang trở thành căn nguyên cho các dự án công trình tiếp theo sau. Tuy nhiên, quá trình này sẽ trở đề xuất thức tạp rộng các, để cho vấn đề chỉ dẫn cho những người khác cách để khiến cho dự án của mình trở phải tái lặp ko đơn giản và dễ dàng chỉ qua khẩu ca.Chúng ta cần phải cải tiến và phát triển phần đa luật pháp, tối thiểu cần dễ dàng sử dụng nlỗi thống trị phiên phiên bản trước khi họ mong muốn hóng việc tái lặp dự án đổi mới một xu hướng phổ biến.Chúng tôi không bội phản chưng chủ ý của Titus Brown về Việc tái lặp 1 phần thì giỏi hơn là không tái lặp gì cả (một nửa số tín đồ tạo cho quá trình của họ có tác dụng tái lặp 1/2 có vẻ như tốt rộng 5% số fan làm cho côgn vấn đề của họ có chức năng tái lặp 100%!). Tuy nhiên, công ty chúng tôi không tán thành với quan điểm của Titus cho rằng rất nhiều biện pháp new là ko quan trọng. Những chế độ ngày nay là siêu lạc hậu và nhiều đến nấc cực nhọc mong chờ các công ty công nghệ áp dụng bên trên diện rộng Xu thế tái lặp bởi vì kim chỉ nam bao gồm của mình không hẳn nhằm tái lặp. Nếu cho rằng Việc tái lặp là không lôi kéo, họ quan trọng trông mong tín đồ khác vứt thời gian cùng sức lực của mình ra nhằm góp sức mang lại xã hội rất nhiều đồ vật xuất sắc đẹp nhất.

Xem thêm: 6 Cách Sữa Lỗi Windows Search Là Gì ? Tại Sao Lại Quan Trọng

Quá trình tạo cho phân tích của công ty chúng tôi trnghỉ ngơi phải khả lặp cho biết thêm họ chỉ sẽ tiến được các bước nhỏ trong Việc tạo cho nghiên cứu và phân tích khả lặp trngơi nghỉ đề xuất phổ biến đối với các nhà công nghệ vào thực tế.


Chuyên mục: Blog