8 min read

How AI Reduces Inter-Observer Variability in Knee Cartilage Grading

Inter-observer agreement in MRI-based knee cartilage classification (ICRS, MOAKS, WORMS) often falls below clinical reliability thresholds. Deep learning offers a path to standardised grading, here is what the validation literature actually shows.

Salnus Research
Knee CartilageICRSMOAKSInter-Observer VariabilityDeep LearningMRIKnee OsteoarthritisClinical Decision Support

Two experienced musculoskeletal radiologists evaluating the same MRI knee study can reach meaningfully different conclusions about cartilage status, and the disagreement does not concentrate where most clinicians would expect. It clusters at the transitions between adjacent grades, particularly between ICRS Grade 2 and Grade 3, and at the boundary between early degeneration and structurally intact cartilage. This is not a failure of expertise. It is a structural property of how cartilage classification systems were designed.

Deep learning offers a path to standardised cartilage grading that is reproducible across centres and readers. But the question is not whether AI can reach human-level performance. It is whether AI can perform reliably at exactly the boundary cases where humans disagree, and what level of validation is required before that performance translates to clinical decisions.

This post examines where the inter-observer problem comes from, what the deep learning literature has actually shown, and the validation gap that separates a published model from a clinically deployable one.

Why Two Radiologists Disagree

Cartilage grading systems, ICRS for arthroscopic and MRI assessment, MOAKS for whole-organ MRI evaluation, WORMS for osteoarthritis-specific scoring, share a common structural problem: they were designed as ordinal categorical scales over a continuous biological process. Cartilage degeneration does not present in discrete stages. It progresses through gradual loss of glycosaminoglycan content, surface fibrillation, partial-thickness defects, and eventual full-thickness loss. Carving this continuum into 4 or 6 categories creates inherent ambiguity at the boundaries.

Reported inter-observer agreement varies meaningfully by classification system, anatomical site, and reader experience:

  • ICRS Grade 2-3 transition consistently shows the lowest agreement. Distinguishing partial-thickness defects under 50% from those over 50% requires precise depth estimation, which MRI's resolution and partial-volume artefact make difficult on high-grade slope cartilage.
  • MOAKS scoring for cartilage size and depth shows weighted kappa values typically in the 0.55-0.75 range across published studies, falling below the 0.80 threshold often cited for substantial agreement.
  • Patellofemoral cartilage consistently shows lower agreement than tibiofemoral cartilage, in part because patellar curvature and partial-volume averaging introduce more interpretive variability.

The clinical consequence: two surgeons reading the same MRI may select different surgical approaches, debridement versus microfracture versus matrix-induced chondrocyte implantation, based on classifications that should be the same.

Where AI Comes In: Standardisation, Not Replacement

The promise of deep learning in cartilage grading is not that an algorithm reads MRIs better than an experienced musculoskeletal radiologist. It is that the same algorithm produces the same output every time, on every scanner, in every centre. This is exactly the kind of reproducibility that classification systems were designed to provide but that human reading cannot deliver at scale.

The deep learning approaches that have been published fall into three broad categories:

Whole-image classification networks treat each MRI slice as an image classification problem, predicting an ICRS or MOAKS-equivalent grade directly from voxel intensities. These models are computationally simple and easy to train, but they discard spatial localisation, they tell you a grade exists but not where the lesion is.

Segmentation-based pipelines first segment cartilage as a tissue, then quantify defects from the segmentation morphology. This approach offers interpretability, you can show the surgeon exactly which region of cartilage the algorithm flagged, but requires substantially more annotated data and computational resources. Convolutional architectures like U-Net and its variants dominate this approach.

Hybrid attention-based models combine segmentation with classification heads, often using transformer or attention modules to integrate global context with local lesion features. These approaches show the strongest published performance but require the most annotation effort and remain computationally heavy at inference time.

Across these approaches, reported AUCs for binary lesion detection (any defect versus none) often exceed 0.90. Multi-class grading performance is more modest, with macro-averaged F1 scores typically in the 0.65-0.80 range across published validation cohorts. The performance gap between binary and multi-class tasks reflects the underlying biological reality: detecting that something is wrong is easier than precisely categorising what kind of wrong.

The Validation Gap

Here is where most published cartilage AI models stop short of clinical readiness: the validation cohorts are small, single-centre, and often share scanner protocols with the training data. A model that achieves 0.85 AUC on the same scanner that produced its training data may drop to 0.65 AUC on a different vendor's MRI machine with different sequence parameters. The literature on this generalisation gap is sparse but consistent, domain shift between scanners is one of the largest unsolved problems in clinical imaging AI.

For a cartilage grading model to support clinical decisions, three validation properties matter:

Inter-scanner generalisation. Performance on at least 2-3 distinct MRI vendors and field strengths, with held-out test data that the model never saw during training. This is a higher bar than most published studies clear.

Inter-rater concordance. Direct comparison of AI output against multiple expert readers, with the AI evaluated as if it were one of the readers. Inter-class correlation coefficients (ICC) above 0.80 between AI and the consensus of expert readers represent a defensible standard, but should be reported with confidence intervals and stratified by anatomical region.

Performance at the boundaries. Reported metrics often emphasise overall accuracy or AUC, but the clinically interesting question is performance at the Grade 2-3 transition where humans disagree most. A model that performs at 0.95 accuracy overall but 0.55 accuracy at the boundary cases is not solving the actual clinical problem.

Our team's ongoing systematic review on AI in knee osteoarthritis, currently under peer review, examines exactly these validation properties across the published literature. The pattern is consistent: most models report on cohorts under 500 patients, from a single institution, with no inter-scanner or inter-reader analysis.

ICRS vs MOAKS vs WORMS: Which Should AI Target?

A practical question for clinical AI development: which classification system should an algorithm be trained to predict? The answer depends on the use case.

ICRS maps directly to surgical decision-making and is the most clinically actionable. An AI tool that outputs ICRS-equivalent grades on MRI provides the surgeon a measurement they can act on, debridement, microfracture, or restorative cartilage procedure selection ladder onto ICRS grades in established literature. The downside is that ICRS was originally designed for arthroscopic assessment, and its translation to MRI is imperfect.

MOAKS is the gold standard for research applications and longitudinal studies, multi-feature scoring including cartilage size, depth, bone marrow lesions, meniscal status, and synovial inflammation. AI models trained to MOAKS provide rich whole-joint information but generate complex output that is difficult to integrate into routine clinical workflow.

WORMS sits between the two, focused specifically on osteoarthritis progression. For cohort studies tracking OA over time, WORMS provides the standardised endpoint that clinical trials require.

Salnus's KL-GradeNet work targets the radiograph-based Kellgren-Lawrence system as a starting point because it provides a robust, well-validated foundation that integrates with existing clinical workflow. Extension to MRI-based cartilage classification, which is the focus of our peer-reviewed systematic review currently under editorial consideration, represents the natural next step in our pipeline.

Where Salnus Fits

We are building AI tools for orthopaedic clinical decision support that take seriously the validation problems described above. Our systematic review on AI in knee osteoarthritis, currently under peer review, synthesises the published literature on detection, grading, and segmentation models to identify which approaches are clinically viable and which have not yet cleared the validation bar.

Our platform pipeline includes both radiograph-based KL grading and MRI-based cartilage segmentation, deployed as browser-based tools without PACS integration requirements. We focus on multi-centre validation and inter-rater concordance because these are the properties that determine whether a published model can become a clinical tool.

For collaboration on multi-centre validation cohorts, please contact us through our pilot program.

Key Takeaways

  • Inter-observer disagreement in cartilage grading is structural, not a failure of expertise, it concentrates at the Grade 2-3 transition and at low-grade boundaries.
  • Deep learning offers reproducibility at the level of "same algorithm, same output every time", exactly what classification systems were designed to provide but human reading cannot deliver at scale.
  • Most published cartilage AI models do not clear the inter-scanner generalisation bar. Single-centre validation does not predict clinical performance.
  • The clinically interesting performance question is at the boundary cases (Grade 2 vs 3), not overall accuracy.
  • ICRS is the most clinically actionable target; MOAKS is the research gold standard; WORMS suits longitudinal OA studies.

Salnus is an orthopaedic AI startup based in Istanbul, building clinical decision support tools for knee, hip, and shoulder surgery. Our platform is currently in invite-only pilot for selected orthopaedic surgeons. Request access.

Aynı diz MRI çalışmasını değerlendiren iki deneyimli kas-iskelet radyoloğu, kıkırdak durumu hakkında klinik açıdan anlamlı farklı sonuçlara ulaşabilir, ve bu tutarsızlık çoğu klinisyenin beklediği yerde yoğunlaşmaz. Komşu evreler arasındaki geçişlerde, özellikle ICRS Grade 2 ile Grade 3 arasında ve erken dejenerasyon ile yapısal olarak intakt kıkırdak sınırında kümelenir. Bu, uzmanlık eksikliği değildir. Kıkırdak sınıflandırma sistemlerinin tasarım biçiminin yapısal bir özelliğidir.

Derin öğrenme, merkezler ve okuyucular arasında tekrarlanabilir, standardize bir kıkırdak evreleme yolu sunuyor. Ancak soru, yapay zekanın insan seviyesinde performansa ulaşıp ulaşamayacağı değildir. Soru, yapay zekanın insanların en çok tutarsız kaldığı sınır vakalarında güvenilir performans gösterip gösteremediği, ve bu performansın klinik kararlara dönüşmesi için hangi düzeyde validasyon gerektiğidir.

Bu yazı inter-observer probleminin nereden kaynaklandığını, derin öğrenme literatürünün gerçekte ne gösterdiğini ve yayımlanmış bir modeli klinik olarak konuşlandırılabilir bir modelden ayıran validasyon açığını inceler.

İki Radyolog Neden Anlaşmaz?

Kıkırdak evreleme sistemleri, artroskopik ve MRI değerlendirme için ICRS, bütün-organ MRI değerlendirmesi için MOAKS, osteoartrite-spesifik skorlama için WORMS, ortak yapısal bir problem paylaşır: sürekli bir biyolojik süreç üzerinde ordinal kategorik ölçekler olarak tasarlanmışlardır. Kıkırdak dejenerasyonu ayrık evrelerde ortaya çıkmaz. Glikozaminoglikan içeriğinin kademeli kaybı, yüzey fibrilasyonu, kısmi-kalınlık defektleri ve nihayetinde tam-kalınlık kayıp süreciyle ilerler. Bu sürekliliği 4 veya 6 kategoriye bölmek sınırlarda kaçınılmaz belirsizlik yaratır.

Raporlanan inter-observer uyumu sınıflandırma sistemine, anatomik bölgeye ve okuyucu deneyimine göre anlamlı şekilde değişir:

  • ICRS Grade 2-3 geçişi tutarlı olarak en düşük uyumu gösterir. %50 altındaki kısmi-kalınlık defektlerini %50 üzerindeki defektlerden ayırt etmek hassas derinlik tahmini gerektirir; MRI'ın çözünürlüğü ve kısmi-volüm artefaktı bunu yüksek-grade eğimli kıkırdaklarda zorlaştırır.
  • MOAKS skorlaması kıkırdak boyutu ve derinliği için yayımlanan çalışmalarda tipik olarak 0,55-0,75 aralığında ağırlıklı kappa değerleri gösterir; bu değer önemli uyum için sıkça atıfta bulunulan 0,80 eşiğinin altındadır.
  • Patellofemoral kıkırdak tutarlı olarak tibiofemoral kıkırdaktan daha düşük uyum gösterir; kısmen patellar eğrilik ve kısmi-volüm ortalamasının daha fazla yorumsal değişkenlik getirmesi nedeniyle.

Klinik sonuç: aynı MRI'ı okuyan iki cerrah, aynı olması gereken sınıflandırmalara dayalı olarak farklı cerrahi yaklaşımlar, debridman, mikrokırık veya matriks-indüklü kondrosit implantasyonu, seçebilir.

Yapay Zekanın Devreye Girdiği Yer: Standardizasyon, Yer Değiştirme Değil

Derin öğrenmenin kıkırdak evrelemedeki vaadi, bir algoritmanın deneyimli bir kas-iskelet radyoloğundan daha iyi MRI okuması değildir. Aynı algoritmanın her seferinde, her tarayıcıda, her merkezde aynı çıktıyı üretmesidir. Bu, sınıflandırma sistemlerinin sağlamak üzere tasarlandığı ancak insan okumasının ölçekte sunamayacağı türden bir tekrarlanabilirliktir.

Yayımlanan derin öğrenme yaklaşımları üç geniş kategoride toplanır:

Bütün-görüntü sınıflandırma ağları her MRI kesitini bir görüntü sınıflandırma problemi olarak ele alır ve doğrudan voksel yoğunluklarından bir ICRS veya MOAKS-eşdeğer evre tahmin eder. Bu modeller hesaplama açısından basittir ve eğitilmesi kolaydır, ancak uzamsal lokalizasyonu kaybederler, bir evrenin var olduğunu söylerler ama nerede olduğunu söylemezler.

Segmentasyon-tabanlı pipeline'lar önce kıkırdağı bir doku olarak segmente eder, ardından segmentasyon morfolojisinden defektleri kantifiye eder. Bu yaklaşım yorumlanabilirlik sunar, cerraha algoritmanın tam olarak hangi kıkırdak bölgesini işaretlediğini gösterebilirsiniz, ancak önemli ölçüde daha fazla anotasyonlu veri ve hesaplama kaynağı gerektirir. U-Net ve varyantları gibi konvolüsyonel mimariler bu yaklaşıma hakimdir.

Hibrit dikkat-tabanlı modeller segmentasyonu sınıflandırma başlıklarıyla birleştirir, sıklıkla global bağlamı yerel lezyon özellikleriyle entegre etmek için transformer veya dikkat modüllerini kullanır. Bu yaklaşımlar yayımlanan en güçlü performansı gösterir ancak en fazla anotasyon eforunu gerektirir ve çıkarım süresinde hesaplama açısından ağır kalır.

Bu yaklaşımlarda, ikili lezyon tespiti (herhangi bir defekt vs hiç) için raporlanan AUC değerleri sıklıkla 0,90'ı aşar. Çok-sınıflı evreleme performansı daha mütevazıdır; yayımlanan validasyon kohortlarında makro-ortalamalı F1 skorları tipik olarak 0,65-0,80 aralığındadır. İkili ve çok-sınıflı görevler arasındaki performans farkı altta yatan biyolojik gerçekliği yansıtır: bir şeyin yanlış olduğunu tespit etmek, hangi tür yanlışlığın olduğunu tam olarak kategorize etmekten kolaydır.

Validasyon Açığı

İşte yayımlanmış kıkırdak yapay zeka modellerinin çoğunun klinik hazırlığın kısa kaldığı yer: validasyon kohortları küçük, tek-merkezli ve sıklıkla eğitim verileriyle aynı tarayıcı protokollerini paylaşır. Eğitim verisini üreten aynı tarayıcıda 0,85 AUC elde eden bir model, farklı sekans parametrelerine sahip farklı bir vendor MRI cihazında 0,65 AUC'a düşebilir. Bu genelleme açığı üzerine literatür seyrek ama tutarlıdır, tarayıcılar arası alan kayması, klinik görüntüleme yapay zekasındaki en büyük çözümsüz problemlerden biridir.

Bir kıkırdak evreleme modelinin klinik kararları desteklemesi için üç validasyon özelliği önemlidir:

Tarayıcılar-arası genelleme. Modelin eğitim sırasında hiç görmediği tutulmuş test verisiyle, en az 2-3 farklı MRI vendor'ı ve manyetik alan gücünde performans. Bu, yayımlanmış çalışmaların çoğunun aştığı eşiğin üzerinde bir bardır.

Okuyucular-arası uyum. Yapay zeka çıktısının birden fazla uzman okuyucuyla doğrudan karşılaştırılması; yapay zeka okuyuculardan biri gibi değerlendirilir. Yapay zeka ile uzman okuyucu konsensüsü arasında 0,80 üzerindeki sınıf-içi korelasyon katsayıları (ICC) savunulabilir bir standardı temsil eder, ancak güven aralıklarıyla ve anatomik bölgeye göre tabakalandırılarak raporlanmalıdır.

Sınırlardaki performans. Raporlanan metrikler sıklıkla genel doğruluğu veya AUC'yu vurgular, ancak klinik açıdan ilginç soru insanların en çok tutarsız kaldığı Grade 2-3 geçişindeki performanstır. Genel olarak %95 doğrulukta ancak sınır vakalarda %55 doğrulukta performans gösteren bir model gerçek klinik problemi çözmüyor demektir.

Ekibimizin diz osteoartritinde yapay zeka üzerine devam eden sistematik derlemesi, şu an hakem değerlendirmesinde, yayımlanan literatürde tam olarak bu validasyon özelliklerini inceler. Örüntü tutarlıdır: modellerin çoğu tek bir kurumdan, 500 hastanın altında kohortlar üzerinde, tarayıcılar-arası veya okuyucular-arası analiz yapmadan raporlanır.

ICRS vs MOAKS vs WORMS: Yapay Zeka Hangisini Hedeflemeli?

Klinik yapay zeka geliştirme için pratik bir soru: bir algoritma hangi sınıflandırma sistemini tahmin etmek üzere eğitilmeli? Yanıt kullanım durumuna bağlıdır.

ICRS doğrudan cerrahi karar vermeye haritalanır ve klinik olarak en uygulanabilir olanıdır. MRI'da ICRS-eşdeğer evreler veren bir yapay zeka aracı, cerraha hareket edebileceği bir ölçü sağlar, debridman, mikrokırık veya restoratif kıkırdak prosedürü seçim merdiveni yerleşik literatürde ICRS evrelerine bağlanır. Olumsuz tarafı, ICRS'in başlangıçta artroskopik değerlendirme için tasarlanmış olması ve MRI'a tercümesinin kusurlu olmasıdır.

MOAKS araştırma uygulamaları ve longitudinal çalışmalar için altın standarttır, kıkırdak boyutu, derinliği, kemik iliği lezyonları, menisküs durumu ve sinovyal inflamasyon dahil çok-özellikli skorlama. MOAKS'a eğitilen yapay zeka modelleri zengin bütün-eklem bilgisi sağlar ancak rutin klinik iş akışına entegrasyonu zor karmaşık çıktı üretir.

WORMS ikisinin arasında durur, özellikle osteoartrit ilerlemesine odaklıdır. OA'yı zaman içinde takip eden kohort çalışmaları için WORMS klinik denemelerin gerektirdiği standardize son noktayı sağlar.

Salnus'un KL-GradeNet çalışması, mevcut klinik iş akışına entegre olan sağlam, iyi-validasyonlu bir temel sağladığı için başlangıç noktası olarak radyograf-tabanlı Kellgren-Lawrence sistemini hedefler. MRI-tabanlı kıkırdak sınıflandırmasına genişleme, şu an editör değerlendirmesinde olan hakem-değerlendirmeli sistematik derlememizin odağı, pipeline'ımızdaki doğal bir sonraki adımı temsil eder.

Salnus'un Konumu

Yukarıda tanımlanan validasyon problemlerini ciddiye alan ortopedik klinik karar destek için yapay zeka araçları geliştiriyoruz. Diz osteoartritinde yapay zeka üzerine sistematik derlememiz, şu an hakem değerlendirmesinde, hangi yaklaşımların klinik olarak uygulanabilir, hangilerinin henüz validasyon barını aşmamış olduğunu belirlemek için tespit, evreleme ve segmentasyon modelleri üzerine yayımlanmış literatürü sentezler.

Platform pipeline'ımız hem radyograf-tabanlı KL evrelemesi hem de MRI-tabanlı kıkırdak segmentasyonunu içerir, PACS entegrasyonu gerektirmeden tarayıcı-tabanlı araçlar olarak konuşlandırılır. Çok-merkezli validasyon ve okuyucular-arası uyuma odaklanıyoruz çünkü bunlar yayımlanmış bir modelin klinik bir araca dönüşüp dönüşmeyeceğini belirleyen özelliklerdir.

Çok-merkezli validasyon kohortları üzerinde iş birliği için lütfen pilot programımız üzerinden bizimle iletişime geçin.

Temel Çıkarımlar

  • Kıkırdak evrelemesindeki gözlemciler arası tutarsızlık yapısaldır, uzmanlık eksikliği değildir, Grade 2-3 geçişinde ve düşük-grade sınırlarda yoğunlaşır.
  • Derin öğrenme "aynı algoritma, her seferinde aynı çıktı" düzeyinde tekrarlanabilirlik sunar, sınıflandırma sistemlerinin sağlamak üzere tasarlandığı ancak insan okumasının ölçekte sunamayacağı şey tam olarak budur.
  • Yayımlanmış kıkırdak yapay zeka modellerinin çoğu tarayıcılar-arası genelleme barını aşmaz. Tek-merkezli validasyon klinik performansı tahmin etmez.
  • Klinik açıdan ilginç performans sorusu sınır vakalarındadır (Grade 2 vs 3), genel doğrulukta değil.
  • ICRS klinik açıdan en uygulanabilir hedeftir; MOAKS araştırma altın standardıdır; WORMS longitudinal OA çalışmalarına uyar.

Salnus, İstanbul merkezli bir ortopedik yapay zeka girişimidir; diz, kalça ve omuz cerrahisi için klinik karar destek araçları geliştirir. Platformumuz şu an seçili ortopedi cerrahları için davetli pilot aşamasındadır. Erişim talep edin.

Reviewed by the Salnus biomedical engineering team.

← All Posts

Orthopaedic AI Research Updates

Monthly research digest, product updates, and clinical AI insights.

Unsubscribe anytime.

How AI Reduces Inter-Observer Variability in Knee Cartilage Grading, Salnus Blog, Salnus