8 min read

ARCO Staging in Femoral Head AVN: The Inter-Observer Problem AI Could Solve

ARCO staging guides treatment decisions in osteonecrosis of the femoral head, but ARCO Stage I-II disagreement among radiologists remains a structural problem. Deep learning shows promise, here is what the literature actually demonstrates.

Salnus Research
Avascular NecrosisONFHARCO StagingDeep LearningMRIHip OsteonecrosisInter-Observer AgreementClinical Decision Support

In osteonecrosis of the femoral head (ONFH), the difference between ARCO Stage I and ARCO Stage II changes everything: the difference between a patient who may benefit from joint-preserving core decompression and one who may not. Yet the inter-observer agreement at this exact transition, between bone marrow oedema with viable subchondral bone (Stage I) and structural bone necrosis without articular collapse (Stage II), has consistently been the weakest part of the entire staging system.

This is not a marginal academic concern. It directly determines which patients are referred for hip-preserving surgery and which are placed on a path toward arthroplasty. AI-based ARCO staging, if validated correctly, could remove the variability that currently shapes clinical pathways, but the published literature has not yet cleared the validation bar that clinical deployment requires.

This post examines where ARCO staging breaks down, what AI approaches have actually shown, and the multi-centre validation problem that separates published models from clinically deployable tools.

ARCO Staging: A Brief Refresher

The Association Research Circulation Osseous (ARCO) classification has gone through several revisions. The current 2019 ARCO consensus simplified the original staging into four primary stages, anchored to MRI and radiographic findings:

  • Stage I: Normal radiograph; positive MRI showing bone marrow oedema or early necrosis. Subchondral bone is structurally intact.
  • Stage II: Radiographic changes appear (sclerosis, lytic lesions); MRI shows established necrosis with intact articular surface.
  • Stage III: Subchondral fracture or articular collapse; "crescent sign" on radiograph or MRI.
  • Stage IV: Established osteoarthritis with joint-space loss.

Within this staging framework, the clinically critical transitions are between Stages I-II (where joint-preserving intervention is most viable) and Stages III-IV (where arthroplasty becomes the primary option). The transition between Stages I and II carries particular weight because it determines candidacy for core decompression, a procedure with markedly better outcomes when performed at Stage I-II than at later stages.

Where Disagreement Happens: The Stage I-II Transition

Inter-observer agreement studies for ARCO staging consistently show the same pattern: substantial agreement on advanced disease (Stage III-IV), and meaningfully weaker agreement on early disease (Stage I-II). The reasons are structural to how MRI features evolve in early ONFH.

Bone marrow oedema versus established necrosis is the primary diagnostic axis at Stage I. On T2-weighted and STIR sequences, the high-signal pattern of bone marrow oedema can closely resemble the ill-defined high-signal regions of early necrotic transition. The defining feature, a low-signal demarcation line on T1, appears at variable times in the disease evolution, and its presence or absence at imaging may be a function of when the scan was performed rather than the underlying biology.

Subchondral bone status assessment at Stage II requires evaluating whether the necrotic segment has begun to lose structural integrity. This is fundamentally a question of subtle MRI and CT findings, with substantial reader-dependent interpretation.

Reported weighted kappa values for inter-observer agreement on early-stage ARCO classification typically fall in the 0.55-0.70 range across studies, below the 0.80 threshold often cited for substantial agreement. Even fellowship-trained musculoskeletal radiologists show this pattern. This is not a problem of training; it is a problem of how the staging boundaries map onto MRI's signal characteristics in early disease.

AI Approaches: What Has Been Published

Deep learning approaches to ARCO staging, and to ONFH detection more broadly, fall into distinct technical categories. Reviewing the published literature reveals patterns about what works and what remains unsolved.

Detection-only models address the simpler question: does this MRI show ONFH, yes or no? Convolutional networks trained on T1, T2, and STIR sequences achieve AUCs in the 0.90-0.97 range on internal validation cohorts. These models are clinically useful as screening tools but do not address the staging question that matters for treatment decisions.

Multi-class staging networks attempt the harder problem: predicting ARCO Stage directly from MRI volumes. Reported macro-averaged accuracy across published studies typically ranges from 0.70 to 0.85, with the lower bound corresponding to models that handle Stage I-II transitions explicitly and the upper bound corresponding to models trained primarily on advanced disease. The performance gap reflects exactly the inter-observer problem: AI models trained on labels generated by readers with imperfect agreement inherit the noise in those labels.

Segmentation-based pipelines segment the necrotic region on MRI and quantify its volume, location, and depth as derived measurements. These approaches enable longitudinal disease tracking but add computational complexity that may exceed the value provided in routine clinical workflow.

Attention-based hybrid models combine MRI sequence features with explicit anatomical priors. Recent work in this area has reported the strongest performance on Stage I-II discrimination, though the cohorts remain small and single-centre.

A recurring pattern: most published ONFH AI models report on cohorts under 300 patients, derived from a single institution, with no testing on alternative MRI vendors or sequence parameters. This is not a problem unique to ONFH AI, it characterises most clinical imaging AI literature, but it is particularly consequential for a condition where treatment decisions hinge on early-stage discrimination.

The Pitfalls of Single-Centre Validation

The most common failure mode in clinical imaging AI development is overfitting to scanner-specific signal characteristics. A model trained on 250 hip MRIs from a single institution learns not just disease features, but also the specific noise patterns, sequence parameters, contrast handling, and acquisition geometry of that institution's scanners. Performance on held-out data from the same scanner may exceed 0.90 AUC; performance on data from a different vendor may drop to 0.65.

This problem is particularly acute for ARCO staging because:

MRI sequence variation is high in ONFH workup. Different institutions use different combinations of T1, T2, STIR, fat-suppressed sequences, and sometimes contrast-enhanced studies. A model trained on a specific sequence combination may fail on others.

Patient demographics differ across centres. ONFH aetiology varies, corticosteroid-induced versus traumatic versus alcohol-related versus idiopathic. The MRI appearance of necrosis can subtly differ across these aetiologies, and a model trained primarily on one population may not generalise to others.

Coil configurations and field strengths differ. 1.5T and 3T MRI produce different signal-to-noise profiles. A model trained on 3T data may perform worse on the 1.5T scanners that remain in widespread clinical use.

The clinical consequence: a model with strong published performance metrics may not be clinically usable until it has been validated across the scanner diversity of routine practice.

The Path Forward: Multi-Centre, Multi-Reader Validation

For AI-based ARCO staging to move from publication to clinical tool, three validation properties matter:

Multi-centre cohorts spanning at least 3-5 institutions with diverse scanner vendors, field strengths, and sequence protocols. Performance on the held-out test centres, never seen during training, is the relevant generalisation metric.

Multi-reader ground truth with at least three expert readers per case, using the consensus or adjudicated label as the ground truth. Reporting performance against the consensus, with confidence intervals, provides a defensible validation standard.

Stratified performance reporting. The clinically relevant performance is at the Stage I-II boundary. Reporting overall accuracy obscures the fact that most of the accuracy comes from easy cases (advanced disease). Stratified analysis by stage and by case difficulty exposes whether the model solves the actual clinical problem.

Our team's systematic review and meta-analysis on AI in ONFH MRI detection, currently under peer review, synthesises the published literature on exactly these validation properties. The pattern is consistent: most models do not yet meet these standards. The question is not whether AI can match expert performance on ARCO staging; it is whether AI can do so reliably across the scanner and patient diversity of routine clinical practice.

Where Salnus Fits

Salnus is building orthopaedic AI tools that take seriously the multi-centre validation problem. Our systematic review on AI in osteonecrosis MRI, currently under editorial consideration, provides the evidence base for which detection and staging approaches show generalisation potential and which do not.

For collaboration on multi-centre ARCO staging validation cohorts, including contribution of de-identified hip MRI series and reader adjudication, please contact us through our pilot program.

Key Takeaways

  • ARCO Stage I-II inter-observer disagreement is the structural weakness in osteonecrosis classification, and the boundary that determines core decompression candidacy.
  • Detection-only AI models perform well (AUC 0.90+) but do not address the clinically relevant staging question.
  • Multi-class ARCO staging accuracy in published models ranges 0.70-0.85, with the lower bound on Stage I-II discrimination.
  • Single-centre validation does not predict performance on alternative MRI vendors, field strengths, or patient populations.
  • The clinical bar is multi-centre, multi-reader validation with stratified performance at boundary cases, not overall accuracy on a single cohort.

For broader context on inter-observer variability in orthopaedic imaging classification, see our companion post on knee cartilage grading AI.


Salnus is an orthopaedic AI startup based in Istanbul, building clinical decision support tools for knee, hip, and shoulder surgery. Our platform is currently in invite-only pilot for selected orthopaedic surgeons. Request access.

Femur başı osteonekrozunda (ONFH), ARCO Evre I ile ARCO Evre II arasındaki fark her şeyi değiştirir: eklem-koruyucu kor dekompresyondan fayda görebilecek bir hasta ile görmeyebilecek bir hasta arasındaki fark. Yine de tam olarak bu geçişte, viable subkondral kemikle birlikte kemik iliği ödemi (Evre I) ile artiküler kollaps olmadan yapısal kemik nekrozu (Evre II) arasında, gözlemciler arası uyum tutarlı olarak tüm evreleme sisteminin en zayıf parçası olmuştur.

Bu marjinal bir akademik endişe değildir. Hangi hastaların kalça-koruyucu cerrahiye yönlendirileceğini ve hangilerinin artroplastiye giden bir yola yerleştirileceğini doğrudan belirler. Yapay zeka tabanlı ARCO evrelemesi, doğru valide edildiğinde, klinik yolları şu anda şekillendiren değişkenliği kaldırabilir, ancak yayımlanmış literatür, klinik konuşlandırmanın gerektirdiği validasyon barını henüz aşmamıştır.

Bu yazı ARCO evrelemesinin nerede bozulduğunu, yapay zeka yaklaşımlarının gerçekte ne gösterdiğini ve yayımlanmış modelleri klinik olarak konuşlandırılabilir araçlardan ayıran çok-merkezli validasyon problemini inceler.

ARCO Evrelemesi: Kısa Bir Hatırlatma

Association Research Circulation Osseous (ARCO) sınıflandırması birkaç revizyondan geçmiştir. Mevcut 2019 ARCO konsensüsü, MRI ve radyografik bulgulara dayalı dört temel evreye basitleştirmiştir:

  • Evre I: Normal radyograf; kemik iliği ödemi veya erken nekroz gösteren pozitif MRI. Subkondral kemik yapısal olarak intakttır.
  • Evre II: Radyografik değişiklikler ortaya çıkar (skleroz, litik lezyonlar); MRI intakt artiküler yüzeyle birlikte yerleşmiş nekroz gösterir.
  • Evre III: Subkondral kırık veya artiküler kollaps; radyograf veya MRI'da "crescent sign".
  • Evre IV: Eklem aralığı kaybıyla yerleşmiş osteoartrit.

Bu evreleme çerçevesi içinde, klinik açıdan kritik geçişler Evre I-II (eklem-koruyucu girişimin en uygulanabilir olduğu yer) ve Evre III-IV (artroplastinin birincil seçenek haline geldiği yer) arasındadır. Evre I ile II arasındaki geçiş özel ağırlık taşır çünkü kor dekompresyona, daha sonraki evrelerde değil de Evre I-II'de yapıldığında belirgin şekilde daha iyi sonuçlara sahip bir prosedür, adaylığı belirler.

Tutarsızlığın Yaşandığı Yer: Evre I-II Geçişi

ARCO evrelemesi için inter-observer uyum çalışmaları tutarlı olarak aynı örüntüyü gösterir: ileri hastalıkta (Evre III-IV) önemli uyum, erken hastalıkta (Evre I-II) anlamlı şekilde daha zayıf uyum. Sebepler erken ONFH'de MRI özelliklerinin nasıl evrildiğine ilişkin yapısaldır.

Yerleşmiş nekroza karşı kemik iliği ödemi, Evre I'de birincil tanısal eksendir. T2-ağırlıklı ve STIR sekanslarında, kemik iliği ödeminin yüksek-sinyal örüntüsü, erken nekrotik geçişin ill-define yüksek-sinyal bölgelerine yakından benzeyebilir. Tanımlayıcı özellik, T1'de düşük-sinyal demarkasyon hattı, hastalık evriminde değişken zamanlarda ortaya çıkar ve görüntülemede varlığı veya yokluğu, altta yatan biyolojiden ziyade taramanın ne zaman yapıldığının bir fonksiyonu olabilir.

Subkondral kemik durumunun değerlendirilmesi, Evre II'de nekrotik segmentin yapısal bütünlüğünü kaybetmeye başlayıp başlamadığını değerlendirmeyi gerektirir. Bu temelde ince MRI ve BT bulgularının bir sorusudur, önemli ölçüde okuyucu-bağımlı yorumla birlikte.

Erken-evre ARCO sınıflandırması için inter-observer uyumuna ilişkin raporlanan ağırlıklı kappa değerleri çalışmalarda tipik olarak 0,55-0,70 aralığına düşer, önemli uyum için sıkça atıfta bulunulan 0,80 eşiğinin altında. Fellowship eğitimli kas-iskelet radyologları bile bu örüntüyü gösterir. Bu bir eğitim problemi değildir; evreleme sınırlarının erken hastalıkta MRI'ın sinyal karakteristiklerine nasıl haritalandığının bir problemidir.

Yapay Zeka Yaklaşımları: Yayımlanan Şeyler

ARCO evrelemesine, ve daha geniş olarak ONFH tespitine, derin öğrenme yaklaşımları ayrı teknik kategorilere düşer. Yayımlanmış literatürü gözden geçirmek, neyin işe yaradığı ve neyin çözülmemiş kaldığı hakkında örüntüleri ortaya çıkarır.

Yalnızca-tespit modelleri daha basit soruyu ele alır: bu MRI ONFH gösteriyor mu, evet veya hayır? T1, T2 ve STIR sekansları üzerinde eğitilmiş konvolüsyonel ağlar dahili validasyon kohortlarında 0,90-0,97 aralığında AUC değerleri elde eder. Bu modeller tarama araçları olarak klinik açıdan yararlıdır ancak tedavi kararları için önemli olan evreleme sorusunu ele almazlar.

Çok-sınıflı evreleme ağları daha zor problemi denemektedir: doğrudan MRI hacimlerinden ARCO Evresini tahmin etmek. Yayımlanmış çalışmalarda raporlanan makro-ortalamalı doğruluk tipik olarak 0,70 ile 0,85 arasında değişir; alt sınır Evre I-II geçişlerini açıkça ele alan modellere, üst sınır ise birincil olarak ileri hastalık üzerinde eğitilmiş modellere karşılık gelir. Performans açığı tam olarak inter-observer problemini yansıtır: kusurlu uyumla okuyucular tarafından üretilen etiketler üzerinde eğitilmiş yapay zeka modelleri, bu etiketlerdeki gürültüyü miras alır.

Segmentasyon-tabanlı pipeline'lar MRI'da nekrotik bölgeyi segmente eder ve hacmini, lokalizasyonunu ve derinliğini türetilmiş ölçümler olarak kantifiye eder. Bu yaklaşımlar longitudinal hastalık takibi sağlar ancak rutin klinik iş akışında sağlanan değeri aşabilecek hesaplama karmaşıklığı ekler.

Dikkat-tabanlı hibrit modeller MRI sekans özelliklerini açık anatomik priors ile birleştirir. Bu alandaki son çalışmalar Evre I-II ayrımında en güçlü performansı raporlamıştır, ancak kohortlar küçük ve tek-merkezli kalır.

Tekrarlayan bir örüntü: yayımlanmış ONFH yapay zeka modellerinin çoğu, alternatif MRI vendor'ları veya sekans parametreleri üzerinde test yapmadan, tek bir kurumdan, 300 hastanın altında kohortlar üzerinde raporlanır. Bu ONFH yapay zekasına özgü bir problem değildir, klinik görüntüleme yapay zeka literatürünün çoğunu karakterize eder, ancak tedavi kararlarının erken-evre ayrımına bağlı olduğu bir durum için özellikle sonuç doğurucudur.

Tek-Merkezli Validasyonun Tuzakları

Klinik görüntüleme yapay zeka geliştirmedeki en yaygın başarısızlık modu, tarayıcıya-özgü sinyal karakteristiklerine aşırı uyumdur. Tek bir kurumdan 250 kalça MRI'ı üzerinde eğitilmiş bir model, sadece hastalık özelliklerini değil, aynı zamanda o kurumun tarayıcılarının spesifik gürültü örüntülerini, sekans parametrelerini, kontrast işlemesini ve edinme geometrisini de öğrenir. Aynı tarayıcıdan tutulan veri üzerindeki performans 0,90 AUC'ı aşabilir; farklı bir vendor'dan veri üzerindeki performans 0,65'e düşebilir.

Bu problem ARCO evrelemesi için özellikle akut çünkü:

ONFH workup'ında MRI sekans varyasyonu yüksektir. Farklı kurumlar T1, T2, STIR, yağ-baskılı sekanslar ve bazen kontrastlı çalışmaların farklı kombinasyonlarını kullanır. Spesifik bir sekans kombinasyonu üzerinde eğitilmiş bir model diğerlerinde başarısız olabilir.

Hasta demografisi merkezler arasında farklıdır. ONFH etiyolojisi değişir, kortikosteroide-bağlı, travmatik, alkole-bağlı veya idiyopatik. Nekrozun MRI görünümü bu etiyolojiler arasında ince şekilde farklılık gösterebilir ve birincil olarak bir popülasyon üzerinde eğitilmiş bir model diğerlerine genelleyemeyebilir.

Coil konfigürasyonları ve manyetik alan güçleri farklıdır. 1,5T ve 3T MRI farklı sinyal-gürültü profilleri üretir. 3T verisi üzerinde eğitilmiş bir model, yaygın klinik kullanımda kalan 1,5T tarayıcılarda daha kötü performans gösterebilir.

Klinik sonuç: güçlü yayımlanmış performans metriklerine sahip bir model, rutin pratiğin tarayıcı çeşitliliği üzerinde valide edilene kadar klinik olarak kullanılabilir olmayabilir.

İleriye Yol: Çok-Merkezli, Çok-Okuyuculu Validasyon

Yapay zeka tabanlı ARCO evrelemesinin yayından klinik araca geçmesi için üç validasyon özelliği önemlidir:

Çeşitli tarayıcı vendor'ları, manyetik alan güçleri ve sekans protokollerini kapsayan en az 3-5 kurum çapında çok-merkezli kohortlar. Eğitim sırasında hiç görülmemiş tutulmuş test merkezleri üzerindeki performans ilgili genelleme metriğidir.

Vaka başına en az üç uzman okuyucu ile çok-okuyuculu ground truth. Konsensüs veya hakem-değerlendirilmiş etiket ground truth olarak kullanılır. Konsensüse karşı performansın güven aralıklarıyla raporlanması savunulabilir bir validasyon standardı sağlar.

Tabakalandırılmış performans raporlaması. Klinik açıdan ilgili performans Evre I-II sınırındadır. Genel doğruluğu raporlamak, doğruluğun çoğunun kolay vakalardan (ileri hastalık) geldiği gerçeğini gizler. Evreye ve vaka zorluğuna göre tabakalandırılmış analiz, modelin gerçek klinik problemi çözüp çözmediğini ortaya çıkarır.

Ekibimizin ONFH MRI tespitinde yapay zeka üzerine sistematik derleme ve meta-analizi, şu an hakem değerlendirmesinde, yayımlanmış literatürde tam olarak bu validasyon özelliklerini sentezler. Örüntü tutarlıdır: modellerin çoğu henüz bu standartları karşılamıyor. Soru, yapay zekanın ARCO evrelemesinde uzman performansını eşleştirip eşleştiremeyeceği değil; rutin klinik pratiğin tarayıcı ve hasta çeşitliliği boyunca bunu güvenilir şekilde yapıp yapamayacağıdır.

Salnus'un Konumu

Salnus, çok-merkezli validasyon problemini ciddiye alan ortopedik yapay zeka araçları geliştirir. Osteonekroz MRI'da yapay zeka üzerine sistematik derlememiz, şu an editör değerlendirmesinde, hangi tespit ve evreleme yaklaşımlarının genelleme potansiyeli gösterdiğine ve hangilerinin göstermediğine ilişkin kanıt tabanı sağlar.

Çok-merkezli ARCO evreleme validasyon kohortları üzerinde iş birliği için, anonimleştirilmiş kalça MRI serisi katkısı ve okuyucu hakem değerlendirmesi dahil, lütfen pilot programımız üzerinden bizimle iletişime geçin.

Temel Çıkarımlar

  • ARCO Evre I-II inter-observer tutarsızlığı osteonekroz sınıflandırmasındaki yapısal zayıflıktır, ve kor dekompresyon adaylığını belirleyen sınırdır.
  • Yalnızca-tespit yapay zeka modelleri iyi performans gösterir (AUC 0,90+) ancak klinik açıdan ilgili evreleme sorusunu ele almazlar.
  • Yayımlanmış modellerde çok-sınıflı ARCO evreleme doğruluğu 0,70-0,85 arasında değişir; alt sınır Evre I-II ayrımındadır.
  • Tek-merkezli validasyon, alternatif MRI vendor'ları, manyetik alan güçleri veya hasta popülasyonları üzerindeki performansı tahmin etmez.
  • Klinik bar, çok-merkezli, çok-okuyuculu validasyon ve sınır vakalarda tabakalandırılmış performanstır, tek bir kohortta genel doğruluk değil.

Ortopedik görüntüleme sınıflandırmasında inter-observer değişkenliğine ilişkin daha geniş bağlam için, diz kıkırdağı evrelemesi yapay zekası üzerine eşlik edici yazımıza bakın.


Salnus, İstanbul merkezli bir ortopedik yapay zeka girişimidir; diz, kalça ve omuz cerrahisi için klinik karar destek araçları geliştirir. Platformumuz şu an seçili ortopedi cerrahları için davetli pilot aşamasındadır. Erişim talep edin.

Reviewed by the Salnus biomedical engineering team.

← All Posts

Orthopaedic AI Research Updates

Monthly research digest, product updates, and clinical AI insights.

Unsubscribe anytime.

ARCO Staging in Femoral Head AVN: The Inter-Observer Problem AI Could Solve, Salnus Blog, Salnus