استخراج Key-Value من PDF بالـ OCR: خطوات عملية لعام 2025

بقلم Codexal • · آخر تحديث

تعتمد الكثير من العمليات على استخراج حقول مفتاح/قيمة (KVP) مثل الاسم → أحمد، رقم الفاتورة → 1234 من ملفات PDF. في هذا الدليل سنستعرض المحركات، تحليل التخطيط، نماذج KIE الحديثة، وخدمات السحابة، مع نصائح لرفع الدقة. للحلول الجاهزة للإنتاج يمكنك مراجعة خدمات الذكاء الاصطناعي من Codexal والتكاملات وDevOps.

مناهج الاستخراج

  1. قوالب وقواعد ثابتة: مناسبة للنماذج الموحدة والمواقع الثابتة للحقول.
  2. OCR + تحليل التخطيط: تشغيل OCR ثم تحليل كتل/أسطر النص وربط المفتاح→القيمة بالقرب المكاني (يمين/أسفل). اختيار نمط تقسيم الصفحات في Tesseract مهم.
  3. نماذج تعلم الآلة (KIE): مثل LayoutLM (يعتمد على OCR) أو Donut (بدون OCR) لاستخراج الحقول مباشرة.
  4. خدمات سحابية: Azure Document Intelligence و Google Document AI تقدّمان استخراج KVP والجداول وخانات الاختيار عبر API.

أدوات ونماذج شائعة

  • Tesseract OCR: أنماط تقسيم الصفحة --psm تؤثر بقوة على الدقة وتجميع الأسطر.
  • PaddleOCR: OCR قوي مع مكونات KIE وبيانات مثل FUNSD وأدوات تدريب/نشر جاهزة.
  • LayoutLM: مستخدم على نطاق واسع لمهام KIE (يتطلب نصّ OCR مع الإحداثيات).
  • Donut: نموذج حديث يفهم المستند مباشرة من الصورة بدون OCR خارجي.
  • pdfplumber (لـ PDFs الرقمية): استخراج نص/جداول مع وعي بالتخطيط؛ انتبه لمشاكل ligatures والترميزات.

واجهات سحابية لإرجاع الحقول

Azure Document Intelligence يستخرج KVP والجداول وخانات الاختيار في طلب واحد، وGoogle Document AI يُرجع حقول النماذج كـ KVP وإحداثياتها لمرحلة ما بعد-المعالجة.

نصائح لرفع الدقة

  • معالجة مسبقة: تصحيح الميلان، إزالة الضوضاء، ورفع الدقة إلى 300DPI+.
  • اختيار PSM مناسب: جرّب أكثر من نمط وقيّم النتائج.
  • تطبيع النص: بعض ملفات PDF تحتوي ligatures مثل fi/fl؛ طبّع النص قبل المطابقة.
  • الاعتماد على الإحداثيات: اربط المفتاح→القيمة وفق الجوار المكاني مع حدود فاصلة واضحة.
  • نهج هجين: استخدم القوالب عند انخفاض ثقة النموذج/الـOCR وسجّل الحقول منخفضة الثقة للمراجعة البشرية.
نُنفّذ في Codexal بايبلاين متكامل: مقارنة OCR مفتوح المصدر مع السحابي، ثم تحسين نماذج KIE بحسب مستنداتك الفعلية. تواصل عبر اتصل بنا.