Automatiserade gränssnitt kan byggas med dessa källor. Preliminära Bearbetning Skannade dokument och digitala fax är inte läsbar text. Att omvandla dem till maskinläsbara tecken, används olika tekniker teckenigenkänning som används. För närvarande, dessa inkluderar: Optical Character Recognition - OCR - används för att omvandla maskinskrivna dokument bilder till textdokument med läsbara och redigerbara tecken Handskrivna Character Recognition - HCR - används för att omvandla handskrift eller bokstäver i texttecken.
Tekniken har ännu inte fulländat Optical Mark Recognition - OMR - används för att läsa markeringar i kryssrutor och andra fördefinierade fält i formulär, mm Standardiserade streckkoder, vilket gör att utvinning av information med hjälp av streckkodsläsare Både OCR och HCR har kontinuerligt förbättrats med hjälp av artificiell intelligens funktioner som jämförelse, logik och referenslistor. Dokument-avbildningstekniker bidra till att förbättra kvaliteten på skannade bilder genom att förbättra läsbarheten och justera bilder som har tagits i en obekväm vinkel.
ECM kan förstå data som samlats in genom yttre former om fånga systemet vet struktur och logik formulären. Aggregering och indexering Enterprise Content Management-system fånga innehåll i olika format från ett flertal källor. Innehållet sedan samman och indexeras så att den kan hämtas på ett meningsfullt sätt. Indexerings logik ECM är på egen hand, och inte beroende av någon indexering logik ursprungliga källor, om innehållet hade indexe där. Enterprise Content Man