Aspose.OCR for .NET

探索Aspose OCR库，快速在.NET应用中实现OCR功能，支持多语言、批量处理及布局检测，轻松将图像转换为可搜索文本和PDF。

商品介绍

为什么选择 Aspose OCR 库？

只需几秒钟，即可在您的 .NET 应用中构建强大的 OCR 功能。我们易于使用的 OCR API 让您能够以极少的 C# 代码从图像和扫描件中提取文本、创建可搜索的 PDF 等。非常适合 .NET 桌面、Web、云和无服务器功能。点击下方项目，了解更多关于我们的功能和优势。

全球OCR应用

C# OCR 可识别英语、西里尔文、阿拉伯语、波斯语、中文、日语、韩语、印地语、泰米尔语和混合语言文本。

阅读所有内容

可靠的结果

批次识别

布局检测

实时代码示例

借助 Aspose OCR API，.NET OCR 变得轻而易举，即使对于新手开发者来说也是如此。只需几行代码，即可从图像中提取文本并将其显示在屏幕上。真的就是这么简单 - 快来尝试一下吧。

将文件拖放到此处或单击浏览*

* 通过上传您的文件或使用服务，您同意我们的使用条款和隐私政策。

将图像转换为文本

// Initialize OCR engine var recognitionEngine = new Aspose.OCR.AsposeOcr(); // Add image to the recognition batch var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage); source.Add("<file name>");  // Perform OCR List<Aspose.OCR.RecognitionResult> results      = recognitionEngine.Recognize(source); // Output recognized text Console.WriteLine(results[0].RecognitionText);

平台独立性

跨平台 OCR 库可以在 .NET、.NET Core 或 .NET Framework 下的任何地方工作 - 无论是在本地机器上、在 Web 服务器上还是在云端。

支持的文件格式

Aspose.OCR for .NET 可以处理任何扫描仪或相机获取的文件。识别结果可以保存、导入数据库或进行实时分析。

图片

JPEG
巴布亚新几内亚
TIFF
骨形态发生蛋白
动图

批量OCR

多页 PDF
视音频
拉链
文件夹

识别结果

文本
PDF
微软 Word
微软 Excel
HTML
RTF
电子出版
JSON
XML

适用于任何内容

C# 中文本识别的准确性和可靠性在很大程度上取决于图像质量。.NET OCR 提供了全套自动和手动图像优化，确保获得卓越的识别结果。

强大的图像处理、完全可定制的文本检测、后期处理和自动拼写纠正功能可以从任何扫描或照片中以最高的准确度提取文本。

OCR资源优化

Aspose 的 C# OCR 库能够针对每个特定用例高度灵活地平衡识别速度、质量和资源利用率：

在彻底识别和快速识别之间进行选择。
指定分配给识别的线程数，或者允许我们的 .NET OCR 库自动扩展到处理器核心的数量。
通过将计算卸载到 GPU 来释放 CPU。

140多种识别语言

我们的 C# OCR 库是一套通用的解决方案，适用于全球范围内的文档处理、数据提取和内容数字化。它支持多种欧洲、中东和亚洲的书写文字，适用于任何国家/地区和企业。

您可以识别混合语言编写的文档，例如中文/英语、阿拉伯语/法语或西里尔语/英语。支持以下语言：

扩展拉丁语：英语、西班牙语、法语、印尼语、葡萄牙语、德语、越南语、土耳其语、意大利语、波兰语等 80 多种语言；
西里尔字母：俄语、乌克兰语、哈萨克语、保加利亚语，包括西里尔文/英语混合文本；
阿拉伯语、波斯语、乌尔都语，包括混合英语的文本；
汉语、韩语、日语、天城文和达罗毗荼语，包括印地语、泰米尔语、马拉地语等。

特性和功能

C# OCR 自动从照片或扫描件中提取文本，无需手动重新输入文档。

照片OCR

以扫描级精度从智能手机照片中提取文本。

可搜索的 PDF

将任何扫描件转换为完全可搜索和可索引的文档。

URL识别

通过 URL 识别图像，无需将其下载到本地。

批量识别

读取多页文档、文件夹和档案中的所有图像。

任何字体和样式

识别和辨认所有流行字体和样式的文本。

微调识别

调整每个 OCR 参数以获得最佳识别结果。

拼写检查器

通过自动纠正拼写错误的单词来改善结果。

在图像中查找文本

在一组图像中搜索文本或正则表达式。

比较图片文字

比较两张图片上的文字，无论大小写和布局如何。

易于使用的OCR

使用我们的 C# OCR API，您只需几行 C# 代码即可将图像转换为文本、创建可搜索的 PDF、将识别结果保存到文档等等。探索代码示例，了解如何将我们的 OCR API 集成到您的 .NET 解决方案中。

安装

.NET OCR 以NuGet 包或可下载文件的形式分发，依赖关系极少。您可以直接从 Microsoft Visual Studio 将该包添加到项目中。只需将其安装到项目中，即可从图像中提取文本并将识别结果保存为任何支持的格式。如果您的系统具有支持 CUDA 的 GPU，您可以使用 GPU 加速的 OCR 引擎显著提高识别性能。

安装后，您可以立即开始使用 Aspose OCR for .NET，但有一些限制。临时许可证可在 30 天内消除试用版的所有限制。使用它开始构建功能齐全的 OCR 应用程序，并在以后决定是否购买 .NET OCR。

从照片中提取文字

人们通常想到 OCR（光学字符识别）时，首先想到的往往是扫描仪作为主要的采集设备。这种联想有着历史原因，至今仍在许多情况下普遍存在，它为从实体文档中采集印刷文本提供了一致且可控的环境，并且质量无与伦比。然而，扫描仪是一种专用设备，并非随身携带，需要固定的工作站才能操作。幸运的是，现代世界提供了一种便捷的传统扫描仪替代品——智能手机摄像头。智能手机摄像头技术的进步确保即使是入门级智能手机也能提供足够的画质来采集支持 OCR 的文档。内置内存也使随时随地数字化大量文档、报纸、书籍、路牌和其他文本变得比以往任何时候都更加轻松。您只需要合适的技术将这些照片转换为机器可读的文本。

我们的 C# OCR 库专为识别所有类型的图像而设计，开箱即用，并且可以进一步微调以处理即使是低质量的照片。结合现代智能手机，它可以让您创建功能强大的 OCR 应用程序，用于大多数日常扫描和文本识别任务。最先进的图像处理和文档结构分析只需几行代码即可完成，让您专注于业务，而不是复杂的数学算法、神经网络和其他技术复杂性。

照片 OCR - C#

// Configure preprocessing filters PreprocessingFilter filters = new PreprocessingFilter {   PreprocessingFilter.ContrastCorrectionFilter(),   PreprocessingFilter.AutoDewarping() };  // Add a photo for recognition OcrInput photos = new OcrInput(InputType.SingleImage, filters); photos.Add("photo.png");  // Fine-tune recognition setings RecognitionSettings settings = new RecognitionSettings(); settings.Language = Language.Eng; settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;  // Extract text from a page AsposeOcr api = new AsposeOcr(); List<RecognitionResult> results = api.Recognize(photos, settings);  // Automatically correct spelling (English) string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng); // Display recognized text Console.WriteLine(text);

从扫描件创建可搜索的 PDF

PDF 是扫描纸质文档最流行的格式之一，尤其因为它能够将多页文档合并为一个文件。这种格式广泛用于个人、企业、银行和政府机构之间交换合同、发票、法律文件、护照和身份证以及许多其他文件。然而，任何扫描的 PDF 本质上都是图像的集合。它不包含机器可读的文本，因此用户无法搜索、复制或以其他方式操作文档内容。Aspose

.NET OCR 为您提供了一种快速、简便且高度可靠的方法，可以将任何扫描的 PDF 转换为完全可搜索和可索引的文档。它可以准确识别页面内容，并将其转换为原始图像上机器可读的文本层，该文本层可以被选择、复制，被文本转语音软件读取，甚至可以被翻译、摘要器和其他 AI 分析工具自动处理。

向 PDF 添加文本覆盖 - C#

// Load the scanned PDF OcrInput pdf = new OcrInput(InputType.PDF); pdf.Add("Delivery-Agreement.pdf");  // Recognize the text from document AsposeOcr api = new AsposeOcr(); List<RecognitionResult> result = api.Recognize(pdf);  // Save searchable PDF AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result); // Report progress Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

在图像中搜索文本

数字档案，尤其是在大型组织中，通常包含大量的扫描件和照片，其中许多可能包含多页文档。高效地管理和组织此类档案对于轻松检索和导航信息至关重要。然而，图像不包含机器可读的文本，这使得搜索和分析文档内容变得困难。C

# OCR 库允许您轻松地在图像中搜索文本，不受字体、文本大小、样式和其他参数的限制。该库还支持不区分大小写的搜索和正则表达式，这在各种应用程序和行业中都非常有用。此功能可用于根据文本中的内容、关键字或模式对文档进行分类；搜索协议和合同中的特定术语或条款；根据文件中的关键字或内容重新组织文件；定位和识别文档中的个人数据，从而更轻松地确保符合 GDPR 并更有效地管理敏感信息。在图像中搜索还可以创建自动化工作流程，并在收到签署的合同和发票后简化各种业务流程。

在图像中搜索文本 - C#

string sourceFolder = "images"; string searchFor = "OCR";  // Search for text in images AsposeOcr api = new AsposeOcr(); foreach(var image in Directory.GetFiles(sourceFolder,"*.png")) {   bool found = api.ImageHasText(image, searchFor);   if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}"""); }