Thursday, September 26, 2024

Como instalar Tesseract OCR (Windows, macOS, Linux), paso a paso desde Github

 Aquí te dejo un paso a paso para instalar Tesseract OCR en los sistemas operativos Windows, macOS y Linux desde GitHub:

OCR


Para Windows:

  1. Descargar Tesseract:

    • Visita la página oficial de Tesseract en GitHub: Tesseract OCR - GitHub.
    • En la sección de "Releases", busca el archivo de instalación para Windows (generalmente hay un instalador .exe para versiones recientes).
    • Alternativamente, puedes descargar el instalador desde UB Mannheim Builds, una compilación recomendada para Windows.
  2. Instalar Tesseract:

    • Descarga el archivo .exe.
    • Haz doble clic en el instalador y sigue las instrucciones para completar la instalación.
    • Asegúrate de seleccionar los idiomas que deseas instalar durante el proceso. Para el español, selecciona "Spanish" en el listado de idiomas adicionales.
  3. Configurar las variables de entorno:

    • Una vez instalado, necesitarás agregar Tesseract a las variables de entorno para que puedas usarlo desde cualquier directorio.
    • Ve a "Configuración de Windows" y busca "Editar las variables de entorno del sistema".
    • En la ventana de variables de entorno, busca la variable Path, selecciónala y haz clic en "Editar".
    • Agrega la ruta donde instalaste Tesseract (generalmente algo como C:\Program Files\Tesseract-OCR\).
    • Haz clic en "Aceptar" para guardar los cambios.
  4. Probar la instalación:

    • Abre una ventana de Command Prompt (CMD) y escribe:
      bash
      tesseract --version
    • Si ves la versión de Tesseract, la instalación fue exitosa.

Para macOS:

  1. Instalar Homebrew:

    • Si no tienes Homebrew instalado, abre la aplicación "Terminal" y ejecuta el siguiente comando para instalarlo:
      bash
      /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  2. Instalar Tesseract:

    • Una vez que Homebrew esté instalado, ejecuta el siguiente comando en la terminal:
      bash
      brew install tesseract
  3. Instalar idiomas adicionales (opcional):

    • Para instalar más idiomas como español, puedes ejecutar el siguiente comando:
      bash
      brew install tesseract-lang
  4. Probar la instalación:

    • Abre la terminal y escribe:
      bash
      tesseract --version
    • Si ves la versión de Tesseract, la instalación fue exitosa.

Para Linux (Debian/Ubuntu):

  1. Actualizar el sistema:

    • Abre una terminal y asegúrate de que tu sistema esté actualizado:
      bash
      sudo apt update sudo apt upgrade
  2. Instalar Tesseract:

    • Ejecuta el siguiente comando para instalar Tesseract OCR:
      bash
      sudo apt install tesseract-ocr
  3. Instalar idiomas adicionales:

    • Para agregar soporte para más idiomas (como español), puedes instalar los paquetes de datos del idioma:
      bash
      sudo apt install tesseract-ocr-spa
  4. Probar la instalación:

    • Para verificar que Tesseract esté instalado correctamente, ejecuta:
      bash
      tesseract --version

Verificación y Ejemplo de Uso:

  1. Una vez que Tesseract esté instalado en cualquiera de los sistemas operativos, puedes probarlo con un comando básico para extraer texto de una imagen:

    bash
    tesseract imagen.png output -l spa
    • Aquí, imagen.png es el nombre de tu archivo de imagen, output será el archivo de salida con el texto, y -l spa especifica que se usará el idioma español.
  2. El texto extraído aparecerá en el archivo output.txt.

Soporte de Idiomas:

  • Si deseas trabajar con múltiples idiomas, asegúrate de instalar el paquete de idioma adecuado. Para español, puedes descargar y agregar spa.traineddata al directorio de datos de Tesseract si no lo hiciste durante la instalación inicial.

Esto debería darte una instalación funcional de Tesseract OCR en cualquiera de las tres plataformas.

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.