Aquí te dejo un paso a paso para instalar Tesseract OCR en los sistemas operativos Windows, macOS y Linux desde GitHub:
Para Windows:
Descargar Tesseract:
- Visita la página oficial de Tesseract en GitHub: Tesseract OCR - GitHub.
- En la sección de "Releases", busca el archivo de instalación para Windows (generalmente hay un instalador .exe para versiones recientes).
- Alternativamente, puedes descargar el instalador desde UB Mannheim Builds, una compilación recomendada para Windows.
Instalar Tesseract:
- Descarga el archivo .exe.
- Haz doble clic en el instalador y sigue las instrucciones para completar la instalación.
- Asegúrate de seleccionar los idiomas que deseas instalar durante el proceso. Para el español, selecciona "Spanish" en el listado de idiomas adicionales.
Configurar las variables de entorno:
- Una vez instalado, necesitarás agregar Tesseract a las variables de entorno para que puedas usarlo desde cualquier directorio.
- Ve a "Configuración de Windows" y busca "Editar las variables de entorno del sistema".
- En la ventana de variables de entorno, busca la variable
Path
, selecciónala y haz clic en "Editar". - Agrega la ruta donde instalaste Tesseract (generalmente algo como
C:\Program Files\Tesseract-OCR\
). - Haz clic en "Aceptar" para guardar los cambios.
Probar la instalación:
- Abre una ventana de Command Prompt (CMD) y escribe:bash
tesseract --version
- Si ves la versión de Tesseract, la instalación fue exitosa.
- Abre una ventana de Command Prompt (CMD) y escribe:
Para macOS:
Instalar Homebrew:
- Si no tienes Homebrew instalado, abre la aplicación "Terminal" y ejecuta el siguiente comando para instalarlo:bash
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Si no tienes Homebrew instalado, abre la aplicación "Terminal" y ejecuta el siguiente comando para instalarlo:
Instalar Tesseract:
- Una vez que Homebrew esté instalado, ejecuta el siguiente comando en la terminal:bash
brew install tesseract
- Una vez que Homebrew esté instalado, ejecuta el siguiente comando en la terminal:
Instalar idiomas adicionales (opcional):
- Para instalar más idiomas como español, puedes ejecutar el siguiente comando:bash
brew install tesseract-lang
- Para instalar más idiomas como español, puedes ejecutar el siguiente comando:
Probar la instalación:
- Abre la terminal y escribe:bash
tesseract --version
- Si ves la versión de Tesseract, la instalación fue exitosa.
- Abre la terminal y escribe:
Para Linux (Debian/Ubuntu):
Actualizar el sistema:
- Abre una terminal y asegúrate de que tu sistema esté actualizado:bash
sudo apt update sudo apt upgrade
- Abre una terminal y asegúrate de que tu sistema esté actualizado:
Instalar Tesseract:
- Ejecuta el siguiente comando para instalar Tesseract OCR:bash
sudo apt install tesseract-ocr
- Ejecuta el siguiente comando para instalar Tesseract OCR:
Instalar idiomas adicionales:
- Para agregar soporte para más idiomas (como español), puedes instalar los paquetes de datos del idioma:bash
sudo apt install tesseract-ocr-spa
- Para agregar soporte para más idiomas (como español), puedes instalar los paquetes de datos del idioma:
Probar la instalación:
- Para verificar que Tesseract esté instalado correctamente, ejecuta:bash
tesseract --version
- Para verificar que Tesseract esté instalado correctamente, ejecuta:
Verificación y Ejemplo de Uso:
Una vez que Tesseract esté instalado en cualquiera de los sistemas operativos, puedes probarlo con un comando básico para extraer texto de una imagen:
bashtesseract imagen.png output -l spa
- Aquí,
imagen.png
es el nombre de tu archivo de imagen,output
será el archivo de salida con el texto, y-l spa
especifica que se usará el idioma español.
- Aquí,
El texto extraído aparecerá en el archivo
output.txt
.
Soporte de Idiomas:
- Si deseas trabajar con múltiples idiomas, asegúrate de instalar el paquete de idioma adecuado. Para español, puedes descargar y agregar
spa.traineddata
al directorio de datos de Tesseract si no lo hiciste durante la instalación inicial.
Esto debería darte una instalación funcional de Tesseract OCR en cualquiera de las tres plataformas.
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.