Peço desculpa a ultima versão do tutorial que estava incorreta posto aqui uma versão corrigida e melhorada
Programas necessários:
subtitleripper --> instala sudo apt-get install subtitleripper
mplayer(incluido no big)
transcode --> instala sudo apt-get install transcode
tesseract --> sudo apt-get instal tesseract-ocr (repositorio getdebs)
imagemagick --> sudo apt-get install imagemagick
tesseract por padrão não possui arquivos necessários que seria o dicionario usado para converter foto em texto aki postarei um breve tutorial
instale normalmente pelo apt-get o programa e baixe o arquivo
http://tesseract-ocr.googlecode.com/fil ... por.tar.gz
e http://tesseract-ocr.googlecode.com/fil ... eng.tar.gz
e coloque os arquivos na pasta /usr/share/tessdata e /usr/share/tesseract-ocr/tessdata
Listar legendas do DVD
use o comando
Código: Selecionar todos
lsdvd -s
Código: Selecionar todos
Disc Title: 24_HORAS_01
Title: 01, Length: 00:42:41.153 Chapters: 06, Cells: 06, Audio streams: 03, Subpictures: 02
Subtitle: 01, Language: en - English, Content: Undefined, Stream id: 0x21 Subtitle: 02, Language: pt - Portugues, Content: Undefined, Stream id: 0x24,
Pasta legenda:[/b]
é bom criar uma pasta pois será gerado muitos arquivos
Código: Selecionar todos
mkdir legenda-dvd
cd legenda-dvd
Código: Selecionar todos
tccat -i /dev/dvd -T 1 -L | tcextract -x ps1 -t vob -a 0x24 > subs-pt
subs-pt poderá ser trocado por subs-en(inglês) ou subs-fr(frances) etc...
-a 0x24 é legenda troque como no exemplo para 0x21 se quiser inglês
-T 1 pode ser trocado pr T 2 caso queira ripar a legenda do title 2
Esse processo é meio demorado...
bem ainda no konsole digite:
Código: Selecionar todos
subtitle2pgm -o pt -c 255,255,0,255 < subs-pt
depois de gerado sua legenda perceberá que possui vários arquivos na pasta isso é legenda em modo de foto cada texto da legenda representa uma foto...
Convertendo images:
O Programa usado para converter foto em texto só aceita arquivos que tiverem no formato .tif o subtitle2pgm gera arquivos em .pgm o comando a seguir converte tudo para .tif
Código: Selecionar todos
for i in $(ls); do convert $i $i.tif ; done
Alterando o index legenda
ele ira renomear index pois tava detectando os arquivos .pgm o comando ira trocar para .tif
Código: Selecionar todos
sed -e 's/.pgm/.pgm.tif/g;' subs-pt.srtx > subs-pt2.srtx
Agora o mais importante converter as fotos para texto:
use o comando:
Código: Selecionar todos
for i in $(ls); do tesseract $i $i -l por; done
tesseract $i $i -l eng; caso esteja extraindo legenda em inglês
pode usar o comando para remover as fotos
rm *.tif
srttool -s -w -i subs-pt.srtx -o legenda.srt
Pronto sua legenda em srt foi criado com sucesso
poderá usar o seguinte comando para remover os arquivos indesejados:
rm *.txt[/url]
Os comandos todos devem ser executados pelo konsole dentro da pasta criada para legendas*