Como extrair texto de páginas da Web
Extrair texto de uma página da Web pode ser feito de várias maneiras. O método escolhido deve depender do propósito que você tem em mente para o texto. Se todas as suas necessidades de negócios forem imprimir o texto para uso como instruções ou diretrizes, você poderá extrair o texto somente como HTML. Se houver imagens e texto na página da Web e você quiser manter a página em sua forma original, você deve extrair a página da Web completa. Existem três maneiras de extrair o texto e há duas maneiras de extrair o texto e as imagens juntos.
Extrair Apenas Texto
1
Abra a página da Web da qual você deseja extrair texto. Clique no menu "Arquivo" e clique na opção "Salvar como" ou "Salvar página como". Selecione “Página da Web, somente HTML” no menu suspenso Salvar como Tipo, digite um nome para o arquivo e clique em “Salvar”. O texto será extraído e salvo como um arquivo HTML com as opções originais de formatação de página intactas. O arquivo pode ser visualizado em navegadores da Web e pode ser editado em editores de texto, como o Bloco de Notas.
2
Clique na opção “Salvar como” ou “Salvar página como” e selecione “Arquivos de texto” no menu suspenso Salvar como tipo. Digite um nome para o arquivo de texto e clique em “Salvar”. O texto da página da Web será extraído e salvo como um arquivo de texto que pode ser visualizado em editores de texto e programas de documentos, como o Microsoft Word.
3
Clique e arraste para selecionar o texto na página da Web que você deseja extrair e pressione “Ctrl-C” para copiar o texto. Abra um editor de texto ou um programa de documento e pressione "Ctrl-V" para colar o texto da página da Web no arquivo de texto ou na janela do documento. Salve o arquivo de texto ou documento no seu computador.
Extrair texto e imagens
1
Clique no menu "Arquivo" no seu navegador da Web e clique na opção "Salvar como" ou "Salvar página como". Selecione “Página da Web, Completa” no menu suspenso Salvar como Tipo e digite um nome para o arquivo. Clique em "Salvar". O texto e as imagens da página da Web serão extraídos e salvos. O texto será colocado em um arquivo HTML e as imagens serão colocadas em uma pasta no mesmo local que o arquivo HTML.
2
Clique duas vezes no arquivo HTML para visualizar o texto e as imagens extraídos. Eles serão abertos no seu navegador da Web. O outro método para extrair texto e imagens só está disponível no navegador Internet Explorer. Abra a página da Web desejada no Internet Explorer antes de prosseguir para a próxima etapa.
3
Clique na opção “Salvar como” no menu Arquivo e selecione “Arquivo da Web, arquivo único (* .mht)” no menu suspenso Salvar como tipo. Digite um nome para o arquivo e clique no botão "Salvar". O texto e as imagens serão extraídos da página da Web para o arquivo. Clique duas vezes no arquivo para visualizar o texto e as imagens extraídos no navegador da Web.