Biên tập ebook dạng epub từ A-Z bằng phần mềm Sigil
Trong topic này mình sẽ hướng dẫn tạo ebook định dạng epub tiêu chuẩn, làm bìa, thêm metadata cho ebook, làm mục lục... Cũng như các thao tác chuyển đổi qua lại giữa các định dạng ebook.
Sẽ viết từ từ nên các bạn hữu kiên nhẫn nhé . Hy vọng sẽ giúp ích được cho một số vị chưa có kinh nghiệm. Còn với anh chị em nào đã kinh nghiệm, nếu đọc qua thấy có điểm nào sai sót thì xin vui lòng chỉ dạy thêm
I. GIỚI THIỆU ĐỊNH DẠNG EPUB
Định dạng ePub (viết tắt của electronic publication) là một định dạng file chuẩn được dùng cho việc lưu trữ và đọc ebook trên các thiết bị di động phát triển bởi International Digital Publishing Forum. Đây là định dạng được thiết kế sao cho những văn bản hiển thị trên màn hình có thể được tối ưu hóa cho các thiết bị hiển thị cụ thể được sử dụng bởi người đọc file ePub.
Nói hơi khó hiểu chứ nó giống như khi bạn chỉnh lại kích cỡ cửa sổ hiển thị thì các dòng chữ sẽ được tự động chỉnh lại cho phù hợp với lề phải của trang văn bản, khi hết dòng là tự động xuống dòng mà không “bẻ” (break) cái từ đó ra.
Ưu điểm của epub:
- Hỗ trợ đa dạng: iPad, iPhone, Android, Blackberry, Kindle reader cũng có thể đọc được nếu root máy.
- Biên tập trực tiếp trên file epub, rất thuận tiện nếu phải chỉnh sửa lại ebook. Bạn "xào nấu" file .doc trên MS word như nào thì epub trên Sigil cũng vậy. Nếu sử dụng epub trong quá trình số hóa ebook, nhiều người có thể cộng tác sửa chữa lỗi chính tả rất dễ dàng.
- Hỗ trợ html 5 và css, nếu muốn bạn có thể thêm hình ảnh, audio, hay video gì cũng được.
- Dung lượng file chỉ bằng 50-70% PRC hay mobi
Nhược điểm:
- Hỗ trợ công thức dạng toán học kém, nhưng số lượng ebook mang nội dung này ít, không thì cứ pdf mà chơi.
- Khi xem bảng biểu (table)trên điện thoại hay bị vỡ khung, cái này do màn hình đt nhỏ, trên màn hình table không vấn đề gì.
Cách khắc phục khả dĩ có lẽ chuyển công thức, table thành ảnh. (Thực ra chuẩn epub 3 mới ra đời có thể giải quyết gần hết các nhược điểm trên nhưng hiện nay ít phần mềm tạo và đọc epub hỗ trợ đầy đủ tiêu chuẩn này.)
II. CÁC PHẦN MỀM CẦN THIẾT
Hai phần mềm dưới đây đều là dạng cho không biếu không, chơi hai mang cả Windows và Mac
- Sigil:
Tải về tại https://github.com/user-none/Sigil/releases
- Calibre: http://calibre-ebook.com/download
III. BIÊN TẬP EBOOK DẠNG EPUB
- Nguyên liệu: bạn cần chuẩn bị nguồn văn bản đầu vào để làm ebook (để đảm bảo tương thích tốt nhất nên chọn loại văn bản Unicode dựng sẵn). Có thể dùng file doc tuy nhiên mình thường save as sang dạng rtf (rich text format) để được dạng văn bản thuần (không có định dạng font, hay màu mè gì). Mở tài liệu bằng MS Word chọn File> Save as> chọn file type là .rtf
Từ menu View của sigil, bạn sẽ thấy có ba chế độ hiển thị là Book View, Code View và Split view. Book View là chế độ hiển thị văn bản tương tự như khi xem trên các trình đọc ebook. Đây là chế độ đơn giản, dễ sử dụng nhất và phù hợp với đa số người dùng. Nội dung văn bản của ebook được lưu với định dạng HTML, do đó chế độ Code View giúp bạn xem và chỉnh sửa chi tiết các mã nguồn này. Tất nhiên bạn cần phải có kiến thức về các thẻ HTML để sử dụng được chế độ này. Cuối cùng chế độ Split View sẽ chia đôi màn hình để hiển thị cả nội dung và mã nguồn cùng lúc.
1. Tạo ebook tiêu chuẩn
- Mở sigil, Chọn File – New sẽ có Section đầu tiên. copy chương 1 từ nguồn text vào đây. Việc chia ebook thành các file html khác nhau sẽ giúp quản lý nội dung nhẹ nhàng hơn, thông thường mỗi chương thành 1 file html là đẹp nhất.
+ Ở khung phía trái trong sigil, Nhấp phải vào mục Text, chọn Add Blank HTML File. Làm tương tự với các chương khác, ví dụ ebook có 9 chương thì thành 9 file html
+ Để chia chương nhanh hơn bạn cứ copy toàn bộ text vào file html mặc định, sau đó chẻ nhỏ file này bằng chức năng spilit trên menu.
+ Ngược lại bạn có thể trộn nhiều file html thành một file bằng cách giữ Shift và chọn> chuột phải chọn Merge.
- Chèn ảnh: nhấp nút Add Existing Files chọn các file ảnh minh họa để đưa vào ebook. trỏ chuột đến đoạn cần chèn ảnh nhấp , chọn file ảnh tương ứng
- Biên tập văn bản: trên menu bạn có các thao tác với văn bản: in đậm, in nghiêng, căn lề đoạn văn, bulist...
2. Tạo mục lục:
Tạo tiêu đề: các kiểu heading H1, H2, H3, H4... giống trong word
ví dụ: chọn tiêu đề chương là Heading 1. Chọn Tiêu đề con là Heading 2. thực hiện tương tự với các chương còn lại - Mục lục:
+ Mục đích của bước này là để tạo Mục lục (Content index) để tiện cho việc đọc sách sau này. Đây cũng là khác biệt giữa việc tự tạo sách điện tử so với việc tải từ các nguồn trôi nổi. Tại vì có khi có nhiều quyển ebook bên ngoài người ta bỏ qua bước tạo ra Mục Lục, nên tra cứu và đọc sách rất tốn thời gian. Nhất là với những quyển mà tác giả có phần ghi chú công phu và chi tiết.
+ Mục lục dạng Toc: (table of content) kiểu mục lục này các bạn có thể thấy ở ebook của mình. các trình đọc epub thông dụng đều hỗ trợ kiểu mục lục này. Nếu chuyển epub có mục lục toc sang mobi bạn có thể xem muc lục trên Mobipocket Reader, kindle bằng nút Content. Người đọc không phải nhảy về trang đầu để tra mục lục
Nhấn nút table of content Hoặc chọn menu Tools→Table Of Contents→Generate Table Of Contents. sigil sẽ căn cứ các mức heading để làm mục lục
+ Mục lục dạng html: Kiểu mục lục này là 1 file html đơn lẻ, các ebook tạo bằng mobi creator từ word hay dùng kiểu này, khi xem không tiện bằng dạng toc. chọn Tools→Table Of Contents→Generate HTML Table of Contents
3. Tạo siêu liên kết:
Xem bài viết của bạn Tamchec ở phía dưới
4. Thêm bìa, metadata:
- Cover: Người đẹp vì lụa... mất công số hóa, làm thêm cái bìa đèm đẹp cũng đáng chứ. Ebook có bìa sẽ hiển thị trong giao diện giá sách của các phần mềm như Moon Reader, Ibook, Kaidle... Hình ảnh bạn có thể tìm trên Google Images hoặc mấy trang như Tiki, Vinabook. File ảnh nên có kích thước vừa phải, 300 x 450, 400x600, định dạng jpg, png, gif.
chọn Tool> add cover chọn file ảnh. Trước đó bạn cần thêm ảnh vào trong file epub (xem phần chèn ảnh).
- Metadata: là phần thông tin của ebook như tiêu đề, tác giả, phân loại ebook... Nếu bạn sở hữu vài trăm đến hàng nghìn ebook sẽ thấy việc quản lý theo Metadata này hữu ích vô cùng. Vd trên Kindle reader hay điện thoại, chỉ cần vài thao tác người dùng có thể tìm thấy tác phẩm hoặc tác giả mình cần.
Bạn bấm nút trên thanh công cụ hoặc vào Tools > Metadata editor. Tiếp theo nhập vào các nội dung Title (tiêu đề), Author (tác giả), Language (ngôn ngữ). Để thêm các trường khác của metadata trong ebook, nhấp nút Add basic, có nhiều mục như Subject ( tương đương với tag của Calibre), Publicsher (nhà xuất bản), Descriptions (mô tả nội dung)....
Nhưng mình hay thêm bằng calibre tiện và trực quan hơn
6. Định dạng hiển thị văn bản bằng CSS
- CSS là viết tắt của cụm từ "Cascading Style Sheet", đây là một ngôn ngữ quy định cách trình bày của các thẻ html. Ta sẽ thể tận dụng css để hiển thị các đối tượng văn bản, hình ảnh trong ebook theo một quy luật định sẵn. Nhưng ở đây mình sẽ minh họa cách dùng css đơn giản thôi.
- Nhấp phải chuột vào mục Styles (Book Browser bên trái giao diện sigil) chọn Add Blank Stylesheet. Bạn tạo được một file css mới: Style001.css. Bạn dán đoạn code sau vào nội dung file css:
Đoạn mã trong mục p { }có tác dụng tự động thụt từ đầu dòng, dàn đều chữ trong paragraph, khoảng cách với lề. Đoạn mã img {} làm ảnh tự động căn giữa. Tham khảo về css tại http://www.w3schools.com/css
- Bước tiếp theo cần liên kết file css với các file html nội dung. Chọn các file html trong mục Book Browser. Nhấp chuột phải > Choose Link Stylesheets > đánh dấu vào file Style001.css
Việc dùng css là khá khó nếu không biết chút ít kiến thức lập trình web. Khi tạo ebook bằng sigil bạn có thể bỏ qua phần này và chuyển đổi ebook một lần nữa bằng calibre (định dạng ban đầu và chuyển đổi đều là epub. Phần mềm calibre sẽ tự động gán css và định dạng ebook tự động.
Calibre là một ứng dụng quản lý thư viện e-book mã nguồn mở và miễn phí được phát triển bởi những lập trình viên trót làm con mọt sách. Nó có rất nhiều tính năng và được chia thành các phần chính sau:
Quản lý thư viện.
Chuyển đổi định dạng E-book.
Đồng bộ với các thiết bị đọc e-book.
Tải tin tức từ các trang web và chuyển đổi nó thành dạng e-book.
Đọc các tập tin e-book.
Máy chủ quản lý nội dung để truy cập trực tuyến vào bộ sưu tập sách của bạn.
Biên tập E-book theo các định dạng e-book chính.
Hướng dẫn tạo liên kết và chú thích (links and footnotes)
- Các bạn có thể xem hướng dẫn bằng tiếng Anh ở đây.
Đây là phần khá quan trọng trong ebook, nếu chú thích đặt ở cuối sách mà không có links thì sẽ rất khó tra, còn nếu để chú thích ở giữa thì đọc khá ức chế mà làm mất tính "thẩm mỹ" của ebook.
1. Tạo id cho chú thích
Bôi đen phần text cần tạo id rồi ấn vào icon insert ID , một dialog sẽ hiện ra, bạn điền tên vào là được (nếu có nhiều chú thích thì nên đặt tên theo chương và thứ tự cho dễ làm).
Chi tiết các bạn có thể xem hình bên dưới đây.
2. Tạo liên kết (links)
Bôi đen phần cần chú thích(thường là [n]) rồi ấn vào icon Insert Link , một dialog sẽ hiện ra, bạn chọn đúng id khi nãy vừa tạo là được. Khi tạo xong liên kết thì bạn có thể cho phần text đó hiển thị cao hơn phần bình thường bằng cách ấn vào Icon Supperscript .
Hình minh họa bên dưới.
3. Tạo liên kết ngược
Để tạo liên kết ngược lại, có thể click để nhảy từ phần chú giải về chỗ đang đọc, các bạn làm tương tự như trên nhưng với chiều ngược lại là được.
Tips:
- Nếu sách có ít chú thích thì có thể tạo 1 file xhtml riêng để chứa phần chú thích, nếu sách gồm nhiều chương và nhiều chú thích thì phần chú thích nên nằm ở cuối mỗi chương.
- Nên đặt tên ids theo chương và thứ tự của note để không bị loạn.
Đây là file mình dùng làm ví dụ, các bạn có thể tải về xem thử: https://drive.google.com/file/d/0B2rMWBn_jQ3IY3JvQjlpV2dpbTA/edit?usp=sharing
4. Kiểm tra chính tả (spellcheck)
Chắc đa số mọi người làm ebook tiếng Việt nên mình sẽ hướng dẫn check chính tả tiếng Việt nhé. Các ngôn ngữ khác tương tự.
4.1. Cấu hình từ điển
Bước 1: Tải file từ điển tiếng Việt tại đây.
Bước 2: Cop file mới tải về ở trên vào thư mục: C:UsersMy PCAppDataLocalsigil-ebooksigiluser_dictionaries (cũng có thể mở thư mục này bằng cách vào sigil, edit -> preference, chuyển xuống tab Spellcheck Dictionaries, bấm nút Open Preferences Location sẽ vào thư mục config của sigil)
Bước 3: Sau khi đã cop xong, bạn mở lại phần cấu hình từ điển theo hướng dẫn ở bước 2, chọn file từ điển là Vietnamese.dic
Nhớ đảm bảo ô "Highlight Misspelled Words" được chọn.
Đến đây là xong phần cấu hình.
4.2. Kiểm tra chính tả
Bây giờ, khi mở 1 file nào đấy, những từ sai chính tả sẽ được highlight.
- Có thể sử dụng phím F4 để đi đến từng từ bị sai đó và sửa.
- Để hiển thị tất cả các từ lỗi, bấm Alt+Q
Chi tiết hơn các bạn xem ở đây nhé.
Hướng dẫn nối các đoạn bị ngắt sai do dùng phần mềm nhận dạng
Nguyên nhân:
Do 1 đoạn nằm ở 2 trang khác nhau, phần mềm nhận dạng sẽ tự ngắt thành 2 đoạn.
Đặc điểm:
- Ký tự cuối cùng của đoạn đầu thường không có dấu kết thúc (1)
- Ký tự đầu tiên của đoạn sau thường không phải chữ viết hoa (2)
Cách xử lý:
Sử dụng regex tìm những chỗ có đặc điểm trên để nối lại
Bước 1: Sử dụng regex sigil cung cấp sẵn để tìm và nối
Chọn Tools -> Saved Searches -> Có bảng hiện lên -> Chọn Join Paragraph rồi bấm Find để tìm
Lúc này trong ô search và replace đã có regex, có thể tắt bảng đi để tiếp tục tìm
Search: "([[:alpha:],])
s*]*>" (chú ý: Phần nằm trong cặp dấu " ")
Replace: "1 "
Nếu không bị quá nhiều nên chọn Replace/Find để nối lần lượt.
Bước 2: Do tiếng Việt có một số ký tự không nằm trong bảng chữ cái tiếng Anh nên bước 1 sẽ vẫn còn thiếu (ví dụ ở hình dưới).
Sử dụng đặc điểm 2 để tìm và nối.
Ở ô search để: "
([a-z])" (giữa
và
là đoạn xuống dòng, cần copy và paste ở sigil)
Ô replace để: " 1"
5. Hướng dẫn cài đặt plugin Incremental IDs cho Sigil
Điều làm mình bất tiện nhất khi dùng Sigil đó là làm chú thích. Đặc biệt là khi làm xong xuôi rồi mới phát hiện bị thiếu hoặc thừa chú thích nào đó. Việc thêm hay bớt thủ công sẽ rất mất thời gian. Plugin "Incremental IDs" sẽ giúp làm việc này một cách tự động. Bài viết sẽ hướng dẫn cách cài đặt plugin Incremental IDs cho Sigil.
Chi tiết bài gốc các bạn có thể xem tại đây.
Các phần mềm cần thiết trước khi thực hiện.
- Python 3.4 hoặc 2.7. Bài này mình sẽ hướng dẫn cho python 2.7. Python 3.4 tương tự nhé. (Có thể tải bản mới nhất tại đây)
- Sigil 0.8.7 hoặc mới hơn (tất nhiên rồi)
Thực hiện:
(Bổ sung 3/6/2016 : Sigil hiện tại đã nhúng sẵn python buldle, nê nkhông cần làm Bước 1 nữa)
5.1. Cài thư viện beautifulsoup4 cho python.
- Mở cmd của windows dưới quyền admin.
- Di chuyển đến thư mục Scripts của Python (thường là C:Python27Scripts)
Mã:
cd C:Python27Scripts
- Cài đặt beautifulsoup4
Mã:
pip install beautifulsoup4
5.2. Thêm plugin cho sigil
- Tải file plugin tại đây hoặc tại đây
- Từ giao diện Sigil: Plugins > Manage Plugins > Add Plugin > AddIDs_v0.2.zip > OK.
Chú ý: Nếu chưa cài plugin nào trước đó, bạn nhớ set đường dẫn python 2.7 hoặc 3.4 nhé. (Thường là C:Python27python.exe)
Việc cài đặt vậy là xong rồi đó.
Sử dụng:
Giả sử trong nội dung có chứa các phần cần chú thích:
Chu thich 1
Chu thihc 2
Sau khi chạy xong sẽ được:
...
...
Dựa vào id1, id2... sinh tự động kia, dùng regex để làm chú thích.
Muốn thêm (hoặc bớt) chỉ cần thêm (hoặc bớt) nội dung:
Chu thich n
rồi chạy lại plugin.
6. Làm Mục lục
Giả sử tiêu đề sách có dạng:
Chương 1
Trên đường về, bao nhiêu tiếc hận,
Đêm rừng thông, nhớ lại tình xưa.
Muốn làm Chương 1 (2, 3… hoặc dạng text như: một – thứ nhất, hai – thứ hai… ) thành heading 1 hai câu thơ dưới thành heading 2 thì dùng lệnh:
Find:
Mã:
Chương (.*?)
(.*?)
(.*?)
Replace:
Mã:
Chương 1
2
3
Kết quả:
Chương 1
Trên đường về, bao nhiêu tiếc hận,
Đêm rừng thông, nhớ lại tình xưa.
7. Dùng sigil chia file html thành nhiều file nhỏ.
Giả sử bạn muốn chia ở vị trí đầu tag h1. Thì ở chế độ normal ô Find nhập:
Chương 1
Chương 2
.....
Chương 45
Sau đó chỉ việc bấm F6 hoặc vào Edit/Split At Markers là file html đó sẽ được ngắt ra làm nhiều file nhỏ trước các h1.
Trường hợp bạn muốn ngắt ở trước một vị trí xác định nào đó thì có thể dùng chế độ Regex để chèn
Lưu ý: khi chia thế này sẽ sinh ra 1 file html trắng ở đầu h1 thứ nhất, nên cần xóa đi sau khi chia xong.
8. Dùng Sigil và MS Word để gom chú thích
Nếu bạn có file epub mà chú thích ở dạng [số] Nội dung chú thích ở cuối mỗi chương - xem file ***(goc).epub dưới đây. Bây giờ muốn gom về một file html riêng thì làm như sau:
1. Liên kết các file html chứa nội dung lại thành 1 file.
2. Tạo 1 file htmt trắng ở cuối.
3. Ở file chứa nội dung đọc bằng chế độ Code View, rồi ở chế độ Regex
Ô Find nhập:
[(d+)] (.*?)
Ô Replace nhập: [1] 2
Bấm Relace All, rồi cắt toàn bộ nội dung (ở chế độ Code View) sang một file Word trắng mở sẵn.
Trong Word mở lệnh Find (Ctrl+H), chọn chế độ Use wildcards
Ô Find nhập: ??
Rồi chọn Find/Find In/Main Document là tất cả những nội dung nằm trong các thẻ … sẽ được chọn. Cắt (Ctrl+X) tất cả rồi dán vào giữa cặp … của file html trắng nói trên.
Copy hoặc cut phần còn lại ở file word trở lại file html chứa nội dung.
Trong file chứa nội dung chú thích này, ở chế độ Regex
Ô Find nhập: (.*?)
Ô Replace nhập:
1
Bấm Replace All là xong.
Để làm cho chỉ số chú thích ở nội dung và ở file chứa chú thích theo thứ tự từ đầu đến cuối (đánh lại chỉ số chú thích) và tạo link thì ở các post trước cũng đã đề cập nên tôi không trình bày lại ở đây.
-----------
Note:
(*) Thực tế mặc định không có cặp thẻ …
***
Sigil Guide bằng Video:
Sigil Guide 1: Tạo, gõ ebook. Chỉnh qua văn bản với CSS
Dành cho các bạn nào chưa biết gì về tạo ebook, nhưng biết download và cài đặt chương trình, biết gõ và chỉnh sửa văn bản.
Công cụ cần là Sigil (free)
Sigil Guide 2: Ứng dụng CSS để tô điểm các đoạn văn khác nhau.