使用pyPdf切割pdf文档

青蛙拿到一份扫描版的pdf文档,每个pdf页包含了两页实际书籍页面, 这种文档放在6寸Kindle上基本就是杯具了。于是青蛙试图找工具把他们切割掉。 根据铄日博客的推荐试验了 paper4kindlek2pdfopt, 但是papaer4kindle切割出来的文档页面错乱了,而且也没有修正pdf歪斜的功能, 剪裁输出的文档很难看。 k2pdfopt就更没法看了,从image识别文档的技术先进, 但是对于每页pdf包含2页实际页面的文档,k2pdfopt基本无能为力。

青蛙本想探索一下paper4kindle输出之后页面错乱的问题, 结果这玩意竟然不开源,又看到作者说花了几小时就搞出来了, 那青蛙也看看pypdf包,试试能不能直接写代码自己搞定。

花了半下午时间看了下pypdf( http://pybrary.net/pyPdf/ )的API, 然后直接把例子代码复制下来改吧改吧, 咱也基本实现了paper4kindle的核心功能了,成功把那份文档处理掉了。 至于那些花哨的界面啥的,有空再玩吧。 代码先贴在这里,没有整理,暂时先不贴到github了, 准备下一步尝试添加旋转页面的功能。

编码的时候发现了两个问题,

  • 设置mediaBox的位置之前需要先copy一份page对象, 否则设置right的mediaBox的时候竟然会影响left的值, 猜测是pypdf模块内部直接返回了page对象的引用,并没有复制一份返回。
  • 这份文档无法用paper4kindle编辑的原因是实际上文档的四个角坐标是反的, 大概文档扫描之后被顺时针旋转了90度。

最后小小鄙视一下用python、用开源库写代码竟然不继续开源的某些软件作者。

#!/usr/bin/env python …
more ...

关于Google App Engine的一点点东西

1

1

Google App Engine (以下简称GAE)服务推出来有段时间了, 最近google刚刚完全开放了GAE的注册,并且公布了GAE未来的价格(原文在 这里 ,被盾,需要带套访问)。

GAE是google提供的一个在线应用平台,提供从数据库到应用服务器的一整套东西, 每个GAE应用可以免费使用500M存储空间和满足5百万pv/月的CPU跟资源。

Google出的东西都很赞,GAE也是这样。 它提供了一个成型的python应用框架,外加GFS强大的存储支持, 在上面可很方便的建立自己的web应用。 但是,青蛙注册账号以后,一直没有在上面做什么。 原因?很简单,

G。F。W!

在G。F。W的阴影下,GAE服务很有可能就被干掉了。 特别是存在 这种 服务的情况下。

不过,鉴于现在有稳定的免费vpn支持,青蛙决定重新启动blog DIY计划,就在GAE平台上!

各位,bless me吧。

more ...