从0开始的编程之路
要真正写出可用的程序,离不开最初的设计思维
我真正动手写的第一个程序,提取pdf文件中的地址信息到表格
第一阶段思路
批量读取pdf内容到txt,然后对有用数据进行提取,再输出到表格
第二阶段思路
问过大佬,给我讲解了python的数据清洗,于是对程序进行修改,只提取指定范围内的有效信息,然后进行区块处理(多行文字)
后面发现错误率还是太高不能使用
第三阶段思路
发现提取的时候可以直接把需要的信息输出到一行,在提取的时候即进行一些预(粗)处理(管道符分割)输出到txt再执行后面的细致清洗(clean.py)
版权属于:
史沛思
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
评论 (0)