Shaw0xyz 发表于 2024-7-4 12:36:25

Python 从Word文档中提取表格的方法

本帖最后由 Shaw0xyz 于 2024-7-4 13:14 编辑

1. 简介

在处理Word文档时,经常会遇到需要从中提取表格数据的情况。Python提供了多种方法来实现这一需求,其中最常用的库是`python-docx`。本文将详细介绍如何使用`python-docx`库从Word文档中提取表格数据,并进行一些基本的处理和操作。

1.1 python-docx简介

`python-docx`是一个用于创建和更新Microsoft Word(.docx)文件的Python库。它可以轻松地读写Word文档中的文本、表格、图片等内容。通过使用`python-docx`,我们可以高效地从Word文档中提取表格数据,并进行相应的处理。

2. 安装python-docx

在开始使用`python-docx`之前,需要先安装该库。可以通过pip命令进行安装:

pip install python-docx

3. 从Word文档中提取表格

使用`python-docx`库可以非常方便地从Word文档中提取表格数据。以下是具体步骤和示例代码。

3.1 导入库和加载文档

首先,需要导入`python-docx`库并加载需要处理的Word文档。

from docx import Document

document = Document('example.docx')

3.2 获取文档中的所有表格

加载文档后,可以通过`tables`属性获取文档中的所有表格。

tables = document.tables

3.3 提取表格数据

可以遍历获取的表格,并逐行、逐列提取数据。

for table in tables:
    for row in table.rows:
      for cell in row.cells:
            print(cell.text)

4. 示例:从Word文档中提取并处理表格数据

为了更好地理解如何从Word文档中提取并处理表格数据,以下是一个完整的示例。

4.1 示例文档

假设我们有一个名为`example.docx`的Word文档,其中包含一个表格,表格内容如下:

| 姓名 | 年龄 | 职业 |
| ---- | ---- | ---- |
| 张三 | 28   | 工程师 |
| 李四 | 34   | 设计师 |

4.2 提取表格数据的代码

from docx import Document

def extract_table_data(doc_path):
    document = Document(doc_path)
    tables = document.tables
    data = []

    for table in tables:
      table_data = []
      for row in table.rows:
            row_data =
            table_data.append(row_data)
      data.append(table_data)

    return data

doc_path = 'example.docx'
table_data = extract_table_data(doc_path)

for table in table_data:
    for row in table:
      print('\t'.join(row))

5. 处理提取的数据

提取表格数据后,可以对数据进行各种处理和操作。例如,可以将数据存储到数据库中,或导出为CSV文件。

5.1 导出为CSV文件

import csv

def export_to_csv(table_data, csv_path):
    with open(csv_path, mode='w', newline='', encoding='utf-8') as file:
      writer = csv.writer(file)
      for table in table_data:
            for row in table:
                writer.writerow(row)

csv_path = 'table_data.csv'
export_to_csv(table_data, csv_path)

6. 总结

通过本文的介绍,您应该已经掌握了如何使用`python-docx`库从Word文档中提取表格数据的基本方法。`python-docx`库功能强大且易于使用,适用于各种Word文档处理需求。希望本文对您有所帮助,如果有任何疑问或建议,欢迎交流讨论。






/ 荔枝学姐de课后专栏 /

Hi!这里是荔枝学姐~

欢迎来到我的课后专栏

自然语言学渣 NLP摆烂姐

热衷于技术写作 IT边角料

AIGC & Coding & Linux ...

~互撩~ TG: @Shaw_0xyz
页: [1]
查看完整版本: Python 从Word文档中提取表格的方法