要想使用 pandas 分析 Excel、CSV 文件中的数据,就先要”打开“文件,就像我们要双击打开 Excel 文件一样。
import pandas as pd
"""
打开当前文件夹中的 test.xlsx 文件,数据保存在 DataFrame 变量 df 中
"""
df = pd.read_excel("test.xlsx")
默认情况下,read_excel
会打开第一个 sheet,我们也可以指定要打开的 sheet:
df = pd.read_excel("test.xlsx", sheet_name='订单数据')
print(df.head()) # 查看前5条数据内容
"""
程序输出:
订单号 订单金额
0 1 5.5
1 2 5.6
2 3 5.7
"""
<aside> 🤖 假如一个 Excel 的数据如下所示,请使用 AI,编写 Promot,获取处理这种 Excel 的方法,当然你也可以直接打开,看看数据情况。
</aside>
AI Prompt 提示:
Python pandas 如何打开数据内容是从第四行开始的 Excel。
读取 CSV 文件操作,更换函数read_csv
:
df = pd.read_csv("test.csv")
DataFrame 是承载 pandas 的数据的容器,除了从 Excel、CSV 表格中创建,我们还可以直接创建:
"""
创建如下形式的 DataFrame
订单号 订单金额
0 1 5.5
1 2 5.6
2 3 5.7
"""
import pandas as pd
# 使用数据结构字典 + 数组,用列的定义方式,直接创建 DataFrame
df = pd.DataFrame({
"订单号": [1, 2, 3], # 订单号列数据
"订单金额": [5.5, 5.6, 5.7] # 订单金额列数据
})
print(df.head())
# 下面这个创建方式和上面效果一致,是以行为数据定义方式
df = pd.DataFrame([[1, 5.5], [2, 5.6], [3, 5.7]], columns=["订单号", "订单金额"])
print(df.head())