读取文件创建 DataFrame

要想使用 pandas 分析 Excel、CSV 文件中的数据,就先要”打开“文件,就像我们要双击打开 Excel 文件一样。

import pandas as pd

"""
打开当前文件夹中的 test.xlsx 文件,数据保存在 DataFrame 变量 df 中
"""
df = pd.read_excel("test.xlsx")

默认情况下,read_excel会打开第一个 sheet,我们也可以指定要打开的 sheet:

df = pd.read_excel("test.xlsx", sheet_name='订单数据')
print(df.head()) # 查看前5条数据内容

"""
程序输出:
   订单号  订单金额
0    1   5.5
1    2   5.6
2    3   5.7
"""

<aside> 🤖 假如一个 Excel 的数据如下所示,请使用 AI,编写 Promot,获取处理这种 Excel 的方法,当然你也可以直接打开,看看数据情况。

Untitled

</aside>

AI Prompt 提示:

Python pandas 如何打开数据内容是从第四行开始的 Excel。

读取 CSV 文件操作,更换函数read_csv

df = pd.read_csv("test.csv")

直接创建 DataFrame

DataFrame 是承载 pandas 的数据的容器,除了从 Excel、CSV 表格中创建,我们还可以直接创建:

"""
创建如下形式的 DataFrame

   订单号  订单金额
0    1   5.5
1    2   5.6
2    3   5.7
"""

import pandas as pd

# 使用数据结构字典 + 数组,用列的定义方式,直接创建 DataFrame
df = pd.DataFrame({
    "订单号": [1, 2, 3], # 订单号列数据
    "订单金额": [5.5, 5.6, 5.7] # 订单金额列数据
})
print(df.head())

# 下面这个创建方式和上面效果一致,是以行为数据定义方式
df = pd.DataFrame([[1, 5.5], [2, 5.6], [3, 5.7]], columns=["订单号", "订单金额"])
print(df.head())