Skip to content

pandas 是 Python 中非常强大的数据处理库,广泛用于数据清洗、分析和可视化。以下是最常用的 pandas API,总结为读取、查看、处理、分析、保存五大类:

一、读取数据

python
import pandas as pd

df = pd.read_csv('file.csv')               # 读取CSV文件
df = pd.read_excel('file.xlsx')            # 读取Excel文件
df = pd.read_json('file.json')             # 读取JSON文件
df = pd.read_sql(query, connection)        # 从数据库读取
df = pd.read_html('url')                   # 从网页读取表格

二、查看数据

python
df.head()                # 查看前5行
df.tail(3)               # 查看最后3行
df.shape                 # 查看行列数 (行, 列)
df.columns               # 查看列名
df.dtypes                # 查看每列数据类型
df.info()                # 查看整体信息
df.describe()            # 查看数值型统计信息

三、数据处理

选取列 / 行

python
df['列名']                   # 取某一列(Series)
df[['列1', '列2']]           # 取多列
df.loc[行标签]              # 按标签取行
df.iloc[行号]               # 按位置取行
df.iloc[2, 1]               # 取第3行第2列

条件筛选

python
df[df['年龄'] > 18]                # 筛选年龄大于18
df[(df['性别'] == '男') & (df['年龄'] > 18)]  # 多条件筛选

修改数据

python
df['年龄'] = df['年龄'] + 1         # 修改列
df.rename(columns={'旧名': '新名'}, inplace=True)  # 重命名列
df.drop('列名', axis=1)             # 删除列
df.drop(行索引, axis=0)             # 删除行

缺失值处理

python
df.isnull()                         # 判断缺失值
df.dropna()                         # 删除缺失行
df.fillna(0)                        # 用0填补缺失

类型转换

python
df['年龄'] = df['年龄'].astype(int)  # 转换为整数

四、数据分析

分组聚合

python
df.groupby('性别').mean()          # 按性别分组求平均
df.groupby(['性别', '城市']).sum() # 多级分组求和

排序

python
df.sort_values(by='年龄', ascending=False)  # 按年龄降序排序

去重

python
df.drop_duplicates()              # 删除重复行
df.duplicated()                   # 判断重复

合并拼接

python
pd.concat([df1, df2], axis=0)     # 行拼接
pd.merge(df1, df2, on='id')       # 类似SQL的join操作

五、保存数据

python
df.to_csv('file.csv', index=False)     # 保存为CSV
df.to_excel('file.xlsx')               # 保存为Excel
df.to_json('file.json')                # 保存为JSON