pandas
是 Python 中非常强大的数据处理库,广泛用于数据清洗、分析和可视化。以下是最常用的 pandas
API,总结为读取、查看、处理、分析、保存五大类:
一、读取数据
python
import pandas as pd
df = pd.read_csv('file.csv') # 读取CSV文件
df = pd.read_excel('file.xlsx') # 读取Excel文件
df = pd.read_json('file.json') # 读取JSON文件
df = pd.read_sql(query, connection) # 从数据库读取
df = pd.read_html('url') # 从网页读取表格
二、查看数据
python
df.head() # 查看前5行
df.tail(3) # 查看最后3行
df.shape # 查看行列数 (行, 列)
df.columns # 查看列名
df.dtypes # 查看每列数据类型
df.info() # 查看整体信息
df.describe() # 查看数值型统计信息
三、数据处理
选取列 / 行
python
df['列名'] # 取某一列(Series)
df[['列1', '列2']] # 取多列
df.loc[行标签] # 按标签取行
df.iloc[行号] # 按位置取行
df.iloc[2, 1] # 取第3行第2列
条件筛选
python
df[df['年龄'] > 18] # 筛选年龄大于18
df[(df['性别'] == '男') & (df['年龄'] > 18)] # 多条件筛选
修改数据
python
df['年龄'] = df['年龄'] + 1 # 修改列
df.rename(columns={'旧名': '新名'}, inplace=True) # 重命名列
df.drop('列名', axis=1) # 删除列
df.drop(行索引, axis=0) # 删除行
缺失值处理
python
df.isnull() # 判断缺失值
df.dropna() # 删除缺失行
df.fillna(0) # 用0填补缺失
类型转换
python
df['年龄'] = df['年龄'].astype(int) # 转换为整数
四、数据分析
分组聚合
python
df.groupby('性别').mean() # 按性别分组求平均
df.groupby(['性别', '城市']).sum() # 多级分组求和
排序
python
df.sort_values(by='年龄', ascending=False) # 按年龄降序排序
去重
python
df.drop_duplicates() # 删除重复行
df.duplicated() # 判断重复
合并拼接
python
pd.concat([df1, df2], axis=0) # 行拼接
pd.merge(df1, df2, on='id') # 类似SQL的join操作
五、保存数据
python
df.to_csv('file.csv', index=False) # 保存为CSV
df.to_excel('file.xlsx') # 保存为Excel
df.to_json('file.json') # 保存为JSON