Pandas简介 Pandas是一个强大的分析结构化数据的工具集; (Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法,能够快速便捷地处理数据) 它的使用基础是Numpy(提供高性能的矩阵运算); 用于数据挖掘和数据分析,同时也提供数据清洗功能 主要介绍常用的两个数据结构(DataFrame 和 Series )和相应的常用方法与属性等
导入pandas
import numpy as np
import pandas as pd
# Series 1维标记数组 (有些像Python的字典)
# 如何创建 Series , 把Python列表转换为Series
pd.Series([1,2,3,4])
# 可以把numpy数组转换为Series
pd.Series(np.arange(1,5),dtype='int32')
# 创建随机的Series
rng = np.random.default_rng(0)
pd.Series(rng.random(4))
# 转换为Series时,可以指定index, 使用index参数,参数值是列表
pd.Series([1,2,3,4],index=list('abcd'))
# 把python字典转换Series, 字典的键 ==> index
d = {'a':1,'b':2,'c':3}
pd.Series(d)
# 使用日期来作为数组标记(index)
dates = pd.date_range('20220530',periods=4)
pd.Series([1,2,3,4],index=dates)
Series的索引
# 对Series的基本操作 索引 单个 多个
s = pd.Series(np.arange(1,7))
s
# 单个元素,用标记(index)来索引
s[3]
# 索引前三个, 索引多个的结果仍然是一个Series
s[:3]
# 设置步长
s[::2]
# 可以通过一个列表(包含了多个标记)来索引
s[[0,2,5]]
s = pd.Series([1,2,3,4],index=list('abcd'))
print(s['a'])
print(s[['a','c','d']])
print(s[:3])
# 通过值的布尔运算来索引多个
s[s>3]
s[s % 2 == 0]
Series的四则运算
# Series 也可以进行四则运算 跟numpy的数组运算时相同的
print(s + s)
print(s - s)
print(s * s)
print(s / s)
Series可以处理空值
# 空值的处理 删除, 删除以后 ,标记不会变
s = pd.Series([1,2,3,np.nan,4,5])
s.dropna()
留言