立即登录

注册账号

联系我们

2022年5月16日 10:43

5. pandas入门

Pandas简介 Pandas是一个强大的分析结构化数据的工具集; ​ (Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法,能够快速便捷地处理数据) ​ 它的使用基础是Numpy(提供高性能的矩阵运算); ​ 用于数据挖掘和数据分析,同时也提供数据清洗功能 ​ 主要介绍常用的两个数据结构(DataFrame 和 Series )和相应的常用方法与属性等

导入pandas

import numpy as np
import pandas as pd

# Series 1维标记数组 (有些像Python的字典)

# 如何创建 Series , 把Python列表转换为Series
pd.Series([1,2,3,4])
# 可以把numpy数组转换为Series
pd.Series(np.arange(1,5),dtype='int32')
# 创建随机的Series
rng = np.random.default_rng(0)
pd.Series(rng.random(4))
# 转换为Series时,可以指定index, 使用index参数,参数值是列表
pd.Series([1,2,3,4],index=list('abcd'))
# 把python字典转换Series,  字典的键 ==> index
d = {'a':1,'b':2,'c':3}
pd.Series(d)
# 使用日期来作为数组标记(index)
dates = pd.date_range('20220530',periods=4)
pd.Series([1,2,3,4],index=dates)

Series的索引

# 对Series的基本操作 索引 单个 多个
s = pd.Series(np.arange(1,7))
s
# 单个元素,用标记(index)来索引 
s[3]

# 索引前三个, 索引多个的结果仍然是一个Series
s[:3]

# 设置步长
s[::2]

# 可以通过一个列表(包含了多个标记)来索引
s[[0,2,5]]

s = pd.Series([1,2,3,4],index=list('abcd'))
print(s['a'])
print(s[['a','c','d']])
print(s[:3])   

# 通过值的布尔运算来索引多个
s[s>3]

s[s % 2 == 0]

Series的四则运算

# Series 也可以进行四则运算 跟numpy的数组运算时相同的
print(s + s)
print(s - s)
print(s * s)
print(s / s)

Series可以处理空值

# 空值的处理 删除, 删除以后 ,标记不会变
s = pd.Series([1,2,3,np.nan,4,5])
s.dropna()

 

留言

给我留言