立即登录

注册账号

联系我们

2022年5月20日 11:44

10. 缺失值处理

import numpy as np
import pandas as pd
rng = np.random.default_rng(0)
df = pd.DataFrame(
#     rng.random((5,3)),
    np.random.randn(5, 3),
    ['a','c','e','f','h'],
    ['one','two','three']
)
df
df['four'] = 'bar'
df
df['five'] = df['one'] > 0
df
# 重置index
df2 = df.reindex(list('abcdefgh'))
df2
# 那些是空值
pd.isna(df2)
# 判断某一列(Series),
pd.isna(df2['one'])
# 那些不是空值
df2.notna()
df2['one'].notna()
# 人为制造一个空值,忽略警告.
df2['three']['e'] = np.nan
# 缺失值
df2.fillna(0)
# 中位数median(),每一个column计算一个中位数
df2.fillna(df2.median())
# 均值
df2.fillna(df2.mean())
# 删除
# 默认值 ,0轴只要有一个值为空,就删除
df2.dropna(axis=0,how='any')
# 删除, all 全部为空 any 任意一个为空
df2.dropna(how='all')
# 指定轴 0轴上有空值的,1轴上有空值的
df2.dropna(axis=0)
# df3.dropna(axis=0,how='any')
df3 = df2.dropna(how='all')
df3
# 删除的是column
df3.dropna(axis=1,how='any')
df3 = df2.dropna(how='all')
df3
df3.dropna(axis=1,how='all')

 

留言

给我留言