ShuffleSplit


所属模块:sklearn

功能:将样本集合随机“打散”后划分为训练集、测试集



实例1:划分数据集并打印索引

#!/usr/bin/python3
#code-python(3.6)

#创建数据集
import numpy as np
x = np.array(["Ben", "Ana", "Jack", "Ross","Bela"])

#打乱数据集后划分测试集和训练集
from sklearn.model_selection import ShuffleSplit
rs = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)    #划分5次,每次的测试集比例是20%
k = rs.get_n_splits()   #获取划分的次数
print("k:",k)
for train_indices, test_indices in rs.split(x): #打印训练集和测试集的索引
    print("test_indices:", test_indices)
    print("train_indices:",train_indices)

亲自试一试



函数说明

#函数中的参数的值均为默认的参数值
sklearn.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, random_state=None)

返回值说明

返回一个ShuffleSplit对象

参数说明

n_splits            划分训练集、测试集的次数。
test_size           训练集比例(浮点数[0.0, 1.0])或样本数量(整型);该值设定具体数值时,test_size取剩余部分。
train_size          训练集比例(浮点数[0.0, 1.0])或样本数量(整型)。
random_state        随机种子值,默认为None。