1. 与文本处理相关的库
1. 对语料库提取特征词集合
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer#下面的语句初始化 TfidfVectorizer 对象,传入参数有 max_df (df比率大于其的单词进行过滤,停用词,特征词的数量)vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={ 'english'}, max_features=_vocab_size)vectorizer.fit(corpus)#通过vectorizer.vocabulary_可以访问特征词的字典,键为特征词,值为特征词在词袋子列表中的下标vocal = vectorizer.vocabulary_#初始化向量统计对象,使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员baseline_vectorizer = CountVectorizer(vocabulary=vocab)#对语料库二维列表进行特征词统计X_base = baseline_vectorizer.fit_transform(corpus)
2. 稀疏矩阵
1. 压缩稀疏矩阵行格式(CSR)
from spicy.sparse.csr import car_matrix#rating 列表存储稀疏矩阵的值,(user, item) 组成其对应的行列下标R = car_matrix(rating, (user, item))
使用压缩稀疏行矩阵可以快速的对行进行遍历,得到每行的结果。如果需要对列进行遍历,最好先将其转换为CSC矩阵,使用 tocsc() 成员函数。