博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scikit-learn 库的使用
阅读量:5338 次
发布时间:2019-06-15

本文共 857 字,大约阅读时间需要 2 分钟。

1. 与文本处理相关的库

  1. 对语料库提取特征词集合

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer#下面的语句初始化 TfidfVectorizer 对象,传入参数有 max_df (df比率大于其的单词进行过滤,停用词,特征词的数量)vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={                                     'english'}, max_features=_vocab_size)vectorizer.fit(corpus)#通过vectorizer.vocabulary_可以访问特征词的字典,键为特征词,值为特征词在词袋子列表中的下标vocal = vectorizer.vocabulary_#初始化向量统计对象,使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员baseline_vectorizer = CountVectorizer(vocabulary=vocab)#对语料库二维列表进行特征词统计X_base = baseline_vectorizer.fit_transform(corpus)

2. 稀疏矩阵

  1. 压缩稀疏矩阵行格式(CSR)

from spicy.sparse.csr import car_matrix#rating 列表存储稀疏矩阵的值,(user, item) 组成其对应的行列下标R = car_matrix(rating, (user, item))

  使用压缩稀疏行矩阵可以快速的对行进行遍历,得到每行的结果。如果需要对列进行遍历,最好先将其转换为CSC矩阵,使用 tocsc() 成员函数。

 

转载于:https://www.cnblogs.com/hopelee/p/7445937.html

你可能感兴趣的文章
Linux自己安装redis扩展
查看>>
HDU 1016 Prime Ring Problem(dfs)
查看>>
C#中结构体与字节流互相转换
查看>>
session和xsrf
查看>>
跟随大神实现简单的Vue框架
查看>>
Linux目录结构
查看>>
LeetCode-Strobogrammatic Number
查看>>
luoguP3414 SAC#1 - 组合数
查看>>
五一 DAY 4
查看>>
(转)接口测试用例设计(详细干货)
查看>>
【译】SSH隧道:本地和远程端口转发
查看>>
win8.1安装Python提示缺失api-ms-win-crt-runtime-l1-1-0.dll问题
查看>>
图片点击轮播(三)-----2017-04-05
查看>>
直播技术细节3
查看>>
《分布式服务架构:原理、设计于实战》总结
查看>>
java中new一个对象和对象=null有什么区别
查看>>
字母和数字键的键码值(keyCode)
查看>>
IE8调用window.open导出EXCEL文件题目
查看>>
Spring mvc初学
查看>>
有意思的代码片段
查看>>