自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(398)
  • 资源 (7)
  • 收藏
  • 关注

转载 python2.7 的中文编码处理,解决UnicodeEncodeError: 'ascii' codec can't encode character 问题

python2.7 的中文编码处理阅读目录(Content)1.引入 2.python 自动解编码机制导致报错 1.stirng 和 unicode 对象合并 2.列表合并 3.格式化字符串 4.打印 unicode 对象 5.输出到文件 3.如何避免这些的错误最近业务中需要用 Pyth...

2020-03-24 14:13:22 438

原创 随笔

目之所及皆是回忆,心之所想皆是过往

2021-04-27 17:21:07 4

原创 时间以同样的方式流经每个人,而每个人却以不同的方式度过时间

时间以同样的方式流经每个人,而每个人却以不同的方式度过时间看到这篇文章,恭喜你找到一个减少无效时间消耗的工具,同时,也祝你:能够用喜欢的方式过一生。下面开始表演:通常,有些时候无论出于什么原因,要被迫主动刷一些网课。刷就刷好了,还不能快进,不能快进就罢了,还不能同时播放多个,是不是有点耍流氓?所谓魔高一尺,道高一丈。淦就完了。左手代码,右手写诗。...

2021-04-27 17:19:19 50

转载 数据取对数的意义

数据取对数的意义平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。2. 取对数后,可以将乘法计算转换称加法计算。3. 某些情况下,在数据的整个值域中的在不同区间

2021-04-07 12:48:22 63

转载 Spark环境下Scala和Python两种语言的对比

Spark环境下Scala和Python两种语言的对比Apache Spark作为类Hadoop MapReduce的通用并行框架,一款专为大规模数据处理而设计的分布式计算引擎,以其优越的性能,较为完善的生态,受到了大数据从业人员的青睐。Spark的框架使用Scala编写(注:Scala是一种运行在Java虚拟机上,实现和Java类库互联互通的面向对象及函数式编程语言),而Spark的开发目前主要使用三种语言:Scala、Python、Java。相比于Java,Spark中用Scala开发.

2021-03-01 09:52:32 72

转载 快速制作一款高逼格词云图

快速制作一款高逼格词云图词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。一、先看看几个词云图三教 × 九流:「生活、工作、学习」三教,「学术思辨、故事、诗歌、时评、随笔、科技工具、书影音、新技能 get、吐槽」九流。读书专题文章中的书名,生成的词云图,今年你读过哪几本书?六神的词云图,抓取他的120篇文章标题,进行分词统计后生成。二、开始制作词云图工具: 我使用

2021-01-20 10:29:57 192

转载 Matplotlib findfont: Font family [u‘sans-serif‘] not found

Matplotlib使用findfont: Font family [u'sans-serif'] not found环境Ubuntu16.04python3.5matplotlib解决问题过程Warning 信息我利用matplotlib编写了一个十分简单的画图脚本,但是遇到了这个报错UserWarning: findfont: Font family [u'sans-serif'] not found. Falling back to DejaVu Sans (prop

2021-01-19 11:18:48 193

转载 Mac安装和启动grafana

Mac安装和启动grafana下载和安装grafana,此处例子为使用homebrew方式安装:brew update第二部安装grafana最新版本brew install grafana当出现如下信息代表安装成功:To have launchd start grafana now and restart at login: brew services start grafanaOr, if...

2020-12-09 10:08:32 88

转载 大数据处理引擎Spark与Flink对比

大数据处理引擎Spark与Flink对比大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。Spark简介Spark的历史比较悠久,已经发展了很长时间,目前在大数据领域也有了一定的地位.Spark是Apache的一个顶级项目。它是一种快速的、轻量级、基于内存、分布式迭代计算的大数据处...

2020-12-08 13:48:57 463

转载 舆情分析(Public opinion analysis)开源汇总

舆情分析(Public opinion analysis)开源汇总前言舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。 两大方法 1、内容分析法 内容分析法是一种对信息内容作客观系统的定量分析的专门方法,其目的是弄清或测验信息中本质性的事实和趋势。提示信息所含有的隐性情报内容,对事物发展做情报预测。 2、实证分析法 实证分析法是通过分析大量案例和...

2020-11-30 09:50:04 446

原创 Stock Price Predict

Stock Price Predict相关1、https://blog.csdn.net/jerry81333/article/details/538327462、https://blog.csdn.net/buptgshengod/article/details/78880941...

2020-11-09 15:52:50 47

转载 Python 程序打包成 exe 可执行文件

Python 程序打包成 exe 可执行文件Python 是一个脚本语言,被解释器解释执行。它的发布方式:.py 文件:对于开源项目或者源码没那么重要的,直接提供源码,需要使用者自行安装 Python 并且安装依赖的各种库。(Python 官方的各种安装包就是这样做的)。.pyc 文件:有些公司或个人因为机密或者各种原因,不愿意源码被运行者看到,可以使用 pyc 文件发布,pyc 文件是 Python 解释器可以识别的二进制码,故发布后也是跨平台的,需要使用者安装相应...

2020-10-28 10:37:10 56

原创 Mac下MySQL安装与启动采坑指北

Mac下MySQL安装与启动采坑指北一、坑1ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)MAC mysql安装教程很多,通常使用homebrew安装即可,brew install mysql这里我就不再累述。1、注意环境变量的设置:打开终端,输入: open -e .ba...

2020-10-28 10:31:45 1074

转载 深度学习的局部响应归一化LRN(Local Response Normalization)

深度学习的局部响应归一化LRN(Local Response Normalization)这个技术主要是深度学习训练时的一种提高准确度的技术方法。其中caffe、tensorflow等里面是很常见的方法,其跟激活函数是有区别的,LRN一般是在激活、池化后进行的一中处理方法。 AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中。AlexNet主要使用到的新技术点如下。(1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid...

2020-09-24 14:40:30 51

转载 二分类和多分类问题的评价指标总结

二分类和多分类问题的评价指标总结1、二分类评价指标准确率,精确率,召回率,F1-Score, AUC, ROC, P-R曲线1.1 准确率(Accuracy)评价分类问题的性能指标一般是分类准确率,即对于给定的数据,分类正确的样本数占总样本数的比例。注意:准确率这一指标在Unbalanced数据集上的表现很差,因为如果我们的正负样本数目差别很大,比如正样本100个,负样本9900个,那么直接把所有的样本都预测为负, 准确率为99%,...

2020-09-23 20:50:54 1254

转载 SQL left join去重

SQL 去重使用group by去重目的:计算每组的总得分,其中is_quit=1的member的得分不记录在内对总体结果用group bymembers要过滤掉is_quit=1的数据,用group by group_id可以对group的记录去重,也可也计算出总分,实现如下:select g.group_id, g.group_name,group_concat(m.member_na...

2020-09-23 20:44:05 87

转载 Tensorflow之负采样函数Sampled softmax loss

Tensorflow之负采样函数Sampled softmax loss谷歌16年出的论文《Deep Neural Networks for Youtube Recommendation》中提到文章采用了负采样的思想来进行extreme multiclass分类任务我的tensorflow实现已上传CSDN资源https://download.csdn.net/download/weixin_41864878/11107472Tensorflow提供了两种负采样,分别是NCE l...

2020-09-22 17:30:42 249

转载 样本缺失值处理

样本缺失值处理在构建模型训练时,需要对数据进行清洗,最常见的一种操作:缺失值处理。当我们拿到一批数据的时候,往往都是“不干净”的,而缺失值是最常见也是最容易发现的。不同的缺失值处理方式对接下来的特征提取,建模等都有巨大影响。那么缺失值的处理是有一套流程的,我在这里总结总结:发现缺失值统计每个特征在所有个体中缺失的个数 / 缺失率,这一点是查找缺失的特征,pandas 中 count() 函数为不...

2020-09-22 17:16:56 755

转载 XGBOOST 之稀疏数据的处理

XGBOOST 之稀疏数据的处理当数据及其稀疏的时候,不应该转换为numpy等形式,尤其是点击数据。商品成千上万,用户点击商品的种类只是其中的某一些类型,但是以此建立起来的点击矩阵的纬度却是庞大而冗余。解决方式1:将数据转化为libsvm存储的形式, 数据的第一列是label, 第二列之后的是特征label key1:value1 key2:value2 key3:value3XGBoost可以加载libsvm格式...

2020-09-22 17:05:11 330

转载 XGBoost之数据准备

XGBoost之数据准备文章目录一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结由于其速度和性能,XGBoost是一种流行的梯度增强实现。在内部,XGBoost模型将所有问题表示为仅以数值作为输入的回归预测建模问题。如果您的数据是另一种形式的,则必须将其准备成预期的格式。读完这篇文章你就会知道:如何为分类编码字符串输出变量。如何使用onehot准备...

2020-09-22 16:55:55 172

转载 用python实现对图像的卷积(滤波)

用python实现对图像的卷积(滤波)之前在看卷积神经网络,很好奇卷积到底是什么,最后看到了这篇文章http://blog.csdn.net/zouxy09/article/details/49080029,讲得很清楚,这篇文章中提到了对图像的滤波处理就是对图像应用一个小小的卷积核,并给出了以下例子:对图像的卷积,opencv已经有实现的函数filter2D,注意,卷积核需要是奇数行,奇数列,这样才能有一个中心点。opencv卷积...

2020-09-22 14:40:31 123

转载 Linux中redis数据备份和迁移

Linux中redis数据备份和迁移有时迁移服务器,也需要对redis做数据备份和迁移,迁移过程如下。1.旧服务器进入redis命令模式,查看数据备份存放的目录:[root@localhost ~]# redis-cli127.0.0.1:6379> CONFIG GET dir返回:1) “dir”2) “/var/lib/redis”127.0.0.1:6379> quit #退出可以看到redis数...

2020-09-22 12:23:23 201

转载 Linux基础之 Tmux

Linux基础之 Tmuxtmux 是一款终端复用命令行工具,一般用于 Terminal 的窗口管理,可以替代 Vim 的多文件多窗口模式进行更加人性化和高效率的终端操作和管理。它提供以下三种操作模式:会话模式如果运行了多次 tmux 命令则会开启多个 tmux 会话(session)。在 tmux 会话中,使用前缀快捷键 (Linux 和 Mac 下 为ctrl b,以下提到的tmux的所有操作都需要此...

2020-09-22 12:00:07 47

转载 QPS概念

吞吐量(TPS)概念QPS原理:每天80%的访问集中在20%的时间里,这20%时间叫做峰值时间。公式:( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS) 。机器:峰值时间每秒QPS / 单台机器的QPS = 需要的机器 。每天300w PV 的在单台机器上,这台机器需要多少QPS?( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139...

2020-09-21 18:56:27 187

转载 Spark中foreachRDD、foreachPartition和foreach解读

Spark中foreachRDD、foreachPartition和foreach解读foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。Foreach与ForeachPartition都是在每个partiti...

2020-09-15 13:30:02 395

转载 Python中append和extend的区别

Python中append和extend的区别list.append(object) 向列表中添加一个对象objectlist.extend(sequence) 把一个序列seq的内容添加到列表中music_media = ['compact disc', '8-track tape', 'long playing record']new_media = ['DVD Audio disc', 'Super Audio CD']music_media...

2020-09-11 13:42:50 1218

转载 Python 源代码代码打包成 whl 文件

Python 源代码代码打包成 whl 文件1.检查pythonsetup.pycheck2.打包python setup.py sdist bdist_wheel || true

2020-09-07 12:14:35 305

转载 Java将Hashmap按照value的值进行排序

Java将Hashmap按照value的值进行排序我们会将普通的数组用Arrays.sort()方法进行排序。而我们对其他类型进行排序的时候,我们需要重载比较器,对接口进行重写其中的compare函数。我们可以使用匿名类来进行填写。1、value 类型为IntList<Map.Entry<String,Integer>> list=new ArrayList<>();list.addAll(map.entrySet());...

2020-09-03 13:43:07 1556

转载 频繁项集挖掘Apriori算法及其Python实现

频繁项集挖掘Apriori算法及其Python实现Apriori算法是通过限制候选产生发现频繁项集。Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合,记为L1。然后,使用L1找出频繁2项集的集合L2,使用L2找出L3,如此下去,直到不能再找到频繁k项集。为了提高频繁项集逐层产生的效率,一种称为先验性质(Apriori prop...

2020-08-29 12:34:54 1010

转载 pyspark API使用方法说明

pyspark API使用方法说明参考:https://blog.csdn.net/weixin_41734700/article/details/80542017https://blog.csdn.net/zwahut/article/details/90638252?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLear...

2020-08-29 12:28:42 51

转载 Python代码实现打包成库供别的模块调用

Python代码实现打包成库供别的模块调用1.创建python项目bricewulib2.新建test_package包并创建info1类以及print_hello方法3.为了让包的结构再复杂点,我们再在test_package下面新建一个test_package2包并创建Info2类以及print_hello2方法(注意:这里是Info2,不是上面的Info1)4.此时整个test_package编写完成,目录结构(t...

2020-08-29 12:26:21 869

转载 Jaccard相似度

Jaccard相似度杰卡德系数(Jaccard Index),也称Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。如集合间的相似性、字符串相似性、目标检测的相似性、文档查重等。Jaccard系数的计算方式为:交集个数和并集个数的比值:相反地,Jaccard距离表示距离度量,用两个集合间不同样本比例来衡量:...

2020-08-27 11:05:24 5389

转载 制作python包,封装成可用模块

制作python包,封装成可用模块首先编写py程序:printtest.py#coding: utf-8def test(): print('print test')if __name__ == '__main__': test()将以上.py文件做成python模块,需要在相同目录下创建setup.py文件,setup.py中输入配置信息:#coding: utf-8from setuptools import s...

2020-08-25 21:45:03 944

转载 add和addProperty的区别

add和addProperty的区别区别addProperty是用来添加原生数据类型的add是用来添加JsonElement对象的

2020-08-25 15:38:02 218

转载 Java之Serializable

Java之Serializable什么是Serializable接口一个对象序列化的接口,一个类只有实现了Serializable接口,它的对象才能被序列化。什么是序列化?序列化是将对象状态转换为可保持或传输的格式的过程。与序列化相对的是反序列化,它将流转换为对象。这两个过程结合起来,可以轻松地存储和传输数据。为什么要序列化对象把对象转换为字节序列的过程称为对象的序列化把字节序列恢复为对象的过程称为对象...

2020-08-25 10:47:34 36

转载 spring注解中@component

spring注解中@componentspring注解中@component就是bai说把这个类交给Spring管理,du又一次起个名字叫zhiuserManager,因为不清楚这个类是属于哪个dao层面,所以就用@Component。因为在持久层、业务层和控制层中,分别采用@Repository、@Service和@Controller对分层中的类进行凝视,而用@Component对那些比较中立的类进行凝视。注解@component...

2020-08-25 10:40:53 66

转载 如何通俗理解泊松分布?

如何通俗理解泊松分布?1 甜在心馒头店公司楼下有家馒头店:每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应?老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):均值为:按道理讲均值是不错的选择(参见如何理解最小二乘法?),但是如果每天准备5个馒头的话,从统计表来看,至...

2020-08-25 10:36:49 77

转载 Gson基本操作

Gson基本操作String、JsonObject、JavaBean 互相转换User user = new Gson().fromJson(jsonObject, User.class);User user = new Gson().fromJson(string, User.class);String string = new Gson().toJson(user);JsonObject...

2020-08-18 20:20:49 818

转载 Java8 forEach 使用

Java8 forEach 使用java发布于 2019-08-22引言在本文中,我们将向您展示如何使用新的java 8 foreach语句循环List和Map。############################################################For-Each循环也叫增强型的for循环,或者叫foreach循环...

2020-08-18 17:06:20 55

转载 java的finally用法

java的finally用法finally作为异常处理的一部分,它只能用在try/catch语句中,并且附带一个语句块,表示这段语句最终一定会被执行(不管有没有抛出异常),经常被用在需要释放资源的情况下。之前在写爬虫的时候数据库连接的频率很高,有时候数据处理的不好,sql报错后,抛出异常但后边的数据库连接没有断开。导致最后数据库连接数过大,不让再连接了(因为是个人库,所以直接重启了一下)。这个释放数据库连接的操作就可...

2020-08-18 16:24:56 58

java必备课件

好的java学习课件,你不得不看的好课件。

2013-12-17

编程c语言之最

c语言程序设计之dialog讲述大全,可以帮助你学习c语言window编程。

2013-12-17

NG20数据solving

MATLAB实现稀疏矩阵的处理

2016-12-03

java学习必备

java开发者必学,清华大学出版社出品。

2013-12-17

java基础教程

好的java学习必备品,你值得拥有。清华版教程,学的更好、

2013-12-17

java大学实用教程

在大学必看的java教程,电子版,不大,内容不多,但好用。

2013-12-17

windows编程

c语言编程,visual studio编程,真的不错的代码示例

2013-12-17

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除