叶子叶来

知识即记忆,沉淀即得到; >>>>欢迎>>>>骚扰>>>>>>

  • 博客(204)
  • 资源 (26)
  • 收藏
  • 关注

原创 数据挖掘算法和实践(二十八):如何选择最优算法

通常每个算法都有最佳的应用场景,大部分情况下我们可以采用循环遍历方法找到最优的那个算法(默认参数),然后进行调参使其准确率更高,本次例子依然采用最经典的kaggle的离职率分析的数据集,跟之前的案例相比其数据探索思路也不同;数据集地址:离职率分析数据集

2021-06-13 08:41:29 43 1

原创 数据挖掘算法和实践(二十七):用excel做初步数据探索与透视图

在数据分析工作中,80%仍然是历史数据统计或海量分析,20%是面向未来决策的智能化数据挖掘,在80%的工作中可以不用pandas,excel反而更加快速和只管,因此准备总结游戏啊用excel进行数据探索、作图的教程,目前来看自己对于excel的使用真的是乏善可陈的;

2021-06-12 10:05:29 76 3

原创 数据挖掘算法和实践(二十六):DataFrame的常用方法温故

最近在完成一个分类模型在使用dataframe使用还有一些不是得心应手的地方,这里再次系统地总结dataframe使用以及数据探索、建模过程中的疑惑;DataFrame中groupbygroupby函数有很多妙用,从数据库得到的要分析的数据必然是粗粒度的数据,pandas提供类似于sql语句的工具进行数据分析和挖掘,再结合seaborn的作图包,做数据探索和分析就很美妙,看个例子:data['Current_Status'] = data['left'].apply(lambda x: 'Stay.

2021-06-04 16:59:59 28 3

原创 数据挖掘算法和实践(二十四):CrossValidation交叉验证及模型选择

> 主要是在模型训练阶段的知识,及其常见的交叉验证/CV在样本集选择和模型构建中的作用;## 关于正负样本比例在二分类中一般是1:3的正负样本比例状态;## 训练集、测试集、验证集比例三个概念容易混淆,得到正负样本后合并数据集然后按照8:2的比例把20%数据放在一边(即是测试集),剩下80%数据进行建模(训练集+验证集),开始进行模型构建必然要进行训练集和验证集的拆分,可以用K折法均分成K份分别进行建模,每次建模都会产生(k-1)份的真实训练集和1份真实验证集,然后求平均得到该模型的平均准确率,固

2021-06-03 11:10:03 66 2

原创 数据挖掘算法和实践(二十五):分类模型的评估方法

分类模型的评估方法内容包括常见二分类模型的分类效果评估方法,包括绝对指标、相对指标、通用指标,衍生到多分类模型的处理及验证,最后鸢尾花的三分类模型实例,附带有基于OVO和OVR的其他分类模型代码;一、什么是分类模型?分类模型是监督学习的一种,需要样本支撑进行模型构建,其输入可以是连续性也可以是离散型的变量,输出则是提前限定的离散分类标签,在实际使用中根据分类标签的种类可以分为二分类和多分类问题。回归算法的策略函数多是均值方差最小,分类算法的策略函数比较多样,有纯线性代数层面的均值方差最小,也有纯

2021-06-01 11:17:18 73 7

原创 数据仓库构建方法论(六):数仓构建方法论的PPT分享

公司内部做培训选了数仓与模型构建主体,并用项目实例说明数仓构建方法,现把PPT发出来,需要ppt的私聊发送;

2021-03-31 15:50:02 1784 3

原创 Python基础知识的再整理

用Python在牛客刷题美滋滋,但基础知识不能只靠编译器提示,之前博客已经有对Python基础总结,趁机再把基础知识复习一遍吧,满足基本地算法刷题需要;目录字符串及方法list列表及方法map函数及其他简单的几个算法题面向对象、链表、二叉树链表全部链表简易版二叉树

2021-03-17 19:38:00 6243 11

原创 硬件/操作系统/网络(九):了解常见linux服务器硬件配置

最近工作涉及服务器配置采购安装,以及网络布线、云平台搭建,看见硬件的配置有点懵逼,B站up主说得好,硬件配置、Linux系统、运维搞好什么都很简单,做开发应该了解底层的硬件和网络,所以对自己目前接触过的硬件知识和配置做个总结,方便后续使用查阅,学习即记忆;一、磁盘和Raid二、内存条三、CPU四、服务器...

2021-02-03 15:02:11 14345 27

原创 书单和成长(六):关于年度述职报告总结杂语--2021/01/30

周末单位组织年会总结,本来一点准备都没有,只是把经历的项目IT架构图和业务流程架构图放上去,写了几句话作为成果说明,再对2021年度进行展示和规划,总体而言没什么亮点,但在各个同事发言和单独台上述职的过程中,综合比较中学到了关于演讲的知识和思考,“虽世殊事异,所以兴怀,其致一也,后之览者,已将有感于斯文~”一、单独说演讲之前有纠结于不擅长公众演讲,慢慢的发现不会演讲是个综合问题,或因为人群陌生,或因为准备不充分,或因为表达逻辑没有捋清,或因为临场表达能力有限,多数是准备不充分或表达逻辑问题,回..

2021-02-01 16:45:51 7428 17

原创 容器和云原生(一):初识容器化和云原生

总聚焦于应用系统开发和建立在应用系统上的业务模型开发,很容易忽略基础资源重要性(包括裸金属服务器配置和优化、最优组网实践和网络拓扑优化、应用部署的持续集成和持续开发、云上资源分配和云原生),努力走出舒适区尝试新知识才能打开新思路,目前亟待增加裸金属服务器配置相关知识和云原生相关内容,那就从容器化和云原生下手,本节把基于k8s的容器化知识挂载到自己的知识树上,然后在测试环境进行开发测试;一、理解容器化什么是容器容器是云原生概念的重要组成部分,一种计算单元,容器比虚拟化技术更轻量化、更小开销的方.

2021-01-29 15:49:45 7028 10

原创 骚操作,VSCode上发布知乎

本想着把csdn的博客内容同步到知乎上,无意中搜索到zhihu On VSCode,在vscode上登录并发知乎帖子,真是骚操作;首先在vscode的插进搜索zhihu on vscode,安装后进入主页面使用Ctrl + Shift + P打开命令面板,搜索并执行Zhihu: Login命令,使用知乎app扫码登录后就可以编辑发布知乎帖子了,vscode真是万能idea;新建以md结尾的文件,只需要按照你最熟悉的 Markdown 语法写即可,右上就有发布和预览的图标;mark...

2021-01-28 22:01:24 8264 17

原创 2020天池大数据-智慧海洋建设方案赛分享

初赛(2020年1月2日—2020年2月21日),复赛(2020年2月25日—2020年3月22日),baseline准确度0.7843,太低~,这个题目围绕“智慧海洋建设,赋能海上安全治理能力现代化”。要求选手通过分析渔船北斗设备位置数据,判断出是拖网作业、围网作业还是流刺网作业。其实总结就是“轨迹(序列数据)+多分类”的任务,比较常规,主要还是特征提取和处理上面,复杂的在于位置信息处理;

2021-01-28 21:06:10 6247 10

转载 数据仓库构建方法论(六):数据建模方法论

根据boss想法整理一般通用的数据仓库模型构建思路,这里参考了公众号内文章,觉得写得很好,既有理论指导又有实践案例,能够详细地说明;什么是数据模型?数据模型是抽象描述现实世界的工具和方法,通过抽象的实体及实体之间联系的形式,表示现实世界中事务的相互关系的一种映射。数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定数据模型,数据仓库模型分为几个层次:通过上面的图形,我们能够很

2021-01-28 20:56:49 5221 3

原创 python爬虫(五):提高csdn博客访问量(ip proxy)

上面一篇被ban了,重写,针对爬虫首先声明只是哥玩具爬虫,得到自己的所有博客地址,然后随机访问;思想很简单,包含了2个类IPSpyder和CSDN类,前者保证一周内get一次ip代理到本地,后者包含3个方法负责随机读取博客,getBlogList()方法的输入是个人博客的主页地址,输出是个人博客所有的链接,getBlogTitleAndCount()的输入时单个博客的url地址,拿到当前博客的访问量和标题,输出;IP代理的爬虫参考:爬取IP代理import requestsimport..

2021-01-25 18:04:56 7827 34

原创 kafka实践(十五): 滴滴开源Kafka管控平台 Logi-KafkaManager研究

滴滴开源了其Kafka 监控与管控平台 Logi-KafkaManager,因为有30+个集群的维护经验,使用过kafka-manager,kafka-eagle,kafka-mirrorkaker工具,所以很期待能有1个工具能够整合kafka所有工具优点于一身,这样对于生产环境中kafka集群的管理、监控、资源分配、平滑升级、数据跨机房传输是非常好的,所以在研究kafka源码的同时研究一下Logi-KafkaManager的源码和使用,滴滴提供了体验地址:http://117.51.150.133:808

2021-01-25 11:25:45 11026 29

原创 关于数据同步调研-20210123

关于数据同步工具和ETL工具的调研,主要分为特定场景和通用场景下,在真实生产环境中多个存储系统之间的数据同步少不了需要同步工具,而主节点与备份节点之间也有一些专用的备份工具,ETL则是面向通用存储系统的;

2021-01-24 17:45:59 5154 7

原创 数据挖掘算法和实践(二十三):XGBoost集成算法案列(鸢尾花数据集)

本节继续探讨集成学习算法,上一节介绍的是LGB的使用和调参,这里使用datasets自带的鸢尾花数据集介绍XGB,关于集成学习算法的介绍可以参考:数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging),XGB和LGB都是竞赛和真实场景用得很多的算法,这里详细分析XGB调参和特征选择;一、引包与加载数据import timeimport numpy as npimport xgboost as xgbfrom xgboost import plot_importan..

2021-01-23 17:24:46 5283 10

原创 数据挖掘算法和实践(二十二):LightGBM集成算法案列(癌症数据集)

本节使用datasets数据集中的癌症数据集使用LightGBM进行建模的简单案列,关于集成学习的学习可以参考:数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging),LGBM是一个非常常用算法;一、引入常用包import datetimeimport numpy as npimport pandas as pdimport lightgbm as lgbfrom sklearn.datasets import load_breast_cancerfrom sk.

2021-01-23 17:12:20 5646

原创 书单和成长(二):假如,我没有悲伤--2020/08/12

春去秋来,时光旖旎,痛与不痛,存在或不存在,感知或不感知,自我不自我,反正时间流逝了,以前是盼着时间走快一些,恨不得波动时间轴,现在时间如流水一样哗啦啦,刚好是毕业三年,目前来看生活和事业都远未达到一定高度,既没有高屋建瓴的规划布局,也没有一条路走到黑的决心,再这样下去就是可预见的妥协和无奈,臃肿的像蠕动虫子,忙忙碌碌且唯唯诺诺;新工作让我坐的更久也更加拘束于穿着,以前的随意搭配变成现在的正装,没有活力的同时显得有点s,坐的更久代谢变慢也胖了不少,不能随时随地打篮球身体的调度机能也会衰弱固化,久之身体状

2021-01-21 17:46:47 5097 17

原创 数据挖掘算法和实践(二十一):kaggle经典-职场离职率分析案例解读

本节使用kaggle经典数案例一起学习数据挖掘流程和工具使用,使用决策树和随机森林预测员工离职率,帮助人事部门理解员工为何离职, 预测员工离职的可能性,数据来源: kaggle数据集地址 使用jupyterlab,能够保存中间结果并且流程较清晰,小数据集可以考虑使用,但从模块化思想来看可以用VsCode和其他工具,一如既往首先引入需要的包,这里plot和seaborn都引入了,plot更偏底层可以定制化作图,seaborn作图更方便和炫酷但定制化作图能力弱,想了解seaborn作图包可以参照之前

2021-01-19 20:19:54 5072 3

原创 数据挖掘算法和实践(二十):sklearn中通用数据集datasets

作为数据挖掘工具包sklearn不但提供算法实现,还通过sklearn.dataset模块提供数据集使用,根据需要有3种数据集API接口来获取数据集,分别是load,fetch,generate,load提供常用玩具数据集,fetch提供大型数据集,generate可以根据需要定制化生产数据集;

2021-01-18 10:12:00 4779

原创 数据挖掘算法和实践(十九):特征工程/模型评估

前面基本上涵盖常规数据分析算法内容,模型评估完成对模型的打分和选择,在模型评估过程中, 分类问题、 排序问题、 回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中, 大部分指标只能片面地反映模型的一部分性能。 如果不能合理地运用评估指标, 不仅不能发现模型本身的问题, 而且会得出错误的结论。

2021-01-18 10:07:50 4901 10

原创 数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging)

之前主要介绍单机器学习算法的理解和使用,实际场景多使用集成学习即组合的挖掘算法以达到最优效果,集成学习有2种:Boosting和Bagging,前者通过多个串行的弱学习器得到强学习器(GBDT、XoostGB、LightGBM),后者通过并行的多个决策树投票实现最优模型(随机森林RF),在竞赛中一般直接使用集成学习,因为可以最大程度地保证模型性能;

2021-01-15 16:33:48 4960 3

原创 数据挖掘算法和实践(十七):常用数据挖掘算法的Xmind总结

稍微整理的一个小知识总结,对于算法的简单总结,借鉴意义不大,算法还是多用多理解;

2021-01-15 16:14:55 4881 4

原创 数据挖掘算法和实践(十六):聚类算法

之前写算法太侧重于理解和推导,后面的算法将更侧重于在sklearn中使用和官方数据集测试,本篇讲聚类,聚类是一类算法的统称,属经典的无监督学习,无需样本训练得到模型后再适用于新数据,直接对数据进行聚类操作得到某几类数据,经典场景是工业生产环境的异常处理,常见的有基于距离的聚类(代表是K-means算法)和基于密度的聚类(代表是DBscan算法)。参考sklearn中文论坛:https://apachecn.gitee.io/sklearn-doc-zh/docs/master/22.html一、.

2021-01-15 15:58:29 5049 8

原创 SpringBoot实践(五):mybatis-plus中的BaseMapper,Iservice和ServiceImpl

mybatis-plus中包含BaseMapper,Iservice两个接口和ServiceImpl类,BaseMapper 针对dao层的方法封装 CRUD,IService 针对业务逻辑层的封装 需要指定Dao层类和对应的实体类 是在BaseMapper基础上的加强,ServiceImpl 针对业务逻辑层的实现,搞懂三者关系就能搞懂怎么用;

2020-12-10 15:39:44 6471 2

原创 数据挖掘算法和实践(十五):数据挖掘流程方法论

很久之前总结的,数据挖掘流程方法论,标准流程是:数据准备-->数据分布探索-->数据预处理-->特征工程-->模型的构建-->模型的优化和调参-->模型的发布,不论采用什么框架基本流程是不会有差别的;

2020-12-02 11:45:11 4807 2

原创 kafka实践(十三):kafka集群(broker)管理的源码解析

broker是kafka集群服务的主要载体,主要是持久化消息以及将消息推送到消费端,其包含内容很多,如同步机制(水印机制)、备份机制、分区机制、存储机制、kafka控制器等;一、broker消息设计Java内存模型(JMM)中保存对象的开销很大,可能花费比消息本身2倍的大小来保存数据,字段重排也解决该类问题,因此kafka使用JavaNIO的ByteBuffer来保存信息,同时依赖文件系统提供的页缓存而非Java的堆缓存,ByteBuffer是紧凑的二进制结构而不需要padding操作,省去

2020-11-30 22:18:35 4808 3

原创 kafka实践(十二):生产者(KafkaProducer)源码详解和调试

本节对producer的源码解析以熟悉生产者数据发送过程,关于使用Idea对kafka源码编译和调试,可以翻看之前的博客:本地kafka源码的编译和调试,本次分析的版本是kafka-1.0.0;一、环境准备在前面已经完成win环境下zk(3.4.12版本)的运行,并对kafka源码编译, 参考:本地kafka源码的编译和调试,在idea的run-->debug-->中新增configuration来创建topic:yzg(3分区1备份),本地启动运行效果:

2020-11-29 19:39:08 4971 6

原创 SpringBoot实践(四):SpringBoot中的常用注解

传统的Spring使用.xml文件来对bean进行注入或者是配置aop,造成可读性差且不好维护的情况,使用注解可以全方位对实体或者类进行标注,大大地简化了配置写法;一、@Autowired (自动装配)spring使用xml文件使用bean和引用时候,zoo实体拥有tiger和monkey类,写法如下: <bean id="zoo" class="com.spring.model.Zoo" > <property name="tiger" ref=.

2020-11-29 16:51:44 4734 1

原创 SpringBoot实践(三):SpringBoot集成Dataway数据查询接口

当前的项目使用Vue+Dataway+springcloud构建, Dataway是一个尚未开采的宝藏,它基于 DataQL提供服务聚合能力,DataQL 的设计初衷是数据的聚合和转换以及过程中的简单加工,使用者无需开发任何代码(例如:Mapper、BO、VO、DO、DAO、Service、Controller )就能配置满足需求的接口;DataWay的主打场景应该是在数据展示和涉及频繁地取数据查数据,大部分项目都可以在无侵入的情况下直接应用 Dataway,进而改进老项目的迭代效率,并且Dataway

2020-11-28 17:52:39 5297 11

原创 Vue和Vue-Element-Admin(六):集成中的CORS(跨域资源共享)问题

在vue-element-admin登录集成时候碰到跨域资源共享问题,CORS(Cross-origin resource sharing)是浏览器的技术规范,浏览器可以发起跨域请求但Javascript脚本不能,传统的ajax只能获取在同域名下的资源,但Html5允许ajax发起跨域请求,解决方案有:JSONP、Flash、IFrame、CORS。一、CORS(跨域资源共享)问题针对vue-element-admin的登录模块的后端接口完成后,前端调用时候出现报错,因为前端的端口是9527而后.

2020-11-24 15:10:25 5692 2

原创 Vue和Vue-Element-Admin(五):使用Vscode在chrome中调试vue

前后端分离使前端的断点调试更加复杂,chrome中调试vue,需要先在vscode中装Debugger for Chrome插件,然后增加调试的配置修改launch.json配置文件;可以参考vue官网步骤:chrome中调试vue一 、安装Debugger for Chrome如下,在vscode的扩展插件按钮中安装,或者直接在chrome中下载后安装:debugger二、增加launch.json配置文件,修改chrom的调试配置,这里的url就是当前项目的入口url;三、打.

2020-11-24 14:08:02 5509 1

原创 Vue和Vue-Element-Admin(四):vue-element-admin的用户登录集成

Vue-element-admin使用mock.js数据进行用户和权限的验证,使用该框架开发的首要事情就是用户集成改造,使用本地测试环境的用户和角色信息完成登录验证;github地址:https://github.com/yezonggang/testspring

2020-11-20 18:24:46 6636

原创 Vue和Vue-Element-Admin(二):vue-element-admin的目录结构和使用

Vue-Element-Admins是前端成熟框架,基于vue+element ui的开源技术方案:vue-element-admin 码云地址,教程:vue-element-admin教程,界面简洁清爽; 本地安装node.js和git工具,copy到本地即可运行,框架默认使用mock数据# 克隆项目git clone https://github.com/PanJiaChen/vue-element-admin.git# 进入项目目录cd vue-element-admin# 安..

2020-11-20 10:30:48 5567 2

原创 Vue和Vue-Element-Admin(三):路由及constantRoutes和asyncRoutes的区别

Vue-Element-Admin框架在定义路由使用constantRoutes和asyncRoutes两种,在store.modules.permission.js中对于两者的权限有默认的判断方式,后者需要动态判断权限,前者不需要;constantRoutes: 不需要动态判断权限的路由,如登录页、404、等通用页面;asyncRoutes: 需动态判断权限并通过addRoutes动态添加的页面;xxx...

2020-11-19 13:32:53 7074

原创 数据库和MPP数仓(六):开源ETL工具kettle的使用

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控.

2020-11-03 15:34:51 4923

原创 Vue和Vue-Element-Admin(一):Vue基础和框架

前后端开发容易有成就感,对前端的变魔术式的展示效果和开发一直很感兴趣,奈何毕业后3年都在做大数据平台和数据分析相关的东西,全是业务思路没有IT思路;当前项目涉及了2个前端展示系统,基于vue-element-admin的前端框架进行前后端分离开发,选择vue-element-admin框架,它是一个vue+element ui的开源技术方案:vue-element-admin 码云地址,教程:vue-element-admin教程,下载即可运行,熟悉vue开发模式即可快速上手,界面看起来比较简洁清爽。.

2020-10-27 18:29:36 6152 1

原创 数据仓库构建方法论(五):FTP服务器上离线文件的校验模板

总结以往参与过的FTP服务器上,离线文本数据抽取的校验模板,涉及对文件的大小、条数、加密、列数等的校验规则;#!/bin/bash####################################################set enviorment## author=yzgexport LANG=en_USalias ls='ls --color=auto --time-style=local'src_path="/data/XX/put_file" log_fil.

2020-10-24 13:03:27 4733 1

原创 数据仓库构建方法论(四):常用MPP数仓及架构

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等;一、MPP还是Hadoop这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基..

2020-08-11 09:06:34 4888 4

bayes.rar贝叶斯算法的使用和案例

贝叶斯算法分享心得体会及其使用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2021-06-15

sklearn.rar

内容包含sklearn使用时候的快速检索查询使用方法。。。。。。。。。。。。。。。。。。。。

2021-06-13

Flink在CDH配置部署及读取kafka的实例验证;

CDH目前不带flink组件,文档为Flink在CDH集群上的配置部署及读取kafka的实例验证;

2019-05-06

python实现logistic回归模型和训练数据

logistics回归模型测试代码及测试数据。

2015-08-19

现代数字信号处理--杨绿溪

资料比较全,还有课后答案,包含各类pdf和代码!PDF密码:dsp2006

2015-11-07

基于jupyter的贝叶斯模型-bayes.zip

基于jupyter的贝叶斯模型-bayes.zip

2021-01-20

JuypterNotebook.7z

jupyternotebook压缩包,仅留做备份使用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2021-05-26

47_Flume、Logstash、Filebeat调研报告

基于flume+kafka+实时计算引擎(storm,spark,flink)的实时计算框架目前是比较火的一个分支,在实时数据采集组件中flume扮演着极为重要角色,logtash是ELK的重要组件部分,filebeat也是一个实时采集工具;

2019-05-06

CDH-5.14搭建手册v3.docx

CDH是一个整合的大数据平台,文档提供详细的CDH-5.14搭建步骤,包含基本的本地yum源和parcel包和rpm包制作,适合大数据平台初级探索者和学习者

2020-05-21

数据挖掘.xmind

数据挖掘.xmind,详细描述数据挖掘学习路径;

2021-01-20

linux-svn.docx

linux下部署SVN和tortoisSvn的使用

2021-02-03

video_spyder.ipynb

video_spyder.ipynb 爬取视频的爬虫

2021-01-20

K-means.zip

基于jupyter+python的k均值算法模型,包含西瓜数据集和模型

2021-01-20

基于 jupyterlab的决策树模型,decision_tree.zip

基于 jupyterlab的决策树模型,decision_tree.zip

2021-01-20

image_spyder1.ipynb

image_spyder1.ipynb动态爬取动漫图片

2021-01-20

paper_spyder1.ipynb

爬虫,爬取表单

2021-01-20

paper_spyder_bilibili.ipynb

paper_spyder_bilibili.ipynb爬取b站评论列表

2021-01-20

DecisionTree.RandomForest.ipynb

包含基于jupyterlab + python的kaggle经典实战案例,离职分析,通过随机森林算法完成数据可视化和展示,包含数据集合算法模型;

2021-01-20

python实现Knn算法和错误率的代码

机器学习实战Knn算法的python实现,训练数据,测试数据。

2015-08-19

43_Ansible工具的使用教程

ansible作为批量分发工具,在自动化运维中试一把利器,文档详细说明了ansible的使用教程及指令说明;

2019-05-06

38_Scala函数式编程

目前很多大数据组件都是用scala开发,包括Spark, Kafka, Flink,scala的函数式编程思想能够带来比java更高的效率,同时其可读性及难度升高,文档由浅入深介绍Scala的语法、特性等;

2019-05-06

kafka_源码设计与实现

kafka_源码设计与实现,图文详解Kafka的内部原理、设计与实现; 全面分析以Kafka为中心的分布式流平台; Kafka新特性详解,包括连接器和流处理;

2018-09-13

LinearRegression.ipynb

使用TensorFlow实现基础挖掘算法,边实践边学习,资源是notebook的保存格式,请使用notebook打开,csdn博客有其他数据挖掘算法内容;

2020-05-22

Softmax_MNIST.ipynb

fashion_MNIST是一个手写图像分类数据集,主要是一些穿衣搭配的图表,数据集比较小,是一个适合练手的数据集,也是第一个多分类实例,使用softmax损失函数进行训练;softmax保证输出的分类是一个概率,且所以分类的概率结果加起来是1;

2020-05-28

mysql-connector-java.jar

MySQL connector to Java

2015-05-14

leetcode150题-JAVA

有代码,有答案,而且会有一些面试的经验,值得拥有!

2015-11-07

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除