大数据就业班课程详细列表

第一阶段:JavaSE

初识Java 数据类型和运算符 控制语句和方法 数组及其查找排序算法

第二阶段:Oracle数据库+MySQL+JDBC

数据库和Oracle入门 SQL语句:单表select、DDL SQL语句:连接查询和子查询 数据库对象 三大范式 MySQL PowerDesigner JDBC DBC案例:员工管理系统 XML和反射机制 SQL面试题详解和SQL查询优化

第三阶段:Web前端基础(HTML5+CSS3+JavaScript+jQuery)

HTML/HTML5 CSS/CSS3 JavaScript jQuery

第四阶段:JavaEE阶段(Servlet+JSP+JSTL/EL+Ajax+EasyUI)

Servlet JSP MVC模式、JSTL/EL 过滤器和监听器 分页和上传下载技术 jQuery Ajax、JSON、Gson EasyUI JavaEE课上项目

第五阶段:企业最流行开发框架SSM(SpringMVC+Spring+MyBatis)

MyBatis Spring SpringMVC SSM项目开发:神州租车平台

第六阶段:高并发集群

Linux Maven Dubbo和Zookeeper VSFTPD和Nginx Redis缓存框架 电商Ego SpringBoot SpringCloud

第七阶段:大数据基础

Linux安装与配置 系统管理与目录管理 用户和用户组管理 Shell编程 服务器配置 Vi编辑器与Emacs编辑器 Hadoop起源与安装 MapReduce快速入门 Hadoop分布式文件系统 Hadoop文件I/O详解 MapReduce工作原理 MapReduce编程开发

第八阶段:linux和高并发

Linux基础 Linux初级 Linux文本操作 Linux文本分析 Linux管理 Linux安装管理 Linux高级 Linux脚本编程 Linux脚本案例 网络基础 四层负载均衡 Keepalived实现高可用 Nginx原理与配置 Nginx的反向代理和负载均衡 Session和缓存

第九阶段:Hadoop生态体系

HDFS基本概念 HDFS高级概念 MR MR源码解析 MapReduce案例 Hive介绍及架构 Hive架构 Hive DDL Hive DML Hive查询 Hive访问方式 Hive安全管理 Hive存储及压缩 Hbase介绍及架构 Hbase架构及操作 Hbase Java API Hbase压缩存储 Flume架构 flume source讲解 flume sink讲解 Sqoop介绍及架构 Sqoop操作 zookeeper ElasticSearch CDH cloudera manager使用 Hue的使用 Impala的安装使用 Oozie的使用

第十阶段:Spark生态体系

Scala基础语言应用 Scala函数编程 Scala字符串、集合 Scala高级应用 Spark基础使用 Spark核心RDD Spark 转换算子 Spark行动算子 Spark 持久化算子 Spark任务提交方式及参数 Spark术语 Spark计算模式 Spark任务调度 Spark任务提交案例 Spark 高阶应用 Spark 核心之Shuffle SparkSQL初级 SparkSQL高级 SparkStreaming流式处理框架 Kafka分布式消息系统应用 SparkStreaming+kafka整合 Redis语法 Storm流式计算 Storm计算详解

第十一阶段:机器学习和算法

Python介绍及安装 Python基础知识 Python集合类型 Python函数 Python文件操作 Python类与对象 设计模式与异常 Python模块及数据库操作 Numpy库 机器学习基础 机器学习算法 机器学习案例

第十二阶段:平台架构师课程体系

Hive优化 hbase优化 Spark核心源码分析 Spark核心源码分析 Spark优化 机器学习优化 Kylin介绍及架构 kylin的安装与部署 kylin的使用及访问方式 Flink流式处理框架

大数据就业班课程大纲

第一阶段

JavaSE
  • 01初识Java

    DOS常见命令

    Java跨平台原理

    JDK安装和环境变量配置

    第一个Java程序的编写和运行

    注释

    反编译工具jd-gui

  • 02数据类型和运算符(1)

    进制及其转换

    标识符

    字符编码

    常量和变量

    八大基本数据类型

    final常量 / Scanner / 算术运算符

  • 03数据类型和运算符(2)

    赋值运算符

    关系运算符

    逻辑运算符

    位运算符 / 条件运算符

    运算符的优先级关系

    基本数据类型的自动转换和强制转换

  • 04控制语句和方法

    if-else选择结构

    switch多重选择结构

    while循环

    do-while循环

    for循环 / 多重循环

    循环跳转break和continue

    方法定义和调用 / 方法重载

  • 05数组及其查找排序算法 (1)

    数组的特点和优缺点

    一维数组及其应用

    for-each循环

    使用数组做方法参数

    顺序查找

    数组工具类

    可变参数 / 二维数组及其应用

  • 06数组及其查找排序算法 (2)

    eclipse安装和使用

    eclipse下调试程序

    递归

    折半查找

    冒泡排序

    选择排序

    直接插入排序

第二阶段

Oracle数据库
+
MySQL+JDBC

第二阶段

Oracle数据库
+
MySQL+JDBC
  • 01数据库和Oracle入门

    数据库相关概念

    认识Oracle

    安装和卸载Oracle

    Oracle目录和用户

    配置监听器和本地网络服务名

    创建用户和分配权限

  • 02SQL语句:单表select、DDL

    select子句

    去除重复行

    where条件查询

    order by排序 / 使用函数

    group by分组 / having分组筛选

    insert / update / delete

  • 03SQL语句:连接查询和子查询

    内连接 / 外连接 / 自连接

    集合查询 / SQL99连接查询 / SQL92连接查询

    不相关子查询

    相关子查询

    rowid / rownum

    分页查询语句

  • 04数据库对象

    数据库表table

    五种约束constraints

    索引index / 序列sequence / 视图view

    存储过程procedure

    事务transaction / 导入导出数据

  • 05三大范式

    范式及作用

    第一范式

    第二范式

    第三范式

    一对一 / 一对多 / 多对多关系

  • 06MySQL

    MySQL简介

    数据库表列类型

    SQL语句

    导入导出数据

    navicat的使用

  • 07PowerDesigner

    认识PowerDesigner

    概念数据模型CDM / 物理数据模型PDM

    反向工程 / 数据库设计案例

  • 08JDBC(1)

    JDBC及其特点

    使用JDBC完成CRUD

    Connection / Statement / ResultSet

  • 09JDBC(2)

    PreparedStatement的优点和使用

    防止SQL注入

    手动事务操作

  • 10DBC案例:员工管理系统

    分层开发 / 查询所有员工 / 查询指定编号员工

    提取工具类DBUtil / 提取业务层

    复用代码 / 添加员工 / 更新员工 / 删除员工

    完善DBUtil类

    使用Properties类读取属性文件

    后台数据库修改为MySQL / log4j

  • 11XML和反射机制

    XML特点和语法

    XML约束 / 反射作用和使用场合

    Class / Constructor / Field / Method

    使用反射完成动态操作

    使用反射模拟Hibernate的查询操作

    ORM对象关系映射思想

  • 12SQL面试题详解和SQL查询优化

    涉及分组

    连接

    子查询的SQL面试题讲解

    SQL查询优化

第三阶段

Web前端基础
HTML5
+
CSS3
+
JavaScript
+
jQuery
  • 01HTML/HTML5(1)

    HTML入门

    head标签

    body标签

    简单标签

    图片img

    超链接a

    列表list

  • 02HTML/HTML5(2)

    字符实体

    表格table

    表单form

    框架集frameset

    浮动框架iframe

    图层div

    行内元素和块元素

  • 03CSS/CSS3

    CSS样式基础

    三种引入方式

    基本选择器

    复合选择器

    超链接伪类样式

    常用CSS样式

    盒子模型 / CSS案例练习

  • 04JavaScript(1)

    JS入门 / JS基本语法

    函数 / 数组 / Date

    String / 事件机制

    浏览器开发者工具

    console

    BOM和DOM基础

    window / location

  • 05JavaScript(2)

    navigator

    history

    DOM获取元素

    DOM操作属性

    DOM操作样式

    DOM操作文本

    DOM操作元素

  • 06jQuery

    jQuery入门

    jQuery对象和DOM对象 / $的作用

    jQuery各种选择器

    操作属性 / 操作样式和文本 / 操作元素

    事件和动画 / 表单验证/ 正则表达式

    jQuery案例练习(表格、Tab、菜单等)

    jQuery框架

第四阶段

JavaEE阶段
Servlet+JSP
+
JSTL/EL+Ajax
+
EasyUI
  • 01Servlet

    HTTP协议 / HTTP请求头和响应头 / 理解无状态协议

    Tomcat安装使用 / 目录结构 / 架构原理

    Servlet作用 / Servlet / GenericServlet

    HttpServlet / Servlet生命周期

    HttpServletRequest / HttpServletResponse

    GET和POST区别 / 解决中文乱码 / 转发和重定向

    绝对路径和相对路径 / HttpSession / Cookie

    ServletContext/ ServletConfig / 注解 / Servlet3.0

  • 02JSP

    Servlet和JSP的关系

    JSP页面组成

    scriptlet

    表达式

    声明

    指令标签 / 动作标签

    JSP底层原理

    9大内置对象 / 4大作用域

  • 03MVC模式、JSTL/EL

    MVC模式

    合并Servlet

    EL的使用

    JSTL常用标签

    EL/JSTL底层原理

    多条件查询

  • 04过滤器和监听器

    引入过滤器

    解决中文乱码问题

    进行权限验证

    职责链模式

    过滤器的更多原理细节

    监听器作用

    类型和使用

  • 05分页和上传下载技术

    Web项目分页的必要性

    分页工具的创建和使用 / 基本分页

    基本分页优化 / 带查询条件的的分页

    理解上传下载的基本思路

    commons-fileUpload上传API

    实现上传文件到指定目录 / 保存上传信息到数据库

    将服务器的图片在客户端下载

  • 06Ajax、jQuery Ajax、JSON、Gson

    理解Ajax异步请求和刷新的原理和过程

    使用原生Ajax完成多个操作

    使用jQuery Ajax改造多个操作

    JSON的定义和使用

    Gson的使用

    jQuery Ajax+JSON返回复杂数据

    三级联动 / 自动提示

  • 07EasyUI

    认识EasyUI

    EasyUI使用入门

    登录页面

    后台主页面布局

    带查询条件分页操作

    添加

    更新和删除操作

  • 08JavaEE课上项目

    全面练习JSP/Servlet核心技能

    MVC模式 / Ajax / 数据库设计和多表SQL操作

    PowerDesigner绘制数据库模型图

    业务流程图 / 多种面向对象模型图

    使用ThreadLocal实现业务层事务

    RBAC权限管理、URL权限拦截

    POI、Echarts、JUnit

    My97DatePicker、kindeditor等辅助技术

  • 09阶段项目

    团队开发

    SVN的安装和使用

    丰富的案例库

    进度控制

    数据库设计

    FAQ

    日报

    PPT设计 / 项目答辩

第五阶段

企业最流行开发框架SSM
SpringMVC
+
Spring+MyBatis
  • 01MyBatis

    基本功能 / 框架原理

    使用环境搭建

    核心配置文件

    数据库映射文件

    MyBatis配置详解

    事务 / MyBatis多表查询

    关联映射 / 动态SQL

    MyBatis缓存机制

    MyBatis注解式开发

  • 02Spring

    框架特点 / 环境搭建 / 工厂模式

    IoC原理 / IoC容器的基本配置和使用

    多种创建对象的方式 / 多种依赖注入的方式

    静态代理 / 动态代理

    4种常用的通知类型

    传统方式实现AOP开发

    AspectJ实现AOP开发

    声明式事务原理及其实现

    Spring整合MyBatis

  • 03SpringMVC(1)

    MVC模式

    SpringMVC环境搭建

    Spring和SpringMVC区别和联系

    SpringMVC执行流程

    常见组件讲解

    基本配置

    请求映射

    跳转方式

    视图解析器

  • 04SpringMVC(2)

    Spring内置对象传值

    接受和返回JSON数据

    文件上传和下载

    自定义拦截器

    拦截器栈

    SpringMVC对Date类型进行拦截练习

  • 05SSM项目开发:神州租车平台(1)

    系统整体的需求分析

    模块分解

    用户管理模块

    车辆管理模块

    订单管理模块

    信息展示模块

  • 06SSM项目开发:神州租车平台(2)

    权限管理模块

    会员管理模块

    日志管理等

    巩固SSM项目

    提升项目开发能力

    业务分析能力和团队协作能力等

第六阶段

高并发集群

第六阶段

高并发集群

第六阶段

高并发集群

第六阶段

高并发集群
  • 01Linux

    Linux简介

    VMWare安装及CentOS6.5安装(快照功能)

    Linux系统常用目录介绍

    Linux中常用命令

    Xshell5安装 / FileZilla安装及使用

    JDK解压版配置

    Tomcat解压版配置

    MySQL解压版配置

    部署项目到Linux服务器步骤

  • 02Maven

    Maven简介 / Maven的优势

    配置Maven运行环境

    Maven项目创建

    使用Maven构建Web应用

    使用Maven构建SSM应用

    Maven仓库

    Maven坐标以及依赖管理

    Maven构建聚合项目 / 分布式介绍

    使用Nexus搭建Maven私有仓库

  • 03Dubbo和Zookeeper

    Dubbo简介及结构图

    Dubbo支持的几种Registry

    Zookeeper简介

    Zookeeper安装

    Dubbo支持的几种Protocol

    Dubbo项目搭建

    Admin管理界面

    Assembly打包

    监控中心搭建

  • 04VSFTPD和Nginx

    FTP协议

    VSFTPD简介 / VSFTPD安装

    FTPClient

    Nginx简介

    Nginx安装

    反向代理

    Nginx反向代理配置

    Nginx配置负载均衡

  • 05Redis缓存框架

    Redis简介

    Redis安装

    配置文件详解

    数据备份方案

    常用命令

    Jedis

    Redis集群

    Spring整合Redis

  • 06电商Ego-1(1)

    使用Maven搭建SOA架构项目

    电商项目介绍 / 开发环境搭建

    完成后台商品查询 / 门户导航菜单功能

    VSFTPD+Nginx实现上传及回显

    电商项目商品新增 / 图片上传

    Dubbo+分页插件+逆向工程实现新增

    规格参数的查询 / 规则参数的批量删除

    商品新增时同时新增商品规格参数信息

  • 07电商Ego-1(2)

    基于EasyUI的datagrid实现查询和规格参数管理

    需求分析

    JSONP

    完成导航菜单功能

    CMS系统实现

    内容分类查询

    内容分类新增

    内容分类重命名

    内容分类删除

    内容查询 / 内容新增 / 内容删除 / 内容修改

  • 08电商Ego-2(1)

    Redis集群缓存大广告位数据

    分析门户中大广告需求

    Redis集群安装

    完成门户大广告显示

    完成后台大广告缓存数据同步

    Solr+SolrCloud

    Solr简介 / Solr单机版搭建

    Analyzer配置业务字段

    SolrJ操作Solr / SolrCloud搭建

    Solr实现搜索商品 / 商品搜索功能业务分析

  • 09电商Ego-2(2)

    Solr数据初始化

    编写Ego-Search项目

    HttpClient

    Redis缓存商品+延迟显示商品描述

    商品详情需求分析

    完成商品详情 / 商品介绍功能

    规格参数显示功能

    SSO单点登录系统实现 / SSO简介

    复习HttpSession和Cookie

    搭建ego-passport并编写代码

  • 10电商Ego-3(1)

    Redis存储购物车信息

    添加购物车信息 / 显示购物车信息

    添加商品数量

    删除商品

    Order订单系统实现

    订单需求分析 / 订单系统实现

  • 11电商Ego-3(2)

    虚拟主机+负载均衡+虚拟域名

    部署Dubbo

    部署ego-portal / 部署ego-item

    设置虚拟域名

    配置Nginx负载均衡

    MyCat分库分表+热部署实现总体服务器环境

  • 12电商Ego-3(3)

    安装MySQL

    MySQL主从备份

    MyCat简介

    MyCat配置

    生产环境搭建

    Maven远程部署

  • 13SpringBoot(1)

    发展史

    SpringBoot简介

    环境搭建 / 配置文件

    整合jdbcTemplate / 整合MyBatis

    整合模板引擎 / 整合Redis

  • 14SpringBoot(2)

    结合Dubbo

    创建本地服务器

    文件上传

    拦截器 / 错误处理

    声明式事务

  • 15SpringCloud(1)

    简介

    创建注册中心

    创建服务提供者

    消费者 / 服务消费(feign)

    断路器 / 过滤器 / zuul路由器

  • 16SpringCloud(2)

    多注册中心

    服务跟踪(zipkin-server)

    配置中心(服务器) / 配置引用(客户端)

    消息总线-rabbitmq安装

    消息总线-实现配置刷新

  • 17本阶段2018年新增加课程(1)

    1.MyCat:Mycat是一款数据库中间件,其用于分库分表,还实现了读写分离,故障切换等功能。
    2.SpringBoot:目前流行微服务的概念,SpringBoot是其中的实现。SpringBoot同时极大的降低了新手上手难度,提高开发效率。
  • 18本阶段2018年新增加课程(2)

    3.SpringCloud:SpringCloud是一系列框架的有序集合。它利用SpringBoot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、数据监控等。

第七阶段

大数据基础

第七阶段

大数据基础
  • 01Linux安装与配置

    Linux常见版本及VMware

    安装Linux至硬盘及虚拟机安装Linux系统

    虚拟机网络配置(IP地址、主机名、防火墙)

    超级用户root

    关于硬盘驱动程序

    进阶:配置Grub、CSS预处理器LESS框架使用

    CSS组件框架编写

  • 02系统管理与目录管理

    Shell基本命令

    使用命令行补全和通配符(find命令、locate命令)

    查找特定程序

    whereis

    Linux系统文件的架构(移动、复制和删除)

    文件和目录的权限

    文件类型与输入输出

  • 03用户和用户组管理

    软件包管理

    磁盘基本管理命令

    高级硬盘管理RAID和LVM

    进阶:备份你的工作和系统

    用户与用户组管理

    内存使用监控命令

    软件安装方式 / 进程管理

  • 04Shell编程

    Shell脚本编程概述

    正则表达式(字符集和单词、字符类)

    Shell脚本编程

    脚本执行命令和控制语句

    Shell定制 / 个性化设置

    修改.bashrc文件

    Shell脚本调试

  • 05服务器配置

    系统引导

    管理守护进程

    通过xinetd启动SSH服务

    配置inetd

    Apache基础 / 设置Apache服务器

    PHP基础

    配置DHCP服务

  • 06Vi编辑器与Emacs编辑器

    vi中的常用命令

    vi中的字符与文件操作

    vi中的窗口操作

    emacs概述

    emacs文本编辑

    emacs缓冲区和窗口

    emacs扩展工具

  • 07Hadoop起源与安装

    大数据概论

    Google与Hadoop模块

    Hadoop生态系统

    Hadoop常用项目介绍

    Hadoop环境安装配置

    Hadoop安装模式

    Hadoop配置文件

  • 08MapReduce快速入门

    WordCount准备开发环境

    MapReduce编程接口体系结构

    MapReduce通信协议

    导入Hadoop的JAR文件

    MapReduce代码的实现

    打包

    部署和运行 / 打包成JAR文件

  • 09Hadoop分布式文件系统

    识HDFS及其HDFS架构

    Hadoop的RPC机制

    HDFS的HA机制

    HDFS的Federation机制

    Hadoop文件系统的访问

    JavaAPI接口与维护HDFS

    HDFS权限管理

  • 10Hadoop文件I/O详解

    Hadoop文件的数据结构

    HDFS数据完整性

    文件序列化

    Hadoop的Writable类型

    Hadoop支持的压缩格式

    Hadoop中编码器和解码器

    (gzip、LZO和Snappy比较)

  • 11MapReduce工作原理

    MapReduce函数式编程概念

    MapReduce框架结构

    MapReduce运行原理

    Shuffle阶段和Sort阶段

    任务的执行与作业调度器

    自定义Hadoop调度器

    YARN架构及其工作流程

  • 12MapReduce编程开发

    WordCount案例分析

    输入输出格式

    压缩格式与MapReduce优化

    辅助类与Streaming接口

    MapReduce二次排序

    MapReduce Join算法

    从MySQL读写数据 / Hadoop系统调优

第八阶段

linux和高并发

第八阶段

linux和高并发

第八阶段

linux和高并发
  • 01Linux基础

    操作系统概述

    Linux内核与GNU介绍

    Linux发行版介绍

    虚拟化安装centos / 虚拟网络编辑器

    规划多主机网络通信

    虚拟化管理快照与克隆

    SSH客户端使用与配置

  • 02Linux初级

    Linux命令行原理

    help内部命令帮助

    man命令8种帮助手册

    df/du文件系统分析

    文件系统HFS规范

    文件系统管理命令

    bash的{}、$扩展

  • 03Linux文本操作

    文件内容预览命令

    管道的使用

    基于管道的文件游标预览

    日志文件追踪

    vi命令的快捷操作

    vi命令的编辑模式

    vi命令的末行模式

  • 04Linux文本分析

    grep检索文件 / 正则表达式

    文本分析命令cut

    文本分析命令sort

    文本分析命令wc

    文本分析命令sed

    sed案例:正则和s命令另类使用

    文本分析命令awk

    awk脚本案例:统计报表

  • 05Linux管理

    系统服务配置文件

    用户管理

    组管理

    权限管理

    案例:多用户角色资源绑定

    网络管理

    进程管理

    后台服务管理

  • 06Linux安装管理

    操作系统软件安装原理

    源码编译安装及原理

    RPM包管理机制原理

    RPM的查询、安装、卸载

    YUM仓库原理

    YUM本地、局域网仓库源配置

    案例:维护多个YUM源

    YUM安装中文帮助文档

  • 07Linux高级

    shell原理、命令原理

    shell解释器的4种脚本执行方式

    shell函数、内部命令、外部命令总结

    文件描述符与重定向

    输出重定向的6种方式

    输入重定向的4种方式

    案例:重定向http协议到网站请求主页

  • 08Linux脚本编程

    本地、局部变量 / 位置、特殊变量

    父子进程、环境变量

    linux中for进程原理 / 管道的子进程执行原理

    引用、命令替换扩展

    命令状态与逻辑判断

    算数表达式及bash扩展 / 条件表达式

    流程控制语句&bash词的拆分扩展

  • 09Linux脚本案例

    shell脚本:用户管理

    shell脚本:文件管理

    shell脚本:增强for循环遍历文件

    shell脚本:游标for循环遍历文件

    shell脚本:重定向while循环遍历文件

    shell脚本:管道+while循环遍历文件

    bash解释器的7中命令扩展总结

  • 10网络基础

    高并发及解决方案概述

    TCP/IP协议资深讲解:应用层

    TCP/IP协议资深讲解:传输控制层

    TCP/IP协议资深讲解:TCP协议/报文/三次握手

    TCP/IP协议资深讲解:网络层

    TCP/IP协议资深讲解:路由表和IP协议原理

    TCP/IP协议资深讲解:链路层

    TCP/IP协议资深讲解:ARP协议及交换机原理

  • 11四层负载均衡

    四层负载均衡LVS拓扑

    NAT网络原理

    LVS的DNAT模式分析

    LVS的DR模式分析

    LVS的TUN模式分析

    LVS的静态调度算法

    LVS的动态调度算法 / 内核配置ARP协议

    LVS的命令讲解 / LVS的DR模式实验搭建

  • 12Keepalived实现高可用

    高可用概述

    健康检查及故障迁移策略

    分布式选主策略

    keepalived原理

    keepalived配置文件详解

    基于keepalived的高可用LVS

    高可用验证

    后端健康检查验证

  • 13Nginx原理与配置

    单点性能压力下的面向服务开发理论

    反向代理服务器原理

    Nginx介绍 / Nginx和Apache的httpd对比

    IO的阻塞模型和异步非阻塞模型

    Nginx角色框架原理 / Nginx的内核参数配置

    Nginx的内核sendfile零拷贝原理

    Nginx的TCP配置

  • 14Nginx的反向代理和负载均衡

    Nginx的虚拟服务器原理

    Nginx的location匹配规则

    Nginx的自动索引

    Nginx的反向代理服务器配置

    Nginx的upstream负载均衡配置

    Nginx的DNS负载均衡配置

    Nginx负载均衡下数据一致性解决方案

  • 15Session和缓存

    Session一致性问题

    Session复制

    Session共享

    Session同步

    Memcached的缓存

    K-V格式缓存

    Tomcat和Memcache / 缓存服务器

第九阶段

Hadoop生态体系

第九阶段

Hadoop生态体系

第九阶段

Hadoop生态体系

第九阶段

Hadoop生态体系

第九阶段

Hadoop生态体系
  • 01HDFS基本概念

    1T文件处理

    Hadoop历史 / Hadoop架构

    NameNode讲解

    SecondaryNameNode讲解

    DataNode与副本防治策略

    HDFS权限 / HDFS安全模式

    HDFS文件上传流程 / HDFS读文件流程

    伪分布式集群搭建

  • 02HDFS高级概念

    hadoop完全分布式集群搭建

    hadoop3新特性

    NameNode的Federation

    NameNode-HA

    NameNode-HA集群搭建

    NameNode-HA手动切换

    NameNode-HA自动切换

    java客户端操作HDFS

  • 03MR

    MapReduce简介与原语

    MapReduce执行流程

    二次排序

    MapReduce作业提交流程

    MapReduce作业执行流程

    YARN-ResourceManager-HA搭建

    运行自带的wordcount程序

    手写wordcount程序

  • 04MR源码解析

    MapReduce作业提交流程源码解析

    作业切片计算的源码解析

    MapTask输入方式的源码解析

    MapTask执行流程源码解析

    MapTask输出方式的源码解析

    MapTask环形缓冲区源码解析

    RedueTask的shuffle源码解析

    ReduceTask分组的源码解析

    ReduceTask输出的源码解析

  • 05MapReduce案例

    天气案例需求分析 / 天气案例映射为MR原语

    天气案例键值对设计 / 天气案例开发和运行

    天气案例排序比较器分组比较器设计

    好友推荐需求分析 / 好友推荐映射为MR原语

    好友推荐键值对设计 / 好友推荐开发和运行 / 好友推荐TopN

    PageRank简介及算法介绍 / PageRank映射为MR原语

    PageRank键值对设计 / PageRank编码和运行

    TFIDF简介及算法 / TFIDF映射为MR原语

    TFIDF键值对设计 / TFIDF编码和运行

    itemCF简介及算法 / itemCF键值对设计 / itemCF编码和运行

  • 06Hive介绍及架构

    hive的介绍

    数据仓库概念讲解

    数据仓库与数据库区别

    Hive的架构原理

    Hive元数据讲解

    Hive的使用场景

    Hive的优缺点

    Hive的执行引擎

    Hive操作符

    Hive语法解析

  • 07Hive架构

    linux环境下mysql安装

    mysql登录权限修改

    Hive三种安装搭建模式

    Hive元数据存储到mysql

    基于内存数据库模式搭建

    基于远程数据库模式搭建

    基于远程数据库服务搭建

    Hive配置文件讲解 / Hive命令操作

  • 08Hive DDL1

    Hive基础数据类型

    Hive复杂数据类型

    Hive数据类型转换

    Hive创建数据库

    Hive创建表三种方式

    Hive创建管理表

    Hive创建外部表

    Hive数据读取规则Row Format

  • 09Hive DDL2

    Hive数据读取规则 Serde

    Hive静态分区管理

    Hive动态分区管理

    Hive删除表

    Hive修改表

    Hive分桶表管理

    Hive视图

    Hive索引

  • 10Hive DML

    Hive从本地加载数据

    Hive从hdfs加载数据

    Hive通过查询插入数据

    Hive插入数据到指定目录

    Hive insert values插入操作

    Hive事务管理

    Hive事务特性

    Hive事务配置

    Hive修改数据 / Hive删除数据 / Hive清空数据

  • 11Hive查询

    Hive全表查询

    Hive条件查询

    Hive分组查询

    Hive运算符

    Hive内置函数

    Hive自定义函数

    Hive表连接

    Hive排序方式

    Hive嵌套查询 / Hive行转列

  • 12Hive访问方式

    Hive命令行方式

    Hive元数据管理

    Hiveserver2讲解

    Hive beeline客户端讲解

    Hive JDBC操作

    Hive参数

    Hive变量

    Hive脚本运行方式

    Hive GUI方式

  • 13Hive安全管理

    Hive授权模式

    Hive Legacy Mode

    Hive 基于SQL标准授权模型

    Hive 基于元数据授权模型

    Hive角色管理

    Hive授权命令

    Hive回收权限命令

  • 14Hive存储及压缩

    Hive存储压缩管理

    Hive列式存储 / Hive行式存储

    Hive textfile

    Hive sequencefile

    Hive orc file

    Hive parquet file

    Hive map端输出 / Hive reduce端输出

  • 15Hbase介绍及架构

    hbase介绍 / NoSQL介绍

    Hbase特点 / Hbase存储数据结构

    Hbase数据模型 / Hbase表结构介绍

    Hbase架构图 / Hbase角色

    Hbase内存结构介绍

    Hbase存储数据结构LSM树

    Hbase写数据流程 / Hbase读数据流程

  • 16Hbase架构及操作

    Hbase standalone模式安装

    Hbase 完全分布式安装

    Hbase 高可用

    Hbase搭建注意

    Hbase基本命令

    Hbase DDL命令 / Hbase DML命令

    Hbase命名空间命令

  • 17Hbase Java API

    Hbase创建表 / Hbase删除表

    Hbase插入数据 / Hbase更新数据

    Hbase删除数据

    Hbase获取一条数据

    Hbase获取某个范围的数据

    Hbase过滤器

    Hbase与MR集成 / Hbase与hive集成

  • 18Hbase压缩存储

    Protobuffer讲解

    Protobuffer安装

    Protobuffer配置基本类型

    Protobuffer配置集合类型

    Protobuffer生成Java类

    Hbase读取Protobuffer生成的类

    Hbase压缩存储

  • 19Flume架构

    Flume日志收集工具

    Flume agent架构

    Flume组件

    Flume集群讲解

    flume不同架构介绍

    flume安装 / flume配置信息

    flume单台安装 / flume集群安装

    flume高可用讲解

  • 20flume source讲解

    Avro source

    Thrift source

    Exec source

    Spooling directory source

    Kafka source

    Netcat source

    自定义Source

    Source的分类

  • 21flume sink讲解

    Hdfs sink

    Hive sink

    Hbase sink

    Avro sink

    Thrift sink

    Logger sink

    Kafka sink

    自定义Sink

  • 22Sqoop介绍及架构

    Sqoop简介

    ETL讲解

    Sqoop架构图

    Sqoop架构设计

    Sqoop版本介绍

    Sqoop导入

    Sqoop导出

    Sqoop安装 / Sqoop配置

  • 23Sqoop操作

    Sqoop导入数据到hdfs

    Sqoop导入数据到hive

    Sqoop导入数据到hbase

    Sqoop通过查询语句到hdfs

    Sqoop导出数据到mysql

    导出配置

    Hdfs配置 / Hbase配置

    数据库配置

  • 24zookeeper

    分布式协调框架

    Zookeeper背景与介绍

    分布式zookeeper环境及安装

    Zookeeper源语命令操作

    关于节点类型、版本、元数据信息的意义

    Zookeeper 的api 环境java操作集群演示

    事件注册与节点的变更

    基于zookeeper的分布式协调案例

  • 25ElasticSearch

    ElasticSearch的现状与前景

    Lucene框架与倒排索引原理

    Lucene框架在el search搜索引擎中的作用

    ElasticSearch全分布式特性

    ElasticSearch的环境要求与安装

    Curl命令与rest风格的使用

    Api搜索项目演示1

    Api搜搜项目演示2

  • 26CDH

    国内外大数据平台介绍

    Cloudera产品介绍

    什么是CDH

    什么是cloudera manager

    什么是cloudera manager service

    cloudera manager框架原理

    集群基础设施配置

    纯手工安装cloudera manager

  • 27cloudera manager使用

    cloudera manager部署CDH

    cloudera manager管理主机

    cloudera manager管理集群、管理服务

    cloudera manager管理实例、管理配置

    cloudera manager管理监控、管理资源

    cloudera manager service图表使用

    cloudera manager service图表创建

    cloudera manager service的dashboard

  • 28Hue的使用

    Hue介绍

    Hue安装

    Hue的HDFS管理与使用

    Hue的YARN管理与使用

    Hue的HIVE管理与使用

    Hue的Oozie管理与使用

    Hue的metadata管理与使用

    Hue的用户管理与使用

  • 29Impala的安装使用

    Impala介绍 / 内存计算与MR,SPARK计算的比较

    impala框架角色讲解 / impala的安装

    impala的命令行使用 / impala的命令参数详解

    impala的内部命令详解 / impala的SQL的ddl

    impala的SQL的dml / impala的SQL的dql

    impala的文件格式与压缩

    impala的hbase整合

    impala的配置与监控 / impala的调优

  • 30Oozie的使用

    Oozie介绍

    Oozie的基于hadoop的分布式调度原理

    Oozie框架角色原理

    Oozie的xml配置文件

    Oozie的job配置文件

    Oozie的命令

    Oozie的配置与监控

    Oozie的开发

第十阶段

Spark生态体系

第十阶段

Spark生态体系

第十阶段

Spark生态体系

第十阶段

Spark生态体系

第十阶段

Spark生态体系
  • 01Scala基础语言应用

    Scala背景介绍

    Scala语言六大特性

    Scala下载安装配置

    Scala IDE开发Scala配置

    IDEA 开发Scala配置

    Scala类型推断机制

    Scala数据类型

    Scala基本语法

    Scala类和对象 / Scala 循环、判断

  • 03Scala函数编程

    Scala函数定义

    Scala递归函数

    Scala默认值函数

    Scala可变参数函数

    Scala匿名函数

    Scala嵌套函数

    Scala偏应用函数

    Scala高阶函数

    Scala柯里化函数

  • 04Scala字符串、集合

    Scala String操作

    Scala Array 操作

    Scala可变数组操作

    Scala List 操作

    Scala 可变列表操作

    Scala Set 操作

    Scala 可变Set操作

    Scala map 操作 / Scala 可变map操作

    Scala 元组操作及要点

  • 05Scala高级应用

    Scala伴生类 / Scala伴生对象

    Scala样例类 / Scala样例类案例

    Scala Trait要点 / Scala Trait 案例

    Scala match匹配

    Scala隐式值操作 / Scala隐式参数操作

    Scala隐式函数操作 / Scala隐式类操作

    ScalaActor通信模型

  • 06Spark基础使用

    Spark技术介绍 / Spark技术站详解

    Spark演变历史 / Spark与MR的区别

    Spark 基于eclipse配置

    Spark基于IDEA配置

    Spark运行模式介绍

    Spark集群搭建 / Spark配置选项详解

    Spark Pi 任务提交运行 / Spark客户端搭建

  • 07Spark核心RDD

    Spark编程核心RDD

    SparkRDD原理及使用

    RDD结构及注意点

    RDD五大特性

    RDD弹性原理

    RDD分布式原理

    RDD容错原理

  • 08Spark 转换算子

    map算子使用 / flatMap算子使用

    filter算子使用 / sample算子使用

    reduceByKey算子使用 / SortByKey算子使用

    Join、union算子使用

    Cogroup算子使用

    distinct使用

    repartition算子使用

    coalesce算子使用

    zip,zipWithIndex使用

  • 09Spark行动算子

    Foreach算子使用

    Take算子使用

    SaveAsTextFile使用

    Count算子使用

    Take算子使用

    Collect算子使用

    First算子使用

    CountByKey使用

    CountByValue使用 / Reduce使用

  • 10Spark 持久化算子

    持久化数据级别分类

    持久化算子cache使用

    Cache要点注意事项

    持久化算子persist使用

    Persist要点注意事项

    持久化算子Checkpoint

    Checkpoint执行流程

    Checkpoint注意事项

    Checkpoint使用优化

  • 11Spark任务提交方式及参数

    Standalone-client模式原理 / 模式流程详解

    Standalone-cluster模式原理

    Standalone-cluster模式流程详解

    Yarn-client模式原理 / Yarn-client模式流程详解

    Yarn-cluster模式原理 / Yarn-cluster模式流程详解

    Client模式提交命令和特点

    Cluster模式提交命令和特点 / Spark任务提交参数详解

  • 12Spark术语

    Spark-ClusterManager

    Spark-Driver

    Spark-Master

    Spark-Worker

    Spark-Executor / Spark-线程池

    Spark-Application / Spark-job

    Spark-Stage / Spark-task

  • 13Spark计算模式

    SparkRDD窄依赖

    SparkRDD宽依赖

    SparkStage切割划分

    SparkStage计算模式

    Pipeline管道数据落地

    Stage并行度划分

    提高Stage并行度方式

  • 14Spark任务调度

    任务调度角色划分 / 资源调度角色划分

    Spark资源调度过程

    Spark任务调度过程

    SparkDAG有向无环图

    粗粒度资源申请特点 / 细粒度资源申请特点

    Spark推测执行机制

  • 15Spark任务提交案例

    Spark pv,uv案例

    Spark WordCount案例

    Spark二次排序案例

    Spark分组取topN案例

    Spark分组取topN优化

    Spark处理数据思路转换

  • 16Spark 高阶应用

    广播变量及注意事项 / 累加器及注意事项

    自定义累加器 / 版本对比变化

    Spark-WebUI详解 / Spark日志查看

    Pipeline计算模式验证 / 历史日志服务器配置

    MasterHA高可用原理 / MasterHA高可用配置

    MasterHA搭建注意点

  • 17Spark 核心之Shuffle

    SparkShuffle概念

    Spark-HashShuffle普通机制、优化机制

    Spark-SortShuffle普通机制

    Spark-SortShufflebypass机制

    HashShuffle执行流程详解 / SortShuffle执行流程详解

    HashShuffle与SortShuffle对比

    Shuffle文件寻址详解 / Spark oom问题处理

    Spark统一内存管理划分 / Spark静态内存管理划分

  • 18SparkSQL初级

    Shark原理分析

    SparkSQL原理分析 / SparkSQL演变过程

    DataFrame与DataSet

    SparkSQL数据源 / SparkSQL底层架构

    SparkSQL谓词下推 / Json格式数据转DataSet

    普通RDD和DataSet互操作

    Parquet数据转DataSet

    JDBC数据转DataSet / aS

  • 19SparkSQL高级

    SparkSQL序列化问题

    Hive On Spark原理

    Spark On Hive原理

    Spark On Hive配置详解

    SparkSQL DataSet存储

    SparkSQL之UDF

    SparkSQL之UDAF

    SparkSQL之over函数

  • 20SparkStreaming流式处理框架

    SparkStreaming介绍

    SparkStreaming&Strom

    SparkStreaming接受数据原理

    SparkStreaming之Dstream

    SparkStreaming读取Socket数据

    foreachRDD算子使用

    transform算子使用

    updateStateByKey算子使用

    window窗口操作

    reduceByKeyAndWindow使用

    DriverHA原理及搭建

  • 21Kafka分布式消息系统应用

    Kafka分布式消息系统介绍

    Kafka应用场景

    Kafka生产消息原理

    Kafka存储消息原理

    Kafka Topic、partition原理

    Consumer消费消息原理

    Kafka集群搭建 / Kafka命令使用

    Kafka消息系统特点

    KafkaLeader均衡机制

    Kafka版本更改对比

    KafkaTopic更改、删除

  • 22SparkStreaming+kafka整合

    Receiver模式整合原理

    Receiver模式问题及优化

    Direct模式整合原理

    Direct模式Api使用

    WAL机制配置及使用

    Receiver模式并行度设置

    Direct模式并行度设置 / Direct模式offset管理

    新版本Direct模式使用 / 新版本Direct模式对比

    新版本Direct模式offset管理

    SparkStreaming配置参数详解

    SparkStreaming反压机制

  • 23Redis语法

    Redis介绍

    String1类型 / String2类型

    List1类型 / List2类型

    Set类型 / Sorted set类型

    Rdb 与aof类型

    无主架构模型 / 主从架构模型

    Redis集群搭建

  • 23Storm流式计算

    Storm应用场景

    Storm架构模型

    Storm框架介绍

    Storm单词统计练习

    Storm分组策略

    Storm分组实践

    Storm伪分布式安装

  • 24Storm计算详解

    Storm异步与同步实时分析框架和实例

    Storm全分布式

    drpc实现

    kafka 与storm

    flume+kafka+storm

    Storm容错 / Storm事务

    Storm电信项目

第十一阶段

机器学习和算法

第十一阶段

机器学习和算法

第十一阶段

机器学习和算法
  • 01Python介绍及安装

    Python介绍

    Python历史

    Python优缺点

    Python应用场景

    Python下载 / Python安装

    Python ide安装

    Python helloworld

    Python交互式窗口

  • 02Python基础知识

    Python注释及乱码

    Python变量 / Python类型

    Python标识符 / Python关键字

    Python输入 / Python输出

    Python运算符

    Python分支结构

    Python input陷阱

    Python 循环结构

  • 03Python集合类型

    字符串

    列表

    元组

    字典

    可变类型

    不可变类型

    集合的迭代

    集合排序 / 集合嵌套

  • 04Python函数

    Python函数介绍

    函数的定义与调用

    Python参数

    Python返回值

    Python递归函数

    Python匿名函数

    高阶函数 / 高阶函数和递归计算

    斐波拉契数列

  • 05Python文件操作

    Python文件的打开与关闭

    Python的读写

    Python的定位读写

    Python文件操作

    Os模块

    文件批量处理

    Mp3音乐播放

    文件批量处理

  • 06Python类与对象

    面向对象编程介绍

    类与对象

    定义类与创建对象

    Self

    保护对象的属性

    继承 / 多继承 / 多态

    类属性与实例属性

    类方法与静态方法

  • 07设计模式与异常

    单例模式

    工厂模式

    异常简介

    异常捕获

    异常的传递

    自定义异常

    异常处理中排除异常

    异常的分类

  • 08Python模块及数据库操作

    模块的使用与安装

    模块制作

    Python中的模块

    模块的发布

    模块安装及使用

    Python连接mysql

    Python查询数据库

    数据API / API的封装

  • 09Numpy库

    numpy介绍 / numpy特点

    numpy安装 / numpy基础

    矩阵的创建 / 矩阵的属性

    矩阵的基本运算

    矩阵的常用函数

    矩阵的切片

    矩阵的索引

    矩阵的迭代 / 矩阵的形状操作

  • 08机器学习基础

    PySpark基础配置

    Python开发工具配置

    PySpark运行开发原理

    Python模块安装方式

    机器学习数学基础 / 线性回归原理

    梯度下降迭代确定模型

    多元线性回归原理 / 参数优化

    模型过拟合问题 / 模型欠拟合问题

    线性回归案例分析

  • 09机器学习算法一

    贝叶斯分类算法

    贝叶斯概率分类原理

    贝叶斯公式推广

    拉普拉斯估计原理

    模型保存

    KNN算法原理

    KNN问题

    机器学习中的归一化

    距离度量方式

  • 10机器学习算法二

    Kmeans聚类算法原理

    Kmeans聚类问题

    Kmens++算法

    K值的选择策略

    TF-IDF原理

    逻辑回顾分类算法原理

    傅里叶变化

    最大似然估计思想

    逻辑回归构造损失函数

  • 11机器学习算法三

    逻辑回顾损失函数公式推导

    逻辑回归归一化

    混淆矩阵

    ROC&AUC评估指标

    推荐系统原理

    推荐系统架构

    lambda架构处理数据

  • 12机器学习算法四

    实时和离线场景应用

    ML下python在Hive中应用

    dubbo使用zookeeper协调应用

    dubbo服务提供端原理

    dubbo服务消费端原理

    dubbo在推荐系统中应用

    实时在线推荐app

  • 13机器学习案例

    垃圾邮件分类案例

    数据点基于贝叶斯分类案例

    手动实现KNN算法 / 数据点基于KNN算法分类

    数据点Kmeans聚类案例

    基于Python的KMeans可视化

    微博聚类案例 / 音乐分类案例

    道路拥堵预测案例 / 推荐系统

第十二阶段

平台架构师课程体系

第十二阶段

平台架构师课程体系

第十二阶段

平台架构师课程体系
  • 01Hive优化

    hive优化思想 / hive查询计划

    hive本地模式 / hive并行计算

    hive严格模式 / hive排序

    hive map join / hive大表join

    hive map-side聚合

    hive合并小文件

    hive map与reduce个数

    hive-jvm重用

    Hive数据倾斜 / Hive脚本编程

    Hive脚本执行架构 / Hive的任务的监控

  • 02hbase优化

    预分区 / Rowkey设计 / 列族个数

    Compact合并优化

    Split优化

    多htable并发写

    Htable参数设置

    批量写 / 批量读

    多线程并发写 / 多htable并发读

    多线程并发读

    缓存查询结果

    Blockcache / Htablepool / Hbase索引

  • 03Spark核心源码分析

    Spark-pipeline iter 源码分析

    map源码分析

    flatMap源码分析

    reduceByKey源码分析

    combineByKey源码分析

    aggregateByKey源码分析

    sortByKey源码分析

    repartition源码分析

    coalesce源码分析

    distinct源码分析

  • 04Spark核心源码分析

    Spark-Master启动源码分析

    Spark-Worker启动源码分析

    Spark-Driver启动源码分析

    Spark-Application注册源码分析

    Spark-Executor启动源码分析

    Spark-资源调度源码分析、任务调度源码分析

    Spark-Shuffle-Write源码分析

    Spark-Shuffle-Read源码分析

  • 05Spark优化

    Spark分配更多的资源

    Spark并行度调优 / Spark 代码调优

    Spark 算子选择使用

    Spark 自定义分区器

    Spark数据结构优化 / Spark数据本地化调优

    Spark内存调优 / Spark对外内存调优

    SparkShuffle调优

    Spark数据倾斜不同解决方案

  • 06机器学习优化

    有无截距

    线性不可分问题

    调整分类域值

    鲁棒性调优

    归一化数据

    均值归一化

    逻辑回归训练方法选择

    机器学习中python脚本优化

  • 07Kylin介绍及架构

    kylin的背景介绍 / kylin的应用场景

    kylin的发展历史 / kylin的工作原理

    kylin的体系架构

    kylin的核心,cube构建

    kylin的sql查询原理 / kylin的特性和生态圈

    kylin事实表 / kylin维度表

  • 08kylin的安装与部署

    kylin的下载 / kylin的安装准备

    kylin的部署方式 / kylin安装部署

    KyLin和Hive / KyLin和hbase

    KyLin和Zookeeper

    OLAP分类

    星型模型 / 雪花模型

  • 09kylin的使用及访问方式

    simple cube描述

    cube构建

    kylin的视图

    kylin的元数据存储

    kylin JDBC访问方式

    kylin rest方式

  • 10Flink流式处理框架一

    Flink架构原理

    Flink与Storm的区别

    Flink与SparkStreaming的区别

    Flink编程模型抽象层次

    Flink无界数据流

    Flink有界数据流

    Flink程序和数据流

    Flink保存点

  • 11Flink流式处理框架二

    窗口和时间

    有状态算子操作

    容错检查点原理

    Flink任务和算子链

    Flink-TaskManager

    Flink-JobManager

    任务槽和资源

    Flink下载安装使用

  • 12Flink流式处理框架三

    Flink-DataStream Api操作

    Flink与Kafka整合

    基于本地模型部署Flink

    基于Yarn模式部署Flink

    TableApi 及SQL查询使用

    网页排名案例实现

    数据类型和序列化

    Flink高可用 / Flink状态和容错

大牛引路,实战贯穿!

  • 智慧交通项目
  • 电商日志分析项目
  • 游戏运营分析项目
  • App个性化推荐项目
  • 联盟广告分析项目

阿里巴巴基于杭州智慧交通项目

智慧交通是指在交通领域中充分运用大数据、云计算、互联网、机器学习、等技术,通过高新技术汇集交通信息,对交通管理、交通运输、公众出行等等交通领域全方面以及交通建设管理全过程进行管控支撑,使交通系统在区域、城市甚至更大的时空范围具备感知、互联、分析、预测、控制等能力,以充分保障交通安全、发挥交通基础设施效能、提升交通系统运行效率和管理水平,为通畅的公众出行和可持续的经济发展服务。

项目模块:

天网搜车,智能研判,轨迹分析,套牌分析,稽查布控,跟车分析,昼伏夜出,统计分析等15大模块。

技术架构:

hdfs +spark +kafka +flume + spark Streaming +spark MLlib+redis

某大型电商日志分析项目

日志分析项目是以数据为驱动,关注电商运营每一个环节,贯穿不同运营阶段,随时发现运营问题,调整运营计划。一般来说电商平台每天会产生100G到50T左右的日志数据。有了海量的数据就可以挖掘出有价值的决策依据。

需求模块:

用户分析,流量分析,活动效果分析,渠道分析和订单分析等8八模块

技术架构:

nginx + HDFS+ mapreduce +Hive+hbase +spark +flume +sqoop+mysql +D3

大型游戏运营分析项目

大型网络游戏每天会产生10G—100G的数据,通过大数据分析可以帮助追踪注册转化率数据、快速定位注册刷号行为。通过对关卡的访问数,成功率,失败原因进行分析,来合理调整难易度。游戏生产虚拟物品,而不是印钞。您需要找到玩家在不同阶段对哪类物品有最强依赖,才能刺激痛点策划拉收。

项目模块:

玩家在线分析,等级分析,任务难度分析,收入分析,虚拟消费分析等7大模块。

技术架构:

linux+hdfs+spark+mapreduce+hive+hbase。

App个性化推荐项目

推荐系统是利用 大数据和数据挖掘技术向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。

功能模块:

清洗数据,构建训练集,训练模型,评估模型,推荐APP等

技术架构:

hdfs +hive +hbase +kafka +spark +spark MLlib+ python+redis +dubbo

联盟广告分析项目

广告分析是指用大数据来分析和测定广告促进商品或劳务销售的效果。可以检验广告目标是否正确、广告媒体运用是否得当、广告分布时间与频率是否适宜、投入的广告费用是否合理等,从而进一步检验出广告决策是否正确、广告创意设计是否需要改进等。广告分析,能较客观地测定广告效果所取得的效益,提高广告主对广告的信心,也有利于广告公司的业务发展。

项目模块:

联盟广告分析项目-项目模块:这块没有提供文案

技术架构:

nginx + HDFS+ mapreduce +Hive+hbase +spark +flume +sqoop+mysql +D3

其他培训机构一直在模仿我们的项目,却讲不明白项目的思路,大数据实战项目,思路还是原装的好

领取hadoop实战书一本 >>

领取机器学习数据(100课时) 平台架构师(140课时)
大数据174.35G视频

  • QQ空间

      扫描二维码
      关注上海尚学堂QQ空间

  • 微信订阅号

      扫描二维码
      关注尚学堂微信公众号

  • 在线咨询

      单老师
      15201841284

上海尚学堂校区地址:上海市浦东新区城丰路650号    咨询电话:15201841284    
上海尚学堂智能科技有限公司  版权所有Copyright 2006-2020     沪ICP备16053543号