咱们这篇文章不是说运维除了懂Linux,还要懂Windows,而是触及运维的其他方方面面。
环境布置
一开始这个国际是开发的,然后才是运维的。
开发完成产品逻辑,将产品开发完成后,然后提走运维进行布置。此刻答应就需求准备好布置环境,如布置在Linux效劳器上,装置相应的软件,如Apache、Nginx、tomcat、JDK、PHP、MySQL等等。你不能只装了软件吧,还需求看看详细是哪个版别,java 7和java 8的不同仍是有点的,php5和php7也有些语法不兼容。把软件都装置好了,就能够上线了?仍是不可。还需求测验吧,那就还需求布置一套测验环境。有些时分,开发环境也是需求运维来布置的。
排错和调优
工作从来都没有一往无前的。
上线没多久,效劳就502了,还不被老板骂死。尽管你有一肚子的冤枉,我仅仅个运维,代码不是我写的,为什么要我来背这锅?!冤枉归冤枉,效劳拜访不了了,就是运维的事。赶快定位问题,解决问题才是王道。怎样来定位问题呢?最简略直接的方法就是看日志,看体系日志,看软件相关的日志,结合毛病现象和经验,快速的进行定位和恢复。然后就是总结经验,吸取教训,写事故陈述。OK,现在你知道,需求对体系环境需求进行一定的调优操作,不再做背锅侠。
相关技能:top,vmstat,iftop,awk,sed,sar,iostat,strace,...
备份
做最好的计划,做最坏的打算。
前不久的gitlab删库事件的教训犹在眼前,丢掉了几小时的数据,尽管大部分的备份战略都失效了,但仍是挽救了几小时前的一个备份,才没有形成更大的数据丢掉和公司丢失。咱们需求对设备进行备份冗余,需求对数据库进行备份及离线备份,需求对网站静态进行备份冗余,需求对机房进行备用,能做到双活,那是更好的啦。
相关技能:rsync,crontab,lvm快照,mysqldump,extrabackup,彻底备份,差异备份,增量备份,离线异地备份,...
高可用和集群
没有万古流芳,咱们不能确保硬件24小时在线,但需求保证效劳24小时在线。
呈现毛病后,假如做好高可用和冗余,毛病主动切换,移除毛病节点,那样也就保证了效劳的实时在线。在老板和用户不知情的情况下,悄么的把毛病处理好的,KPI算是保住了,奖金或许就会有的吧。
相关技能:F5,Nginx,LVS,HA-proxy,MHA,Zookeeper,各种其他分布式集群计划,...
监控告警
运维工程师的第一次解放运动。
时间忧虑网站挂掉,一年365天、每周7天、每天24小时,时间坚持精力高度严重,就算你是神仙都会撑不住的。咱们需求一个机器来监督其他的机器作业,咱们需求解放咱们自己。当有毛病发作的时分,经过短信、微信、钉钉、邮件等等告诉对应的
运维工程师来处理,乃至是主动切换或去除毛病节点,然后咱们离线对毛病节点进行问题排查。
相关技能:Zabbix,Nagios,Cacti,Prometheus,open-falcon,Ganglia,sar,...
安全和审计
狂奔在互联网的阳关大道上,不过有些人是在裸奔。
不安全的网络环境和效劳器装备,无异于在网络国际裸奔,任何人都能够窥视你的隐私。你的使用是否做了SQL防注入?你的防火墙是否敞开?是否还在用root+暗码的方法登录效劳器?网站敞开了https么?是否对体系操作进行审计?
相关技能:iptables,firewalld,waf,auditd,各效劳的正确装备,...
主动化和DevOps
运维工程师的第2次解放运动。
偷闲是社会进步的第一动力。聪明的咱们怎样会让自己一直在重复枯燥的工作上浪费时间,装体系、布置环境、发版别、批量操作,把这全部交给程序去完成吧,咱们需求的是享受日子。
相关技能:shell,python,go,rundeck,ansible,saltstack,puppet,chef,cobbler,fabric,...
虚拟化和云效劳
正在发作的一场运维革新。
这场革新的发起人是买书的亚马逊,这家伙希望卖全部能够卖的东西,包含自己搁置的效劳器资源。现在国内的阿里云和腾讯云也开展得如日中天,他们简直提供了运维所需求的全部,乃至能够让一个公司不再需求运维的岗位。你需求效劳器,只需求几秒钟,就能够创立一台。你需求数据库集群,只需求鼠标点击几下,就能够开通。
阅读推荐:Linux 运维工程师入门和学习必经之路