岗位
- Linux云计算运维工程师
- Linux云计算SRE工程师
- DevOps工程师
岗位职责
- 企业数据不能丢失
- 企业业务 7*24 小时运行
- 企业业务服务效率高、用户体验好
运维规范
工作基本原则:简单、易用、高效、人员细心靠谱
执着
专注
自信
心态
基础不牢,地动山摇。
运维工具
工具类型 | 工具名称 |
---|---|
文本处理 | grep、sed、awk |
数据传输 | Rsync、Scp、Inodify/Sersync |
进程管理 | Supervisor |
性能分析 | top、free、df、iftop、iostat、vmstat、dstat、sar、sysdig |
网络服务 | vsftp、nfs、samba、 bind、dhcp、 postfix |
负载均衡 | LVS、HAProxy、Nginx |
Web服务 | Aapache、Nginx、Tomcat、JBoss、Resin |
数据库 | MySQL、MariaDB、PostgreSQL |
MySQL代理 | Altas、Cobar、 Mycat |
NoSQL | Redis、MongoDB |
消息中间件 | Kafka、RabbitMQ、ActiveMQ |
日志系统 | ELK Stack、Loki |
运维监控 | Zabbix、Cacti、Nagios、Grafana、Promotheus、睿象云 |
版本管理 | SVN、Git |
静态缓存 | Squid、 Varnish、 Nginx |
高可用软件 | Keepalived、Heartbeat、 DRBD、corosync+pacemaker |
集群管理工具 | Ansible、Saltstack、Chef、 Puppet |
虚拟化与云平台 | KVM、Xen、Docker、Kubernetes、Openstack、Cloudstack |
自动装机 | Kickstart、 Cobbler |
抓包分析 | Tcpdump、Wireshark |
持续集成 | Jenkins、Gitlab |
压测 | ab、fio、sysbench、mysqlslap |
安全检查 | chrootkit、 rkhunter |
安全管理 | Iptables、Firewalld、Ossec、Fail2ban |
SRE/稳定性保障具体措施包括但不限于:
1.高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。
2.监控与警报: 设置全面的监控系统来实时跟踪关键指标、日志、事件和服务性能。监控可以包括服务器资源利用率、请求响应时间、错误率、数据库性能等。当指标超出预定的阈值时,自动触发警报通知相关团队,以便及时采取措施。
3.自动化平台/工具开发:利用自动化工具和流程,简化系统部署、配置管理、更新、扩容、维护和故障恢复等操作,减少人工操作的错误和复杂性,缩短故障恢复时间,提高效率和稳定性。
4.故障排查与问题解决: 对系统故障进行深入的分析和排查,追踪问题根因,并采取措施解决问题,以防止类似问题再次发生。
5.预案和演练:制定应急预案和灾难恢复计划,并定期进行演练和测试,以确保在紧急情况下能够快速响应和恢复系统正常运行。
6.备份与容灾恢复:制定完备的数据备份和容灾方案,确保在出现故障或灾难时,系统能够快速切换到备用设备或利用备份数据进行恢复,保证业务的连续性和数据的安全性。
7.容量规划: 定期评估服务的容量需求,确保系统具备足够的资源(例如计算、存储、网络等)来满足需求,避免资源瓶颈导致系统性能下降。他们必须确保服务能够应对未来的用户增长和流量峰值。
8.性能优化: 定期对系统进行性能分析,识别性能瓶颈,并采取措施优化系统性能,提高响应时间和吞吐量。
9.安全和权限控制:实施适当的安全措施,包括访问控制、身份验证、数据加密、安全审计等,以保护系统免受恶意攻击、数据泄露或未授权访问的风险。
10.发布/回滚策略: 参与制定发布/回滚策略,确保新版本的软件能够平稳地上线,同时减少对现有系统的影响,新版本发生问题时,能快速回滚。
11.文档和知识共享:记录系统的配置、架构和故障处理经验,以便团队成员之间进行知识共享和技能传承。
SLA 服务等级协议(简称:SLA,全称:service level agreement)
SLI (服务测量指标,service-level index)
SLO (服务等级目标,service-level objective)
通常 SLO 通过一串 9 来度量
月度
90%(1个9的正常运行时间):这意味着10%的停机时间,也就是说在过去的30天里停机了3天。
99%(2个9的正常运行时间):意味着在过去30天中有1%,或者说7.2小时的停机时间。
99.9%(3个9的正常运行时间):意味着0.1%,或者说43.2分钟的停机时间。99.95%(3.5个9的正常运行时间):意味着0.05%,或者说21.6分钟的停机时间。
99.99%(4个9的正常运行时间):意味着0.01%,或者说4.32分钟的停机时间。99.999%(5个9的正常运行时间):意味着0.001%,或者说26秒的停机时间。
年度
1年 = 365天 = 8760小时
99 = 8760 * (100-99)% = 8760 * 0.01 = 87.6小时
99.9 = 8760 * (100-99.9)% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.56分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.256分钟