一遇风云变化龙

运维管理

作者头像
空青、 本文作者

2024-11-20 阅读 51 约 7分钟读完

评论0

岗位

  • Linux云计算运维工程师
  • Linux云计算SRE工程师
  • DevOps工程师

岗位职责

  1. 企业数据不能丢失
  2. 企业业务 7*24 小时运行
  3. 企业业务服务效率高、用户体验好

运维规范

工作基本原则:简单、易用、高效、人员细心靠谱
执着
专注
自信
心态
基础不牢,地动山摇。

运维工具

工具类型 工具名称
文本处理 grep、sed、awk
数据传输 Rsync、Scp、Inodify/Sersync
进程管理 Supervisor
性能分析 top、free、df、iftop、iostat、vmstat、dstat、sar、sysdig
网络服务 vsftp、nfs、samba、 bind、dhcp、 postfix
负载均衡 LVS、HAProxy、Nginx
Web服务 Aapache、Nginx、Tomcat、JBoss、Resin
数据库 MySQL、MariaDB、PostgreSQL
MySQL代理 Altas、Cobar、 Mycat
NoSQL Redis、MongoDB
消息中间件 Kafka、RabbitMQ、ActiveMQ
日志系统 ELK Stack、Loki
运维监控 Zabbix、Cacti、Nagios、Grafana、Promotheus、睿象云
版本管理 SVN、Git
静态缓存 Squid、 Varnish、 Nginx
高可用软件 Keepalived、Heartbeat、 DRBD、corosync+pacemaker
集群管理工具 Ansible、Saltstack、Chef、 Puppet
虚拟化与云平台 KVM、Xen、Docker、Kubernetes、Openstack、Cloudstack
自动装机 Kickstart、 Cobbler
抓包分析 Tcpdump、Wireshark
持续集成 Jenkins、Gitlab
压测 ab、fio、sysbench、mysqlslap
安全检查 chrootkit、 rkhunter
安全管理 Iptables、Firewalld、Ossec、Fail2ban


SRE/稳定性保障具体措施包括但不限于:
1.高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。
2.监控与警报: 设置全面的监控系统来实时跟踪关键指标、日志、事件和服务性能。监控可以包括服务器资源利用率、请求响应时间、错误率、数据库性能等。当指标超出预定的阈值时,自动触发警报通知相关团队,以便及时采取措施。
3.自动化平台/工具开发:利用自动化工具和流程,简化系统部署、配置管理、更新、扩容、维护和故障恢复等操作,减少人工操作的错误和复杂性,缩短故障恢复时间,提高效率和稳定性。
4.故障排查与问题解决: 对系统故障进行深入的分析和排查,追踪问题根因,并采取措施解决问题,以防止类似问题再次发生。
5.预案和演练:制定应急预案和灾难恢复计划,并定期进行演练和测试,以确保在紧急情况下能够快速响应和恢复系统正常运行。
6.备份与容灾恢复:制定完备的数据备份和容灾方案,确保在出现故障或灾难时,系统能够快速切换到备用设备或利用备份数据进行恢复,保证业务的连续性和数据的安全性。
7.容量规划: 定期评估服务的容量需求,确保系统具备足够的资源(例如计算、存储、网络等)来满足需求,避免资源瓶颈导致系统性能下降。他们必须确保服务能够应对未来的用户增长和流量峰值。
8.性能优化: 定期对系统进行性能分析,识别性能瓶颈,并采取措施优化系统性能,提高响应时间和吞吐量。
9.安全和权限控制:实施适当的安全措施,包括访问控制、身份验证、数据加密、安全审计等,以保护系统免受恶意攻击、数据泄露或未授权访问的风险。
10.发布/回滚策略: 参与制定发布/回滚策略,确保新版本的软件能够平稳地上线,同时减少对现有系统的影响,新版本发生问题时,能快速回滚。
11.文档和知识共享:记录系统的配置、架构和故障处理经验,以便团队成员之间进行知识共享和技能传承。

SLA 服务等级协议(简称:SLA,全称:service level agreement)
SLI (服务测量指标,service-level index)
SLO (服务等级目标,service-level objective)
通常 SLO 通过一串 9 来度量

月度
90%(1个9的正常运行时间):这意味着10%的停机时间,也就是说在过去的30天里停机了3天。
99%(2个9的正常运行时间):意味着在过去30天中有1%,或者说7.2小时的停机时间。
99.9%(3个9的正常运行时间):意味着0.1%,或者说43.2分钟的停机时间。99.95%(3.5个9的正常运行时间):意味着0.05%,或者说21.6分钟的停机时间。
99.99%(4个9的正常运行时间):意味着0.01%,或者说4.32分钟的停机时间。99.999%(5个9的正常运行时间):意味着0.001%,或者说26秒的停机时间。

年度

1年 = 365天 = 8760小时
99 = 8760 * (100-99)% = 8760 * 0.01 = 87.6小时
99.9 = 8760 * (100-99.9)% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.56分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.256分钟
评论
此页面未开启评论