首先判断是单台实例问题还是运营商/上游路由问题。常见排查顺序:检查实例本身的网络服务(sshd/nginx等)是否运行,使用ping、traceroute、mtr检测延迟与丢包,确认外网路由是否到达目标节点。
其次在服务器上查看防火墙规则(iptables/ufw/nftables)、云平台安全组设置和监听端口,排除端口被误封或策略变更导致连通中断的可能。
推荐命令:ping -c 10 <目标IP>、traceroute <目标IP>、mtr -r <目标IP>、ss -tunlp、iptables -L -v。通过这些命令可以定位是网络链路丢包、延迟还是本机服务异常。
若 traceroute 显示在运营商或境外骨干丢包,应联系VPS提供商或提交工单,提供 mtr/traceroute 输出;同时可尝试重启网卡或重启实例以触发重新分配路由。
先在实例上使用 top/htop、vmstat、iostat 来观察CPU、内存与磁盘IO的实时占用,找出占用资源的进程或线程。
对于CPU占用高,检查是否为异常进程(矿池、恶意脚本)或正常业务峰值;对于IO高,检查是否为日志过多、数据库慢查询或磁盘坏道。
临时可重启异常进程、清理临时文件、truncate大日志文件、调整缓存策略;长期应优化应用、配置缓存(Redis、Memcached)、索引数据库并合理配置交换分区与IO调度。
使用 df -h、du -sh、smartctl 检查磁盘健康与剩余空间,必要时扩容磁盘或迁移到性能更好的存储卷。
首先立即限制访问:修改重要账号密码、关闭非必要端口并临时对管理端口添加白名单,必要时断网隔离实例以阻止攻击扩大。
采集证据:保留/var/log/auth.log、/var/log/messages、bash历史等日志,使用chkrootkit、rkhunter扫描可疑后门,列出可疑进程与网络连接(netstat/ss、lsof)。
若确认被入侵,优先恢复备份快照到干净环境,再逐步比对差异;对于被篡改的系统,建议重装系统并从可信备份恢复应用数据,避免直接在被攻陷的系统上长期修复。
启用SSH密钥认证并禁用密码登录、部署Fail2ban或防火墙限速、定期更新系统与应用补丁、最小权限管理,结合入侵检测(如OSSEC)提升响应能力。
住宅IP更容易被列入黑名单。先检查邮件日志(/var/log/mail.log)与公共RBL(如spamhaus)查询IP是否被列入黑名单;确认DNS PTR、SPF、DKIM、DMARC配置是否正确。
如果被列入黑名单,可按RBL流程申请解封,同时停止违规行为(开放代理、大量垃圾邮件发送),并考虑更换IP或使用第三方邮件中继服务提高投递信誉。
限制单机发送速率、启用队列与重试机制、清理无效收件人列表并实现退订机制;定期维护PTR与DNS记录以提升发信方信誉。
如频繁出现滥用投诉,优先考虑使用商业邮件服务或购买ISP/云厂商提供的静态商业IP,避免长时间依赖易被封的住宅段IP。
建立完善的监控体系,包含主机性能(CPU/内存/磁盘/IO)、网络连通性、进程与服务健康、日志告警与安全事件检测;使用Prometheus+Grafana、Zabbix或云监控服务实现报警与可视化。
定期备份与演练:设置自动快照与文件/数据库增量备份,并定期进行恢复演练,验证备份可用性;结合异地备份降低单点故障风险。
采用自动化部署和配置管理(Ansible/Chef/Puppet),使用版本控制管理配置文件,变更前先在测试环境验证并记录变更流程与回滚方案。
配置日志轮转(logrotate)、集中化日志(ELK/Fluentd),并制定容量预警与扩容策略,避免磁盘因日志写满导致服务中断。
定期漏洞扫描、补丁管理与访问审计,结合最低权限原则与定期更换密钥/证书,形成可执行的运维手册和应急预案,以保证长期稳定运行。