Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Linux---读写排查流程(未完待续) #110

Open
AronChung opened this issue Aug 28, 2023 · 0 comments
Open

Linux---读写排查流程(未完待续) #110

AronChung opened this issue Aug 28, 2023 · 0 comments
Labels

Comments

@AronChung
Copy link
Owner

AronChung commented Aug 28, 2023

背景

在运维过程中,最常见的就是读写异常,该类异常涉及的环节非常多,从客户端->计算引擎->存储引擎->操作系统,其中间还涉及网络传输、权限控制、数据加密证书等。排查流程十分繁琐,万一忽略了某些关键指标,最后还需要来回排查,或者让用户重现一下问题之类的时间成本。


本文站在运维的角度,重点讲Linux系统层面的核心参考指标,让我们能快速的排查机器本身是否存在问题。

读写排查流程

网络 -> io -> cpu -> 磁盘 -> 内存 ->

网络

  1. 确认网络连接:首先,检查物理网络连接,确保网线插好、网络设备正常工作。其次,使用ping命令验证是否能够到达网络上的其他主机或外部 IP 地址。
  2. 检查网络配置:确认网络配置是否正确,包括 IP 地址、子网掩码、网关等。使用ifconfigip addr命令查看网络接口的配置信息,并使用route -n命令查看路由表。
  3. DNS 解析:如果网络连接正常但无法访问网站,可能是 DNS 解析问题。使用nslookup hostname(输入hostname会输出主机名)或dig(反解ip查域名,PTR记录: dig -x 192.168.1.1 +short A记录:dig +short hadoop01.zcm.com)命令测试 DNS 解析是否正常,尝试解析网站域名。
  4. 防火墙设置:检查系统防火墙配置,确保它没有阻止网络访问。使用iptablesfirewall-cmd命令查看防火墙规则,并根据需要进行修改。
  5. 检查网络服务:确认关键的网络服务(如 SSH、HTTP、FTP 等)是否正在运行,并监听正确的端口。使用netstat命令(查看TIME_WAIT状态netstat -n|awk '/^tcp/ {++state[$NF]} END {for(i in state) print i," \t" ,state[i]}')或ss命令查看正在监听的网络连接和端口。
  6. MTU 大小:尝试调整网络接口的 MTU(最大传输单元)大小,有时候过大或过小的 MTU 值可能导致网络故障。使用ifconfig或ip命令修改 MTU 大小。
  7. 日志分析:检查系统日志文件(如/var/log/messages、/var/log/syslog等)以寻找与网络问题相关的错误或警告信息。
@AronChung AronChung changed the title Linux---运维核心参考指标 Linux---读写排查流程 Sep 18, 2023
@AronChung AronChung changed the title Linux---读写排查流程 Linux---读写排查流程(未完待续) Nov 6, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant