运维面试题(企业运维经典面试题汇总（1）)

运维面试题

1.如何判断mysql主从是否同步？该如何使其同步？
Slave_IO_Running
略2.mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟？
mysql的innodb如何定位锁问题:
在5.5中，information_schema 库中增加了三个关于锁的表（MEMORY引擎）：innodb_trx ## 当前运行的所有事务innodb_locks ## 当前出现的锁innodb_lock_waits ## 锁等待的对应关系
如果延迟比较大，就先确认以下几个因素：
2. 主从复制单线程，如果主库写并发太大，来不及传送到从库，就会导致延迟。更高版本的mysql可以支持多线程复制
4. 网络延迟5. master负载
一般的做法是，使用多台slave来分摊读请求，再从这些slave中取一台专用的服务器，只作为备份用，不进行其他任何操作.
–slave-net-timeout=seconds 单位为秒默认设置为 3600秒
#参数含义：当slave从主数据库读取log数据失败后，等待多久重新建立连接并获取数据
=seconds 单位为秒默认设置为 60秒
#参数含义：当重新建立主从连接时，如果连接建立失败，间隔多久后重试。
MySQL数据库主从同步延迟解决方案
=1，innodb_flush_log_at_trx_commit
= 1 之类的设置，而slave则不需要这么高的数据安全，完全可以讲sync_binlog设置为0或者关闭binlog，innodb_flushlog也可以设置为0来提高sql的执行效率。另外就是使用比主库更好的硬件设备作为slave。3.osi七层模型，tcp三次握手过程，tcp连接断开过程，什么情况下tcp进入time_wait?
答：其他问题答案略
当关闭一个 socket 连接时，主动关闭一端的 socket 将进入TIME_WAIT状态，而被动关闭一方则转入CLOSED状态。
服务器端发送FIN报文端，进入LAST_ACK状态。5、客户端收到FIN报文端，发送FIN的ACK，同时进入TIME_WAIT状态，启动TIME_WAIT定时器，超时时间设为2MSL。6、服务器端收到FIN的ACK，进入CLOSED状态。7、
4.什么是跨站脚本***，有何危害，sql注入***如何防范？
答：略5.海量文件如何存储？
答：使用分布式存储，如mfs、hadoop等6.如何重置mysql root密码？
答：一、在已知MYSQL数据库的ROOT用户密码的情况下，修改密码的方法：
2、在mysql>环境中,使用update命令，直接更新mysql库user表的数据：
set password=password(‘新密码’) where user=’root’;
;
3、在mysql>环境中，使用grant命令，修改root用户的授权权限。
二、如查忘记了mysql数据库的ROOT用户的密码，又如何做呢？方法如下：
2、使用mysqld_safe脚本以安全模式（不加载授权表）启动mysqld 服务
&
＃mysql -u root
> Update mysql.user set password=password(‘新密码’) where user=’root’;
> flush privileges;7.把/data目录及其子目录下所有以扩展名.txt结尾的文件中包含oldgirl的字符串全部替换为oldboy
答：
find /data/ -type f -name “*.txt” | xargs sed -i ‘s/oldgirl/oldboy/g’8.创建目录/data/oldboy,并且在该目录下创建文件oldboy.txt,然后在文件“oldboy.txt”里写入内容“inet addr : 10.0.0.8 Bcast : 10.0.0.255 Mask : 255.255.255.0 ”(不包含引号)
答：# mkdir -p /data/oldboy
# echo “inet addr: 10.0.0.8 Bcast: 10.0.0.255 Mask:255.255.255.0” >> /data/oldboy/oldboy.txt9.脚本计算1+2+3…. +100=？
答：
[root@localhost ~]# cat sum.sh
#!/bin/bash
=1
=0
while [ $num -le 100 ]
do
=$(expr $sum + $num)
let num++
done
echo “1+2+3…+100=”$sum
[root@localhost ~]# sh sum.sh
…+100=5050 10.Apache和MySQL 两种服务能否装在同一台机器上，如何查看Apache和mysql端口和进程？
答案略11.如何在一台虚拟机上同时部署4个网站，访问域名分别是 www.test1.net www.test2.net test1.jjwxc.net test2.jjwxc.net
答案略12.统计一下/var/log/nginx/access.log 日志中访问量最多的前十个IP?
cat access_log | awk ‘{print $1}’ | uniq -c|sort -rn|head -10
awk ‘{print $1}’ /var/log/nginx/access.log | sort | uniq -c | sort -nr -k1 | head -n 1013.怎么查看当前系统中每个IP的连接数，怎么查看当前磁盘的IO,怎么查看当前网络的IO?
怎么查看当前系统中每个IP的连接数：
# netstat -n | awk ‘/^tcp/ {print $5}’ | awk -F: ‘{print $1}’ | sort | uniq -c| sort –rn
uniq 将重复的数据仅仅列出一个来显示，uniq -c，进行计数
awk -F: ‘{print $1}’ 以F 为分界符，取出第一个：之前的数据怎么查看当前磁盘的IO：
1） iostat可以提供丰富的IO状态数据。
iostat 是 sysstat 工具集的一个工具，需要安装。
[root@localhost ~]# iostat -d -k 1 10
(localhost.localdomain) 03/23/2017 _x86_64_(2 CPU)
sda 16.60 597.83 29.44 384048 18909
dm-0 15.78 551.54 26.20 354311 16831
参数 -d 表示，显示设备（磁盘）使用状态；-k某些使用block为单位的列强制使用Kilobytes为单位；1 10表示，数据显示每隔1秒刷新一次，共显示10次。
tps：该设备每秒的传输次数。
kB_read/s：每秒从设备读取的数据量；kB_wrtn/s：每秒向设备写入的数据量；kB_read：读取的总数据量；kB_wrtn：写入的总数量数据量；这些单位都为Kilobytes。
-x 参数：使用-x参数我们可以获得更多统计信息。
iostat -d -x -k 1 10 #查看设备使用率（%util）、响应时间（%await）
await：每一个IO请求的处理的平均时间（单位是微秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。
%util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度。一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。
2）使用iotop命令
要安装iotop软件包
iotop命令是一个用来监视磁盘I/O使用状况的top类工具。iotop具有与top相似的UI。Linux下的IO统计工具如iostat，nmon等大多数是只能统计到per设备的读写情况，如果你想知道每个进程是如何使用IO的就比较麻烦，使用iotop命令可以很方便的查看。
怎么查看当前网络的IO：
iftop 查看网络带宽情况(必须从epel源安装)

14.写一个脚本，实现批量添加20个用户，用户名为：user1-20，密码为user后面跟着5个随机字符或数字
[root@localhost ~]# cat useradd.sh
#!/bin/bash
=”user”
for number in $(seq 1 20)
do
=$(cat /dev/urandom | head -1 | md5sum | head -c 5)
useradd $name$number
echo “user$password” | passwd –stdin user$number &> /dev/null
echo “$name$number user$password” >> userinfo.txt
done 15.dmesg命令中看到ip-conntrack：table full，dropping packet，如何解决？
答：
线上web服务器在访问量很大时，就会出现网络连接丢包的问题，通过dmesg命令查看日志，发现如下信息：
ip_conntrack: table full, dropping packet.
为什么会出现 ip_conntrack: table full, dropping packet 呢？这里面关键的信息是”ip_conntrack: table full, dropping packet”,从这里可以判断出这跟iptables有关系了，因为iptables防火墙使用了ip_conntrack内核模块实现连接跟踪功能，所有的进出数据包都会记录在连接跟踪表中，包括tcp，udp，icmp等，一旦连接跟踪表被填满以后，就会发生丢包，导致网络不稳定。当这张表满了，就会在日志里面写入该信息（执行命令dmesge | more查看）。
而当我们的服务器确实打开了iptables防火墙，并且都是在网站流量非常高的时候经常会出现这个问题。这个问题的原因是由于web服务器收到了大量的连接，在启用了iptables的情况下，iptables会把所有的连接都做链接跟踪处理，这样iptables就会有一个链接跟踪表，当这个表满的时候，就会出现上面的错误。
查看当前连接数：
[root@localhost ~]# cat /proc/sys/net/netfilter/nf_conntrack_count
iptables的链接跟踪表最大容量配置文件如下：
[root@localhost ~]# cat /proc/sys/net/netfilter/nf_conntrack_max
注：
由于nf_conntrack 工作在3层，支持IPv4和IPv6，而ip_conntrack只支持IPv4，因此nf_conntrack模块在Linux的2.6.15内核中被引入，而ip_conntrack在Linux的2.6.22内核被移除（centos6.x版本），因此不同版本的系统，配置文件也就不尽相同了。目前大多的ip_conntrack_*已被 nf_conntrack_* 取代，很多ip_conntrack_*仅仅是个软链接，原先的ip_conntrack配置目录/proc/sys/net/ipv4/netfilter/ 仍然存在，但是新的nf_conntrack在/proc/sys/net/netfilter/中，这样做是为了能够向下的兼容。
这个问题该如何解决，解決方法一般有两个：
方法1：
[root@localhost ~]# sysctl -w net.nf_conntrack_max=100000
= 100000
[root@localhost ~]# cat /proc/sys/net/netfilter/nf_conntrack_max
sysctl-p注：
严格来看重启 iptables/ip6tables 会重新加载 nf_conntrack 相关的模块, 引起参数恢复成默认值。
以免重启 iptables 引起参数失效. 也可以在 /etc/sysconfig/iptables-config 文件中开启选项 IPTABLES_SYSCTL_LOAD_LIST=”.nf_conntrack”, iptables 重启后会进行 sysctl 操作.
方法2：
不使用ip_conntrack，nf_conntrack_ipv4，xt_state模块
16、varnish nginx squid各自缓存的优缺点
要做cache服务的话，我们肯定是要选择专业的cache服务，优先选择squid和varnish。
高性能、开源的反向代理服务器和内存缓存服务器。
1. 高性能；
3. 支持0-60秒的精确缓存时间。
1. 不具备自动容错和恢复功能，重启后数据丢失；
3. 32位机器上缓存文件大小为最大2GB；
应用场景：
nginx
2Nginx缓存内部没有缓存过期和清理的任何机制，这些缓存的文件会永久性地保存在机器上，如果要缓存的东西非常多，那就会撑暴整个硬盘空间。
4Nginx不会自动选择内存或硬盘作为存储介质，一切由配置决定，当然在当前的操作系统里都会有操作系统级的文件缓存机制，所以存在硬盘上也不需要过分担心大并发读取造成的io性能问题。
Squid，很古老的反向代理软件，拥有传统代理、身份验证、流量管理等高级功能，但是配置太复杂。它算是目前互联网应用得最多的反向缓存代理服务器，工作于各大古老的cdn上
17、查询DNS的深层结构
当 DNS 客户机需要查询程序中使用的名称时，它会查询本地DNS 服务器来解析该名称。客户机发送的每条查询消息都包括3条信息，以指定服务器应回答的问题。
● 指定的查询类型，它可根据类型指定资源记录，或作为查询操作的专门类型。
对于DNS 服务器，它始终应指定为 Internet 类别。例如，指定的名称可以是计算机的完全合格的域名，如im.qq.com，并且指定的查询类型用于通过该名称搜索地址资源记录。
另外，客户机自己也可尝试联系其他的 DNS 服务器来解析名称。如果客户机这么做，它会使用基于服务器应答的独立和附加的查询，该过程称作迭代，即DNS服务器之间的交互查询就是迭代查询。

1、在浏览器中输入www.qq.com域名，操作系统会先检查自己本地的hosts文件是否有这个网址映射关系，如果有，就先调用这个IP地址映射，完成域名解析。
3、如果hosts与本地DNS解析器缓存都没有相应的网址映射关系，首先会找TCP/ip参数中设置的首选DNS服务器，在此我们叫它本地DNS服务器，此服务器收到查询时，如果要查询的域名，包含在本地配置区域资源中，则返回解析结果给客户机，完成域名解析，此解析具有权威性。
5、如果本地DNS服务器本地区域文件与缓存解析都失效，则根据本地DNS服务器的设置（是否设置转发器）进行查询，如果未用转发模式，本地DNS就把请求发至13台根DNS，根DNS服务器收到请求后会判断这个域名(.com)是谁来授权管理，并会返回一个负责该顶级域名服务器的一个IP。本地DNS服务器收到IP信息后，将会联系负责.com域的这台服务器。这台负责.com域的服务器收到请求后，如果自己无法解析，它就会找一个管理.com域的下一级DNS服务器地址(qq.com)给本地DNS服务器。当本地DNS服务器收到这个地址后，就会找qq.com域服务器，重复上面的动作，进行查询，直至找到www.qq.com主机。
从客户端到本地DNS服务器是属于递归查询，而DNS服务器之间就是的交互查询就是迭代查询。
18、lvs的三种模式
一、NAT模式（VS-NAT）

(仅目的IP)发给RS,RS收到后,先把数据包的头解开,还原数据包,处理后,直接返回给客户端,不需要再经过负载均衡器注意,由于RS需要对负载均衡器发过来的数据包进行还原,所以说必须支持IPTUNNEL协议所以,在RS的内核中,必须编译支持IPTUNNEL这个选项
优点：负载均衡器只负责将请求包分发给后端节点服务器，而RS将应答包直接发给用户。所以，减少了负载均衡器的大量数据流动，负载均衡器不再是系统的瓶颈，就能处理很巨大的请求量，这种方式，一台负载均衡器能够为很多RS进行分发。而且跑在公网上就能进行不同地域的分发。
缺点：隧道模式的RS节点需要合法IP，这种方式需要所有的服务器支持”IP Tunneling”(IP Encapsulation)协议，服务器可能只局限在部分Linux系统上。
三、直接路由模式（VS-DR）
原理：负载均衡器和RS都使用同一个IP对外服务但只有DR对ARP请求进行响应,所有RS对本身这个IP的ARP请求保持静默也就是说,网关会把对这个服务IP的请求全部定向给DR,而DR收到数据包后根据调度算法,找出对应的RS,把目的MAC地址改为RS的MAC（因为IP一致）并将请求分发给这台RS这时RS收到这个数据包,处理完成之后，由于IP一致，可以直接将数据返给客户，则等于直接从客户端收到这个数据包无异,处理后直接返回给客户端由于负载均衡器要对二层包头进行改换,所以负载均衡器和RS之间必须在一个广播域,也可以简单的理解为在同一台交换机上
优点：和TUN（隧道模式）一样，负载均衡器也只是分发请求，应答包通过单独的路由方法返回给客户端。与VS-TUN相比，VS-DR这种实现方式不需要隧道结构，因此可以使用大多数操作系统做为物理服务器。
缺点：（不能说缺点，只能说是不足）要求负载均衡器的网卡必须与物理网卡在一个物理段上。19、lvs/nginx/haproxy优缺点
Nginx的优点是：
2、Nginx对网络稳定性的依赖非常小，理论上能ping通就就能进行负载功能，这个也是它的优势之一；相反LVS对网络稳定性依赖比较大，这点本人深有体会；
3、可以承担高负载压力且稳定，在硬件不差的情况下一般能支撑几万次的并发量，负载度比LVS相对小些。
5、Nginx不仅仅是一款优秀的负载均衡器/反向代理软件，它同时也是功能强大的Web应用服务器。LNMP也是近几年非常流行的web架构，在高流量的环境中稳定性也很好。
7、Nginx可作为中层反向代理使用，这一层面Nginx基本上无对手，唯一可以对比Nginx的就只有lighttpd了，不过lighttpd目前还没有做到Nginx完全的功能，配置也不那么清晰易读，社区资料也远远没Nginx活跃。
Nginx的缺点是：
2、对后端服务器的健康检查，只支持通过端口来检测，不支持通过url来检测。不支持Session的直接保持，但能通过ip_hash来解决。
LVS：使用Linux内核集群实现一个高性能、高可用的负载均衡服务器，它具有很好的可伸缩性（Scalability)、可靠性（Reliability)和可管理性（Manageability)。
LVS的优点是：
2、配置性比较低，这是一个缺点也是一个优点，因为没有可太多配置的东西，所以并不需要太多接触，大大减少了人为出错的几率。
4、无流量，LVS只分发请求，而流量并不从它本身出去，这点保证了均衡器IO的性能不会收到大流量的影响。

1、软件本身不支持正则表达式处理，不能做动静分离；而现在许多网站在这方面都有较强的需求，这个是Nginx/HAProxy+Keepalived的优势所在。
Server的机器的话，如果实施及配置还有维护过程就比较复杂了，相对而言，Nginx/HAProxy+Keepalived就简单多了。
HAProxy的特点是：
2、HAProxy的优点能够补充Nginx的一些缺点，比如支持Session的保持，Cookie的引导；同时支持通过获取指定的url来检测后端服务器的状态。
4、HAProxy支持TCP协议的负载均衡转发，可以对MySQL读进行负载均衡，对后端的MySQL节点进行检测和负载均衡，大家可以用LVS+Keepalived对MySQL主从做负载均衡。
①roundrobin，表示简单的轮询，这个不多说，这个是负载均衡基本都具备的；
③leastconn，表示最少连接者先处理，建议关注；
⑤ri，表示根据请求的URI；
⑦hdr(name)，表示根据HTTP请求头来锁定每一次HTTP请求；
(name)，表示根据据cookie(name)来锁定并哈希每一次TCP请求。
20、linux系统监控命令，查看cpu负载内存等情况
top命令是Linux下常用的性能分析工具，比如cpu、内存的使用，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.
top命令参数
p通过指定监控进程ID来仅仅监控某个进程的状态。
S 指定累计模式
i使top不显示任何闲置或者僵死进程。
常用操作
top //每隔5秒显式所有进程的资源占用情况
top -d2//每隔2秒显式所有进程的资源占用情况
top -c//每隔5秒显式进程的资源占用情况，并显示进程的命令行参数(默认只有进程名)
top -p12345-p6789//每隔5秒显示pid是12345和pid是6789的两个进程的资源占用情况
top -d2-c-p123456//每隔2秒显示pid是12345的进程的资源使用情况，并显式该进程启动的命令行参数21、查看网络流量的命令
watch -n 1 “/sbin/ifconfig eth0 | grep bytes”22、docker四中网络模式
1 host模式
Namespace隔离文件系统，Network Namespace隔离网络等。一个Network Namespace提供了一份独立的网络环境，包括网卡、路由、Iptable规则等都与其他的Network Namespace隔离。一个Docker容器一般会分配一个独立的Network
例如，我们在10.10.101.105/24的机器上用host模式启动一个含有web应用的Docker容器，监听tcp80端口。当我们在容器中执行任何类似ifconfig命令查看网络环境时，看到的都是宿主机上的信息。而外界访问容器中的应用，则直接使用10.10.101.105:80即可，不用任何NAT转换，就如直接跑在宿主机中一样。但是，容器的其他方面，如文件系统、进程列表等还是和宿主机隔离的。
在理解了host模式后，这个模式也就好理解了。这个模式指定新创建的容器和已经存在的一个容器共享一个Network
3 none模式
4 bridge模式
使用Docker run时使用–net=host指定 Docker使用的网络实际上和宿主机一样，在容器内看到的网卡ip是宿主机上的ip。
1. docker version 查看docker的版本号，包括客户端、服务端、依赖的Go等
(docker)层面信息，包括管理的p_w_picpaths, containers数等
<p_w_picpath>在docker index中搜索p_w_picpath
<p_w_picpath>从docker registry server 中下拉p_w_picpath
<p_w_picpath|repository>推送一个p_w_picpath或repository到registry
<p_w_picpath|repository>:TAG 同上，指定tag
<p_w_picpath|container>查看p_w_picpath或container的底层信息
9. docker p_w_picpaths –a 列出所有的p_w_picpaths
六、docker怎么实现容器间的独立23、实现高可用工具有哪些hearbeat
24、mysql数据备份工具
mysqldump工具
基于LVM快照备份
tar包备份
支持innodb的物理热备份，支持完全备份，增量备份，而且速度非常快，支持innodb存储引起的数据在不同数据库之间迁移，支持复制模式下的从机备份恢复备份恢复
25、awk和sed的区别
awk是一种程序语言，对文档资料的处理具有很强的功能。awk擅长从格式化报文或从一个大的文本文件中抽取数据。
awk [-F filed-separator] “commands” input-file(s)
. . . $ n。$0代表所有域值。因此awk更适合于以域为单位来处理文件。加之ARGIND等内置变量，使awk能处理多个文件。典型的应用为查找一个文件中的某个字段是否在另一个文件中出现
sed的命令格式为：
sed [options] ‘command’ file(s)
sed [options] -f scrīptfile file(s)
作为编辑器，当然少不了插入（a/、i/）、删除（d）、查找替换(s)等命令。
如果文件是格式化的，即由分隔符分为多个域的，优先使用awk
awk适合对文件的抽取整理，sed适合对文件的编辑。26、介绍CDN的作用
CDN加速简单的来说，就是把原服务器上数据复制到其他服务器上，用户访问时，那台服务器近访问到的就是那台服务器上的数据。CDN加速优点是成本低，速度快。可以用CDN best的CDN进行加速，免费，可部署私有，公有CDN系统。可以实现宕机检测，自动切换ip，分线路，分组解析。也就是
的主要作用就是保证网站的正常访问，及加快网站访问速度和响应速度，防止网站因黑客攻击，DNS解析劫持故障等导致的网站服务器的宕机状况的出现。27、 keepalive的工作原理和如何做到健康检查
keepalived是以VRRP协议为实现基础的，VRRP全称Virtual Router Redundancy Protocol，即虚拟路由冗余协议。
keepalived主要有三个模块，分别是core、check和vrrp。core模块为keepalived的核心，负责主进程的启动、维护以及全局配置文件的加载和解析。check负责健康检查，包括常见的各种检查方式。vrrp模块是来实现VRRP协议的。
HTTP_GET|SSL_GET
| SSL_GET
{
{
# HTTP/SSL 检查的url可以是多个
<STRING> # HTTP/SSL 检查后的摘要信息用工具genhash生成
# HTTP/SSL 检查返回的状态码
}
# 连接端口
<IPADD>
# 连接超时时间
# 重连次数
#连接间隔时间
}28、 squid的默认缓存大小是多少？
1024MB29、查看Linux系统的所有配置的命令（除了cpuinfo和meinfo）
查看主板的序列号: dmidecode | grep -i ’serial number’
( or restart)
[dmesg | grep -i ‘cpu’][dmidecode -t processor]
[free -m][vmstat]
查看显卡/声卡信息：lspci |grep -i ‘VGA’[dmesg | grep -i ‘VGA’]
| grep -i ‘eth’[cat /etc/sysconfig/hwconf | grep -i eth][lspci | grep -i ‘eth’] www.2cto.com
<!–more–>
(相比cat /proc/pci更直观）
查看键盘和鼠标:cat /proc/bus/input/devices
& disk – l &df
(IRQ):cat /proc/interrupts
30、用shell脚本或命令将/opt目录下的大于15KB的文件都移到/tmp目录下
find /opt -size +15k -exec mv {} /tmp/ ;
31、写过哪些python脚本？
这个程序的作用是跳过最新的7*24个备份，删除其他的时间更长的
          # -*- coding: cp936 -*-
import os  #os是python自带的一个扩展库，用来进行跟系统相关的操作
skipNum = 24 * 7 #保留文件夹的数目（小时 * 天）
print ‘n*************清除时间超过 ‘ + str(skipNum /24) + ‘ 天的自动备份文件**************nn’
backupDir = os.path.abspath(__file__) + ‘\..\..’ + ‘\servedatabase_autobackup’
if dir[-4:] == ‘.map’:
      print ‘正在清除备份目录：’ + os.path.abspath(mapDir)
      subDirs.reverse()          #逆序
      for subDir in subDirs:
         if i>skipNum:
            os.system(‘rmdir ‘ + mapDir + ‘\’ + subDir + ‘ /s/q’) #相当于执行控制台命令

运维面试题相关文章

为您推荐