<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">although that said, I’ve just noticed this crash this morning<div class=""><br class=""></div><div class=""><div class="">2018-10-31 14:26:00.522 7f0cf53f5700 -1 /build/ceph-13.2.1/src/mds/<a href="http://CDir.cc" class="">CDir.cc</a>: In function 'void CDir::fetch(MDSInternalContextBase*, std::string_view, bool)' thread 7f0cf53f5700 time 2018-10-31 14:26:00.485647</div><div class="">/build/ceph-13.2.1/src/mds/<a href="http://CDir.cc" class="">CDir.cc</a>: 1504: FAILED assert(is_auth())</div><div class=""><br class=""></div><div class="">shortly after I set max_mds back to 3</div><div class=""><br class=""></div><div class=""><br class=""></div><div><br class=""><blockquote type="cite" class=""><div class="">On 30 Oct 2018, at 18:50, Jon Morby <<a href="mailto:jon@fido.net" class="">jon@fido.net</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html; charset=utf-8" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">So a big thank you to @<span style="font-family: OpenSans;" class="">yanzheng for his help getting this back online</span><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">The quick answer to what we did was downgrade to 13.2.1 as 13.2.2 is broken for cephfs</font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">restored the backup of the journal I’d taken as part of following the disaster recovery process documents</font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">turned off mds standby replay and temporarily stopped all but 2 of the mds so we could monitor the logs more easily</font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">we then did a wipe sessions and watched the mds repair</font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class=""><div class="">Set mds_wipe_sessions to 1 and restart mds</div><div class=""><br class=""></div></font></div><div class=""><font face="OpenSans" class="">finally there was a </font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">$ ceph daemon mds01 scrub_path / repair force recursive</font></div><div class=""><font face="OpenSans" class=""><br class=""></font><div class="">and then setting <span style="font-family: OpenSans;" class="">mds_wipe_sessions back to 0</span></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">Jon</font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class=""><br class=""></font></div><div class=""><font face="OpenSans" class="">I can’t say a big enough thank you to @</font><span style="font-family: OpenSans;" class="">yanzheng for their assistance though!</span></div><div class=""><span style="font-family: OpenSans;" class=""><br class=""></span></div><div class=""><font face="OpenSans" class=""><br class=""></font><blockquote type="cite" class=""><div class="">On 29 Oct 2018, at 11:13, Jon Morby (Fido) <<a href="mailto:jon@fido.net" class="">jon@fido.net</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class=""><div style="font-family: arial, helvetica, sans-serif; font-size: 12pt;" class=""><div class="">I've experimented and whilst the downgrade looks to be working, you end up with errors regarding unsupported feature "mimic" amongst others</div><div class=""><br data-mce-bogus="1" class=""></div><div class="">2018-10-29 10:51:20.652047 7f6f1b9f5080 -1 ERROR: on disk data includes unsupported features: compat={},rocompat={},incompat={10=mimic ondisk layou<br data-mce-bogus="1" class=""></div><div class=""><br data-mce-bogus="1" class=""></div><div class="">so I gave up on that idea</div><div class=""><br data-mce-bogus="1" class=""></div><div class="">In addition to the cephfs volume (which is basically just mirrors and some backups) we have a large rbd deployment using the same ceph cluster, and if we lose that we're screwed ... the cephfs volume was more an "experiment" to see how viable it would be as an NFS replacement</div><div class=""><br data-mce-bogus="1" class=""></div><div class="">There's 26TB of data on there, so I'd rather not have to go off and redownload it all .. but losing it isn't the end of the world (but it will piss off a few friends)</div><div class=""><br data-mce-bogus="1" class=""></div><div class="">Jon</div><div class=""><br data-mce-bogus="1" class=""></div><div class=""><br class=""></div><span id="zwchr" data-marker="__DIVIDER__" class="">----- On 29 Oct, 2018, at 09:54, Zheng Yan <<a href="mailto:ukernel@gmail.com" class="">ukernel@gmail.com</a>> wrote:<br class=""></span><div data-marker="__QUOTED_TEXT__" class=""><blockquote style="border-left-width: 2px; border-left-style: solid; border-left-color: rgb(16, 16, 255); margin-left: 5px; padding-left: 5px; font-weight: normal; font-style: normal; text-decoration: none; font-family: Helvetica, Arial, sans-serif; font-size: 12pt;" class=""><div dir="ltr" class=""><br class=""><br class=""><div class="gmail_quote"><div dir="ltr" class="">On Mon, Oct 29, 2018 at 5:25 PM Jon Morby (Fido) <<a href="mailto:jon@fido.net" target="_blank" class="">jon@fido.net</a>> wrote:<br class=""></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class=""><div style="font-family: arial, helvetica, sans-serif; font-size: 12pt;" class=""><div class="">Hi</div><br class=""><div class="">Ideally we'd like to undo the whole accidental upgrade to 13.x and ensure that ceph-deploy doesn't do another major release upgrade without a lot of warnings</div><br class=""><div class="">Either way, I'm currently getting errors that 13.2.1 isn't available / shaman is offline / etc</div><div class=""><br class="">What's the best / recommended way of doing this downgrade across our estate?</div><br class=""></div></div></blockquote><br class=""><div class="">You have already upgraded ceph-mon. I don't know If it can be safely downgraded (If I remember right, I corrupted monitor's data when downgrading ceph-mon from minic to luminous). </div><div class=""> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class=""><div style="font-family: arial, helvetica, sans-serif; font-size: 12pt;" class=""><br class=""><br class=""><span id="m_-1235346498466822406zwchr" class="">----- On 29 Oct, 2018, at 08:19, Yan, Zheng <<a href="mailto:ukernel@gmail.com" target="_blank" class="">ukernel@gmail.com</a>> wrote:<br class=""></span><div class=""><blockquote style="border-left-width: 2px; border-left-style: solid; border-left-color: rgb(16, 16, 255); margin-left: 5px; padding-left: 5px; font-weight: normal; font-style: normal; text-decoration: none; font-family: Helvetica, Arial, sans-serif; font-size: 12pt;" class=""><div dir="ltr" class=""><br class="">We backported a wrong patch to 13.2.2.  downgrade ceph to 13.2.1, then run 'ceph mds repaired fido_fs:1" .<br class=""><div class="">Sorry for the trouble</div><div class="">Yan, Zheng<br class=""><br class=""><div class="gmail_quote"><div dir="ltr" class="">On Mon, Oct 29, 2018 at 7:48 AM Jon Morby <<a href="mailto:jon@fido.net" target="_blank" class="">jon@fido.net</a>> wrote:<br class=""></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space" class=""><br class=""><div class="">
<div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class="">We accidentally found ourselves upgraded from 12.2.8 to 13.2.2 after a ceph-deploy install went awry (we were expecting it to upgrade to 12.2.9 and not jump a major release without warning)</div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class=""><br class=""></div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class="">Anyway .. as a result, we ended up with an mds journal error and 1 daemon reporting as damaged</div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class=""><br class=""></div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class="">Having got nowhere trying to ask for help on irc, we've followed various forum posts and disaster recovery guides, we ended up resetting the journal which left the daemon as no longer “damaged” however we’re now seeing mds segfault whilst trying to replay </div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class=""><br class=""></div><div style="text-align:start;text-indent:0px" class=""><a href="https://pastebin.com/iSLdvu0b" target="_blank" class="">https://pastebin.com/iSLdvu0b</a></div><div style="text-align:start;text-indent:0px" class=""><br class=""></div><div style="text-align:start;text-indent:0px" class=""><br class=""></div><div style="font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; text-decoration: none;" class=""><br class=""></div>

</div>
<div class="">/build/ceph-13.2.2/src/mds/<a href="http://journal.cc/" target="_blank" class="">journal.cc</a>: 1572: FAILED assert(g_conf->mds_wipe_sessions)</div><br class=""><div class=""> ceph version 13.2.2 (02899bfda814146b021136e9d8e80eba494e1126) mimic (stable)</div><div class=""> 1: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x102) [0x7fad637f70f2]</div><div class=""> 2: (()+0x3162b7) [0x7fad637f72b7]</div><div class=""> 3: (EMetaBlob::replay(MDSRank*, LogSegment*, MDSlaveUpdate*)+0x5f4b) [0x7a7a6b]</div><div class=""> 4: (EUpdate::replay(MDSRank*)+0x39) [0x7a8fa9]</div><div class=""> 5: (MDLog::_replay_thread()+0x864) [0x752164]</div><div class=""> 6: (MDLog::ReplayThread::entry()+0xd) [0x4f021d]</div><div class=""> 7: (()+0x76ba) [0x7fad6305a6ba]</div><div class=""> 8: (clone()+0x6d) [0x7fad6288341d]</div><div class=""> NOTE: a copy of the executable, or `objdump -rdS <executable>` is needed to interpret this.</div><br class=""><br class=""><div class="">full logs</div><br class=""><div class=""><a href="https://pastebin.com/X5UG9vT2" target="_blank" class="">https://pastebin.com/X5UG9vT2</a></div><br class=""><br class=""><div class="">We’ve been unable to access the cephfs file system since all of this started …. attempts to mount fail with reports that “mds probably not available” </div><br class=""><div class="">Oct 28 23:47:02 mirrors kernel: [115602.911193] ceph: probably no mds server is up</div><br class=""><br class=""><div class=""><div class="">root@mds02:~# ceph -s</div><div class="">  cluster:</div><div class="">    id:     78d5bf7d-b074-47ab-8d73-bd4d99df98a5</div><div class="">    health: HEALTH_WARN</div><div class="">            1 filesystem is degraded</div><div class="">            insufficient standby MDS daemons available</div><div class="">            too many PGs per OSD (276 > max 250)</div><br class=""><div class="">  services:</div><div class="">    mon: 3 daemons, quorum mon01,mon02,mon03</div><div class="">    mgr: mon01(active), standbys: mon02, mon03</div><div class="">    mds: fido_fs-2/2/1 up  {0=mds01=up:resolve,1=mds02=up:replay(laggy or crashed)}</div><div class="">    osd: 27 osds: 27 up, 27 in</div><br class=""><div class="">  data:</div><div class="">    pools:   15 pools, 3168 pgs</div><div class="">    objects: 16.97 M objects, 30 TiB</div><div class="">    usage:   71 TiB used, 27 TiB / 98 TiB avail</div><div class="">    pgs:     3168 active+clean</div><br class=""><div class="">  io:</div><div class="">    client:   680 B/s rd, 1.1 MiB/s wr, 0 op/s rd, 345 op/s wr</div></div><br class=""><br class=""><div class="">Before I just trash the entire fs and give up on ceph, does anyone have any suggestions as to how we can fix this?</div><br class=""><div class=""><div class="">root@mds02:~# ceph versions</div><div class="">{</div><div class="">    "mon": {</div><div class="">        "ceph version 13.2.2 (02899bfda814146b021136e9d8e80eba494e1126) mimic (stable)": 3</div><div class="">    },</div><div class="">    "mgr": {</div><div class="">        "ceph version 13.2.2 (02899bfda814146b021136e9d8e80eba494e1126) mimic (stable)": 3</div><div class="">    },</div><div class="">    "osd": {</div><div class="">        "ceph version 12.2.8 (ae699615bac534ea496ee965ac6192cb7e0e07c0) luminous (stable)": 27</div><div class="">    },</div><div class="">    "mds": {</div><div class="">        "ceph version 13.2.2 (02899bfda814146b021136e9d8e80eba494e1126) mimic (stable)": 2</div><div class="">    },</div><div class="">    "overall": {</div><div class="">        "ceph version 12.2.8 (ae699615bac534ea496ee965ac6192cb7e0e07c0) luminous (stable)": 27,</div><div class="">        "ceph version 13.2.2 (02899bfda814146b021136e9d8e80eba494e1126) mimic (stable)": 8</div><div class="">    }</div><div class="">}</div></div><br class=""></div>_______________________________________________<br class="">
ceph-users mailing list<br class="">
<a href="mailto:ceph-users@lists.ceph.com" target="_blank" class="">ceph-users@lists.ceph.com</a><br class="">
<a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" rel="noreferrer" target="_blank" class="">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><br class="">
</blockquote></div></div></div><br class=""></blockquote></div><br class=""><div class="">-- <br class=""></div><div class=""><div class=""><hr class=""></div><div class="">Jon Morby<br class="">FidoNet - the internet made simple!<br class="">10 - 16 Tiller Road, London, E14 8PX <br class="">tel: 0345 004 3050 / fax: 0345 004 3051<br class=""></div><br class=""><div class="">Need more rack space?<br class="">Check out our Co-Lo offerings at <a href="http://www.fido.net/services/colo/%20" title="London Based Colo" target="_blank" class="">http://www.fido.net/services/colo/ </a>32 amp racks in London and Brighton<br class="">Linx ConneXions available at all Fido sites! <a href="https://www.fido.net/services/backbone/connexions/" title="LINX" target="_blank" class="">https://www.fido.net/services/backbone/connexions/</a></div><div class=""><a href="http://jonmorby.com/B3B5AD3A.asc" title="Jon Morby PGP Key" target="_blank" class="">PGP Key</a>: <span style="font-family: "Trebuchet MS", Palatino, sans-serif; font-size: 12px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-variant-east-asian: normal; font-variant-position: normal; font-weight: normal; letter-spacing: normal; line-height: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; float: none; background-color: rgb(255, 255, 255); display: inline !important;" class="">26DC B618 DE9E F9CB F8B7 1EFA 2A64 BA69 B3B5 AD3A - <a href="http://jonmorby.com/B3B5AD3A.asc" target="_blank" class="">http://jonmorby.com/B3B5AD3A.asc</a></span></div></div></div></div></blockquote></div></div><br class=""></blockquote></div><br class=""><div data-marker="__SIG_POST__" class="">-- <br class=""></div><div class=""><div class=""><hr class=""></div><div class="">Jon Morby<br class="">FidoNet - the internet made simple!<br class="">10 - 16 Tiller Road, London, E14 8PX <br class="">tel: 0345 004 3050 / fax: 0345 004 3051<br class=""></div><div class=""><br class=""></div><div class="">Need more rack space?<br class="">Check out our Co-Lo offerings at <a href="http://www.fido.net/services/colo/%20" title="London Based Colo" target="_blank" class="">http://www.fido.net/services/colo/ </a>32 amp racks in London and Brighton<br class="">Linx ConneXions available at all Fido sites! <a href="https://www.fido.net/services/backbone/connexions/" title="LINX" target="_blank" class="">https://www.fido.net/services/backbone/connexions/</a></div><div class=""><a href="http://jonmorby.com/B3B5AD3A.asc" title="Jon Morby PGP Key" target="_blank" class="">PGP Key</a>: <span style="font-family: "Trebuchet MS", Palatino, sans-serif; font-size: 12px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-variant-east-asian: normal; font-variant-position: normal; font-weight: normal; letter-spacing: normal; line-height: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; float: none; background-color: rgb(255, 255, 255); display: inline !important;" class="">26DC B618 DE9E F9CB F8B7 1EFA 2A64 BA69 B3B5 AD3A - <a href="http://jonmorby.com/B3B5AD3A.asc" class="">http://jonmorby.com/B3B5AD3A.asc</a></span></div></div></div></div>_______________________________________________<br class="">ceph-users mailing list<br class=""><a href="mailto:ceph-users@lists.ceph.com" class="">ceph-users@lists.ceph.com</a><br class=""><a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" class="">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><br class=""></div></blockquote></div><br class=""><div class="">
<div style="caret-color: rgb(0, 0, 0); font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;" class="">Jon Morby<br class="">where those in the know go<br class="">Tel: 0345 004 3050</div>

</div>
<br class=""></div></div>_______________________________________________<br class="">ceph-users mailing list<br class=""><a href="mailto:ceph-users@lists.ceph.com" class="">ceph-users@lists.ceph.com</a><br class="">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com<br class=""></div></blockquote></div><br class=""><div class="">
<div style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); font-family: "Open Sans"; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; text-decoration: none;">Jon Morby<br class="">where those in the know go<br class="">Tel: 0345 004 3050</div>

</div>
<br class=""></div></body></html>