<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif;" dir="ltr">
<p>One thing I have been trying on the new down OSD is exporting a PG and importing to another OSD using ceph-objectstore-tool.</p>
<p><br>
</p>
<p>Export & Import goes fine, however when the OSD is then started back up the PG query still show's its looking for the old down OSD, should the OSD starting with a copy of the PG not communicate it now hold's the data the PG want's?</p>
<p><br>
</p>
<p>Or do I need to force it to see this somehow?</p>
<p><br>
</p>
<p>I can't mark down or lost the old OSD as doing that causes further OSD's to go down so just have to leave them stopped by still listed as an OSD.</p>
<p><br>
</p>
<p>,Ashley</p>
</div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Ashley Merrick<br>
<b>Sent:</b> 20 November 2017 08:56:15<br>
<b>To:</b> Gregory Farnum<br>
<b>Cc:</b> David Turner; ceph-users@ceph.com<br>
<b>Subject:</b> Re: [ceph-users] OSD Random Failures - Latest Luminous</font>
<div> </div>
</div>
<style type="text/css" style="display:none">
<!--
p
        {margin-top:0;
        margin-bottom:0}
-->
</style>
<div dir="ltr">
<div id="x_divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<p>Hello,</p>
<p><br>
</p>
<p>So I tried as suggested marking one OSD that continuously failed as lost and add a new OSD to take it's place.</p>
<p><br>
</p>
<p>However all this does is make another 2-3 OSD's fail with the exact same error.</p>
<p><br>
</p>
<p>Seems this is a pretty huge and nasty bug / issue!</p>
<p><br>
</p>
<p>Greg your have to give me some more information about what you need if you want me to try and get some information.</p>
<p><br>
</p>
<p>However right now the cluster it self is pretty much toast due to the amount of OSD's now with this assert.</p>
<p><br>
</p>
<p>,Ashley</p>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> Gregory Farnum <gfarnum@redhat.com><br>
<b>Sent:</b> 19 November 2017 09:25:39<br>
<b>To:</b> Ashley Merrick<br>
<b>Cc:</b> David Turner; ceph-users@ceph.com<br>
<b>Subject:</b> Re: [ceph-users] OSD Random Failures - Latest Luminous</font>
<div> </div>
</div>
<div>
<div dir="ltr">I only see two asserts (in my local checkout) in that function; one is metadata
<div>
<div>    assert(info.history.same_interval_since != 0);</div>
<div>and the other is a sanity check</div>
<div>    assert(!deleting);</div>
<div><br>
</div>
<div>Can you open a core dump with gdb and look at what line it's on in the start_peering_interval frame? (May need to install the debug packages.)</div>
<div><br>
</div>
<div>I think we've run across that first assert as an issue before, but both of them ought to be dumping out more cleanly about what line they're on.</div>
<div>-Greg</div>
<div><br>
</div>
<br>
<div class="x_x_gmail_quote">
<div dir="ltr">On Sun, Nov 19, 2017 at 1:32 AM Ashley Merrick <<a href="mailto:ashley@amerrick.co.uk">ashley@amerrick.co.uk</a>> wrote:<br>
</div>
<blockquote class="x_x_gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span>Hello,<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><span>So seems noup does not help.<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><span>Still have the same error :<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><span>2017-11-18 14:26:40.982827 7fb4446cd700 -1 *** Caught signal (Aborted) **in thread 7fb4446cd700 thread_name:tp_peering<u></u><u></u></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><span>ceph version 12.2.1 (3e7492b9ada8bdc9a5cd0feafd42fbca27f9c38e) luminous (stable)<u></u><u></u></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span>1: (()+0xa0c554) [0x56547f500554]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>2: (()+0x110c0) [0x7fb45cabe0c0]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>3: (gsignal()+0xcf) [0x7fb45ba85fcf]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>4: (abort()+0x16a) [0x7fb45ba873fa]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>5: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x28e) [0x56547f547f0e]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>6: (PG::start_peering_interval(std::shared_ptr<OSDMap const>, std::vector<int, std::allocator<int> > const&, int, std::vector<int, std::allocator<int> > const&, int, ObjectStore::Transaction*)+0x1569) [0x56547f029ad9]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>7: (PG::RecoveryState::Reset::react(PG::AdvMap const&)+0x479) [0x56547f02a099]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>8: (boost::statechart::simple_state<PG::RecoveryState::Reset, PG::RecoveryState::RecoveryMachine, boost::mpl::list<mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na,
 mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na>, (boost::statechart::history_mode)0>::react_impl(boost::statechart::event_base const&, void const*)+0x188) [0x56547f06c6d8]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>9: (boost::statechart::state_machine<PG::RecoveryState::RecoveryMachine, PG::RecoveryState::Initial, std::allocator<void>, boost::statechart::null_exception_translator>::process_event(boost::statechart::event_base const&)+0x69)
 [0x56547f045549]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>10: (PG::handle_advance_map(std::shared_ptr<OSDMap const>, std::shared_ptr<OSDMap const>, std::vector<int, std::allocator<int> >&, int, std::vector<int, std::allocator<int> >&, int, PG::RecoveryCtx*)+0x4a7) [0x56547f00e837]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>11: (OSD::advance_pg(unsigned int, PG*, ThreadPool::TPHandle&, PG::RecoveryCtx*, std::set<boost::intrusive_ptr<PG>, std::less<boost::intrusive_ptr<PG> >, std::allocator<boost::intrusive_ptr<PG> > >*)+0x2e7) [0x56547ef56e67]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>12: (OSD::process_peering_events(std::__cxx11::list<PG*, std::allocator<PG*> > const&, ThreadPool::TPHandle&)+0x1e4) [0x56547ef57cb4]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>13: (ThreadPool::BatchWorkQueue<PG>::_void_process(void*, ThreadPool::TPHandle&)+0x2c) [0x56547efc2a0c]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>14: (ThreadPool::worker(ThreadPool::WorkThread*)+0xeb8) [0x56547f54ef28]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>15: (ThreadPool::WorkThread::entry()+0x10) [0x56547f5500c0]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>16: (()+0x7494) [0x7fb45cab4494]<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span>17: (clone()+0x3f) [0x7fb45bb3baff]<u></u><u></u></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span>NOTE: a copy of the executable, or `objdump -rdS <executable>` is needed to interpret this.<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span>I guess even with noup the OSD/PG still has the peer with the other PG’s which is the stage that causes the failure, most OSD’s seem to stay up for about 30 seconds, and every time it’s a different PG listed on the failure.<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><span>,Ashley<u></u><u></u></span></p>
<p class="x_x_MsoNormal"><span><u></u> <u></u></span></p>
<p class="x_x_MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> David Turner [mailto:<a href="mailto:drakonstein@gmail.com" target="_blank">drakonstein@gmail.com</a>]
<br>
</span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span lang="EN-US"><b>Sent:</b> 18 November 2017 22:19<br>
<b>To:</b> Ashley Merrick <<a href="mailto:ashley@amerrick.co.uk" target="_blank">ashley@amerrick.co.uk</a>><br>
</span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span lang="EN-US"><b>Cc:</b> Eric Nelson <<a href="mailto:ericnelson@gmail.com" target="_blank">ericnelson@gmail.com</a>>;
<a href="mailto:ceph-users@ceph.com" target="_blank">ceph-users@ceph.com</a></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><span lang="EN-US"><br>
<b>Subject:</b> Re: [ceph-users] OSD Random Failures - Latest Luminous<u></u><u></u></span></p>
</div>
</div>
<div lang="EN-GB">
<div class="x_x_m_1961370041480567295WordSection1">
<p class="x_x_MsoNormal"><u></u> <u></u></p>
<p>Does letting the cluster run with noup for a while until all down disks are idle, and then letting them come in help at all?  I don't know your specific issue and haven't touched bluestore yet, but that is generally sound advice when is won't start.<u></u><u></u></p>
<p>Also is there any pattern to the osds that are down? Common PGs, common hosts, common ssds, etc?<u></u><u></u></p>
<p class="x_x_MsoNormal"><u></u> <u></u></p>
<div>
<div>
<p class="x_x_MsoNormal">On Sat, Nov 18, 2017, 7:08 AM Ashley Merrick <<a href="mailto:ashley@amerrick.co.uk" target="_blank">ashley@amerrick.co.uk</a>> wrote:<u></u><u></u></p>
</div>
<blockquote style="border:none; border-left:solid #cccccc 1.0pt; padding:0cm 0cm 0cm 6.0pt; margin-left:4.8pt; margin-right:0cm">
<div>
<div>
<p class="x_x_MsoNormal">Hello,<u></u><u></u></p>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<p class="x_x_MsoNormal">Any further suggestions or work around’s from anyone?<u></u><u></u></p>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<p class="x_x_MsoNormal">Cluster is hard down now with around 2% PG’s offline, on the occasion able to get an OSD to start for a bit but then will seem to do some peering and again crash with “*** Caught signal (Aborted) **in thread 7f3471c55700 thread_name:tp_peering”<u></u><u></u></p>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<p class="x_x_MsoNormal">,Ashley<u></u><u></u></p>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<div>
<div style="border:none; border-top:solid #e1e1e1 1.0pt; padding:3.0pt 0cm 0cm 0cm">
<p class="x_x_MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> Ashley Merrick
</span><u></u><u></u></p>
</div>
</div>
</div>
</div>
<div>
<div>
<div>
<div style="border:none; border-top:solid #e1e1e1 1.0pt; padding:3.0pt 0cm 0cm 0cm">
<p class="x_x_MsoNormal"><b><span lang="EN-US">Sent:</span></b><span lang="EN-US"> 16 November 2017 17:27<br>
<b>To:</b> Eric Nelson <<a href="mailto:ericnelson@gmail.com" target="_blank">ericnelson@gmail.com</a>></span><u></u><u></u></p>
</div>
</div>
</div>
</div>
<div>
<div>
<div>
<div style="border:none; border-top:solid #e1e1e1 1.0pt; padding:3.0pt 0cm 0cm 0cm">
<p class="x_x_MsoNormal"><b><span lang="EN-US">Cc:</span></b><span lang="EN-US"> <a href="mailto:ceph-users@ceph.com" target="_blank">
ceph-users@ceph.com</a><br>
<b>Subject:</b> Re: [ceph-users] OSD Random Failures - Latest Luminous</span><u></u><u></u></p>
</div>
</div>
</div>
</div>
<div>
<div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<div id="x_x_m_1961370041480567295m_8726918150298023603divtagdefaultwrapper">
<p><span style="font-size:12.0pt; color:black">Hello,</span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black"> </span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black">Good to hear it's not just me, however have a cluster basically offline due to too many OSD's dropping for this issue.</span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black"> </span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black">Anybody have any suggestions?</span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black"> </span><u></u><u></u></p>
<p><span style="font-size:12.0pt; color:black">,Ashley</span><u></u><u></u></p>
</div>
<div class="x_x_MsoNormal" align="center" style="text-align:center">
<hr size="5" width="98%" align="center">
</div>
<div id="x_x_m_1961370041480567295m_8726918150298023603divRplyFwdMsg">
<p class="x_x_MsoNormal"><b><span style="color:black">From:</span></b><span style="color:black"> Eric Nelson <<a href="mailto:ericnelson@gmail.com" target="_blank">ericnelson@gmail.com</a>><br>
<b>Sent:</b> 16 November 2017 00:06:14<br>
<b>To:</b> Ashley Merrick<br>
<b>Cc:</b> <a href="mailto:ceph-users@ceph.com" target="_blank">ceph-users@ceph.com</a><br>
<b>Subject:</b> Re: [ceph-users] OSD Random Failures - Latest Luminous</span> <u>
</u><u></u></p>
<div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
</div>
</div>
<div>
<div>
<p class="x_x_MsoNormal">I've been seeing these as well on our SSD cachetier that's been ravaged by disk failures as of late.... Same tp_peering assert as above even running luminous branch from git.
<u></u><u></u></p>
<div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
</div>
<div>
<p class="x_x_MsoNormal">Let me know if you have a bug filed I can +1 or have found a workaround.<u></u><u></u></p>
</div>
<div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
</div>
<div>
<p class="x_x_MsoNormal">E<u></u><u></u></p>
</div>
</div>
<div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
<div>
<p class="x_x_MsoNormal">On Wed, Nov 15, 2017 at 10:25 AM, Ashley Merrick <<a href="mailto:ashley@amerrick.co.uk" target="_blank">ashley@amerrick.co.uk</a>> wrote:<u></u><u></u></p>
<blockquote style="border:none; border-left:solid #cccccc 1.0pt; padding:0cm 0cm 0cm 6.0pt; margin-left:4.8pt; margin-top:5.0pt; margin-right:0cm; margin-bottom:5.0pt">
<div>
<div>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">Hello,<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal"> <u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">After replacing a single OSD disk due to a failed disk I am now seeing 2-3 OSD’s randomly stop and fail to start, do a boot loop get to load_pgs and then fail with the following (I tried setting
 OSD log’s to 5/5 but didn’t get any extra lines around the error just more information pre boot.<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal"> <u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">Could this be a certain PG causing these OSD’s to crash (6.2f2s10 for example)?<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal"> <u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -9> 2017-11-15 17:37:14.696229 7fa4ec50f700  1 osd.37 pg_epoch: 161571 pg[6.2f9s1( v 161563'158209 lc 161175'158153 (150659'148187,161563'158209] local-lis/les=161519/161521 n=47572 ec=31534/31534
 lis/c 161519/152474 les/c/f 161521/152523/159786 161517/161519/161519) [34,37,13,12,66,69,118,120,28,20,88,0,2]/[34,37,13,12,66,69,118,120,28,20,53,54,2147483647] r=1 lpr=161563 pi=[152474,161519)/1 crt=161562'158208 lcod 0'0 unknown NOTIFY m=21] state<Start>:
 transitioning to Stray<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -8> 2017-11-15 17:37:14.696239 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f9s1( v 161563'158209 lc 161175'158153 (150659'148187,161563'158209] local-lis/les=161519/161521 n=47572 ec=31534/31534
 lis/c 161519/152474 les/c/f 161521/152523/159786 161517/161519/161519) [34,37,13,12,66,69,118,120,28,20,88,0,2]/[34,37,13,12,66,69,118,120,28,20,53,54,2147483647] r=1 lpr=161563 pi=[152474,161519)/1 crt=161562'158208 lcod 0'0 unknown NOTIFY m=21] exit Start
 0.000019 0 0.000000<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -7> 2017-11-15 17:37:14.696250 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f9s1( v 161563'158209 lc 161175'158153 (150659'148187,161563'158209] local-lis/les=161519/161521 n=47572 ec=31534/31534
 lis/c 161519/152474 les/c/f 161521/152523/159786 161517/161519/161519) [34,37,13,12,66,69,118,120,28,20,88,0,2]/[34,37,13,12,66,69,118,120,28,20,53,54,2147483647] r=1 lpr=161563 pi=[152474,161519)/1 crt=161562'158208 lcod 0'0 unknown NOTIFY m=21] enter Started/Stray<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -6> 2017-11-15 17:37:14.696324 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] exit Reset 3.363755 2 0.000076<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -5> 2017-11-15 17:37:14.696337 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] enter Started<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -4> 2017-11-15 17:37:14.696346 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] enter Start<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -3> 2017-11-15 17:37:14.696353 7fa4ec50f700  1 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] state<Start>: transitioning to Stray<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -2> 2017-11-15 17:37:14.696364 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] exit Start 0.000018 0 0.000000<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">    -1> 2017-11-15 17:37:14.696372 7fa4ec50f700  5 osd.37 pg_epoch: 161571 pg[6.2f2s10( v 161570'157712 lc 161175'157648 (160455'154564,161570'157712] local-lis/les=161517/161519 n=47328 ec=31534/31534
 lis/c 161517/160962 les/c/f 161519/160963/159786 161517/161517/108939) [96,100,79,4,69,65,57,59,135,134,37,35,18] r=10 lpr=161570 pi=[160962,161517)/2 crt=161560'157711 lcod 0'0 unknown NOTIFY m=5] enter Started/Stray<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">     0> 2017-11-15 17:37:14.697245 7fa4ebd0e700 -1 *** Caught signal (Aborted) **<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">in thread 7fa4ebd0e700 thread_name:tp_peering<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal"> <u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">ceph version 12.2.1 (3e7492b9ada8bdc9a5cd0feafd42fbca27f9c38e) luminous (stable)<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">1: (()+0xa3acdc) [0x55dfb6ba3cdc]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">2: (()+0xf890) [0x7fa510e2c890]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">3: (gsignal()+0x37) [0x7fa50fe66067]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">4: (abort()+0x148) [0x7fa50fe67448]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">5: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x27f) [0x55dfb6be6f5f]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">6: (PG::start_peering_interval(std::shared_ptr<OSDMap const>, std::vector<int, std::allocator<int> > const&, int, std::vector<int, std::allocator<int> > const&, int, ObjectStore::Transaction*)+0x14e3)
 [0x55dfb670f8a3]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">7: (PG::RecoveryState::Reset::react(PG::AdvMap const&)+0x539) [0x55dfb670ff39]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">8: (boost::statechart::simple_state<PG::RecoveryState::Reset, PG::RecoveryState::RecoveryMachine, boost::mpl::list<mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na,
 mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na, mpl_::na>, (boost::statechart::history_mode)0>::react_impl(boost::statechart::event_base const&, void const*)+0x244) [0x55dfb67552a4]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">9: (boost::statechart::state_machine<PG::RecoveryState::RecoveryMachine, PG::RecoveryState::Initial, std::allocator<void>, boost::statechart::null_exception_translator>::send_event(boost::statechart::event_base
 const&)+0x6b) [0x55dfb6732c1b]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">10: (PG::handle_advance_map(std::shared_ptr<OSDMap const>, std::shared_ptr<OSDMap const>, std::vector<int, std::allocator<int> >&, int, std::vector<int, std::allocator<int> >&, int, PG::RecoveryCtx*)+0x3e3)
 [0x55dfb6702ef3]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">11: (OSD::advance_pg(unsigned int, PG*, ThreadPool::TPHandle&, PG::RecoveryCtx*, std::set<boost::intrusive_ptr<PG>, std::less<boost::intrusive_ptr<PG> >, std::allocator<boost::intrusive_ptr<PG>
 > >*)+0x20a) [0x55dfb664db2a]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">12: (OSD::process_peering_events(std::list<PG*, std::allocator<PG*> > const&, ThreadPool::TPHandle&)+0x175) [0x55dfb664e6b5]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">13: (ThreadPool::BatchWorkQueue<PG>::_void_process(void*, ThreadPool::TPHandle&)+0x27) [0x55dfb66ae5a7]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">14: (ThreadPool::worker(ThreadPool::WorkThread*)+0xa8f) [0x55dfb6bedb1f]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">15: (ThreadPool::WorkThread::entry()+0x10) [0x55dfb6beea50]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">16: (()+0x8064) [0x7fa510e25064]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">17: (clone()+0x6d) [0x7fa50ff1962d]<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">NOTE: a copy of the executable, or `objdump -rdS <executable>` is needed to interpret this.<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal"> <u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">--- logging levels ---<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 none<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 lockdep<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 context<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 1 crush<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds_balancer<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds_locker<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds_log<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds_log_expire<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mds_migrator<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 buffer<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 timer<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 filer<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 striper<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 1 objecter<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 rados<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 rbd<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 rbd_mirror<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 rbd_replay<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 journaler<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 objectcacher<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 client<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 osd<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 optracker<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 objclass<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 3 filestore<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 3 journal<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 ms<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mon<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/10 monc<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 paxos<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 5 tp<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 auth<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 crypto<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 1 finisher<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 heartbeatmap<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 perfcounter<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 rgw<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/10 civetweb<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 javaclient<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 asok<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 1 throttle<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   0/ 0 refs<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 xio<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 compressor<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 bluestore<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 bluefs<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 3 bdev<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 kstore<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   4/ 5 rocksdb<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   4/ 5 leveldb<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   4/ 5 memdb<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 kinetic<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 fuse<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mgr<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 mgrc<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 dpdk<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">   1/ 5 eventtrace<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">  -2/-2 (syslog threshold)<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">  -1/-1 (stderr threshold)<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">  max_recent     10000<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">  max_new         1000<u></u><u></u></p>
<p class="x_x_m_1961370041480567295m8726918150298023603xmsonormal">  log_file /var/log/ceph/ceph-osd.37.log<u></u><u></u></p>
</div>
</div>
<p class="x_x_MsoNormal" style="margin-bottom:12.0pt"><br>
_______________________________________________<br>
ceph-users mailing list<br>
<a href="mailto:ceph-users@lists.ceph.com" target="_blank">ceph-users@lists.ceph.com</a><br>
<a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" target="_blank">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><u></u><u></u></p>
</blockquote>
</div>
<p class="x_x_MsoNormal"> <u></u><u></u></p>
</div>
</div>
</div>
</div>
<p class="x_x_MsoNormal">_______________________________________________<br>
ceph-users mailing list<br>
<a href="mailto:ceph-users@lists.ceph.com" target="_blank">ceph-users@lists.ceph.com</a><br>
<a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" target="_blank">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><u></u><u></u></p>
</blockquote>
</div>
</div>
</div>
_______________________________________________<br>
ceph-users mailing list<br>
<a href="mailto:ceph-users@lists.ceph.com" target="_blank">ceph-users@lists.ceph.com</a><br>
<a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" rel="noreferrer" target="_blank">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><br>
</blockquote>
</div>
</div>
</div>
</div>
</div>
</body>
</html>