<div dir="ltr">Yeah, don't run these commands blind. They are changing the local metadata of the PG in ways that may make it inconsistent with the overall cluster and result in lost data.<div><br></div><div>Brett, it seems this issue has come up several times in the field but we haven't been able to reproduce it locally or get enough info to debug what's going on: <a href="https://tracker.ceph.com/issues/21142">https://tracker.ceph.com/issues/21142</a></div><div>Maybe run through that ticket and see if you can contribute new logs or add detail about possible sources?</div><div>-Greg</div><div><br><div class="gmail_quote"><div dir="ltr">On Tue, Oct 2, 2018 at 3:18 PM Goktug Yildirim <<a href="mailto:goktug.yildirim@gmail.com">goktug.yildirim@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
Sorry to hear that. I’ve been battling with mine for 2 weeks :/<br>
<br>
I’ve corrected mine OSDs with the following commands. My OSD logs (/var/log/ceph/ceph-OSDx.log) has a line including log(EER) with the PG number besides and before crash dump.<br>
<br>
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-$1/ --op trim-pg-log --pgid $2<br>
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-$1/ --op fix-lost --pgid $2<br>
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-$1/ --op repair --pgid $2<br>
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-$1/ --op mark-complete --pgid $2<br>
systemctl restart ceph-osd@$1<br>
<br>
I dont know if it works for you but it may be no harm to try for an OSD.<br>
<br>
There is such less information about this tools. So it might be risky. I hope someone much experienced could help more.<br>
<br>
<br>
> On 2 Oct 2018, at 23:23, Brett Chancellor <<a href="mailto:bchancellor@salesforce.com" target="_blank">bchancellor@salesforce.com</a>> wrote:<br>
> <br>
> Help. I have a 60 node cluster and most of the OSDs decided to crash themselves at the same time. They wont restart, the messages look like...<br>
> <br>
> --- begin dump of recent events ---<br>
>      0> 2018-10-02 21:19:16.990369 7f57ab5b7d80 -1 *** Caught signal (Aborted) **<br>
>  in thread 7f57ab5b7d80 thread_name:ceph-osd<br>
> <br>
>  ceph version 12.2.4 (52085d5249a80c5f5121a76d6288429f35e4e77b) luminous (stable)<br>
>  1: (()+0xa3c611) [0x556d618bb611]<br>
>  2: (()+0xf6d0) [0x7f57a885e6d0]<br>
>  3: (gsignal()+0x37) [0x7f57a787f277]<br>
>  4: (abort()+0x148) [0x7f57a7880968]<br>
>  5: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x284) [0x556d618fa6e4]<br>
>  6: (pi_compact_rep::add_interval(bool, PastIntervals::pg_interval_t const&)+0x3b2) [0x556d615c74a2]<br>
>  7: (PastIntervals::check_new_interval(int, int, std::vector<int, std::allocator<int> > const&, std::vector<int, std::allocator<int> > const&, int, int, std::vector<int, std::allocator<int> > const&, std::vector<int, std::allocator<int> > const&, unsigned int, unsigned int, std::shared_ptr<OSDMap const>, std::shared_ptr<OSDMap const>, pg_t, IsPGRecoverablePredicate*, PastIntervals*, std::ostream*)+0x380) [0x556d615ae6c0]<br>
>  8: (OSD::build_past_intervals_parallel()+0x9ff) [0x556d613707af]<br>
>  9: (OSD::load_pgs()+0x545) [0x556d61373095]<br>
>  10: (OSD::init()+0x2169) [0x556d613919d9]<br>
>  11: (main()+0x2d07) [0x556d61295dd7]<br>
>  12: (__libc_start_main()+0xf5) [0x7f57a786b445]<br>
>  13: (()+0x4b53e3) [0x556d613343e3]<br>
>  NOTE: a copy of the executable, or `objdump -rdS <executable>` is needed to interpret this.<br>
> <br>
> <br>
> Some hosts have no working OSDs, others seem to have 1 working, and 2 dead.  It's spread all across the cluster, across several different racks. Any idea on where to look next? The cluster is dead in the water right now.<br>
> _______________________________________________<br>
> ceph-users mailing list<br>
> <a href="mailto:ceph-users@lists.ceph.com" target="_blank">ceph-users@lists.ceph.com</a><br>
> <a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" rel="noreferrer" target="_blank">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><br>
<br>
_______________________________________________<br>
ceph-users mailing list<br>
<a href="mailto:ceph-users@lists.ceph.com" target="_blank">ceph-users@lists.ceph.com</a><br>
<a href="http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com" rel="noreferrer" target="_blank">http://lists.ceph.com/listinfo.cgi/ceph-users-ceph.com</a><br>
</blockquote></div></div></div>