صاحب العمل نشط
حالة تأهب وظيفة
سيتم تحديثك بأحدث تنبيهات الوظائف عبر البريد الإلكترونيحالة تأهب وظيفة
سيتم تحديثك بأحدث تنبيهات الوظائف عبر البريد الإلكترونيمهندس موثوقية الموقع مسؤول عن ضمان موثوقية أنظمة الشركة وخدماتها وبنيتها الأساسية وقابليتها للتطوير وكفاءتها. ويتمثل الدور في مزيج بين هندسة البرمجيات والعمليات، مع التركيز على تحسين موثوقية وأداء الخدمات من خلال الأتمتة والمراقبة وحل المشكلات بشكل استباقي.
يعمل مهندسو موثوقية الموقع على ضمان توفر التطبيقات والأنظمة وأدائها، وعادةً ما يستخدمون مزيجًا من ممارسات هندسة البرمجيات وإدارة النظام والمراقبة العميقة لصحة النظام. كما يقومون بإنشاء أنظمة لتقليل التدخل اليدوي وأتمتة العمليات لزيادة الكفاءة ووقت التشغيل.
المسؤوليات الرئيسية
1. موثوقية النظام والأداء
المراقبة وإدارة الحوادث: إعداد أدوات المراقبة وصيانتها (على سبيل المثال، Prometheus وGrafana وDatadog) لتتبع أداء النظام ووقت التشغيل ومعدلات الخطأ. تحديد المشكلات بسرعة والتخفيف من انقطاع الخدمة من خلال الاستجابة للحوادث.
أهداف مستوى الخدمة (SLOs): تحديد وإدارة أهداف مستوى الخدمة (SLOs) ومؤشرات مستوى الخدمة (SLIs) لقياس والحفاظ على موثوقية النظام، وضمان تلبية الخدمات لتوقعات العمل والعملاء.
الاستجابة للحوادث: الاستجابة لحوادث الإنتاج، واستكشاف المشكلات وإصلاحها، والحد من وقت التوقف عن العمل. بعد الحوادث، قم بإجراء تحليلات ما بعد الوفاة لتحديد الأسباب الجذرية ومنع تكرارها.
تخطيط السعة: تأكد من أن الأنظمة قادرة على التوسع مع الحمل المتزايد، والتعامل مع ارتفاع الطلب، والحفاظ على الأداء أثناء فترات حركة المرور العالية. خطط لتوسيع الموارد بناءً على توقعات حركة المرور وأنماط الاستخدام التاريخية.
2. الأتمتة والبنية الأساسية ككود (IaC)
أتمتة المهام المتكررة: كتابة البرامج النصية وإنشاء أدوات الأتمتة لاستبدال العمليات اليدوية، مثل النشر والمراقبة والتوسع. قد يتضمن هذا استخدام أدوات مثل Ansible أو Terraform أو Kubernetes.
إدارة البنية الأساسية: تنفيذ وإدارة ممارسات البنية الأساسية ككود (IaC) لتوفير وتكوين وإدارة البنية الأساسية السحابية (على سبيل المثال، AWS وGCP وAzure) والموارد المحلية، باستخدام أدوات مثل Terraform أو CloudFormation أو Kubernetes.
التكامل المستمر والتسليم المستمر (CI/CD): بناء وصيانة خطوط أنابيب CI/CD لأتمتة عمليات نشر البرامج، وضمان اختبار التغييرات والتحقق منها ودفعها إلى الإنتاج تلقائيًا.
3. الموثوقية وتحسين النظام
تحليل السبب الجذري: بعد وقوع الحادث، قم بإجراء تحليل شامل للسبب الجذري لفهم سبب حدوث الأعطال وكيفية منعها في المستقبل. شارك النتائج مع أصحاب المصلحة ونفذ الإجراءات التصحيحية.
ضبط الأداء: قم بتحسين أداء الخدمات باستمرار من خلال ضبط الخوادم وقواعد البيانات والشبكات وكود التطبيق لتقليل زمن الوصول وزيادة الإنتاجية.
تخطيط التعافي من الكوارث: تصميم وتنفيذ واختبار استراتيجيات التعافي من الكوارث لضمان قدرة الأنظمة على التعافي بسرعة من الأعطال أو الانقطاعات الكبرى.
4. التعاون والتواصل
التعاون بين الوظائف: العمل بشكل وثيق مع فرق التطوير لدمج الموثوقية والأداء في دورة حياة التطوير. تقديم ملاحظات للمطورين حول كيفية تحسين موثوقية وقابلية تشغيل خدماتهم.
التوثيق: كتابة وصيانة توثيق واضح لممارسات SRE وإجراءات الاستجابة للحوادث وتكوينات النظام وإرشادات البنية الأساسية كرمز (IaC) لضمان فهم عمليات الموثوقية جيدًا من قبل الفريق الأوسع.
إدارة التغيير: المشاركة في عمليات إدارة التغيير، والتأكد من التخطيط الجيد للتغييرات في بيئات الإنتاج وتقليل المخاطر على توفر النظام.
5. الأمان والامتثال
أفضل ممارسات الأمان: تنفيذ ممارسات الأمان في تصميم النظام والعمليات، وضمان حماية الأنظمة من نقاط الضعف والتهديدات. مراقبة الحوادث الأمنية المحتملة ومعالجتها بشكل استباقي.
الامتثال: التأكد من امتثال الأنظمة للمتطلبات التنظيمية ذات الصلة (على سبيل المثال، GDPR وHIPAA) من خلال دمج ضوابط الامتثال والتدقيق في العمليات.
6. إدارة التكاليف
تحسين التكاليف: مراقبة تكاليف السحابة والبنية الأساسية، والتوصية بحلول فعّالة من حيث التكلفة مع تحقيق التوازن بين الأداء وقابلية التوسع. تنفيذ أفضل الممارسات للحد من التكاليف غير الضرورية المتعلقة بالموارد والخدمات.
1. المهارات الفنية
البرمجة والكتابة النصية: إتقان لغات البرمجة (مثل Python أو Go أو Ruby أو Java أو Bash) لأتمتة المهام وبناء الأدوات وتحليل الأنظمة.
المنصات السحابية: الخبرة في منصات الحوسبة السحابية (مثل AWS وGoogle Cloud Platform وMicrosoft Azure) والخدمات ذات الصلة مثل موازنة التحميل والتخزين والآلات الافتراضية.
أتمتة البنية الأساسية: الإلمام بأدوات البنية الأساسية ككود (IaC) مثل Terraform أو Ansible أو Puppet أو Chef لإدارة موارد البنية الأساسية.
الحاويات والتنسيق: الخبرة في أنظمة الحاويات (مثل Docker) وتنسيق الحاويات (مثل Kubernetes) لإدارة عمليات النشر وتوسيع نطاق الخدمات.
أدوات المراقبة: الخبرة في استخدام أدوات المراقبة والتنبيه مثل Prometheus أو Grafana أو Datadog أو New Relic لضمان موثوقية النظام وأدائه.
خطوط أنابيب التكامل المستمر/النشر المستمر: معرفة بناء وصيانة خطوط أنابيب التكامل المستمر/النشر المستمر باستخدام أدوات مثل Jenkins أو GitLab CI أو CircleCI أو Travis CI.
2. حل المشكلات واستكشاف الأخطاء وإصلاحها
إدارة الحوادث: الخبرة في تشخيص المشكلات المعقدة واستكشافها وإصلاحها في أنظمة الإنتاج، من التطبيقات إلى البنية الأساسية، غالبًا تحت ضغط الوقت.
تحليل السبب الجذري: مهارات قوية في حل المشكلات لإجراء تحليل السبب الجذري وتحديد الحلول طويلة الأجل للمشاكل النظامية.
ضبط الأداء: القدرة على تحليل أداء النظام وتحديد الاختناقات وتنفيذ التحسينات لزيادة الكفاءة.
3. مهارات الاتصال
التعاون بين الوظائف: مهارات اتصال قوية للتعاون بشكل فعال مع فرق تطوير البرامج والمنتجات والعمليات لبناء أنظمة موثوقة.
التوثيق: القدرة على كتابة وثائق مفصلة وواضحة لكل من أصحاب المصلحة الفنيين وغير الفنيين.
4. المهارات الشخصية
الاهتمام بالتفاصيل: الدقة في تتبع وإدارة مكونات النظام المختلفة، والتأكد من عدم إغفال أي تفاصيل.
إدارة الوقت: القدرة على إدارة الأولويات والحوادث والمشاريع المتعددة، وضمان الاستجابات في الوقت المناسب وإكمال المهام.
المرونة والهدوء تحت الضغط: القدرة على البقاء هادئًا ومركّزًا أثناء المواقف العصيبة، وخاصة أثناء الحوادث أو الانقطاعات.
الخبرة والمؤهلات
1. الخبرة
الخبرة ذات الصلة: عادةً ما تكون من 3 إلى 5 سنوات من الخبرة في إدارة النظام أو DevOps أو هندسة البرمجيات أو إدارة البنية الأساسية، مع التركيز على الموثوقية والأداء.
إدارة الحوادث: الخبرة في التعامل مع الحوادث ذات التأثير العالي، بما في ذلك استكشاف الأخطاء وإصلاحها والتخفيف منها وإجراء تحليلات ما بعد الوفاة.
دوام كامل