Comprehensive Data Analysis • RFM Segmentation • Machine Learning • Power BI Dashboard
This project analyzes the performance of an e-commerce store during 2023. It covers data cleaning, exploratory analysis, customer profiling, RFM segmentation, and building a machine learning model to classify customers.
The project follows a complete end-to-end analytics workflow used in real e-commerce environments.
Dataset from Kaggle: https://www.kaggle.com/datasets/refiaozturk/e-commerce-sales
The data was cleaned, processed, and prepared for analysis and ML tasks.
During initial inspection, several fields such as age, gender, and region contained unrealistic or contradictory values. These columns were entirely removed to ensure data integrity.
Cleaning steps included:
Top-selling categories
Revenue patterns
Frequency of purchases
Trend analysis
RFM metrics were calculated:
Recency – how recently the customer purchased
Frequency – how often they buy
Monetary – how much they spend
These were used for segmentation and ML modeling.
A machine learning model was built using RFM data to classify customers into:
Algorithm used:
This segmentation supports targeting strategies and customer retention planning.
-Technology products dominated 2023 sales.
-Sales peaked midweek based on dashboard KPIs.
-Customer segmentation revealed 4 distinct clusters.
-High-value customers are responsible for a large share of revenue.
A considerable portion of customers are at-risk and need engagement strategies.
Interactive dashboard (.pbix): dashboard/E-commerce-Analysis.pbix
e-commerce-analysis/
│
├── data/
# Raw and cleaned datasets
├── notebooks/
# Jupyter notebooks (EDA + ML)
├── dashboard/
# Power BI dashboards
├── images/
# Screenshots used in README
└── README.md
Install dependencies:
pip install pandas numpy scikit-learn matplotlib seaborn openpyxl
Run the Jupyter Notebook inside the notebooks/ folder.
Open the Power BI file in the dashboard/ folder.
LinkedIn: https://www.linkedin.com/in/asem-haij-9797562a8
مشروع متكامل لتحليل بيانات متجر يعمل بالتجارة الإلكترونية خلال عام 2023، ويهدف إلى فهم الأداء العام، تحليل سلوك العملاء، دراسة اتجاهات المنتجات، وبناء نموذج لتصنيف العملاء باستخدام RFM.
يحلل هذا المشروع أداء متجر إلكتروني خلال عام 2023، ويشمل تنظيف البيانات، إجراء تحليلات استكشافية، تحليل المنتجات والعملاء، استخراج RFM، وبناء نموذج لتصنيف العملاء حسب قيمتهم.
تم الحصول على البيانات من منصة Kaggle، ثم تمت معالجتها وتنظيفها وتجهيزها للتحليل والنمذجة.
---عند مراجعة البيانات، وُجد أن بعض الأعمدة مثل: العمر، الجنس، المنطقة تحتوي على قيم متضاربة، لذلك تم استبعادها بالكامل لأنها كانت تضر دقة التحليل.
تضمن التنظيف أيضًا:
- معالجة القيم المفقودة
- توحيد الصيغ
- إزالة الأعمدة غير الدقيقة
- إنشاء أعمدة مشتقة من سلوك العملاء
---
- تحديد المنتجات والفئات الأكثر مبيعًا
- دراسة اتجاهات المبيعات
- تحليل تكرار الشراء
### ● تحليل العملاء
- استخراج قيم RFM
- تقسيم العملاء بناء على سلوك الشراء
- تجهيز البيانات للنموذج
---
بناء نموذج يعتمد على ميزات RFM لتقسيم العملاء إلى 4 فئات:
- عملاء ذوو قيمة عالية
- عملاء متوسطو القيمة
- عملاء منخفضو القيمة
- عملاء على وشك المغادرة أو مفقودون
-
Pandas
-
NumPy
-
Matplotlib
-
Seaborn
-
Scikit-learn
-
Openpyxl
-
K-means clusters
- لوحة رئيسية
- نسخة خاصة بالجوال
- سيطرة قطاع التقنية على المبيعات مقارنة ببقية المنتجات.
- معظم عمليات البيع تتم في وسط الأسبوع كما هو ظاهر في لوحات التحكم.
- تم تصنيف العملاء إلى 4 فئات واضحة تساعد على فهم قيمتهم.
e-commerce-analysis/
│
├── data/ # البيانات الخام والمنظفة
├── notebooks/ # دفاتر التحليل
├── dashboard/ # ملفات Power BI
├── images/ # صور الداشبورد
└── README.md
تستطيع تحميل ملف dashboard عن طريق الرابط أدناه
- تثبيت مكتبات Python اللازمة
- تشغيل الأكواد أو دفاتر Jupyter
- فتح ملف Power BI لاستعراض التحليل البصري
شكراً لاهتمامك!


