متوقف کردن اسپمر Ghost توسط گوگل آنالیتیکس


اسپم در گوگل انالیتیکس مشکلی جدی است .به دلیل افزایش تعداد اسپم ها ،سایت های جدید و خیلی از منابع دیگر به منظور مقابله با اسپم ها اقدام به نصب فیلتر ها کرده اند تا  هایی را معرفی می کند.بتوانند اطلاعات غیر مفید را کنترل کنند.  این مقاله به بیشترین اشتباهات کاربران در مقابل با اسپم ها اشاره کرده و راهکار
هم چنین با نحوه عملکرد این اسپم ها اشنا می شوید.
دو نوع اسپم در google analytics وجود دارد:  1-ghosts 2- crawaers
ghosts :
قسمت عمده ی اسپم ها از این نوع هستند.این اسپم ها به دلیل اینکه هرگز به سایت شما دسترسی پیدا نمی کنند به آنها ghost می گویند.ولی این نکته حائز اهمیت است که از این اسپم برای یافتن راه حلی مناسب در کنترل اسپم ها استفاده می شود.بر عکس آن چیزی که انتظار میرود این نوع اسپم اصلا هیچ ارتباطی باسایت شما ندارد.با وجود این که هدف اصلی google analytics بررسی بازدید کننده ها در سایت میباشد تعجب آور است که چگونه این نوع اسپم هیچ ارتباطی با سایت شما نداشته باشند . Ghost از طریق پرتکل measurement به کاربران اجازه می دهند که اطلاعات را مستقیم به سرور های google analytics بفرستند.از طریق این روش اسپم ها کد هایی به صورت (UA-XXXXX-1) از خود به جای می گذارند و اسپمر ها اطلاعات تقلبی در سایت می گذارند بدون اینکه سایت مورد حمله را بشناسند .

crawler:
Crawle بر عکس ghost ها می توانند به سایت شما دسترسی پیدا کنند.همان طور که از اسمش پیداست بر روی صفحات شما می خزند و حتی قوانینی که ربات ها اجازه نمی دهند سایت شما را بخوانند را نیز نادیده گرفته و عملکرد خود را انجام می دهند.زمانی که از سایت شما خارج می شوند یک بازدید از خود به جای می گذارند که به نظرمی اید بازدیدی قانونی صورت گرفته است. Crawler به سختی شناسایی می شوند.زیرا مقصد مورد نظر را می شناسند و از اطلاعات واقعی استفاده می کنند ولی به ندرت نمونه ی جدید آن پیدا می شود.بنابراین اگر شما در analytics ،بازدیدی را شناسایی کردید که مشکوک به نظر می رسد آن را در گوگل جست و جو کنید یا بر اساس این list ، spammy بودن آن یا نبودن آن را بررسی کنید.



 سه اشتباه عمده کاربران در برابر اسپم ها در انالیتیکس به شرح زیر است:  

1-استفاده از لیست خروج ارجاع به منظور متوقف کردن اسپم
نام این لیست شمارا گمراه می کند زیرا هدف این لیست خارج کردن ارجاعات نیست بلکه هدف های دیگری را دنبال میکند.بطور مثال، زمانی که مشتری خرید اینترنتی انجام می دهد به صفحه ی سوم به منظور پرداخت وجه راهنمایی می شود و google analytics این برگشت را به عنوان بازدید جدید ضبط می کند.برای جلوگیری از بروز این نوع بازدید میتوان از referral exclusion list استفاده کرد. اگر شما از لیست ارجاع برای کنترل اسپم استفاده کنیدبا این وجود قسمت ارجاع خالی خواهد ماند زیرا از قبل هیچ بازدیدی ضبط نشده است.در نتیجه بازدید مستقیم مخاطب ضبط خواهد شدو شما به مشکل بیشتری برخورد می کنید و هنوز اسپم ها وجود دارند و بازدیدهای مستقیم به سختی شناسایی می شوند.


2-بلاک کردن ghost spam ها از فایل htaccess.
بزرگترین اشتباهی که کاربران انجام می دادند این بود که ghost spam ها را از فایل htaccess بلاک می کردند. این افراد از عملکرد چنین فایل هایی آگاهی نداشتند زیرا هدف اصلی این فایل(بلاک کردن یا دسترسی داشتن)به سایت شما میباشد.در صورتیکه میدانیم،ghost ها هیچگاه به سایت شما دسترسی ندارند.بنابراین اضافه کردن این ghost ها به فایل مذکور هیچ تاثیری ندارد و فقط یک سری line به این فایل اضافه شده است که هیچ ضرورتی ندارد. Ghost spam ها معمولا به مدت چند روز در صفحه ظاهر میشوند و سپس از بین میروند.در نتیجه افراد تصور میکنند که توانسته اند اسپم ها را بلاک کنند.در صورتیکه این اتفاق خود به خود صورت گرفته و هیچ ارتباطی با بلاک کردن آنها وجود ندارد. سپس زمانی که اسپمر ها برمیگردند کاربران تصور میکنند که راه حل آنها در مقابله با اسپم ها مفید نبوده است واسپم ها توانسته اند از بلاک های آنها عبور کنند. واقعیت این است که فایل htaccess فقط میتواند crawer هایی با آدرس buttons-for website.com را بلاک کنند و بقیه موارد به سایت شما دسترسی پیدا میکنند.بیشتر اسپم ها از این طریق بلاک نمیشوند و هیچ راه حلی جز استفاده از فیلترها برای خروج اسپم وجود ندارد.
3-نگرانی در رابطه با تغییرات Bounce Rate و تاثیر آن بر درجه ی اعتبار سایت کاربران به دلیل وجود اسپم ها تغییراتی را در Bounce Rate مشاهده میکنند ودر آن لحظه احساس نگرانی می کنند که آیا این تغییرات در درجه ی اعتبارشان در SERPS تاثیر دارد.
گوگل در الگوریتم های google analytics تغییرات BOUNCE RATE را مورد بررسی قرار نمی دهد. در اینجا توضیحاتی در باره این موضوع توسط رئیس سابق تیم اسپم گوگل میپردازیم.گفته های آقای گات شما را راجع به این موضوع مطمئن میکند.زیرا اگرچه همه ی اشخاص google analytics دارند ولی همه از آن استفاده نمی کنند. فرض بر اینکه سایت شما هک شده است زمانی که افراد صفحات جدیدی از اسپم هارا بر روی صفحات سایت خود میبینند، از اینکه شاید هک شده اند ابراز نگرانی میکنند.
صفحاتی که اسپم بر روی صفحات گزارش نشان میدهد اصلا وجود ندارند و اگر شما سعی کنید آنها را باز کنید 404 صفحه باز میشود ولی سایت شما دچار اختلال نشده است.ولی میبایست مطمئن شوید که این صفحات وجود ندارند زیرا به غیر از اسپم ها مواردی وجود دارند که با کیبورد های مخرب سبب تخریب سایت شما می شوند.
مشکلات امنیتی و تاثیرشان بر اعتبار و درجه ی سایت را بعدا مورد بررسی قرار خواهیم داد ولی در حال حاضر به بیان اهمیت اطلاعات و داده ها می پردازیم. این باعث نگرانی است که اسپم ها اطلاعات تقلبی بر روی گزارش شما قرار میدهند. کمیت و میزان تخریب و نگرانی آن بستگی به میزان ترافیک سایت شما دارد. ولی هر سایتی مورد هجوم اسپم ها قرار میگیرد. سایت های کوچک و متوسط به راحتی تحت تاثیر اسپم قرار میگیرند. زیرا معمولا کنترل این سایت ها توسط اشخاص صورت می گیرد و هیچ آنالیزی و وب مستری آنها را کنترل نمیکند. سایت های بزرگ با ترافیک های زیاد نیز تحت تاثیر اسپم قرار میگیرد.اگرچه تاثیرشان بسیار ناچیز است ولی ترافیک نا معتبر به معنی گزارشات نادرست میباشد و ربطی به سایز وبسایت ندارد. به عنوان یک آنالیزگر شما میبایست اتفاقاتی که برروی گزارش های شما رخ می دهد تسلط داشته باشید.

برای مبارزه با ghost spam به  فیلتر نیاز خواهید داشت
معمولا توصیه میشود که بعد از مورد حمله قرار دادن اسپم ها ،از فیلتر خروج ارجاع استفاده کنید.اگرچه این روش اقدامی سریع در مقابله با حملات اسپم میباشد ولی دارای معایب زیر نیز میباشد :

فیلتر کردن هر هفته برای اسپم های جدید بسیار خسته کننده و وقت گیر است.مخصوصا اگر سایت های زیادی را مدیریت می کنید .علاوه بر این زمانیکه شروع به استفاده از فیلتر می کنید از قبل بعضی از اطلاعات شما مورد حمله اسپم قرار گرفته است.
بعضی از spammer ها از بازدید های مستقیم در طی ارجاعات استفاده میکنند.
حمله های این spammer ها در بازدید مستقیم از طریق فیلتر متوقف نمی شود.حتی اگر شما ارجاعات را خاموش کنید باز هم ترافیک غیر معتبر خواهید داشت.با این تفاسیرکه چرا بعضی از کاربران در ترافیک مستقیم unsual spike دارند.
خوشبختانه راه حلی در مقابله با همه ی مشکلات وجود دارد.بیشتر اسپم ها ،ID های google analytics را مورد حمله قرار میدهند.بدین معنا که آنها نمیدانند کجا را مورد حمله قرار می دهند.زیرا hostname تنظیم نشده یا از تقلبی آن استفاده می شود
با توجه به  جدول  زیر متوجه می شوید که از اسم های عجیب و غریب استفاده کرده اند یا حتی برای تنظیم آنها خود را به زحمت نیانداختند.اگر چه تعدادی از اسپم ها در لیست بالا شناخته شده می باشند با این وجود spammer به راحتی می تواند این سایت ها را add کند. به عبارتی دیگر بازدید معتبر همیشه از Hostname واقعی استفاده خواهد کرد. در بیشتر موارد به صورت domain می باشد.سایت هایی با سرویس پرداخت ،سرویس ترجمه ویا هر سایتی که شما کد های google analytics را وارد کرده اید خود می توانند منشا اسپم ها باشند .

بر این اساس می توان از فیلتری استفاده کرد که حمله هایی با Hostname واقعی را در بر گیرد.این حملات چه به صورت ارجاع ،keyword یا صفحه نما یا حتی بازدید مستقیم باشند ،به صورت اتوماتیک همه ی حملات ناشی از ghost spam ها را خارج می کنند.

برای ایجاد فیلتر باید گزارشی از Hostname ها پیدا کنید بدین صورت که :
1-به قسمت reporting در google analytics بروید .
2-در پنل سمت چپ بر روی گزینه ی Audience کلیل کنید.
3-در آیکن Tecnology گزینه ی Network راانتخاب کنید.
4-دربالای صفحه ی باز شده بر روی hostname کلیک کنید.
لیست همه ی hostname ها را مشاهده خواهید کرد. همچنین لیست hostname هایی را که اسپم از آنها استفاده میکند نیز قابل مشاهده است.لیست تمامیه hostname های معتبر به صورت زیر میباشد:


Paying servise.com
Translatedtool.com
Anotheruseddomain.com
Es.yourmaimdomain.com
Yourmaindomain.com

برای همه ی سایت ها چه کوچک چه بزرگ این لیست hostname ها شامل domain یا چندین subdomain خواهد بود.بعد از اطمینان از دریافت همه ی hostname ،regular expression زیر را وارد کنید :
yourmaindomain\.com|anotheruseddomain\.com|payingservice\.com|translatetool\.com
نیازی به وارد کردن همه ی subdomain ها در عبارت فوق نمی باشد.domain اصلی دربرگیرنده ی همه ی آنها میباشد.اگر شما بدون فیلتر ،تنظیمات view را ندارید آن را درست کنید. سپس custom filter را ایجاد کنید. گزینه Include را انتخاب و سپس در filter field روی گزینه ی hostname کلیک و عبارت خود را در کادر filter pattern کپی کنید.
قبل از ذخیره کردن امکان اصلاح کردن نیز وجو دارد وبعد از انجام عمل save ،فیلتر بر روی همه ی بازدید های مورد نظر شما اعمال می شود، این تنها فیلتری است که از حمله های spam ها باhostnameهای نا معتبر جلوگیری می کند و نیازی به محافظت و نگهداری ندارد.اما این نکته مهم است که هر گاه tracking کدها را در هر سرویس وارد می کنید ،می بایست این کدها را در انتهای فیلتر خود نیز اضافه کنید. به دلیل اینکه crawle ها به سایت شما دسترسی دارند بایدآنه ارا باتوجه به بدین طریق بلاک کرد :با اضافه کردن line های زیر به فایل htaccess.

## STOP REFERRER SPAM
RewriteCond %{HTTP_REFERER} semalt\.com [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website\.com [NC]
RewriteRule .* - [F]

این نکته حائز اهمیت است که این فایل بسیار حساس است و جابه جایی یکی از کاراکتر ها ممکن است باعث پایین آمدن سایت شما شود.بنابراین قبل از اعمال آن back up کپی از آن بگیرید تا مطمئن شوید.یرای اطمینان بیشتر از compaign source استفاده کنیم، استفاده از راه حل های مذکور ،نگرانی شما را در مورد analytic data کاهش دهید. و مزیت دیگر اینکه شما زمان کمتری را صرف آنالیز data های معتبر می کند. بعد از متوقف کردن اسپم ها ،می توانید گزارشات خود را از هرگونه اسپم با استفاده از experession موجود در advance segment to exclude all the spam پاک کنید.