Sosyal medya kullanımının artması ve mevcut bilgilerin artması ile kullanıcı profili oluşturma, güvenlik, adli tıp, pazarlama vb. alanlarda önemli bir araç haline geldi. Örneğin, adli dilbilim perspektifinden, taciz edici metin mesajları gönderen bir kullanıcının dil profili belirlenebilir veya sahte bir kullanıcı hesabı tanımlanabilir. Pazarlama açısından bakıldığında, şirketler yalnızca çevrimiçi ürün incelemelerine dayanarak ne tür insanların ürünlerini sevip sevmediğini öğrenebilirler. Kullanıcı profili oluşturma, yalnızca çevrimiçi gönderilerini analiz ederek bilinmeyen bir kullanıcı hakkında mümkün olduğunca fazla bilgi keşfetmekten oluşur. Kullanıcılar, sosyolekt yönleri, yani ne kadar uzun cümleler yazdıkları veya hangi kelimeleri kullandıkları vb. incelenerek sınıflar arasında ayrım yapılabilir. Bu bilgilerle kullanıcının cinsiyetini, yaşını, ana dilini ve kişilik tipini belirlemek mümkündür.
Araştırmalar, kadınların duyguları ifade eden kelimeleri (örneğin, 'heyecanlı'), ifadeleri (erkeklerden neredeyse üç kat daha fazla), ünlem işaretlerini ve birinci tekil şahısları daha fazla kullandıklarını ve daha fazla psikolojik ve sosyal süreçlerden (örneğin, 'aşk) bahsettiklerini buldu. sen'); erkekler daha fazla küfür, nesne (ör. "xbox" veya "pc") ve politik veya spor referansları kullanıyor. Yaşın baskın olduğu konular yaşam süresini takip eder: okuldan/üniversiteden işe ve aileye.
19-22 yaşındakiler için aşırı alkol tüketimi (örn. 'kusmuk', 'akşamdan kalma', 'boşa gitti') ve 23-29 yaşındakiler için birayla ilgili daha ayrılmış ifadeler (örn. 'bira') gibi bazı konular daha da zamana özgüdür. , 'içme', 'bira'). Daha genç kullanıcılar daha fazla sayıda internet argo sözcükleri ("lol" ve "omg" gibi), hashtag'ler, tamamı büyük harfler ve uzun kelimeler (ör. "whaaaaaaat"); daha yaşlı kullanıcılar ise daha uzun ortalama gönderi uzunluğuna ve daha fazla sayıda yanıta sahip olma eğilimindedir. İnsanlar yaşlandıkça, arkadaşlıklar ve ilişki referanslarıyla birlikte "biz" kullanımı doğrusal olarak artarken, "ben" aynı anda azalır.
Ayrıca, kullanıcının kişilik profili, 'Beş Büyük kişilik özelliği' olarak adlandırılan beş özellik kullanılarak tanımlanabilir:
Dışadönüklerin 'parti', 'seni seviyorum', 'erkekler' ve 'bayanlar' gibi sosyal sözcükleri kullanmaları daha olasıyken, içe dönükler 'bilgisayar', 'internet' ve 'okuma' gibi yalnız faaliyetlerle ilgili kelimeleri kullanır.
Nevrotizmde (duygusal olarak daha az kararlı) daha yüksek puan alan kişiler, daha fazla kaygı sözcüğü ("endişe" gibi) ve kısa cümleler kullanma eğilimindedir.
Açıklık, 'rüya', 'evren' ve 'ruh' (yani hayal gücü) ile değil, 'müzik', 'sanat' ve 'yazma' (yani yaratıcılık) ile ilgilidir.
Vicdanlılık, ölüm (ör. "gömmek", "tabut", "öldürmek"), olumsuz duygular ve üzüntü ile ilgili kelimelerle negatif ilişkilidir, bu da vicdanlı insanların mutsuz konular hakkında daha az konuşma eğiliminde olduğunu düşündürür; aynı kişilerin başkaları hakkında veya başkalarıyla konuşmaya meyilli olduğunu gösteren, 'siz' kullanımıyla olumlu bir ilişki içindedir.
Uyumlu insanlar da 'sizi' çok kullanma eğilimindedir, ancak başarılar ve para hakkında konuşmaları daha az olasıdır. Özelliklerin listesi uzayıp gidiyor.
Dolayısıyla, modelinizi eğitmek için iyi açıklamalı bir veri kümeniz varsa, kullanıcının cinsiyetini, yaş grubunu ve kişilik özellikleri puanını belirleyen bir algoritma oluşturmanız mümkündür. Yaş/cinsiyet sınıflandırması için birçok modelle kolayca %70'lik bir doğruluk elde edebilir ve daha iyi ön işleme ve özellik ayarlaması ile bunu daha da artırabilirsiniz. Daha iyi bir veri anlayışı daha yüksek bir doğruluk sağlar, ancak en büyük sorunlar lehçelerin çeşitliliği, dilbilgisi zorlukları ve yazım hatalarıdır. Yine de, daha küçük bir doğruluk bile, kullanıcınızın kişiliği hakkında size değerli bilgiler verebilir ve işinizi iyileştirebilir.
Kaynak: Schwartz, H.A., Eichstaedt, J.C., Kern, M.L., et al. (2013): Sosyal Medyanın Dilinde Kişilik, Cinsiyet ve Yaş: Açık Kelime Yaklaşımı, ed. PLoS BİR, 2013; 8(9):e73791, doi:10.1371/journal.pone.0073791.