Press "Enter" to skip to content

Tag: text mining

Filmlerde metin arama

bookworm

Filmlerde acaba yıllar boyunca kullanılan kelimeler değişiyor mu veya herhangi bir yönetmenin filminde değişiyor mu diye sorularınız varsa http://movies.benschmidt.org/ adresinden bu soruların cevaplarını bulabilirsiniz.

Site Opensubtitles sitesindeki filmlerin altyazılarını taramış, kaydetmiş ve bunları da üstteki gibi bir arayüzü ile arama imkanı sunmuş. Bu arada taranan film sayısı 87,000. Türkçe filmler içinde de arayabiliyorsunuz ama onların sayısı biraz daha az tabiki diğerlerine nazaran.

API ile bilgi alma – NYTimes örneği

Büyük kurum ve şirketlerin ellerinde bazen o kadar çok bilgi oluyor ki bunu ne yapacaklarını bilmiyorlar ama kendileri bilmese de başkalarının bunları kullanabileceklerini biliyorlar. Bunun içinde bu bilgileri halka açıyorlar ve bunlarıda genelde REST API tarzı formatta açıyorlar. Peki ya, çok az bilgisayar bilen birisi olarak bunu nasıl alacağız?

1) Chrome tarayacınızda uygulamalara gidip ya Advanced rest Client ya da Postman diye iki uygulamadan (başkalarıda var tabiki) birini indirin. Bu uygulamalar sayesinde karşı tarafın sağlamış olduğu veri tabanını sorgulayabileceğiz.

2) http://developer.nytimes.com/docs/best_sellers_api/ adresine gidin. Bu NYTimes’ın kendi verilerine (bu best seller listesi, tabiki başka verilerde var) ulaşmak isteyenlerin kullanacağı klavuz. Gayet güzelce hazırlanmış

3) Bu klavuzu inceleğince arada bir api_key kelimesi geçiyor. Veri çağrısı yaptığımız zaman herkes değil de kayıtlı birileri verileri alsınlarlar diye herkese ayrı bir anahtar veriyorlar. Bu anahtarı almak için de http://developer.nytimes.com/apps/register adresine gidip, kayıt olup, anahtarınız alıyorsunuz (30-40 harflik bir şey)

4) Artık anahtaramız da hazır olduğuna göre veri çekebiliriz. Chrome’daki uygulamadan (ben Advanced Rest Client örneğini kullanacağım). Klavuzda diyorki

http://api.nytimes.com/svc/books/{version}/lists/names[.response_format]?api-key={your-API-key}

Bu üstteki formatı kullanarak en çok satılanlar listesini görebilirsiniz. Ancak klavuzu okuyunca bir kaç tane bilgi bilmek gerekiyor. Mesela {version} yerine v2 girmemiz gerekiyor

{your-API-key} yerine 3. adımda aldığımız anahtarı girmemiz gerekiyor

Bu bilgileri Chrome uygulamasına aşağıdaki gibi girince (burada kendi anahtarınızı kullanın, aşağıdaki çalışmayacaktır) ve GET ile send yapınca (zaten seçili geliyor)

http://api.nytimes.com/svc/books/v2/lists/names?api-key=4b3e684565091ac3b196d2e043213394:3:3628

size şöyle bir bilgi gelecek (bu JSON formatında, XML formatında veya Serial PHP formatında da alabilirsiniz).

status: OK
copyright: Copyright (c) 2014 The New York Times Company. All Rights Reserved.
num_results: 37

results:[37]

0: {
list_name: Combined Print and E-Book Fiction
display_name: Combined Print & E-Book Fiction
list_name_encoded: combined-print-and-e-book-fiction
oldest_published_date: 2011-02-13
newest_published_date: 2014-09-21
updated: WEEKLY}

1: {
list_name: Combined Print and E-Book Nonfiction
display_name: Combined Print & E-Book Nonfiction
list_name_encoded: combined-print-and-e-book-nonfiction
oldest_published_date: 2011-02-13
newest_published_date: 2014-09-21
updated: WEEKLY }

Bu bilgide en çok satanlar kategorisinin içinde hangi kategoriler var be bunların ne sıklıkla güncelleniyor ve de içlerindeki en eski eser hangi tarihten diye merak ettiğiniz soruların cevabı bu verinin içinde.

Peki ben excel bilirim başka birşey bilmem diyorsanız bu bilgiyi alıp http://konklone.io/json/ adresine götürün ve orada CSV’ye çevirin ve şöyle birşey elde edin

nytimes_best_seller

 

Artık bol bol oynayabilirsiniz :))

 

Monkeylearn – Text Verisi Sınıflandırma

Text verinizi sınıflandırmak istiyorsanız MonkeyLearn sizin için olabilir. Text verisi sınıflandırmak ne derseniz şöyle bir örnek verelim: Mesela bir e-ticaret şirketiniz var ve oradaki yorumları olumlu veya olumsuz olarak sınıflandırmak istiyorsunuz ki (tabiki elle değil de, bilgisayarları kullanarak) bunu takip edebilesiniz. MonkeyLearn bunu yapmanıza yardım ediyor.

Monkeylearn’in en başta biraz kullanması zor gibi gözüküyor ama oynadıkça hemen öğreniyorsunuz. Aslında çok güzel tutorial’ları var, oradan bakabilirsiniz ama ben kabaca nasıl çalıştığını anlatayım.

Öncelikle bir sınıflandırma oluşturuyorsunuz (veya hazır sınıflandırmanızı yüklüyorsunuz), mesela 10 tane farklı giysi satan bir firmasınız, onun için elbise, etek, pantalon, gömlek vs…. diye sınıflar oluşturuyorsunuz. Sonra her sınıfın içine 1-2 tane örnek tasvir koyuyorsunuz, bunları koyduktan sonra modeli eğitiyorsunuz. Modelin eğitim sonuçlarına bakabiliyorsunuz (mesela %95 doğrulukla çalışıyorsa, sınıflarınızı %95 oranında doğru yapacak diyorsunuz) Eğitilmiş modelinizi kullanarak herhangi bir texti (kendiniz yükleyebilirsiniz veya websitesinden alabilirsiniz) sınıflandırıyorsunuz.

Peki bunun başka pratik uygulamaları nedir? Bir kaç örnek vermek gerekirse, müşteri hizmetlerindeki yorumların olumlu olup olmadığına bakabilirsiniz, rakip bir sitede ne kadar hangi kategoriden ürün olup olmadığına bakarsınız, kişilerin yorumlarına göre neyi sevdiklerine göre sınıflandırabilirsiniz vesaire ….

Türkçe destekleri yok, yani model oluşturabilirsiniz ama doğruluğu belki %50’nin üzerine bile çıkmayabilir ama bundan emin değilim çünkü Arapça sentiment (iyi veya kötü) analizi yapılmış modüller var. Deneyip görmek lazım!