İngilizce Metin: https://o-date.github.io/draft/book/computer-vision-and-archaeology.html
🔧 Launch the image classifier binder. Image Classifier Binder’ı başlatın.
🔧 Launch the image clustering with tensorflow binder. Image clustering with tensorflow Binder’ı başlatın.
Son yıllarda, fotoğraflardaki nesneleri, insanları ve yerleri tanımlamak için sinir ağlarını kullanmak pratik hale gelmiştir. Özellikle görüntülere uygulanan sinir ağlarının bu kullanımı, 2012’den ve ‘evrişimsel’ sinir ağlarının ilk ortaya çıkışından bu yana hızlı bir ilerleme kaydetmiştir (Deshpande (2016) bu literatüre erişilebilir bir rehber sunmaktadır). Ancak genel olarak sinir ağları 1990’lardan bu yana arkeoloji literatüründe ara sıra ortaya çıkmıştır; Baxter (2014) faydalı bir genel bakış sunmaktadır. Yakın zamandaki ilginç kullanımlar arasında Benhabiles ve Tabia’nın (2016) çanak çömlek veri tabanlarını geliştirmek için kullandığı yaklaşım ve Wang ve arkadaşlarının (2017) restorasyona yardımcı olarak heykellerin stilistik analizi üzerine yaptığı çalışma yer almaktadır. Bu bölümde, evrişimli sinir ağlarının hazırlık olarak nasıl çalıştığına dair nazik bir giriş yaptıktan sonra, gerçek çalışan sınıflandırıcılar oluşturmak için daha fazla veriyle yeniden kullanılabilecek veya genişletilebilecek iki jupyter bağlayıcısı sunuyoruz.
4.5.1 Convolutional Neural Networks ( Evrişimli Sinir Ağları (ESA))
Sinir ağları, gözün, optik sinirin ve beynin mimarisine dayanan bir tür hesaplama dizisi için biyolojik bir metafordur. Gözün retinası ışığa maruz kaldığında, retina içindeki farklı yapılar retinaya yansıtılan görüntünün farklı yönlerine tepki verir. Bunlar, görüntülenen şeye bağlı olarak daha fazla veya daha az güçle ‘ateşlenir’. Sonraki nöronlar, aldıkları sinyal(ler) yeterince güçlüyse ateşlenirler. Bu farklı ateşleme nöron kademeleri, farklı görüntülere maruz kalındığında beyni belirli ve tekrarlanabilir şekillerde ‘aydınlatır’. Bilgisayımsal sinir ağları da benzer bir etki yaratmayı amaçlar. Bir çocuğun sonunda bu şekil ve renk örüntüsünü ‘elma’ ve bu örüntüyü ‘portakal’ olarak tanımayı öğrenmesi gibi, bilgisayarı da belirli bir aktivasyon örüntüsünün ‘elma’ olarak etiketlenmesi gerektiğini ‘bilmesi’ için eğitebiliriz.
Bir ‘evrişimli’ sinir ağı, bir görüntüye en temel özellikleri açısından – eğriler veya bitişik renk alanları olmak üzere – ‘bakarak’ başlar. Bilgi ağ boyunca süzüldükçe katmanlar görüntüdeki giderek daha fazla soyutlamaya, yaklaşık 2048 farklı bilgi boyutuna duyarlı hale gelir. İngilizce’de bu boyutlardan bazılarının (çoğunun) tam olarak neye yanıt verdiğini anlamak için kelimeler yoktur, ancak ‘Deap Dream’ sanat eserlerinden herhangi birini gördüyseniz [SG buraya şekil ekleyin] bu veri boyutlarından bazılarının görselleştirilmesini görüyorsunuz demektir. Sinirlerin son katmanı, 2048 boyuttan görüntünün ne olması gerektiğini tahmin eder. Böyle bir ağı eğitirken, başlangıçta görüntünün ne olduğunu biliriz; sonunda ağ ‘elma’yı doğru tahmin edemezse, bu hata ağın doğru yanıt verme şansını artırmak için sinirler arasındaki bağlantıların ağırlıklarını ağ boyunca geri kaydırmasına (‘backpropogation’) neden olur. Bu hesaplama, tahmin, değerlendirme, ayarlama süreci daha fazla gelişme görülmeyene kadar devam eder.
Bunun gibi sinir ağları, hızlarını veya doğruluklarını ya da araştırmacının ilgisini çeken başka bir özelliği artırmak için çok karmaşık mimarilere sahip olabilir. Genel olarak, bu tür sinir ağları dört çeşit katmandan oluşur. İlki evrişimli (convolutional) katmandır. Bu, bir görüntünün farklı yönlerine yanıt veren bir tür filtredir; görüntü boyunca soldan sağa, yukarıdan aşağıya doğru hareket eder (‘evrişimli’ adı buradan gelir). Bir sonraki katman, filtre tarafından sağlanan bilgiye tepki veren katman olan aktivasyon (activation) katmanıdır. Sinir ağı bu noktada şaşırtıcı miktarda bilgi ile uğraşmaktadır ve bu nedenle üçüncü katman olan ortaklama (pooling) katmanı, gürültüyü ayıklamak ve verilerde yalnızca en önemli özellikleri bırakmak için bir tür matematiksel indirgeme veya sıkıştırma yapar. Herhangi bir sinir ağı, belirli şekillerde düzenlenmiş nöronlardan oluşan bu tür birkaç ‘katman’a sahip olabilir. Son katman, etiketlerle ilgili bilgilerin bulunduğu katman olan bağlantılı (connected) katmandır. Bu nöronlar, görüntünün 2048 boyutlu temsilinin kendi kategorilerine ‘ait’ olup olmadığı konusunda bir tür ‘oylama’ yapar. Bu oylama bir yüzde olarak ifade edilir ve tipik olarak görüntü tanımlama sorununa uygulanan bir ESA’nın ürünü olarak gördüğümüz şeydir.
4.5.2 Uygulamalar
Nesne kategorilerini tanımak için bir sinir ağını eğitmek bilgisayımsal olarak son derece yoğundur. Google’ın Inception3 modeli – yani Google’ın eğittiği sinir ağının son hali – milyonlarca görüntüyü bir araya getirmek için devasa bir şirketin kaynaklarını kullandı. Ancak Google modelini halka açık olarak yayınladı. Artık herkes bu tamamlanmış ağırlık ve sinir modelini alıp kendi uygulamalarında kullanabilir. Ancak Google modelini arkeolojik materyaller üzerinde eğitmedi, bu nedenle böyle bir modelin bizim için herhangi bir değeri olup olmadığını merak etmek mantıklı.
Modelin eğitilme ve oluşturulma şeklinin ilginç bir yan ürünü nedeniyle bunu yaptığı ortaya çıktı. Öğrenme aktarımı, Inception3 modelinin öğrendiği yüksek boyutlu görme biçimlerini almamıza ve bunları ince ayarlanmış bir son oylama katmanına uygulamamıza olanak tanır. Bilgisayara yalnızca binlerce görüntü verebilir ve bu kategorileri öğrenmesini söyleyebiliriz: böylece bir görüntü sınıflandırıcıyı farklı çömlek türleri üzerinde nispeten hızlı bir şekilde eğitebiliriz. Google ayrıca Inception3’ün çok daha küçük (yalnızca 1001 boyut ya da görme biçimi) ve bir akıllı telefonla birlikte kullanılabilen Mobilnet adlı bir sürümünü de yayınladı. Bu küçük model üzerinde de öğrenme aktarımını kullanabilir ve örneğin Roma çömlek dokularını tanımak üzere eğitilmiş bir akıllı telefon uygulaması oluşturabiliriz.
Fotoğraflardaki nesneleri tanımlamaya odaklanmak, modelin ilginç bir yönünü gizlemektedir – yani, etiketlemeyi göz ardı ettiğimizde yapılabilecek ilginç ve faydalı şeyler vardır. Sinir ağının sondan ikinci katmanı, görüntünün özellik haritasının sayısal temsilidir. Bu bilgiyi kullanmak için görüntünün neye ait olduğunu bilmemize gerek yoktur. Bunun yerine görüntülerin bu temsillerini çeşitli k-ortalamalar, en yakın komşu, t-sne veya verilerde örüntü ve yapı aramak için diğer istatistiksel araçlarla besleyebiliriz. Görüntülerimiz arkeolojik alanların Flickr’a yüklenen turist fotoğraflarından oluşuyorsa, turistlerin fotoğraflarını (ve dolayısıyla arkeolojik bilinçlerini) nasıl şekillendirdiklerini anlamak için bu tür araçları kullanabiliriz. Huffer ve Graham (2018) bu aracı, Instagram’da insan kalıntılarının fotoğraflarını satın alan, satan ve toplayan insan topluluklarıyla bağlantılı fotoğraflardaki görsel imaları belirlemek için kullanıyor. Tarihçiler bu yaklaşımı 19. yüzyıl fotoğraflarındaki kalıpları anlamak için kullanıyor; diğerleri ise yazılı basında reklamcılığın evrimine bakıyor.
Bu teknolojiler, son derece etik dışı olduğunu düşündüğümüz kullanımlara hızla sokulmaktadır. Örneğin Amazon, polis teşkilatlarına satmaya çalıştığı ‘Rekognition’ adlı bir yüz tanıma hizmetine sahiptir (Winfield 2018) ki bu bir tür dijital ‘kartlama’ ya da ırka göre fişleme olarak değerlendirilebilir. Çin’de, azınlık nüfusları üzerinde kontrol sağlamak için devasa otomatik bilgisayar görüşü kullanılmaktadır (“China Has Turned Xinjiang into a Police State Like No Other” 2018). Çeşitli yazılım şirketleri, satışları artırmak için mağaza güvenlik kamerası görüntülerinden ‘etnik köken’ veya ‘ırk’ tanımlamayı vaat ediyor (ve internette hızlı bir arama sizin için bunları bulacaktır). Graham ve Huffer’ın Bone Trade projesinde tartışılan olası sonuçlardan biri, çevrimiçi olarak ticareti yapılan insan kemiklerinin hangi soydan gelen topluluklara ait olduğunu belirlemek için bilgisayar görüsünü kullanmaktır. Bu kemiklerin birçoğunun muhtemelen ırk üzerine içler acısı teorileri ‘kanıtlamak’ için mezarlardan çıkarıldığı göz önüne alındığında (kökenleri hakkında Redman’a (2016) bakınız), bilgisayarlı görünün böyle bir kullanımı geçmişin günahlarını yeniden yaratma riskini taşımaktadır.
Bilgisayarlı görüyü arkeolojinin ya da herhangi bir teknolojinin hizmetine sunmadan önce, her zaman teknolojinin nasıl kötüye kullanılabileceği sorulmalıdır: Bu kime zarar verebilir?
4.5.3 Alıştırmalar
- Bir görüntü sınıflandırıcı oluşturun. Bu alıştırma için kod depomuzda bulunmaktadır; launch the binder ve adımlar üzerinde dikkatlice çalışın. Eğitim komut dosyası için ayarlayabileceğiniz çeşitli ‘bayraklara’ dikkat edin. Google’da aratın; ne işe yarıyorlar? Öğrenme aktarımının hızını artırabilir misiniz? Peki ya doğruluğu? Bölüm 2.5’te öğrendiklerinizi kullanarak bir sınıflandırıcı oluşturabileceğiniz daha fazla veri elde edin (ipucu: depoda bu konuda size yardımcı olabilecek bir komut dosyası var).
- Benzer görüntüleri sınıflandırın. Bu alıştırma için kod Shawn Graham’ın deposunda; launch the binder ve adımlar boyunca çalışın. Sonuçların daha net olması için daha fazla görüntü verisi ekleyin.
- Kendinizi maceraperest hissediyorsanız, Matt Harris’in signboardr adlı, tabela içeren arkeolojik fotoğraflardan metin tanımlamak ve çıkarmak için bilgisayarla görmeyi kullanan ve ardından bu verileri fotoğrafların meta verilerine yerleştiren R paketini keşfedin. Harris’in kodu, R ve bilgisayarlı görünün, aksi takdirde zaman alıcı olacak işleri otomatikleştirmedeki gücüne iyi bir örnektir.
Referanslar
Deshpande, Adit. 2016. “The 9 Deep Learning Papers You Need to Know About.” https://adeshpande3.github.io/adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html.
Baxter, Mike. 2014. “Neural Networks in Archaeology.” https://www.academia.edu/8434624/Neural_networks_in_archaeology.
Benhabiles, Halim, and Hedi Tabia. 2016. “Convolutional Neural Network for Pottery Retrieval.” Journal of Electronic Imaging 26. https://doi.org/10.1117/1.JEI.26.1.011005.
Wang, Haiyan, Zhongshi He, Yongwen Huang, Dingding Chen, and Zexun Zhou. 2017. “Bodhisattva Head Images Modeling Style Recognition of Dazu Rock Carvings Based on Deep Convolutional Network.” Journal of Cultural Heritage 27: 60–71. doi:https://doi.org/10.1016/j.culher.2017.03.006.
Huffer, Damien, and Shawn Graham. 2018. “Fleshing Out the Bones: Studying the Human Remains Trade with Tensorflow and Inception.” Journal of Computer Applications in Archaeology 1 (1). Ubiquity Press, Ltd.: 55–63.
Winfield, Nick. 2018. “Amazon Pushes Facial Recognition to Police. Critics See Surveillance Risk.” https://www.nytimes.com/2018/05/22/technology/amazon-facial-recognition.html.
“China Has Turned Xinjiang into a Police State Like No Other.” 2018. https://www.economist.com/briefing/2018/05/31/china-has-turned-xinjiang-into-a-police-state-like-no-other.
Redman, Samuel J. 2016. Bone Rooms: From Scientific Racism to Human Prehistory in Museums. Harvard University Press.