banner
Centro de Noticias
Dominio excepcional en su oficio.

Un humano

May 12, 2023

Scientific Reports volumen 13, Número de artículo: 8699 (2023) Citar este artículo

921 Accesos

1 Altmetric

Detalles de métricas

Este artículo ilustra los resultados obtenidos mediante el uso de modelos de aprendizaje profundo de segmentación semántica pre-entrenados para la detección de sitios arqueológicos dentro del entorno de las llanuras aluviales de Mesopotamia. Los modelos se ajustaron utilizando imágenes satelitales disponibles abiertamente y formas vectoriales provenientes de un gran corpus de anotaciones (es decir, sitios encuestados). Una prueba aleatoria mostró que el mejor modelo alcanza una precisión de detección cercana al 80 %. La integración de la experiencia en el dominio fue crucial para definir cómo construir el conjunto de datos y cómo evaluar las predicciones, ya que definir si una máscara propuesta cuenta como una predicción es muy subjetivo. Además, incluso una predicción inexacta puede ser útil cuando se la pone en contexto y la interpreta un arqueólogo capacitado. Partiendo de estas consideraciones, cerramos el documento con una visión para un flujo de trabajo de colaboración humano-IA. Comenzando con un conjunto de datos anotados que es refinado por el experto humano, obtenemos un modelo cuyas predicciones pueden combinarse para crear un mapa de calor, superponerse en imágenes satelitales y/o aéreas, o, alternativamente, pueden vectorizarse para realizar más análisis en un SIG. software más fácil y automático. A su vez, los arqueólogos pueden analizar las predicciones, organizar sus estudios en el sitio y refinar el conjunto de datos con anotaciones nuevas y corregidas.

Este documento documenta los resultados de una colaboración entre científicos de datos y arqueólogos con el objetivo de crear un sistema de inteligencia artificial (IA) capaz de ayudar en la tarea de detectar posibles sitios arqueológicos a partir de imágenes aéreas o, en nuestro caso, satelitales. El uso de modelos de segmentación semántica nos permitió dibujar contornos precisos y la evaluación humana en el circuito mostró que la precisión de detección es cercana al 80 %.

Este procedimiento cae dentro del dominio de la Teledetección (RS) que indica el acto de detectar y/o monitorear un punto de interés a distancia. En el mundo de la arqueología, esta operación se ha vuelto invaluable con la disponibilidad de más y mejores imágenes de satélites que se pueden combinar con fuentes de información más antiguas (p. ej., las imágenes de satélite CORONA) para detectar una mayor cantidad de sitios arqueológicos, así como para rastrear su ubicación. degradación sucesiva debida a factores antrópicos1. Según el área de investigación y el tamaño de las características arqueológicas que se están investigando, el esfuerzo necesario, especialmente en términos de tiempo, puede ser enorme para el investigador.

Esta colaboración tenía como objetivo resolver exactamente este problema mediante el uso de modelos de aprendizaje profundo para optimizar, pero no automatizar por completo, el proceso. Por lo tanto, a partir de un conjunto de datos de formas vectoriales para todos los sitios registrados arqueológicamente en la llanura aluvial del sur de Mesopotamia (que representa una región geomorfológica suficientemente coherente), entrenamos un modelo para detectar y segmentar sitios en una imagen de entrada dada. A medida que avanzaba el proyecto, surgieron una serie de problemas que hacen que este problema sea particularmente difícil de abordar y conducen a una importante reflexión sobre el uso del aprendizaje profundo en general y su relación con los expertos humanos. El conjunto de datos, si bien puede considerarse muy grande para la arqueología del Cercano Oriente con sus casi 5000 sitios, apenas es suficiente para entrenar un modelo tan grande como los más modernos que vemos en uso hoy en día y, quizás de manera más significativa. , contiene muchos casos que solo son visibles en determinadas imágenes antiguas. El primer problema suele resolverse mediante el aprendizaje por transferencia2. Esta técnica consiste en partir de un modelo, entrenado previamente en un conjunto de datos grande y general (por ejemplo, imagenet3), y luego ajustarlo en un conjunto de datos más pequeño pero más específico, aprovechando las habilidades que ha aprendido previamente para hacer la nueva tarea. más manejable. El segundo, sin embargo, pone en peligro tanto el entrenamiento como la evaluación, ya que el modelo se ve obligado a hacer clasificaciones incorrectas durante el entrenamiento e incluso si aprendiera representaciones sólidas que ignoran los malos ejemplos, tendríamos dificultades para detectar si se trata de un error. por el modelo o en las etiquetas.

Creemos que la única forma de salir de este enigma es a través de un enfoque humano en el circuito1. Por esta razón, a lo largo del documento destacamos la importancia de integrar la experiencia en el dominio durante la fase de entrenamiento y evaluación de nuestros experimentos, ya que fue crucial para mejorar el conjunto de datos utilizado y, a su vez, el modelo. El resultado final de este proceso iterativo es un modelo capaz de una precisión de detección de alrededor del 80 %.

Con base en estos resultados prometedores, visualizamos una herramienta para la colaboración entre humanos e IA para ayudar a los arqueólogos en las operaciones de detección remota (en lugar de reemplazarlos) y proponemos un nuevo tipo de flujo de trabajo, mejorando tanto su tarea como el modelo al proporcionar datos mejorados después cada uso4,5. Todos los resultados se lograron utilizando software y modelos de código abierto, así como datos disponibles de forma abierta (imágenes, anotaciones) y recursos computacionales (Google Colab), lo que hace que este tipo de trabajo sea altamente accesible y replicable incluso en entornos de investigación con recursos limitados. Todo el código, los datos y los recursos mencionados están disponibles en GitHub (https://bit.ly/NSR_floodplains).

La llanura aluvial del sur de Mesopotamia es una región crucial para comprender la compleja interacción entre la agrupación espacial de las comunidades humanas y el desarrollo de las tierras de cultivo irrigadas en un entorno por lo demás semiárido6. Los estudios de Robert McCormick Adams en el área7,8,9 se llevaron a cabo de acuerdo con estándares sin precedentes para la época: utilizó un conjunto de fotografías aéreas de 1961 para ubicar sitios potenciales y mapear canales cuyas huellas eran visibles en la superficie; fue sistemático al registrar sitios que van desde finales del séptimo milenio a. C. hasta el período otomano; sobre todo, era muy consciente del potencial historiográfico de su trabajo de prospección, que resultó en una poderosa interpretación de los patrones de asentamiento y las actividades hidráulicas8.

Después de una larga interrupción del trabajo de campo como resultado de la inestabilidad política, la investigación arqueológica se reanudó en el sur de Irak en los últimos años, consulte10 para obtener una descripción general. En esta área, los sitios generalmente se denominan con la palabra árabe para montículo, "Tell". El color y la forma de estas colinas las hacen especialmente visibles en imágenes aéreas y de satélite, lo que llevó al uso de sensores remotos como una estrategia viable para descubrir su ubicación.

Como dice Tony Wilkinson, "los Tells comprenden múltiples capas de niveles de construcción y desechos acumulados a lo largo del tiempo, en parte porque el lugar de ocupación ha permanecido estacionario. Los asentamientos Tell con frecuencia están definidos por un muro exterior que contenía y restringía los materiales acumulados, restringiendo así su propagación [...]. El tell no es de ninguna manera el lugar de venta de la ocupación [...]. Las ciudades exteriores o más bajas [...] a menudo aparecen como jorobas bajas o simplemente artefactos dispersos alrededor de los tell, y pueden extender el área total ocupada de un sitio varias veces"11.

En Mesopotamia, los Tell a menudo son solo un poco más elevados que el campo circundante, y a menudo son propensos en tales casos a la nivelación artificial para ganar áreas agrícolas irrigables. Así, la detección automática de sitios en un entorno tan dinámico es una operación muy compleja, aunque los contrastes son lo suficientemente marcados como para justificar el intento.

Por teledetección se puede referir al uso de cualquier sensor (es decir, temperatura, humedad, imágenes hiperespectrales, satelitales, etc.) para detectar o monitorear un punto de interés sin necesidad de observación directa. Este enfoque es relevante para una variedad de campos, pero las soluciones que funcionan en un dominio pueden no traducirse en otros.

La ubicación remota de sitios arqueológicos era ciertamente posible incluso antes del advenimiento de la tecnología informática moderna mediante el uso de fotografías aéreas y mapas topográficos del área a investigar, pero hoy en día es más fácil combinar múltiples fuentes, utilizando sensores de diferente naturaleza o de diferentes puntos en el tiempo. , para obtener una imagen más completa del medio ambiente, sobre todo porque puede estar cambiando debido a factores naturales o antrópicos12,13,14. Dependiendo de las características de los sitios, ciertas representaciones pueden ser útiles como modelos de elevación obtenidos de imágenes estereoscópicas o el uso de partes del espectro electromagnético diferentes a la luz visible como el infrarrojo o las ondas de radio15,16. Light Detection and Ranging (LiDAR) también se está volviendo popular, ya que ofrece imágenes de alta resolución satisfactorias, pero puede ser difícil de emplear, ya que a menudo requiere montarse en algún tipo de aeronave, como drones17. El problema con este tipo de fuentes es que es posible que no estén disponibles para todas las ubicaciones o que no tengan una resolución lo suficientemente alta para la tarea en cuestión. Por otro lado, las imágenes RGB de fuente abierta y de buena calidad de prácticamente cualquier lugar del planeta están fácilmente disponibles, especialmente a través de la popularidad de los servicios en línea como Google Maps o Bing Maps. En concreto, en este proyecto utilizamos imágenes de satélite del servicio Bing Maps, que, para la zona de análisis, proporciona una excelente visibilidad de las huellas antropogénicas en las que nos centramos: Tells.

El aprendizaje profundo ha encontrado múltiples usos en todos los campos de aplicación y la arqueología no es una excepción. Puede ayudar a clasificar objetos y texto, encontrar similitudes, construir modelos 3D y, como también ilustra este artículo, la detección de sitios18,19,20,21,22. Una dificultad para lidiar con un modelo de este tipo es que requiere que se reúnan expertos en arqueología y aprendizaje profundo, pero también puede depender de la cantidad de datos disponibles. Las redes neuronales son notoriamente hambrientas de datos, y la arqueología es un campo de "datos lentos", como dijo Bickler23. No obstante, hay algunos ejemplos recientes de aprendizaje profundo aplicado con éxito a la detección de sitios en una variedad de escenarios diferentes24,25,26,27. La mayoría de las aplicaciones utilizan redes neuronales para realizar una tarea de clasificación, detección o segmentación. El primero utiliza mosaicos muestreados de mapas que están marcados como que contienen el sitio de interés o no; el segundo, en cambio, consiste en predecir un cuadro delimitador alrededor de un objeto y clasificarlo si es necesario; en el tercero se clasifican los píxeles individuales y el resultado es la predicción de una forma correspondiente al sitio. En este documento utilizamos el segundo enfoque, como se describe a continuación.

La segmentación semántica es la tarea de dividir una imagen en partes que corresponden a unidades con un significado específico. Estos pueden corresponder a un tema específico (por ejemplo, el contorno de personas, vehículos, etc.) oa una categoría genérica que engloba múltiples entidades (por ejemplo, edificios, fondos, etc.). En el contexto de este documento, solo tenemos dos categorías: una para sitios con montículos (tell) y otra para todo lo demás. La segmentación se puede realizar con varias técnicas que realizan la clasificación a nivel de píxel. Un enfoque muy común utiliza características precalculadas, extraídas por algún algoritmo o diseñadas manualmente, que luego se clasifican mediante un algoritmo Random Forest28. El estado actual del arte está representado por sistemas de extremo a extremo basados ​​en aprendizaje profundo con redes neuronales convolucionales. Para este enfoque, la introducción de U-Net por parte de Ronnenberger en el contexto de las imágenes médicas representó un hito29. Este trabajo aprovecha una arquitectura más reciente, llamada MA-Net30, que se puede considerar como una actualización de la arquitectura U-Net con la inclusión de un mecanismo de autoatención como se propone en las populares arquitecturas Transformer31. Esto permite que el modelo sopese diferentes características latentes según los contenidos, especificando figurativamente dónde "prestar atención" en este espacio latente para aprender mejor. Si bien se desarrolló en el contexto de las imágenes médicas, también ha encontrado uso en tareas de teledetección32,33. En la sección "Materiales y métodos" a continuación proporcionamos más detalles.

En un artículo anterior, intentamos abordar este mismo problema utilizando un enfoque de clasificación de imágenes en el que el mapa se dividía en mosaicos34. En ese experimento, sin embargo, el conjunto de datos era un orden de magnitud más pequeño y tuvimos que recurrir a un aumento de datos agresivo para mejorar el rendimiento. El mejor modelo obtuvo una puntuación de AUC de alrededor del 70 %, pero cuando se probó en una parte invisible del mapa, mostró sus límites, ya que predijo muchos falsos positivos y también perdió algunos sitios. La mayor compensación de este enfoque de clasificación basado en mosaicos es entre el tamaño de los mosaicos y la granularidad de las predicciones con cuadrados más grandes que son más prácticos pero dan como resultado una pérdida de detalles. También existe el problema de lidiar con sitios que aterrizan en el borde de un mosaico. Una solución que probamos fue crear un conjunto de datos en forma de tejas con mosaicos intermedios para llenar los espacios. Sin embargo, esto aumentó considerablemente la cantidad de predicción que se crearía. Finalmente, la mayoría de los modelos para la clasificación de imágenes están limitados por el uso de un tamaño de entrada fijo que puede ser un límite enorme cuando se trata de mapas. En este nuevo experimento, dado el mayor tamaño del conjunto de datos, decidimos aprovechar los modelos de segmentación de imágenes con capas totalmente convolucionales que abordan tanto los límites en el tamaño de entrada como la compensación de granularidad.

En esta sección, primero describimos el conjunto de datos utilizado, que se creó a partir de recursos disponibles abiertamente y luego los modelos de código abierto que ajustamos en ese conjunto de datos.

Comenzamos con un conjunto de datos de formas vectoriales georreferenciadas correspondientes a contornos de sitios de montículos conocidos en el área de estudio del Proyecto de llanuras aluviales que abarca 66 000 km2, como se muestra en la Fig. 1. El conjunto de datos, desarrollado en la Universidad de Bolonia al archivar todos estudios arqueológicos publicados en el área y georreferenciación de los sitios catalogados allí (https://floodplains.orientlab.net): contiene 4934 formas, por lo que todas se refieren a sitios que habían sido confirmados por la verificación del terreno y por el estudio asociado de la dispersión superficial de artefactos.

Área de investigación. Los puntos naranjas representan los sitios inspeccionados en la llanura aluvial de Mesopotamia. El rectángulo rojo sólido es un área de prueba seleccionada en Maysan. Todos los datos mostrados se encuentran bajo la condición de uso justo de datos geográficos con fines académicos. La lista de todos los proveedores de software/datos relevantes es la siguiente: (i) creación de mapas originales según la Sección 5 de las condiciones de uso de las API de Microsoft Bing Maps Platform (https://www.microsoft.com/en-us /mapas/producto/print-rights); (ii) visualización de mapas realizada con un software de código abierto, bajo las licencias GNU de QGIS (https://qgis.org/en/site/) y QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) elaboración de mapas finales realizada con un software desarrollado por los autores y disponible en (https://bit.ly/NSR_floodplains).

Dado que el conjunto de datos se compiló como una fuente integral de información para los arqueólogos y no específicamente para entrenar un modelo de aprendizaje profundo, necesitábamos filtrar algunos ejemplos que no proporcionaban información y que, de hecho, podrían afectar el proceso de aprendizaje. Comenzamos eliminando los 200 sitios principales por área, ya que estos eran considerablemente más grandes que el resto del conjunto de datos y la inspección visual confirmó que siguen la forma de áreas que no son simplemente montículos. El número 200 surge al notar que estos sitios tienen un área más grande que la región cuadrada que usamos como entrada y, por lo tanto, podría resultar en una máscara de segmentación completamente completa que no sería muy útil. Después de una discusión entre científicos de datos y arqueólogos, llegamos a la conclusión de que esta era una buena solución heurística.

Además, filtramos 684 sitios que presentaban un área demasiado pequeña para ser un Tell o que los arqueólogos señalaron como destruidos. En particular, el umbral de tamaño se fijó en alrededor de 1000 m2, lo que corresponde a un círculo con un diámetro de 30 m. Estos sitios muy pequeños en realidad corresponden a una anotación genérica para sitios conocidos con tamaño desconocido o ubicación precisa.

Para generar un conjunto de imágenes para afinar nuestro modelo previamente entrenado, importamos las formas mencionadas anteriormente a QGIS, un software GIS de código abierto35 y usando un script de Python guardamos un cuadrado de longitud L centrado en el centroide del sitio que contiene solo imágenes satelitales de Bing Maps (que se muestran directamente en el entorno GIS a través del complemento QuickMapService que permite el acceso a las imágenes proporcionadas por varios servicios en línea, incluido Bing Maps). Luego guardamos la misma imagen sin un mapa base pero con los contornos del sitio representados como una forma rellena con un color sólido, para que sirvieran como máscaras de verdad del terreno.

Por lo tanto, durante el entrenamiento, nuestra red neuronal aprende a reproducir la forma del sitio desde el suelo verificado con solo mirar la imagen de satélite RGB; durante la inferencia, podemos detectar y delinear nuevos sitios en una imagen de entrada dada, si los hay.

En los primeros experimentos fijamos L en 1000 m, pero imaginamos que aumentar el tamaño del área de predicción podría ser beneficioso debido a la inclusión de un contexto más grande. En consecuencia, también intentamos usar L = 2000 m y obtuvimos un rendimiento mejorado en general.

A partir de la imagen del cuadrado inicial, recortamos aleatoriamente un cuadrado de longitud L/2 para usarlo como entrada. Esto garantiza que el modelo no aprenda una representación sesgada en la que los sitios siempre aparecen en el centro de la entrada y, además, sirve como aumento de datos. Además de este recorte, también aumentamos el conjunto de datos aplicando una rotación aleatoria y un reflejo, así como un ligero cambio en el brillo y el contraste, todas estas operaciones se aplican de manera diferente en cada iteración de entrenamiento. Al extraer de QGIS, guardamos imágenes con una resolución de alrededor de 1 píxel por metro (1024 píxeles para 1000 m, el doble que para el modelo con mayor tamaño de entrada), pero luego las entradas se redujeron a la mitad para facilitar los requisitos computacionales mientras teniendo un bajo impacto en el rendimiento general36.

Finalmente, introdujimos 1155 imágenes con máscaras vacías (sin sitios que predecir) muestreadas de lugares sugeridos por los arqueólogos. Estos incluyen áreas altamente urbanizadas, áreas agrícolas intensivas, lugares sujetos a inundaciones (es decir, lagos y cuencas artificiales) y colinas y montañas rocosas.

El número se eligió arbitrariamente, teniendo en cuenta el tamaño de cada área sugerida y de los mosaicos. Por lo tanto, el número final de imágenes es 5025. Dividimos el conjunto de datos en un conjunto de entrenamiento del 90 % y un conjunto de prueba de reserva del 10 %, estratificando las imágenes "vacías" que agregamos. El 10% del conjunto de entrenamiento también se seleccionó aleatoriamente para ser utilizado como conjunto de validación.

Intentamos integrar imágenes CORONA como una entrada adicional37, ya que en el flujo de trabajo arqueológico habitual, las imágenes históricas son muy útiles (ya que se refieren a una situación mucho menos afectada por el desarrollo) y a menudo se combinan con los mapas base satelitales y los mapas topográficos (pero dado que CORONA se utilizaron aquí como complemento, no perseguimos la detección automática solo en ellos y, por lo tanto, los sitios destruidos después de la década de 1970 se excluyeron del análisis). Después de importar las imágenes a QGIS, seguimos el mismo procedimiento para crear las entradas, asegurándonos de que la operación de recorte fuera igual para las imágenes de Bing y CORONA.

Este proyecto comenzó como un experimento para investigar la viabilidad de modelos de segmentación semántica previamente entrenados como herramientas para detectar sitios. Por esta razón, decidimos comparar modelos de código abierto preentrenados disponibles como parte de una biblioteca escrita en PyTorch. La biblioteca permite elegir una red neuronal convolucional de codificador para la extracción de características y una arquitectura de segmentación de forma independiente, además de proporcionar una serie de funciones de pérdida diferentes38.

En un artículo preliminar anterior, experimentamos con diferentes opciones de arquitectura, codificadores y funciones de pérdida36. Comparamos U-Net versus MA-net, Resnet18 versus Efficientnet-B3 y Dice Loss versus Focal Loss. Las diferencias de rendimiento fueron pequeñas, dentro de unos pocos puntos porcentuales en el mejor de los casos, lo que podría explicarse muy bien por las fluctuaciones debidas al aumento aleatorio de datos.

No obstante, tomamos el mejor modelo que usa MA-net, Efficientnet-B3 y Focal Loss, entrenado para 20 épocas. Probamos más los efectos de nuestro procedimiento de filtrado (ligeramente mejorado con respecto al trabajo anterior), y además experimentamos con la introducción de imágenes CORONA y aumentamos el tamaño de entrada.

También realizamos una prueba adicional en otro gran conjunto de datos (https://www.orientlab.net/samark-land/) elaborado por el Proyecto Arqueológico Uzbeko-Italiano en Samarcanda39. Dada la similitud entre Mesopotamia Tell y Uzbek Tepa, queríamos ver si el modelo podía detectar esos sitios sin necesidad de un nuevo entrenamiento adicional.

El conjunto de datos presenta 2318 anotaciones en forma de puntos clasificadas de diferentes maneras que también vienen con atributos relacionados con sus estados de conservación. Seleccionamos solo sitios clasificados como Tepa o Montículo Bajo, con la etiqueta Bien conservado. El número final de sitios termina siendo 215: 148 Tepa y 67 Montículos. Las imágenes reales del conjunto de prueba se crearon siguiendo el mismo procedimiento descrito anteriormente.

Primero, presentamos los resultados en términos de puntaje promedio de Intersección sobre unión (IoU) en el conjunto de datos de prueba. Definimos las métricas de la siguiente manera: \(IoU = \frac{P\cap G}{P\cup G}\) donde P indica la forma predicha y G la forma real del terreno. IoU representa el grado de correspondencia entre la forma predicha y la anotación en el conjunto de datos. Si bien nos da una idea de cómo se comporta el modelo y nos ayuda a seleccionar el mejor, debemos reconocer que no indica cuántos sitios están identificados o no, que es nuestro objetivo principal.

La Tabla 1 resume los resultados de todos los modelos en el conjunto de datos reservado, como se describe en la sección Métodos. Tenga en cuenta que, para cada modelo, informamos una puntuación media y la desviación estándar asociada. Esto se debe al hecho de que estamos realizando un recorte aleatorio en las imágenes, incluso en el conjunto de prueba, y por lo tanto realizamos diez pruebas con diferentes recortes para promediar este efecto.

Lo primero que se puede notar es la marcada mejora dada por el aumento en el tamaño de entrada. Imaginamos que el área más grande proporciona más contexto a las predicciones y hace que el modelo sea más preciso. Igual de importante es el procedimiento de filtrado descrito anteriormente, que intenta eliminar sitios pequeños e indetectables, lo que da como resultado un aumento en el rendimiento independientemente del tamaño de entrada.

Finalmente, el uso de imágenes CORONA es un poco controvertido. Para el tamaño de entrada más pequeño, parece que no brinda beneficios (la puntuación de error más baja está dentro del margen de error) y podemos suponer que esto se debe a la baja resolución de estas imágenes. En cambio, con áreas más grandes, parecen proporcionar un aumento en el rendimiento, tal vez nuevamente debido al contexto más amplio. Sin embargo, la inspección de la predicción reveló la ausencia de una diferencia marcada, lo que quizás signifique que el IoU está aumentando como resultado de contornos ligeramente más precisos.

Para evaluar aún más los resultados, pasamos a la precisión de detección. Primero, transformamos las predicciones ráster del modelo en formas vectoriales utilizando la conocida biblioteca GDAL40 y luego buscamos la intersección entre las anotaciones del sitio y las predicciones. Para obtener formas más suaves, antes de la conversión, primero aplicamos un desenfoque gaussiano a los rásteres de predicción y luego recortamos los valores por encima de cierto umbral (0.5, pero el número se puede cambiar para un modelo más o menos sensible) a 1.0, mientras que todo lo demás sería establecerse en 0.0.

Esta evaluación automática brinda resultados buenos pero no demasiado emocionantes, con una puntuación de precisión del 62,57 % para el Modelo 5 y del 60,08 % para el Modelo 6. Un modelo capaz de encontrar dos de tres sitios ya proporcionaría un buen punto de partida para el análisis humano. Sin embargo, los arqueólogos deben proporcionar una verificación de las predicciones y diferenciar los casos en los que el modelo comete errores propios de aquellos en los que comete errores justificables que un humano también cometería41,42,43.

En primer lugar, hay un número considerable de sitios que ya no son visibles en las imágenes satelitales actuales y que no se filtraron del conjunto de datos. Esto era de esperarse ya que solo la mitad de las anotaciones tenían información adicional y aún menos contenían indicaciones de su visibilidad. Cualquier imagen de entrada que contenga solo sitios que ya no son visibles debe considerarse como Negativo verdadero en lugar de Negativo falso si el modelo no produce contorno.

Cuando se trata de predicciones marcadas como falso positivo, a veces el modelo predice otro sitio cercano, en lugar del que se está probando. Esto puede considerarse un error o no según la naturaleza del sitio "perdido". En el caso de que el sitio perdido sea uno de los que ya no son visibles, pero detectamos uno casi visible, la predicción es en realidad un verdadero positivo. Por otro lado, el sitio perdido puede ser uno que aún sea visible pero quizás menos que otro en la imagen. En esta situación, podríamos considerar tanto un Falso Negativo como un verdadero positivo, o simplemente un verdadero positivo dado que, en un escenario del mundo real, la cercanía a otros sitios resultaría en una sugerencia útil como experto humano, quien entonces ser capaz de recuperarlos todos. Alternativamente, podríamos evitar considerar los sitios no visibles por completo, pero la diferencia sería mínima (78,37 % de precisión y 82,01 % de recuperación).

Por último, algunas predicciones estaban realmente presentes en los resultados, pero eran demasiado débiles para el umbral de corte que impusimos. No ajustamos esos errores, pero indican un posible enfoque para la interacción: usar predicciones como superposiciones y mirar manualmente el mapa. Alternativamente, establecer un umbral más bajo podría resolver el problema.

El ajuste aumenta la precisión y la recuperación a alrededor de 80, lo que brinda una idea más objetiva del rendimiento real del modelo.

La Tabla 2 resume los resultados de la evaluación automática y los valores ajustados después de que la evaluación humana resaltó los sitios no visibles. Las siguientes ecuaciones definen las métricas utilizadas en términos de verdadero/falso positivo/negativo. Elegimos Accuracy, Precision, Recall y el coeficiente de correlación de Matthews.

Es interesante ver cómo el Modelo 6, que obtuvo una puntuación de IoU más alta, parece estar funcionando peor ahora. Mirando las imágenes, parece que este modelo es un poco más moderado y cauteloso, lo que resulta en predicciones menos positivas y, por lo tanto, menos falsos positivos. A su vez, esto puede resultar en un IoU más alto porque reduce el término Unión y, si las áreas son un poco más precisas, incluso aumenta el término Intersección. Sin embargo, en aras de la detección, necesitamos la presencia de una intersección en lugar de una coincidencia perfecta y, en esta situación, el menor número de positivos es un castigo. En general, la diferencia en la precisión no es excesiva, por lo que ambos modelos son útiles y podrían usarse en paralelo, pero también debemos considerar la complejidad adicional y el costo de usar dos conjuntos de imágenes de entrada que hacen que el Modelo 6 sea un poco engorroso. Por esta razón, pasamos a usar solo el Modelo 5.

Concluimos esta subsección con la Fig. 2, que contiene algunos ejemplos del conjunto de datos de prueba para mostrar la calidad de los resultados del modelo. Tenga en cuenta cómo los colores corresponden a los valores de probabilidad, y que las áreas tenues serían cortadas por el umbral de 0,5 que usamos para crear las formas vectoriales. El modelo es muy preciso al trazar los contornos del sitio y, en algunos casos (es decir, la primera columna de la Fig. 2), estos son incluso más precisos que la realidad del terreno con respecto a las imágenes satelitales actuales.

Algunas predicciones de muestra del conjunto de prueba. A la izquierda está la máscara de destino superpuesta a la imagen de entrada. A la derecha la salida del modelo. La barra de color corresponde a la probabilidad de clasificación. Observe cómo el modelo es capaz de hacer coincidir con precisión el contorno del sitio. Todos los datos mostrados se encuentran bajo la condición de uso justo de datos geográficos con fines académicos. La lista de todos los proveedores de software/datos relevantes es la siguiente: (i) creación de mapas originales según la Sección 5 de las condiciones de uso de las API de Microsoft Bing Maps Platform (https://www.microsoft.com/en-us /mapas/producto/print-rights); (ii) visualización de mapas realizada con un software de código abierto, bajo las licencias GNU de QGIS (https://qgis.org/en/site/) y QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) elaboración de mapas finales realizada con un software desarrollado por los autores y disponible en (https://bit.ly/NSR_floodplains).

Después de evaluar el rendimiento de la detección, quisimos probar el modelo en un área rectangular dentro de la provincia de Maysan no encuestada para la cual llevamos a cabo la detección remota. Esta prueba tenía el objetivo de evaluar cuántos falsos positivos predeciría el modelo y dar un ejemplo de los errores que comete el modelo en un escenario operativo.

El área que seleccionamos contiene 20 supuestos sitios y se extiende por 104 km2. La Figura 3 muestra el área con la anotación del arqueólogo y la predicción del modelo. Como se puede ver, el modelo es capaz de recuperar 17 de los 20 sitios y también sugiere alrededor de 20 formas más (o menos, dependiendo de lo que se considere una sola instancia). La mayoría de esas sugerencias no son útiles, pero un ojo experto también las detecta fácil y rápidamente, especialmente en contexto, dado su tamaño o su ubicación.

Área de prueba de la provincia de Maysan (rosa, línea discontinua) con sitios identificados remotamente por arqueólogos (azul, relleno de puntos) y predicciones del modelo (amarillo, relleno de líneas). Los sitios identificados por el ojo entrenado y el modelo son equivalentes y, lo que es más importante, el modelo puede ignorar áreas sin características significativas. Todos los datos mostrados se encuentran bajo la condición de uso justo de datos geográficos con fines académicos. La lista de todos los proveedores de software/datos relevantes es la siguiente: (i) creación de mapas originales según la Sección 5 de las condiciones de uso de las API de Microsoft Bing Maps Platform (https://www.microsoft.com/en-us /mapas/producto/print-rights); (ii) visualización de mapas realizada con un software de código abierto, bajo las licencias GNU de QGIS (https://qgis.org/en/site/) y QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) elaboración de mapas finales realizada con un software desarrollado por los autores y disponible en (https://bit.ly/NSR_floodplains).

En cambio, la Figura 4 muestra una superposición producida al unir las diversas predicciones y usar los valores de probabilidad como una especie de mapa de calor. Los colores "más cálidos" corresponden a probabilidades más altas, mientras que el negro indica la ausencia de un sitio. Tenga en cuenta que la paleta es la misma que se ve en la Fig. 2, con colores púrpura oscuro que indican una probabilidad relativamente baja (menos de 0,5). La transparencia se obtiene mediante el uso del filtro Overlay en QGIS.

La capa de probabilidades de predicción del área de prueba de Maysan se visualiza como la superior dentro de QGIS. Esta visualización permite al usuario decidir dónde buscar en lugar de confiar en un valor de umbral predefinido. Todos los datos mostrados se encuentran bajo la condición de uso justo de datos geográficos con fines académicos. La lista de todos los proveedores de software/datos relevantes es la siguiente: (i) creación de mapas originales según la Sección 5 de las condiciones de uso de las API de Microsoft Bing Maps Platform (https://www.microsoft.com/en-us /mapas/producto/print-rights); (ii) visualización de mapas realizada con un software de código abierto, bajo las licencias GNU de QGIS (https://qgis.org/en/site/) y QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) elaboración de mapas finales realizada con un software desarrollado por los autores y disponible en (https://bit.ly/NSR_floodplains).

Desafortunadamente, la evaluación humana de los resultados mostró que el modelo puede identificar correctamente solo alrededor del 25% al ​​30% de los sitios en esta región, dependiendo de cómo se elijan los umbrales. La parte restante contiene sitios que se pierden por completo o sitios que de alguna manera se insinúan demasiado débilmente o dentro de un área enorme que parece no tener sentido.

La razón de esta severa caída en el rendimiento probablemente se deba a la naturaleza diferente del paisaje en la región, que en algunos lugares parece estar mucho más urbanizado y, en general, presenta más vegetación: por lo tanto, no todos los entornos de llanuras aluviales son lo suficientemente similares para un comparación cruzada directa. Además, las convenciones que se encuentran detrás de las anotaciones en el conjunto de datos uzbeko podrían no estar perfectamente alineadas con las de Mesopotamia, lo que complica aún más la situación.

Esta falla parcial debe ubicarse en un contexto, ya que creemos que nuestro método puede aplicarse a una amplia gama de entornos similares en Asia y más allá de tener historias de asentamientos de varios períodos: la única forma de abordar este problema aquí es la de crear un pequeño conjunto de datos de sitios Tepa seleccionados y realizar una ronda adicional de transferencia de aprendizaje para que el modelo pueda captar el nuevo contexto y las características de la región dada.

Los resultados obtenidos pueden considerarse satisfactorios incluso si la métrica IoU, en comparación con otras aplicaciones de segmentación semántica, no es extremadamente alta. Sin embargo, cuando probamos el rendimiento de la detección, encontramos que el modelo aún puede detectar la mayoría de los sitios en el conjunto de datos, lo que nos deja con buenas expectativas para su uso en otras partes del área de la encuesta. Sin embargo, como muestra la prueba de uzbeko, cuando se trata de nuevas áreas con sitios similares pero en un contexto diferente, el rendimiento puede caer severamente. Este tema de la transferibilidad, como se le conoce en arqueología, es un tema de investigación activo. Con suerte, una fase de reentrenamiento, incluso con un conjunto de datos más pequeño, podría solucionar el problema y el trabajo futuro puede explorar esta dirección de investigación.

Es importante tener en cuenta cómo las métricas de evaluación en esta tarea parecen chocar con una pared cuando se enfrentan al hecho de que se calculan contra anotaciones que a menudo no son homogéneas y contienen varias etiquetas espurias44. En nuestro caso, lidiamos con el hecho de que hay muchos sitios que solo son visibles en algunas fotografías históricas o mapas que forman parte del conjunto de datos, incluso si no brindan ejemplos útiles. Afortunadamente, el modelo parece ser lo suficientemente robusto como para aprender conceptos útiles e ignorar estos puntos de datos confusos. Aún así, un conjunto de datos más pequeño y más limpio podría mejorar drásticamente el rendimiento y al mismo tiempo reducir la carga computacional. Obviamente, tales operaciones de limpieza serían una gran inversión en términos de tiempo y los arqueólogos preferirían gastarlo activamente en la búsqueda de sitios ellos mismos.

Nuestro modelo, sin embargo, abre la posibilidad de recorrer áreas ya encuestadas automáticamente y luego producir una lista de predicciones que contrastan las anotaciones para ser revisadas manualmente. Posteriormente, los arqueólogos podrían ensamblar un conjunto de datos nuevo y más limpio y se podría entrenar un nuevo modelo mejorado. Véase Lambers et al. para un ejemplo usando ciencia ciudadana45. Este mismo procedimiento también funciona en aplicaciones a nuevas áreas, donde las predicciones novedosas se pueden verificar manualmente y agregar a un nuevo conjunto de datos con el tiempo.

Además del procedimiento automático, el modelo también podría usarse para producir una superposición para guiar el ojo del arqueólogo dentro de un software GIS. Este enfoque gráfico permite a los usuarios comparar también la superposición con otros mapas que podrían estar usando y usar su experiencia para inferir la existencia de un sitio en función de toda la información contextual que tienen46,47. Solo probamos este enfoque en un área pequeña, como se muestra en la Fig. 4, pero el cálculo podría escalarse fácilmente para cubrir áreas enormes, ya que se tarda menos de un segundo en producir un resultado y no hay necesidad de completar la operación en una vez de todos modos. El único inconveniente de este método es el evidente desajuste en el borde entre las diferentes imágenes de entrada, lo que le da a la superposición su apariencia de mosaico. En teoría, la segmentación semántica podría funcionar con entradas de tamaño arbitrario, pero hacerlo requiere una gran cantidad de memoria que podría no estar disponible. Una solución podría ser la creación de mapas de predicción superpuestos que luego se promediarían, compensando el tiempo computacional por una mayor precisión.

La Figura 5 resume el uso que prevemos para el modelo que describimos, en la línea de soluciones similares48,49. A partir del conjunto de datos, el modelo produce máscaras de predicción que podemos manipular a través del procesamiento posterior para obtener un archivo de forma vectorial que se puede usar para la evaluación y detección automática de sitios. En esta etapa, el usuario tiene la posibilidad de elegir un umbral para cortar la predicción y el uso de técnicas para suavizar las formas de salida, como difuminar o amortiguar los vectores. De manera similar, la superposición del mapa se puede ajustar seleccionando diferentes representaciones gráficas directamente en el software GIS. El objetivo en este caso es el de detectar sitios que podrían pasar desapercibidos por la comparación automática porque su probabilidad es inferior al umbral, sin dejar de ser distinguibles para un ser humano. Cada vez que se utiliza el modelo, de cualquier manera, después de revisar los resultados, los usuarios podrán obtener un nuevo conjunto de anotaciones o una lista de sitios para eliminar o volver a etiquetar. Si este flujo de trabajo es utilizado por más de un equipo, también podría acelerar en gran medida los esfuerzos de búsqueda: el uso de tecnologías abiertas en este caso hace que los resultados sean más fáciles de compartir entre los grupos de investigación, lo que podría ayudar mucho a la arqueología como campo50.

Un flujo de trabajo humano en el circuito basado en nuestro modelo. Un modelo se entrena a partir de imágenes anotadas y proporciona máscaras de predicción. Las máscaras se pueden utilizar como superposición o vectorizadas. La evaluación humana se lleva a cabo sobre los resultados y, a su vez, se puede crear un conjunto de datos refinado para mejorar el modelo.

Los experimentos con imágenes CORONA también apuntan a la posibilidad de combinar más modelos, quizás entrenados con diferentes mapas base o una combinación de ellos, y comparar la predicción dada por todos estos. Especialmente si hay imágenes históricas presentes, podríamos terminar con un conjunto de datos que también contiene información temporal sobre cuándo un sitio es visible y cuándo se vuelve indetectable. Este último aspecto es bastante novedoso y representa un avance potencial en la teledetección automatizada. El uso de imágenes estereoscópicas para la creación de modelos de elevación también podría beneficiar la tarea, si la resolución es suficiente para resaltar los montículos bajos que estamos buscando.

Presentamos un modelo de aprendizaje profundo para la detección de sitios arqueológicos con montículos en la llanura aluvial de Mesopotamia. El modelo se implementó utilizando modelos previamente entrenados para la segmentación semántica, ajustados en imágenes satelitales y máscaras de las formas del sitio provenientes de un conjunto de datos que contiene casi 5000 ejemplos.

El resultado de nuestros experimentos es un modelo que obtiene una puntuación IoU de 0,8154 en el conjunto de datos de prueba y detecta sitios con un 80 % de precisión. Sin embargo, esta precisión estadística se ajusta a la considerable cantidad de sitios que aparecen mal etiquetados, ya que ya no son visibles en las imágenes satelitales modernas. Si bien limpiamos el conjunto de datos lo mejor que pudimos, aún quedaban muchos sitios indetectables. Sin embargo, el modelo parece ser bastante robusto.

Siguiendo este resultado, proponemos un flujo de trabajo para que lo adopten los arqueólogos, en el que sus prácticas de teledetección ya establecidas se apoyan y mejoran mediante el uso de un modelo como el nuestro. Las salidas se pueden utilizar tanto para una detección automática muy rápida, siendo conscientes de los errores que esto podría introducir, como combinadas para generar una superposición gráfica para dirigir la atención del usuario hacia determinadas áreas. A su vez, el uso del modelo dará como resultado nuevos archivos de forma y anotaciones que se pueden usar para volver a entrenar y mejorar el modelo, así como para permitir análisis adicionales. Las aplicaciones potenciales de este método son de gran alcance y no solo se relacionan con su velocidad: más bien debe verse como un complemento necesario para la fotointerpretación tradicional basada en expertos, agregando a esta última en muchos casos características del sitio que pueden pasarse por alto pero que probablemente ser significativo

Además de la información específica provista en el documento, todo el código, los datos y varios recursos están disponibles en GitHub (https://bit.ly/NSR_floodplains). En cuanto a los datos geográficos, todos los datos mostrados se encuentran bajo la condición de utilización justa de los datos geográficos con fines académicos. La lista de todos los proveedores de software/datos relevantes es la siguiente: (i) creación de mapas originales según la Sección 5 de las condiciones de uso de las API de Microsoft Bing Maps Platform (https://www.microsoft.com/en-us/ mapas/producto/derechos de impresión); (ii) visualización de mapas realizada con un software de código abierto, bajo las licencias GNU de QGIS (https://qgis.org/en/site/) y QuickMapsServices (https://github.com/nextgis/quickmapservices); (iii) elaboración de mapas finales realizada con un software desarrollado por los autores y disponible en (https://bit.ly/NSR_floodplains).

Verschoof-van der Vaart, WB & Landauer, J. Uso de CarcassonNet para detectar y rastrear automáticamente carreteras huecas en datos LiDAR de los Países Bajos. J. Culto. heredad 47, 143–154. https://doi.org/10.1016/j.culher.2020.10.009 (2021).

Artículo Google Académico

Torrey, L. & Shavlik, J. Transferencia de aprendizaje. En Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques (eds Torrey, L. & Shavlik, J.) 242–264 (IGI Global, 2010).

Capítulo Google Académico

Deng, J. et al. ImageNet: Una base de datos de imágenes jerárquicas a gran escala. En 2009 Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 248–255 (2009).

Traviglia, A., Cowley, D. & Lambers, K. Encontrar un terreno común: visión humana y por computadora en la prospección arqueológica. Boletín de noticias de AARG. Arqueología aérea. Res. Grupo 53, 11–24 (2016).

Google Académico

Palmer, R. Editorial. AARGnoticias (2021).

Wilkinson, TJ, Gibson, M. y Widell, M. Modelos de paisajes mesopotámicos: cómo los procesos a pequeña escala contribuyeron al crecimiento de las primeras civilizaciones (Archaeopress, 2013).

Libro Google Académico

Adams, RM Land Behind Baghdad: A History of Settlement on the Diyala Plains (University of Chicago Press, 1965).

Google Académico

Adams, RM Heartland of Cities: Surveys of Ancient Settlement and Land Use on the Central Floodplain of the Euphrates (University of Chicago Press, 1981).

Google Académico

Adams, RM & Nissen, HJ La campiña de Uruk: El escenario natural de las sociedades urbanas (University of Chicago Press, 1972).

Google Académico

Marchetti, N. et al. El auge de los paisajes urbanizados en Mesopotamia: los resultados de la encuesta integrada QADIS y la interpretación de paisajes históricos de múltiples capas. Z. Asiriol. Vorderasiat. Archäol. 109, 214–237. https://doi.org/10.1515/za-2019-0016 (2019).

Artículo Google Académico

Wilkinson, TJ Paisajes arqueológicos del Cercano Oriente (University of Arizona Press, 2003).

Libro Google Académico

Lyons, TR & Hitchcock, RK Técnicas de Percepción Remota Aérea en Arqueología (Chaco Center, 1977).

Google Académico

Kucukkaya, AG Fotogrametría y teledetección en arqueología. J. Cuant. Espectrosc. radiar Transf. 88, 83–88 (2004).

Artículo ADS CAS Google Académico

Karamitrou, A., Sturt, F., Bogiatzis, P. & Beresford-Jones, D. Hacia el uso de redes de aprendizaje profundo de inteligencia artificial para la detección de sitios arqueológicos. Navegar. Topogr. Metrol. Prop. 10, 044001 (2022).

Artículo ANUNCIOS Google Académico

Hendrickx, M. et al. El uso de imágenes estereoscópicas tomadas de un microdrone para la documentación del patrimonio: un ejemplo de los túmulos funerarios de Tuekta en el Altay ruso. J. Arqueol. ciencia 38, 2968–2978 (2011).

Artículo Google Académico

Küçükdemirci, M. & Sarris, A. Procesamiento e interpretación de datos GPR basados ​​en enfoques de inteligencia artificial: perspectivas futuras para la prospección arqueológica. Sensores remotos 14, 3377 (2022).

Artículo ANUNCIOS Google Académico

Balsi, M. et al. Levantamiento preliminar del sitio arqueológico por lidar transportado por UAV: ​​un estudio de caso. Sensores Remotos 13, 332 (2021).

Artículo ANUNCIOS Google Académico

Assael, Y. et al. Restauración y atribución de textos antiguos utilizando redes neuronales profundas. Naturaleza 603, 280–283 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Verschoof-van der Vaart, WB, Lambers, K., Kowalczyk, W. & Bourgeois, QP Combinación de aprendizaje profundo y clasificación basada en la ubicación para la prospección arqueológica a gran escala de datos LiDAR de los Países Bajos. Internet de ISPRS J. GeoInf. 9, 293 (2020).

Artículo Google Académico

Tréveris, Ø. D., Cowley, DC y Waldeland, AU Uso de redes neuronales profundas en datos de escaneo láser aerotransportados: resultados de un estudio de caso de mapeo semiautomático de topografía arqueológica en Arran, Escocia. Arqueol. Prospecto. 26, 165–175 (2019).

Artículo Google Académico

Anichini, F. et al. El reconocimiento automático de cerámicas a partir de una sola foto: La app ArchAIDE. J. Arqueol. ciencia Rep. 36, 102788 (2021).

Google Académico

Mantovan, L. & Nanni, L. La informatización de la arqueología: Encuesta sobre técnicas de inteligencia artificial. Cómputo SN. ciencia 1, 1–32 (2020).

Artículo Google Académico

Bickler, SH El aprendizaje automático llega a la arqueología. Adv. Arqueol. Practica 9, 186–191 (2021).

Artículo Google Académico

Guyot, A., Lennon, M., Lorho, T. & Hubert-Moy, L. Detección y segmentación combinadas de estructuras arqueológicas a partir de datos LiDAR utilizando un enfoque de aprendizaje profundo. J. Cómputo. aplicación Arqueol. 4, 1 (2021).

Google Académico

Tréveris, Ø. D., Salberg, A.-B. & Pilø, LH Mapeo semiautomático de hornos de carbón a partir de datos de escaneo láser en el aire usando aprendizaje profundo. En CAA2016: Océanos de Datos. proc. 44.ª Conferencia sobre aplicaciones informáticas y métodos cuantitativos en arqueología 219–231 (Archaeopress, 2018).

Bickler, SH & Jones, B. Ampliación del aprendizaje profundo para identificar sitios de movimiento de tierras en Te Tai Tokerau, Northland, Nueva Zelanda. Arqueología 16, 1 (2021).

Google Académico

Caspari, G. & Crespo, P. Redes neuronales convolucionales para la detección de sitios arqueológicos: encontrar tumbas "principescas". J. Arqueol. ciencia 110, 104998 (2019).

Artículo Google Académico

Orengo, HA et al. Detección automatizada de montículos arqueológicos mediante clasificación de aprendizaje automático de datos satelitales multisensoriales y multitemporales. proc. nacional Academia ciencia 117, 18240–18250. https://doi.org/10.1073/pnas.2005583117 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net: Redes convolucionales para la segmentación de imágenes biomédicas. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora 234–241 (Springer, 2015).

Fan, T., Wang, G., Li, Y. & Wang, H. MA-Net: Una red de atención multiescala para la segmentación de hígado y tumores. Acceso IEEE 8, 179656–179665. https://doi.org/10.1109/ACCESO.2020.3025372 (2020).

Artículo Google Académico

Vaswani, A. et al. La atención es todo lo que necesitas. En Advances in Neural Information Processing Systems (eds Vaswani, A. et al.) 5998–6008 (MIT Press, 2017).

Google Académico

da Costa, LB et al. Segmentación semántica profunda para la detección de bosques plantados de eucaliptos en el territorio brasileño utilizando imágenes centinela-2. Geocarto Int. 37, 6538–6550 (2022).

Artículo Google Académico

Li, R. et al. Red multiatención para segmentación semántica de imágenes de teledetección de alta resolución. Trans. IEEE. Geosci. Sensores remotos 60, 1–13 (2021).

Google Académico

Roccetti, M. et al. Potencial y limitaciones del diseño de un modelo de aprendizaje profundo para descubrir nuevos sitios arqueológicos: un caso con la llanura aluvial de Mesopotamia. En Proc. Sexta Conferencia Internacional EAI sobre Objetos Inteligentes y Tecnologías para el Bien Social 216–221 (Asociación de Maquinaria Informática, 2020).

Equipo de desarrollo de QGIS. Sistema de Información Geográfica QGIS (Asociación QGIS, 2022).

Google Académico

Casini, L., Orrù, V., Roccetti, M. & Marchetti, N. Cuando las máquinas encuentran sitios para los arqueólogos: un estudio preliminar con segmentación semántica aplicada en imágenes satelitales de la llanura aluvial de Mesopotamia. En Proc. Conferencia ACM de 2022 sobre tecnología de la información para el bien social 378–383 (2022).

Casana, J. & Cothren, J. El proyecto de atlas CORONA: ortorrectificación de imágenes satelitales CORONA y exploración arqueológica a escala regional en el Cercano Oriente. En Mapeo de paisajes arqueológicos desde el espacio (eds Comer, DC & Harrower, MJ) 33–43 (Springer, 2013).

Capítulo Google Académico

Iakubovskii, P. Modelos de segmentación pytorch. Repositorio de GitHub (2019).

Mantellini, S. & Berdimuradov, AE Evaluación del impacto humano en el paisaje arqueológico de Samarcanda (Uzbekistán): una evaluación diacrónica del distrito de Taylak mediante sensores remotos, estudios de campo y conocimiento local. Arqueol. Res. Asia 20, 100143. https://doi.org/10.1016/j.ara.2019.100143 (2019).

Artículo Google Académico

Colaboradores GDAL/OGR. Biblioteca de software de abstracción de datos geoespaciales GDAL/OGR (Open Source Geospatial Foundation, 2022).

Google Académico

Baeza-Yates, R. & Estévez-Almenzar, M. La relevancia de los errores no humanos en el aprendizaje automático. En EBeM'22: Workshop on AI Evaluation Beyond Metrics (2022).

Cowley, DC ¿Adelante con lo nuevo, fuera con lo viejo? Auto-extracción para arqueología de teledetección. En Remote Sensing of the Ocean, Sea Ice, Coastal Waters, and Large Water Regions 2012 37–45 (SPIE, 2012).

Gallwey, J., Eyre, M., Tonkins, M. y Coggan, J. Llevar el LiDAR lunar de vuelta a la tierra: Mapeo de nuestra herencia industrial a través del aprendizaje de transferencia profunda. Remote Sens. 11, 1994. https://doi.org/10.3390/rs11171994 (2019).

Artículo ANUNCIOS Google Académico

Fiorucci, M. et al. Aprendizaje profundo para la detección de objetos arqueológicos en LiDAR: nuevas medidas de evaluación e información. Remote Sens. 14, 1694. https://doi.org/10.3390/rs14071694 (2022).

Artículo ANUNCIOS Google Académico

Lambers, K., Verschoof-van der Vaart, WB & Bourgeois, QPJ Integración de sensores remotos, aprendizaje automático y ciencia ciudadana en la prospección arqueológica holandesa. Remote Sens. 11, 794. https://doi.org/10.3390/rs11070794 (2019).

Artículo ANUNCIOS Google Académico

Verschoof-van der Vaart, WB Aprendiendo a mirar LiDAR: Combinando la detección de objetos basada en CNN y GIS para la prospección arqueológica en datos de detección remota (Universidad de Leiden, 2022).

Google Académico

Verschoof-van der Vaart, WB & Lambers, K. Aplicación de la detección automática de objetos en la práctica arqueológica: un estudio de caso del sur de los Países Bajos. Arqueol. Prospecto. 29, 15–31. https://doi.org/10.1002/arp.1833 (2022).

Artículo Google Académico

Herfort, B. et al. Mapeo de asentamientos humanos con mayor precisión y menos esfuerzos de voluntarios al combinar el crowdsourcing y el aprendizaje profundo. Remote Sens. 11, 1799. https://doi.org/10.3390/rs11151799 (2019).

Artículo ANUNCIOS Google Académico

Ponti, M. & Seredko, A. Integración de aprendizaje humano-máquina y asignación de tareas en ciencia ciudadana. Humanidad Soc. ciencia común 9, 1–15. https://doi.org/10.1057/s41599-022-01049-z (2022).

Artículo Google Académico

Marchetti, N. et al. CERCANOS. Ciencia abierta arqueológica en red: avances en arqueología a través del análisis de campo y el intercambio de la comunidad científica. J. Arqueol. Res. 26, 447–469 (2018).

Artículo Google Académico

Descargar referencias

La financiación fue proporcionada por la Comisión Europea (CSOLA/2016/382-631), la Fundación Volkswagen (Proyecto Kalam) y la Universidad de Toronto (Proyecto CRANE 2.0).

Departamento de Informática e Ingeniería, Universidad de Bolonia, Bolonia, Italia

Luca Casini, Andrea Montanucci y Marco Roccetti

Departamento de Historia y Culturas, Universidad de Bolonia, Bolonia, Italia

Nicolò Marchetti y Valentina Orru

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

LC escribió el manuscrito, diseñó y ejecutó los experimentos con AM; VO proporcionó el conjunto de datos y la evaluación humana; NM y MR supervisó el estudio y revisó el manuscrito.

Correspondencia a Marco Roccetti.

Nicolò Marchetti ha sido financiado por los siguientes proyectos: (i) el proyecto "EDUU—Education and Cultural Heritage Enhancement for Social Cohesion in Iraq", financiado por EuropeAid (CSOLA/2016/382–631), www.eduu.unibo.it , en cuyo marco se desarrolló el proyecto FloodPlains, https://floodplains.orientlab.net/; (ii) el proyecto "KALAM. Análisis, protección y desarrollo de paisajes arqueológicos en Irak y Uzbekistán a través de las TIC y enfoques comunitarios", financiado por la Fundación Volkswagen, www.kalam.unibo.it; (iii) el proyecto CRANE 2.0 de la Universidad de Toronto, que proporcionó los servidores geoespaciales en los que se ejecuta FloodPlains. Todos los demás autores declaran no tener intereses en competencia.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Casini, L., Marchetti, N., Montanucci, A. et al. Un flujo de trabajo de colaboración humano-IA para la detección de sitios arqueológicos. Informe científico 13, 8699 (2023). https://doi.org/10.1038/s41598-023-36015-5

Descargar cita

Recibido: 09 marzo 2023

Aceptado: 27 de mayo de 2023

Publicado: 29 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-36015-5

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.