The Independent Sentinel #19

Un modelo mental para preparar datos, el parpadeo de las estrellas y la colonización de Australia

¡Hola!

Soy Javier Fuentes, de Akoios, gracias por seguir leyendo The Independent Sentinel, la newsletter en español que habla sobre novedades, avances e historias relativas a la Ciencia de Datos.

Si quieres, puedes registrarte para recibir cada edición en tu correo en el botón de abajo:

¡Suscríbete ahora!

Hoy hablamos de cómo preparar los datos, del parpadeo de las estrellas y del descubrimiento y colonización de Australia.

¡Zarpamos! ⛵️


🎼  ¿Quieres banda sonora? ¡Dale al Play!


1. Ciencia de Datos

🧠 Cómo afrontar la preparación de datos

Como hemos hablado en más de una ocasión, no sólo es importante disponer de buenos datos, sino también tratarlos de manera adecuada para afrontar cualquier iniciativa de Data/Machine Learning.

Por ello, resulta útil disponer de un “mapa mental” que nos ayude a afrontar de forma sistemática y ordenada cómo enfrentarnos con cualquier dataset.

En este fantástico artículo, al autor detalla y clasifica distintos métodos de preparación de datos tabulares según dónde sean aplicados:

  • Transformación de Filas

  • Transformación de Columnas

  • Transformación de Valores

  • Transformación de Columnas y Valores

  • Transformación de Filas y Valores

La siguiente figura sintetiza esta más que útil clasificación:

Usando un marco de trabajo de este tipo, es mucho más sencillo planificar una estrategia para conseguir que, ese dataset que se nos resiste, acabe listo para ser utilizado.

🌟 Twinkle, twinkle, little star

Cómo seguramente habrás notado al mirar las estrellas, éstas suelen mostrar un parpadeo característico (“twinkle”) al ser observadas desde la Tierra.

El término técnico para este parpadeo es astronomical scintillation (centelleo astronómico) y está causado por la atmósfera de la Tierra. Según la luz proveniente de la estrella va atravesando las diversas capas de la atmósfera, va experimentado el efecto de difracción que causa esta variación del brillo que percibimos.

Este efecto (a priori inofensivo) tiene algunas implicaciones importantes. La forma principal en la que los astrónomos identifican nuevos planetas es justamente a través de la medición la “sombra” que generan éstos al orbitar alrededor de una estrella. Por ello, este parpadeo dificulta enormemente la exploración espacial basada en esta técnica.

Afortunadamente, unos investigadores de la Universidad de Sidney, han desarrollado una solución para neutralizar el parpadeo causado por la atmósfera usando Machine Learning.

A través de una red neuronal con activación ReLU debidamente entrenada, los científicos han conseguido unos resultados excelentes en la corrección del parpadeo, consiguiendo así imágenes más estables y aptas para el estudio.

Como curiosidad para los más técnicos, la red fue implementada en Keras con Tensorflow, tal y como explican en este paper que ha sido publicado.

Lo mejor de todo es que este avance va a ser desplegado de manera inminente en el telescopio japonés Subaru, ubicado en la cima del volcán Mauna Kea de la isla de Hawaii. Telescopio que, por cierto, tuve la suerte de poder visitar hace años.

Ad Astra!

2. Historias 📔

El descubrimiento de Australia

📚 Un poco de historia

En 1762 se producía la llamada Toma de Manila (Filipinas) por parte de los británicos, hecho que marcaría el comienzo del fin de la presencia española en Asia y el Pacífico.

Tras la ocupación, Alexander Dalrymple (espía, cartógrafo y último gobernador británico de Manila), ordenó saquear los fondos documentales de la ciudad, por aquel entonces, el centro cartográfico más importante del Pacífico.

Entre los tesoros documentales y cartográficos, Dalrymple se hizo con todo el trabajo mapístico de Andrés de Urdaneta, un religioso agustino que destacó por sus labores como militar, marino, explorador y cosmógrafo y que ha pasado a la historia por el llamado Tornaviaje de Filipinas: La Ruta de Filipinas a Acapulco.

Tras el saqueo, Dalrymple se dio cuenta de la magnitud del hallazgo. En particular, le llamo la atención la documentación de Andrés de Urdaneta relativa a un mundo aún por descubrir, llamado por entonces Terra Australis Incognita.

Dalrymple regresó a Londres en 1765 para solicitar respaldo a la East India Company para una aventura en la que las pasadas expediciones británicas habían fracasado estrepitosamente: La colonización de este nuevo continente.

La persona designada para esta misión, no fue otra que un todavía desconocido James Cook que, utilizando la cartografía española elaborada por Urdaneta, definió el rumbo y el éxito último de la expedición.

El resto es historia.

📖 El Archivo de Indias

Unos años más tarde, en 1785, el rey español Carlos III decidió que era el momento de centralizar toda la documentación referente a la administración de los territorios ultramarinos españoles. Toda esta documentación estaba dispersa hasta ese momento en los archivos de Sevilla, Cádiz y Simancas.

Como sede para albergar el archivo, se escogió la Casa Lonja de Mercaderes, obra del arquitecto Juan de Herrera construida bajo el mandato de Felipe II.

A día de hoy, este Archivo contiene la nada desdeñable cifra de 43000 legajos, 80 millones de páginas y 8000 mapas, siendo la principal fuente de información sobre la historia de España en América (desde el sur de Estados Unidos hasta Tierra de Fuego) y Filipinas entre los siglos XV y XIX.

Se estima que sólo se ha analizado un 10% de este total de 80 millones de páginas.

⛵️ El proyecto Carabela

Desde hace varios años, investigadores de la Universitat Politécnica de València liderados por el catedrático Enrique Vidal junto con investigadores del Centro de Arqueología Subacuática (CAS) de Cadiz, se hayan embarcados (nunca mejor dicho) en una apasionante misión: El proyecto Carabela.

Este proyecto tiene como objetivo analizar mediante Inteligencia Artificial registros como el Archivo General de Indias o el Archivo Histórico Provincial de Cádiz.

La tarea no es baladí ya que, más allá de identificar los caracteres escritos usando OCR, están aplicando modelos de lenguaje para identificar y relacionar términos equivalentes usando indexación probabilística, del mismo modo que hacen los buscadores de Internet.

De este modo, al realizar un búsqueda que contenga por ejemplo, la palabra “navío”, se devuelven también resultados asociados a términos como “barco”, “carabela”, “nao” o “galeón”, entre otros.

Obviamente, este modelo ha requerido un entrenamiento supervisado para ser capaz de detectar matices como:

  • Variaciones en la escritura con el tiempo

  • Cambios entre la “v” y la “b”

  • Sinónimos entre palabras

Al parecer, tras el análisis llevado a cabo con la tecnología de Carabela, se han podido identificar alrededor de 150 naufragios desconocidos 🤯.

El proyecto Carabela está disponible en la web, aunque con ciertas limitaciones para evitar posibles rastreos de información dirigidos a la identificación y expolio de estos yacimientos subacuáticos.

🇪🇸 El descubrimiento español de Australia

Además de los tesoros sumergidos, Carabela está realizando otros hallazgos sorprendentes. Al buscar por la cadena “Tierra Austral Incognita” se ha encontrado una misiva de principios del siglo XVIII dirigida al rey Felipe V.

En esta carta, redactada por el jesuita Andrés Serrano, se hacen menciones muy precisas sobre la ubicación de esta “Tierra Austral” datadas de 1705, mucho antes de que el Capitán Cook llegase a sus costas.

En la misiva, Serrano -ubicado en Manila en aquel momento- solicitaba al Rey recursos para ir a colonizar esa tierra repleta de almas por evangelizar. Asimismo, en la carta dejaba constancia de que Luis Váez de Torres y Pedro Fernández de Quirós habían descubierto este nuevo continente en pasadas expediciones.

Muy seguramente, Urdaneta conoció y trabajó sobre los descubrimientos de Serrano e incluyó en sus mapas las referencias a los descubrimientos de Váez de Torres y Quirós. Mapas que, como hemos visto, acabaron en manos británicas cambiando el rumbo de la historia.

Una vez más, vemos como el Machine Learning nos puede ayudar a descubrir secretos del pasado e incluso, como en esta ocasión, a poder reescribirlo.

¡Gracias como siempre por leer hasta aquí!


¿Te gusta The Independent Sentinel? Ayúdanos a que más gente conozca esta newsletter compartiendo nuestras publicaciones en redes sociales o contándoselo a tus amigos y familiares.

Si tienes comentarios o quieres arrancar una conversación, recuerda que puedes hacerlo al final de la publicación.

Si te has perdido alguna edición de la newsletter, puedes leer todas aquí.

👉 Si quieres conocer mejor cómo funciona nuestra tecnología Titan, puedes revisar nuestra serie de tutoriales publicados en Medium.

👉 Si te interesa, puedes solicitar un acceso gratuito para probar Titan aquí https://lnkd.in/gPz-2mJ