Detección de irregularidades en las superficies viales



Ana L. Ballinas Hernández, Iván Olmos Pineda, Arturo Olvera López
Ver en el PDF

Debido al desarrollo de las nuevas tecnologías ha sido posible diseñar prototipos de automóviles que se manejan sin la necesidad de un conductor humano integrando diferentes tecnologías y algoritmos avanzados para procesar los datos que se recolectan a través de sus sensores. Uno de los grandes desafíos de la industria automotriz es lograr una autonomía al 100 % en la conducción con una alta confiabilidad minimizando lo más posible cualquier tipo de incidente vial (Bardt, 2017). Empresas como: Google, Audi, Volkswagen, Tesla Motors, General Motors, Volvo, Nissan, Mercedes Benz, BMW, Ford, Toyota, entre otras, se encuentran investigando y desarrollando tecnologías cada vez más avanzadas cuyo propósito es lograr una conducción autónoma confiable. La conducción autónoma requiere resolver varias tareas que por sí solas son complejas como lograr que los automóviles se estacionen solos, que detecten automáticamente peatones, semáforos, señalamientos de tránsito, entre otros. Con estas investigaciones se busca que un alto sector de la sociedad (jóvenes, adultos, personas de la tercera edad y personas con capacidades diferentes) pueda transportarse con seguridad de un lugar a otro.

    No solo las empresas se han interesado en el desarrollo de estas tecnologías sino además los gobiernos como el de Estados Unidos apoyan su desarrollo. Ejemplo de ello son los concursos de DARPA Grand Challenge (creado en 2004) y DARPA Urban Challenge (a partir del 2007 a la fecha) los cuales son eventos anuales donde instituciones académicas y centros de investigación muestran sus avances en la materia. En estas competencias los automóviles deben partir de un origen con el objetivo de llegar a un destino predefinido sin conductor humano recorriendo el tráfico de la ciudad en ambientes extremos (Ozguner y cols., 2007). En general, los automóviles participantes han presentado buenos resultados en la navegación a pesar de la complejidad de los escenarios y de los inconvenientes que deben resolver. De estos eventos han emergido soluciones que con el tiempo han sido incorporadas en prototipos de automóviles autónomos (AA) bajo escenarios reales.

     Los AA han comenzado a circular, como versiones de prueba, en países desarrollados como Alemania, Estados Unidos, Japón y algunos otros países europeos. Sin embargo, al realizar experimentos de navegación han ocasionado accidentes con muertes humanas como resultado debido a errores en los algoritmos de detección de peatones y otros obstáculos que no envían alertas tempranas (Morandín-Ahuerma, 2019). Además, los países en vías de desarrollo están lejos de lograr una conducción totalmente autónoma ya que estos automóviles han sido diseñados para operar en ambientes con una infraestructura y señalética vial adecuadas. En estos países no se tienen las condiciones adecuadas de infraestructura vehicular (Basu y cols., 2017). A pesar de lo anterior, existen esfuerzos e investigaciones que han abordado la conducción autónoma en ambientes poco favorables con una alta incertidumbre provocada por la poca o nula calidad en la infraestructura vial.

    En ciudades convencionales de países en vías de desarrollo las zonas de circulación urbanas presentan diversos elementos de tránsito como: semáforos, señales de tránsito, peatones, motociclistas, automóviles, además de irregularidades en las superficies viales. En estos países existen elementos viales que son inexistentes en países desarrollados, como es el caso de los reductores de velocidad de alto relieve conocidos popularmente como “topes”. La detección de topes es importante para mantener la estabilidad y confiabilidad en la conducción autónoma y principalmente para evitar accidentes generados por estas anomalías. En este trabajo se presenta el panorama general de una alternativa para detectar topes que engloba la visión artificial para simular la visión humana.

 

VISIÓN COMPUTACIONAL EN LOS AUTOS AUTÓNOMOS

 

La visión computacional es la capacidad que tienen las computadoras de analizar imágenes del mundo real capturadas por cámaras digitales u otros sensores. Estas imágenes son procesadas para reestructurar sus propiedades de iluminación, forma y color, así como para adquirir información relevante de las mismas (Burger y cols., 2009). Diversas técnicas de visión se han utilizado para el análisis de ambientes de los AA, entre ellas: procesamiento digital de imágenes, visión estéreo y visión LIDAR.

    El proceso de visión que se realiza con una sola cámara es llamado visión monocular mientras que el realizado con dos cámaras es llamado visión estéreo. A diferencia de la visión monocular, la visión estéreo da un sentido de la profundidad de las escenas mediante la estimación de distancias a los objetos. La visión monocular no es suficiente para detectar topes, por ello es necesario utilizar la visión estéreo para analizar la elevación de la superficie mediante el cálculo de profundidades.

 

INFORMACIÓN 3D OBTENIDA MEDIANTE VISIÓN ESTÉREO

 

La visión estéreo es la capacidad en los seres humanos para integrar una sola imagen tridimensional a partir de las dos imágenes que llegan a cada uno de nuestros ojos. El principal objetivo de la visión estéreo es reconstruir imágenes tridimensionales a partir de imágenes en dos dimensiones con una aproximación de la profundidad obtenida por la diferencia entre imágenes (Murray y Little, 2000).

     Un sistema de visión estéreo utiliza dos cámaras colocadas horizontalmente paralelas separadas a una cierta distancia. Previo al montaje de las cámaras se realizan dos tareas para que el sistema funcione adecuadamente: 1. Calibración de cámaras: consiste en estimar la posición y orientación de las cámaras en la escena real, así como algunas distorsiones de la lente de las cámaras. 2. Rectificación: una vez calibradas las cámaras y corregidas las distorsiones, la rectificación se encarga de alinear las imágenes obteniendo imágenes totalmente paralelas de la misma escena. Cuando el auto avanza en tiempo real calcula un mapa de profundidad a partir de la captura simultánea de pares de imágenes con una zona de intersección en común. El mapa de disparidad representa la profundidad de los objetos dentro de la zona de intersección de las imágenes estéreo. Las tareas de la visión estéreo para la obtención de información de profundidad de las escenas son mostradas en la Figura 1. A partir del mapa de disparidad se encuentra una relación de profundidad para estimar distancias del mundo real a los objetos obteniendo información tridimensional de las escenas de forma equivalente a la que lo hacen nuestros ojos.

    La visión estéreo ha sido usada para: la detección de objetos por profundidad, la clasificación de objetos de tránsito vehicular, el análisis de superficies viales, etc. Para los humanos es sencillo entender una imagen y reconocer objetos, sin embargo, hacer esta tarea de forma automática puede resultar ser muy complicada. Un sistema de visión artificial basado en aprendizaje de máquina ayudaría a reconocer objetos de forma automática a partir del análisis de imágenes.

 

¿CÓMO APRENDER DE LAS IMÁGENES?

 

El objetivo del aprendizaje máquina es generar algoritmos que permitan que las computadoras aprendan mediante el reconocimiento de ciertos patrones y haciendo clasificaciones (Nasrabadi, 2007). Para clasificar, se parte de un conjunto de ejemplos cuyo valor objetivo es conocido (llamado conjunto de entrenamiento) y se intenta encontrar un modelo que permita asignar un valor objetivo a ejemplos no conocidos (llamado conjunto de prueba).

      La visión artificial se enfoca en aprender a partir de la extracción de información útil de las imágenes. El cerebro procesa las imágenes percibidas el cual está formado de un conjunto de redes neuronales biológicas (una representación de este proceso se muestra en la Figura 2). Por ello, en muchas investigaciones en visión artificial se ha tratado de hacer uso de un sistema artificial similar a lo que hace el cerebro, un ejemplo de ello son las llamadas “redes neuronales artificiales” (Goodfellow y cols., 2016). Una red neuronal es un conjunto de muchas neuronas artificiales que recibe información de entrada y que produce valores de salida que dependen de las conexiones existentes. Algunos otros métodos dependen del grado de inteligencia del sistema, ejemplo de ello son los árboles de decisión y las máquinas de vector de soporte (Hernández y cols, 2004).

      Para la detección de objetos se aplica la técnica de segmentación que descarta información no relevante en las imágenes y se enfoca solo en los objetos de interés. También se aplica un proceso de extracción de características para representar valores numéricos de los objetos en una escena mediante funciones que calculan aspectos como su perímetro, volúmenes, texturas, formas, entre otros. Una vez que se extraen características se generan modelos de clasificación automática para detectar objetos en las imágenes aplicando algoritmos de aprendizaje.

     La visión artificial en AA ha tenido muchos avances en la detección de: señales de tránsito, semáforos, baches, objetos, peatones, automóviles, cruceros, cruces peatones, carriles, etcétera. Un reto es la identificación de irregularidades sobre las superficies viales, como es el caso de la detección de topes cuando su señalización de tránsito no está bien marcada.

 

DETECCIÓN DE TOPES EN LAS IMÁGENES

 

La detección de topes es fácil de realizar cuando los señalamientos viales están bien marcados. En países en vías de desarrollo esto no sucede ya que es muy común encontrar topes sin señalamiento (ver ejemplos en Figura 3). Por lo tanto, es difícil aplicar algoritmos basados en el análisis y detección de patrones. Actualmente se están desarrollando algunos trabajos para generar sistemas sofisticados que puedan resolver esta situación. Una alternativa consiste en aplicar la visión estéreo para extraer rasgos característicos de las elevaciones causadas por los topes.

      Se han realizado varios trabajos que abordan la detección automática de topes en superficies viales. Una de las soluciones más frecuentes es el uso de smartphones que monitorean la superficie mediante sensores de ultrasonido y acelerómetros (Daraghmi y Daadoo, 2016; Vivacqua y cols., 2017). Con estas aplicaciones es posible detectar topes cuyas coordenadas de ubicación son recuperadas mediante GPS (Sistema de Posicionamiento Global) y envían alarmas a los conductores para reducir la velocidad de los automóviles. A pesar de presentar buenos resultados, el sistema puede fallar debido a la baja precisión de los sensores y a que se requiere de una conexión al GPS de muy alta calidad. Además, las ubicaciones de los topes se almacenan con anticipación, pero en países como México la colocación de éstos cambia constantemente y el sistema no se adapta a fácilmente a cambios.

    Otro de los enfoques altamente explorados son los basados en visión ya que, al igual que el humano, es una forma de percibir el entorno con buena confiabilidad en una gran variedad de circunstancias. Esta solución consiste en aplicar diversas técnicas del procesamiento de imágenes para la extracción información que permita detectar topes (Danti y cols., 2013). La limitante principal de estas técnicas es que se basan en el análisis de los patrones de señalamiento de tránsito y cuando el tope no está bien marcado la detección presenta valores altos de error.

      Los humanos somos capaces de detectar topes en las superficies debido a variaciones de color, patrones de señalamiento, textura, forma, profundidad y distancias. A través de un proceso de aprendizaje en el cerebro humano se procesan estas variaciones para determinar si hay o no hay topes en las calles. Una computadora lo podría hacer de forma semejante, haciendo uso de cámaras y de aprendizaje máquina, mediante la captura de imágenes que son procesadas por la computadora para extraer variaciones o características que den indicios de la existencia de topes en las escenas.

    Una propuesta general para detectar topes se muestra en la Figura 4. En esta se aplica la visión estéreo para estimar superficies tridimensionales y distancias a los topes. Además, se extraen características de las imágenes que den indicio de la existencia de topes como: diferencia de color o textura, la pendiente de la superficie reconstruida, altura, longitud, distancia, entre otras. Un sistema de aprendizaje máquina debería ser capaz de “clasificar” de forma automática cuando hay y cuando no hay topes en las imágenes usando clasificadores como redes neuronales artificiales, árboles de decisión, entre otras alternativas, además, se validan los modelos generados para elegir el clasificador que presente mejores resultados.

    Esta propuesta permite detectar topes por elevación aun cuando su señalamiento vial no está bien marcado. Esta situación ha sido poco abordada por las técnicas existentes y éstas últimas aún presentan errores altos en la detección.

 

CONCLUSIONES

 

Los AA han tenido avances importantes para la circulación en vialidades. Sin embargo, en países en vías de desarrollo como México aún no se tiene la infraestructura vial adecuada para que los automóviles circulen sin dificultades. Un reto importante consiste en detectar topes en vialidades cuando su señalamiento vial no está bien marcado. Esta es una situación muy común en países en vías de desarrollo y aún no ha sido complemente resuelta con las técnicas existentes de reconocimiento de patrones ya que presentan errores de detección altos. Una solución es que los AA sean programados con algoritmos de visión artificial, en particular, la visión estéreo y el aprendizaje máquina podrían ayudar a identificar topes en las imágenes por elevación en las superficies viales independientemente de su señalamiento de tránsito.

 

R E F E R E N C I A S

 

Bardt H (2017). Autonomous Driving-A Challenge for the Automotive Industry. Intereconomics 52(3):171-177.

Ozguner U, Stiller C y Redmill K (2007). Systems for safety and autonomous behavior in cars: The DARPA Grand Challenge experience. Proceedings of the IEEE 95(2):397-412.

Basu C, Yang Q, Hungerman D, Singhal M y Dragan AD (2017). Do you want your autonomous car to drive like you? In Proceedings of the 2017 ACM/IEEE International Conference on Human-Robot Interaction 417-425.

Burger W, Burge MJ, Burge MJ y Burge MJ (2009). Principles of digital image processing (Vol. 54). London: Springer.

Murray D y Little JJ (2000). Using real-time stereo vision for mobile robot navigation. Autonomous robots 8(2):161-171.

Nasrabadi NM (2007). Pattern recognition and machine learning. Journal of electronic imaging 16(4):049901.

Goodfellow I, Bengio Y y Courville A (2016). Deep learning. London: MIT press.

Hernández Orallo J, Ferri Ramírez C y Ramírez Quintana MJ (2004). Introducción a la Minería de Datos. España: Pearson Prentice Hall.

Daraghmi YA y Daadoo M (2016). Intelligent Smartphone based system for detecting speed bumps and reducing car speed. In MATEC Web of Conferences 77:09006.

Morandín-Ahuerma F. (2019). ¿Quién mató a Elaine? Autos robot y toma de decisiones. Elementos 115:33-38.

Vivacqua R, Vassallo R y Martins F (2017). A low cost sensors approach for accurate vehicle localization and autonomous driving application. Sensors 17(10):2359.

Danti A, Kulkarni J y Hiremath DP (2013). A technique for bump detection in Indian road images using color segmentation and knowledge base object detection. International Journal of Scientific & Engineering Research 4(8):2229-5518.

 

Ana L. Ballinas-Hernández
Ivan Olmos-Pineda
J. Arturo Olvera-López
Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación

Número actual

Elementos {{num_act.numero}}
{{num_act.trimestre}} / {{num_act.fecha}}
ISSN: {{num_act.issn}}