Metodología del estudio

Departamento de Medicina de HAA · Protocolo de medición fonológica

Este documento describe el protocolo observacional empleado para registrar la frecuencia de las muletillas verbales "o sea" y "digamos" en intervenciones públicas del sujeto de estudio.

El procedimiento es no invasivo, reproducible y se basa exclusivamente en material audiovisual de acceso público.

Protocolo de medición

Fase 1 — Captación de la muestra

Cada entrevista o intervención pública del sujeto se obtiene desde su fuente audiovisual original. La pieza completa se incorpora al estudio sin recortes ni edición posterior, garantizando la integridad del registro fonético.

Fase 2 — Transcripción literal asistida

El audio se procesa con un sistema de reconocimiento de voz automático (WhisperX), que produce una transcripción literal de todo lo dicho durante la entrevista, alineada palabra por palabra con su marca temporal exacta. Este registro conserva la espontaneidad y las repeticiones del habla, condición indispensable para una observación fiel.

Fase 3 — Aislamiento del sujeto

Cada fragmento de la transcripción se compara contra un conjunto de referencias vocales del presidente —muestras curadas de su voz en distintos contextos (estudio, exteriores, gritando, hablando bajo)—. Para cada fragmento se calcula su similitud con esas referencias mediante un modelo de embeddings vocales, y se conserva solo el material que supera el umbral correspondiente. Las intervenciones del entrevistador, panelistas, cortinas musicales y silencios quedan descartadas del análisis posterior.

El umbral de aceptación se calibra de forma adaptativa por audio, en función del rango de similitudes observado en esa grabación puntual. Esto permite analizar correctamente piezas con condiciones acústicas dispares —radio AM, paneles televisivos, micrófonos de campo— sin perder material legítimo ni admitir voces ajenas.

Fase 4 — Conteo y normalización

Sobre el texto aislado del sujeto se cuenta cada ocurrencia de "o sea" y "digamos". El texto se normaliza previamente —se quitan acentos, se uniforma a minúscula y se colapsan los espacios— de modo que las variantes ortográficas no estandarizadas ("osea", "ósea", "o sea") se consideren equivalentes a los efectos del estudio.

Las cifras absolutas se normalizan al tiempo real de habla del presidente —los minutos efectivos en los que su voz está activa— y no a la duración total del video. Esta decisión evita el sesgo de las entrevistas en las que el entrevistador domina la conversación y asegura que la tasa reportada represente fielmente con qué frecuencia el sujeto emite cada muletilla cuando habla.

Fase 5 — Registro y visualización

Cada medición se registra en un repositorio versionado y se proyecta en el gráfico bidimensional del estudio: el eje horizontal muestra "o sea" por minuto, el eje vertical "digamos" por minuto. La posición de cada entrevista en el plano la ubica en una de las cuatro zonas clínicas predefinidas, descritas a continuación.

Zonas clínicas del cuadro

Cada entrevista cae en una de cuatro regiones definidas por los rangos de densidad por minuto de cada muletilla. Los umbrales fueron calibrados sobre el corpus histórico para que cada zona represente un cuadro fonológico cualitativamente distinto.

Confusión

Menos de 0,55 "o sea" por minuto y menos de 1,05 "digamos" por minuto. El sujeto produce muy pocas muletillas, pero —contrariamente a lo que podría suponerse— no se trata de un estado de claridad: corresponde a intervenciones donde el presidente aparece desconectado, sin lograr articular un discurso fluido propio.

Confort

Densidades bajas a moderadas en ambos ejes, fuera de la zona de confusión. El sujeto desarrolla sus ideas con fluidez, sin recurrir excesivamente a comodines verbales. Es la zona característica de entrevistas con interlocutores afines y temas dominados.

Tensión

Banda intermedia. Las muletillas empiezan a aparecer con regularidad sin llegar al pico observable. Suele asociarse a entrevistas en las que el sujeto enfrenta repreguntas o temas que no domina por completo.

Máxima tensión

Más de 1,82 "o sea" por minuto o más de 2,64 "digamos" por minuto. Basta con que uno de los dos indicadores supere su umbral para entrar a esta zona. Corresponde a los momentos de mayor nerviosismo registrados en el corpus: entrevistas con interpelaciones sostenidas, temas espinosos o cambios bruscos de tono.

Consideraciones del protocolo

La unidad de análisis es el minuto efectivo de habla. Esta elección evita el sesgo introducido por entrevistas en las que el sujeto interviene poco o donde el entrevistador domina la conversación, asegurando que la tasa reportada represente fielmente la frecuencia con la que el sujeto emite cada muletilla.

El estudio se actualiza con cada nueva entrevista incorporada. Los datos crudos —fecha, fuente, duración, conteo y tasa— quedan a disposición para auditoría.

Limitaciones declaradas

La precisión del aislamiento de voz depende de la calidad del audio original: condiciones acústicas adversas (música de fondo intensa, solapamientos prolongados, micrófonos de baja calidad) pueden introducir un margen de error razonable pero acotado en la asignación de cada intervención. El umbral adaptativo descrito en la Fase 3 mitiga este efecto, pero no lo elimina.

La transcripción automática puede omitir muletillas pronunciadas muy bajo o solapadas con otra voz. El sistema utilizado fue elegido por su sensibilidad a palabras cortas en español rioplatense, pero ningún reconocedor automático alcanza el 100% de cobertura.

Las cuatro zonas clínicas son una grilla descriptiva, no un diagnóstico médico. Sirven para comunicar visualmente la posición relativa de cada entrevista en el corpus, no para emitir juicios fuera del marco satírico del estudio.