Distribuciones continuas

Se enumeran a continuación algunas de las distribuciones de probabilidad continuas más empleadas, incluyendo el enlace a la página de Wolfram Alpha donde se describen en detalle.

Con las distribuciones continuas, lo primero que hay que determinar es si necesitamos una función acotada o no. Las distribuciones uniforme, triangular y beta están acotadas por los dos lados, es decir, establecen unos valore máximo y mínimo que vamos a poder generar. En el caso de la distribución beta, inicialmente entre 0 y 1, aunque puede escalarse y desplazarse con algunas transformaciones sencillas.

Las distribuciones exponencial, gamma y Weibull son siempre mayores o iguales que 0; mientras la lognormal es estrictamente mayor que 0. A priori, no sirven para representar v. a. que puedan tener valores negativos aunque siempre es posible desplazarlas para contemplar diferentes escenarios acotados en valores menores que 0.

La distribución normal no está acotada y hay que tener precaución al usarla en situaciones donde la v. a. que estamos modelando sí lo está. Por ejemplo, utilizar la distribución normal para modelar la altura o el peso de un conjunto de individuos es bastante habitual, ya que es muy difícil que se genere, por azar, una altura o peso negativas. Sin embargo, hay que tener cautela con v. a. donde la media sea cercana a 0, o donde la desviación estándar sea del mismo o superior orden de magnitud que la media, ya que la probabilidad de que se generen valores negativos es muy alta.

Reflexión

Supón que tienes la media y desviación estándar de una v. a. que siempre debe ser positiva, y quieres modelarla como una distribución normal. Una opción para controlar que no se obtengan resultados anómalos sería descartar los valores negativos generados. También podríamos asumir que son 0 o, incluso, usar siempre el valor absoluto del valor generado.

¿Soluciona esto el problema? ¿Conlleva alguna otra complicación?

Retroalimentación

Este tipo de soluciones son habituales pero conllevan una limitación que puede tener bastante influencia en los resultados. Supongamos que generamos valores para una v. a. cuya media y desviación típica observadas son iguales a 10. La gráfica siguiente muestra el histograma para la generación de 2000 valores, ajustados por diferentes métodos. Como puede observarse, al igualar a 0 todos los valores negativos, se crear una gran concentración en ese rango; si tomamos el valor absoluto, los valores negativos se reparten más equitativamente entre los intervalos.

Normal acotada por distintos métodos

Más allá de la interpretación gráfica, lo realmente relevante es calcular la media y desviación estándar de los valores generados:

Ajuste empleado	Media	Desv. Estándar
Sin ajuste	10,13	9,79
Negativos como 0	10,94	8,44
Valores absolutos	11,74	7,77

Es evidente que la media se desplaza y que la dispersión se reduce como resultado de la aplicación de estos métodos.

¿Significa esto que no debemos emplear estos métodos? No. En general, añadir este tipo de salvaguardas para evitar que se genere un número negativo por azar es seguro, ya que sólo se "activan" en casos muy extremos. El problema aparece con distribuciones con tanta dispersión como la del ejemplo. En ese caso, otro tipo de distribución, como una gamma, sería más adecuada, porque probablemente esa dispersión venga de que hay valores muy altos en la población.

Si analizamos las distribuciones de probabilidad por sus usos más frecuentes, nos encontramos que la uniforme es la distribución de la máxima incertidumbre, usada únicamente cuando sólo podemos establecer un valor mínimo y máximo, pero no sabemos nada de la distribución de la v. a. dentro de ese intervalo.

La distribución triangular se utiliza cuando eres capaz de obtener de un experto el menor valor, mayor valor y valor más frecuente asociado a una v. a., lo que permite una representación un poco más rica de la realidad que la que se consigue con una distribución uniforme. A pesar de la sencillez de su parametrización, muchos expertos desaconsejan su uso, debido a sus pobres propiedades matemáticas.

La distribución normal es la opción por defecto para casi cualquier situación, ya que es muy fácil calcular sus parámetros (media y desviación estándar) y, por el teorema central del límite, es una buena aproximación para cualquier fenómeno que sea resultado de una suma de factores. En general, puede ser adecuada para cualquier v. a. que tenga el 70% de los datos a una distancia inferior a la desviación estándar con respecto a la media. Hay que recordar que es simétrica, por lo que se comporta exactamente igual a ambos lados de la media, y tener cuidado con las situaciones que ya hemos visto donde deseamos una v. a. acotada en 0.

Las distribuciones exponencial, Weibull y gamma son opciones habituales para modelar tiempos de servicio o tiempos entre llegadas. La distribución exponencial tiene la moda en el origen (0), mientras gamma y Weibull pueden tenerla en cualquier otro punto ≥ 0. Por su parte, la distribución de Weibull es más flexible al parametrizar la velocidad con que la cola declina, mientras tanto gamma como exponencial presentan una cola larga.

La distribución gamma también es una opción habitual para modelar costes. En estos casos, la aproximación habitual es calcular los parámetros de esta distribución a partir de la media y desviación estándar de los costes.

La distribución lognormal se emplea para modelar, por ejemplo, el retorno de una inversión a largo plazo, el tiempo de proceso en una línea de producción teniendo en cuenta averías, o el tiempo hasta fallos de un dispositivo.

La distribución de Weibull es muy usada en modelos de supervivencia, tanto de una población como de un dispositivo (tiempo hasta fallo).

La distribución beta es una buena alternativa a la distribución uniforme o la triangular cuando se dispone de más información sobre una v. a. acotada. Es habitual su uso, por ejemplo, para representar la probabilidad de que ocurra un suceso, ya que los parámetros de esta distribución (alfa y beta) pueden estimarse a partir del número de individuos a los que les ha ocurrido (alfa) o no (beta) el suceso.

Autoevaluación: escoge la mejor opción para modelar las siguientes situaciones

Pregunta

Tiempo de llegada de clientes a una entidad bancaria con un ritmo aproximado de 2 clientes por minuto

Respuestas

Opción 1

Distribución de Poisson de media 2

Opción 2

No usamos distribución, sino que ponemos un tiempo constante de 0,5 minutos entre llegadas

Opción 3

Distribución exponencial de parámetro λ = 2

Opción 4

Distribución normal de media = 0,5 y desviación estándar = 0,5

Retroalimentación

La distribución de Poisson la emplearíamos si quisiéramos modelar el número de clientes que llega por unidad de tiempo, no el tiempo entre eventos.

Aunque no es la mejor opción, no es descabellado. Dependiendo del tipo de sistema, a veces es suficiente con asumir tiempos constantes sin que esto afecte demasiado al resultado.

Correcto, aunque hay que tener cuidado con la definición del parámetro lambda (λ) en el software de simulación que estemos empleando. En ocasiones, se usa 1/λ (tiempo medio entre eventos) en lugar del número de eventos por unidad de tiempo.

Si hubiésemos empleado una distribución exponencial, la desviación estándar y la media serían, efectivamente, 0,5. Sin embargo, el comportamiento de una y otra distribución no tienen nada que ver. Con una distribución normal sería igual de probable que un individuo llegara dentro de 0,1 segundos que dentro de 0,9 segundos. Aparte, podríamos tener problemas con tiempos entre llegada negativos.