SESIONES TEÓRICAS ESTADÍSTICA Y MÉTODO TIC: TEMA 8

TEORÍA DE MUESTRAS: Tipos de muestreo. Teoría de la estimación. Tamaño de la muestra.

ESTIMACIÓN E INFERENCIA ESTADÍSTICA

En la mayoría de las investigaciones  NO se usa toda la población de estudio ya que sería un número muy elevado de sujetos, por ello, se selecciona una muestra representativa de la población y sobre ella se lleva a cabo la investigación y una vez finalizada se generalizarán los resultados sobre toda la población. Algunos investigadores definen dentro de la propia muestra otros niveles de población como, por ejemplo, los participantes de la investigación, que son los individuos que aceptan formar parte del estudio y LO TERMINAN. Esta distinción se hace porque muchas veces se dan pérdidas (personas que no finalizan el estudio) durante el estudio debidas a diversos motivos. Dichas pérdidas forman parte de la muestra aunque no formen parte de los resultados y se suelen estimar para ver si se pueden compensar de alguna forma y que así no pierda potencia el estudio.
Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos técnicas de muestreo. Siempre que trabajamos con muestras no estudiamos el problema en toda la población, cómo explicamos previamente, sino en una parte de ella y hay que asumir un cierto error. Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se denomina MUESTREO PROBABILÍSTICO O ALEATORIO y el error asociado a esa muestra elegida al azar se llama ERROR ALEATORIO. Sin embargo, en los MUESTREOS NO PROBABILÍSTICOS no es posible evaluar el error. En los muestreos probabilísticos,  al no estar todo tan bien sistematizado el error aleatorio es inevitable pero es evaluable.

PROCESO DE LA INFERENCIA ESTADÍSTICA

Tiempos de guerra: TEMA 3 ESTADÍSTICA:DE LOS CONCEPTOS A LAS ...
La muestra es el subconjunto de elementos de una población. Para que los resultados obtenidos en ella puedan inferirse a la población de la cual se ha tomado ésta debe ser:
  1. Representativa de la población diana, que se evalúa mediante las técnicas de muestreos.
  2. De un tamaño adecuado. La muestra debe ser lo suficientemente grande para garantizar que se representa a la población diana y lo suficientemente pequeña para que se facilite su análisis. Este factor también influye en la representatividad. 
  3. Comparable. En los estudios analíticos se comparan grupos y éstos deben ser similares al inicio del estudio, de esta manera, se podrá concluir que las diferencias encontradas entre ambos grupos serán o no consecuencia de la exposición o no al factor que se estudia o de la aplicación o no de la intervención.

PROCEDIMIENTO MUESTRAL

Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.

Tipos de muestreos

Los tipos de muestreos son técnicas usadas por los investigadores para seleccionar una muestra. En una primera clasificación diferenciamos entre:
Muestreo de poblaciones: Tipos de muestreo
  • Muestreo probabilístico, en él todas las unidades (los individuos) que componen la población tienen una probabilidad de ser elegid@s y se puede calcular de antemano.
  • Muestreo no probabilístico, en él las unidades que componen la población tienen diferente probabilidad de ser elegidas ya que no solo interviene el azar sino también otras condiciones, concretamente, dependerá de la circunstancia. No se puede calcular la probabilidad de antemano y no todos los elementos tienen alguna posibilidad de ser incluidos, por ello, este tipo de muestreo tiene una representatividad dudosa.
En una clasificación más amplia diferenciamos entre:

MUESTREO NO PROBABILÍSTICO

Muestreo consecutivo

Es el muestreo no probabilístico más utilizado. Si se hace bien, la representatividad de la muestra puede ser semejante a la obtenida del muestreo probabilístico. Se reclutan a todos los individuos de una población que son accesibles y que cumplen los criterios de inclusión durante un período de reclutamiento fijado. Dicho período de reclutamiento se fija en función del tamaño muestral deseado y del número de sujetos reclutables cada día. Desventajas:
  • El reclutamiento no se realiza de manera consecutiva, produciéndose interrupciones.
  • El período de reclutamiento sea corto y no refleje fluctuaciones estacionales del problema que estamos estudiando.

Muestreo de conveniencia o accidental

Se recluta a los individuos que son más accesibles para el equipo investigador o que se presentan voluntariamente. Se usa con frecuencia al ser el menos costoso y mas fácil.

Desventajas:

  • Poco sólida ya que requiere de una gran homogeneidad de la variable estudiada en la población puesto que, de no ser así, se puede producir un sesgo al no recoger toda la heterogeneidad del fenómeno. 

Ejemplo: Paramos por la calle a la gente que pasa por allí.

Muestreo intencional o a criterio

En esta técnica es el propio investigador es quien selecciona a los individuos al considerarlos los más apropiados. Se usa cuando se quiere contar con una muestra de expertos o en estudios cualitativos.

Desventaja:

  • Este método puede no contar con un método externo y objetivo para valorar la idoneidad de los sujetos.

Ejemplo: Si queremos saber qué dificultades encuentran los enfermeros para investigar usando una técnica de consenso, como la técnica Delphi, para seleccionar el grupo de expertos que participarán, podríamos optar por realizarlo mediante un muestreo a criterio, eligiendo a los sujetos que considerásemos más adecuados para formar la muestra.

Estos dos últimos tipos de muestreo no probabilístico (de conveniencia e intencional) son los que más se utilizan en la investigación cualitativa. Tenemos que tener en cuenta que la investigación cualitativa es útil debido a que no está respaldada completamente en los números y porque aporta un matiz que los números no dan.

Muestreo bola de nieve, de avalancha o muestreo en cadena

En este tipo el propio investigador elige a un participante que cumpla los criterios de inclusión y al mismo tiempo se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así sucesivamente hasta que se tenga recogida la muestra. Es una técnica muy empleada en estudios cualitativos.
Gracias a ello, se puede acceder a parte una población considerada de difícil acceso o difíciles de identificar (poblaciones marginadas como sectas). Es un tipo de muestreo más práctico y eficiente que el muestreo de conveniencia y, además, gracias a la presentación que hace el sujeto e incluido en el estudio, resulta más fácil establecer una relación de confianza con los nuevos participantes.​
Desventajas:
  • La muestra puede ser reducida debido a la reducida red de contactos.
  • Calidad de los participantes condicionada por la invitación de otros a confiar en el investigador.

Muestreo teórico

Se usa muy poco. La selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría o porque la integración de la muestra se va diciendo sobre la marcha con el fin de que los datos recogidos permitan capturar la máxima variación posible de significados.​

Por tanto, los participantes deben cubrir todas la características, perfiles o patrones que pueden influir en los significados del fenómeno estudiado.

MUESTREO PROBABILÍSTICO

Muestreo aleatorio

Como su propio nombre indica, en la selección de los sujetos interviene el azar. Se distinguen dos tipos:

SIMPLE:consiste en seleccionar al azar (mediante una tabla de números aleatorios o el uso de un programa informático) un número n (tamaño muestral) de elementos de una población.   Es el método más sencillo y, sin embargo, el menos utilizado, porque requiere contar a priori con un listado con todas las unidades que componen la población accesible, por lo que se utiliza cuando la población es pequeña. ​ Es el método que produce muestras más representativas, ya que solo interviene el azar. y, sin embargo, no es muy utilizado por sus desventajas:​

  • Es necesario contar con un listado enumerado de todas las unidades de población. ​

  • Los sujetos pueden estar muy dispersos por lo que contactar con todos ellos puede resultar costoso en tiempo y dinero. ​

  • Algunos subgrupos de población, especialmente los minoritarios, pueden no estar representados si la nuestra es pequeña. 

SISTEMÁTICO: consiste en seleccionar individuos según una regla o proceso periódico. ​ Para ello, seguiremos los siguientes pasos:

  1. Calculamos la constante de muestreo "K", K = N/n , donde N es población candidata. ​

  2.  Elegimos un número al azar entre 1 y K, y esa será la primera unidad "r" de la muestra.

  3. Sumamos la constante K al número r hasta conseguir el tamaño muestral, siendo el primer individuo quien ocupe la posición r, el segundo (r+K), el tercero (r+2K), el cuarto (r+3K)... y así sucesivamente. ​

Ventajas: no hace falta tener la lista completa.

Muestreo Estratificado


Se utiliza cuando la característica objeto de estudio no se distribuye de forma homogénea en la población y puede afectar a los resultados del estudio, pero existen grupos o estratos donde se si presenta de manera homogénea. Estos grupos tienen alguna característica en común pero son mutuamente excluyentes.
  • Ventaja: conocer cómo se comporta una variable en cada subgrupo de la población con precisión.
  • Desventaja: necesita más información y un listado de cada individuo de la población.
Ejemplo: porcentajes de grupos de edad que se presentan en una población.

Muestreo Conglomerados

Es una técnica que aprovecha la existencia de grupos o conglomerados en la población que representan correctamente el total de la población en relación a la característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de estos conglomerados para conocer la información de interés del total de la población.​

Podemos ver esta técnica desde otro punto de vista, mientras que en todas las técnicas vistas hasta ahora las unidades de muestreo coinciden con las unidades a estudiar (individuos), en el muestreo por conglomerados las unidades de muestreo son grupos de unidades a estudiar (grupos de individuos), algo que puede resultar muy beneficioso en términos de coste. A cambio, es habitual obtener una menor precisión al usar esta técnica, causada por falta de heterogeneidad dentro de los conglomerados.​ Para usar esta técnica de muestreo seguiremos los siguientes pasos:

  1. Definir los conglomerados identificando una característica que permita dividir la población en grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos deben estar en un grupo), de tal manera que los grupos no difieran entre sí en relación a aquello que queremos medir. Un criterio habitual para definir conglomerados es el geográfico. 

  2. Una vez hemos definido estos conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos. mediante  un muestreo aleatorio simple o sistemático.

  3. Investigar a todos los sujetos que forman parte de los mismos, o bien aplicar un nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo una muestra mediante muestreo aleatorio simple o sistemático. Si optamos por esta posibilidad, estaremos hablando de un muestreo en dos etapas o bietápico: la primera etapa será la selección del conglomerado; y la segunda, la de individuos dentro del conglomerado. Si por el contrario estudiamos todos los individuos del conglomerado, hablaremos de muestreo por conglomerados unietápico.

Ventajas: es una técnica operativa, fácil de aplicar y económica.

Desventajas: no se conoce de antemano el tamaño de la muestra que se va a obtener ya que el tamaño depende de los grupos seleccionados y, además, si los conglomerados no son realmente homogéneos entre ellos se va a generar sesgo. ​

Tanto en el muestreo estratificado y por conglomerados dividimos la población en grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos.​ El muestreo estratificado es especialmente adecuado cuando los grupos (estratos) son muy homogéneos internamente y muy diferentes entre sí. En ese caso, conviene asegurar que tenemos representantes en nuestra muestra que provienen de todos los estratos. Por el contrario, el muestreo por conglomerados es muy adecuado cuando los grupos en que dividimos la población son muy similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de un grupo o de otro.​ Es por ello que pese a que ambas técnicas dividen la población en estratos o conglomerados, el proceso de selección de individuos es radicalmente diferente.

TAMAÑO DE LA MUESTRA

El cálculo del tamaño muestral, por su parte, permite determinar un número aproximado de sujetos que es necesario incluir en la muestra para que esta pueda ser representativa. Si no realizásemos este cálculo, podrían darse dos situaciones diferentes: ​

  1. ​Que realicemos el estudio sin el número suficiente de pacientes lo que conlleva a que no podremos ser precisos al estimar los parámetros y además, que no encontremos diferencias significativas cuando en la realidad sí existen, es decir, que cometamos la que se llama error tipo II. ​

  2. Que estudiemos a un número innecesario de pacientes, lo cual lleva implícito no solo la pérdida de tiempo sino también el incremento de recursos innecesarios. Además, si el muestreo no ha sido probabilístico, un tamaño muestral grande no tiene por qué garantizar que la muestra sea representativa, puesto que, como hemos visto, puede haber parte de la población que no esté representada en la muestra. ​

El tamaño de la muestra puede depender de los siguientes factores: ​

  • La variabilidad del parámetro que se quiere medir:  cuán frecuente sea lo que deseamos medir. Si el fenómeno es muy frecuente, necesitaremos muestras más pequeñas que si se da con menor frecuencia. Para tener este dato (si el fenómeno es frecuente o no), debemos apoyarnos en los datos facilitados por otros estudios. ​

  • La precisión con la que queramos dar los datos, es decir, la amplitud del intervalo de confianza. Debemos pensar que cuanta mayor precisión queramos, más estrecho será el intervalo de confianza, o lo que es lo mismo, si ampliamos el intervalo de confianza con el que queremos dar los datos, el rango de valores también se amplía. El error estándar que se quiere asumir, en cualquier caso, es una decisión esencialmente subjetiva que, como ya hemos apuntado, depende del intervalo de confianza con el que los investigadores quieran trabajar a la hora de inferir los resultados. ​

  • El nivel de confianza, o lo que es lo mismo, la significación estadística del estudio: que en estudios de ciencias de la salud se establece, por acuerdo universal, como mínimo en un 95% o, lo que es lo mismo, (1 - α) = 0.95, y por tanto, un α = 0.05. ​

  • El poder estadístico o la potencia del estudio: está relacionado con la precisión del estudio, esto es, la capacidad que tiene el estudio para encontrar diferencias si es que realmente las hay. Por tanto, es un parámetro que se debe establecer en los estudios que pretenden probar hipótesis. El poder estadístico es el complementario de la probabilidad de cometer el error tipo II o β, por tanto, es igual a (1 - β). ​

  • El efecto esperado: en el caso de ensayos clínicos, debemos estimar a priori (a partir de la bibliografía existente) cuál será el efecto que esperamos obtener por la intervención realizada. En función de si el efecto es pequeño, mediano, o grande, el tamaño de la muestra deberá ser mayor o menor. Lógicamente, al igual que sucedía con la prevalencia o variabilidad del fenómeno, cuanto mayor sea el efecto esperado menor será el tamaño muestral, ya que tendremos más “garantía” o “probabilidad” de tener sujetos que lo presenten.

Para determinar el tamaño muestral de un estudio, debemos considerar los diferentes fines para los que se desarrolla un estudio: ​

- Estimar parámetros poblacionales: a partir de los datos obtenidos en la muestra que ha participado en el estudio (proporciones, medias) pretendemos hacer inferencias a valores poblacionales. ​

- Contrastar hipótesis: el estudio pretende comparar si existen diferencias en los valores medios o las proporciones de las variables a estudio entre los grupos que conforman la muestra. ​

Para el cálculo del tamaño de una muestra para estimar la  media de una población tenemos una formula donde:​

n= Z^2 x S^2 /e^2 

  • Zα , es el coeficiente que corresponde al nivel de confianza prefijado. ​

–  Para un nivel de confianza del 95%, α = 0.05, el valor de Zα = 1.96 ​

–  Para un nivel de confianza del 99%, α = 0.01, el valor de Zα = 2.57 ​

  • S2, es la varianza de la distribución de la variable cuantitativa que se supone existe en la población. Este dato lo podemos obtener de estudios previos o de un estudio piloto. ​

  • e, es la precisión con la que se desea estimar el parámetro (también fijado por los investigadores) ​.

Por tanto, para calcular el tamaño muestral necesario para estimar una media necesitamos saber solo el valor de S2, puesto que tanto el valor de Zα como el de e es fijado por los investigadores. ​

Si no tuviéramos datos acerca del valor aproximado de la varianza, ni fuera posible realizar un piloto, podemos obtener una primera aproximación al valor de la varianza a partir de la estimación de la desviación típica, s, (que, como se ha explicado ya en un tema anterior, es la raíz cuadrada de la varianza), se podría utilizar una regla práctica que consiste en determinar la diferencia entre los valores máximos y mínimos esperables, y dividir esta diferencia entre 4. El número obtenido se aproxima al de la desviación típica, s. ​


Para calcular el tamaño de una muestra cuando queremos estimar una proporción:

n=N*Z^2*P(1-P)/(N-1)*e^2+Z^2*P(1-P)

Donde: ​

  • Zα , es el coeficiente que corresponde al nivel de confianza prefijado. ​

–  Para un nivel de confianza del 95%, α = 0.05, el valor de Zα = 1.96 ​

–  Para un nivel de confianza del 99%, α = 0.01, el valor de Zα = 2.57 ​

  • p, es el valor aproximado del parámetro que se quiere medir (su variabilidad o cuán frecuente es) expresado en términos de probabilidad, es decir, en tanto por uno. Este dato lo podemos obtener de estudios previos o de un estudio piloto. ​

  • (1 - p), es el complementario del valor de p. ​

  • e, es la precisión con la que se desea estimar el parámetro (también fijado por los investigadores). ​

Por tanto, para calcular el tamaño muestral necesario para estimar una proporción necesitamos saber solo el valor de p, puesto que tanto el valor de Zα como el de i es fijado por los investigadores, y el de (1 - p), se calcula a partir del valor de p. ​

Si no tuviéramos datos acerca del valor aproximado del parámetro que se está buscando, ni fuera posible realizar un piloto para obtener una primera aproximación a dicho valor, se puede adoptar la postura de máxima indeterminación y considerar que el parámetro estará presente en la mitad de los sujetos estudiados (lo mismo que se daría por azar), que es el valor que requiere mayor cantidad de individuos. Su inconveniente es que estudiaríamos a un número de sujetos superior al necesario para garantizar la representatividad de la muestra.


Para finalizar esta entrada me gustaría recomendar el álbum de la banda alemana Rammstein, Mutter.

Mutter + 1 : Rammstein: Amazon.es: Música

Comentarios

Entradas populares