Vous pouvez calculer l'erreur-type (SE) et l'intervalle de confiance (IC) des statistiques d'échantillon les plus courantes (moyennes, proportions, nombre et taux d'événements et coefficients de régression). Mais un SE et un CI existent (théoriquement, au moins) pour n'importe quel nombre que vous pourriez extraire de vos données, des cen - tres, des coefficients de corrélation et d'autres quantités qui pourraient impliquer des calculs compliqués, comme la zone sous une courbe concentration-temps (ASC) ou la probabilité estimée de survie à cinq ans dérivée d'une analyse de survie. Les formules pour la SE et l'IC autour de ces nombres pourraient ne pas être disponibles ou pourraient être désespérément difficiles à évaluer. En outre, les formules existantes peuvent s'appliquer uniquement aux numéros normalement distribués et vous ne savez peut-être pas quel type de distribution vos données suivent. Considérons un problème très simple. Supposons que vous ayez mesuré le QI de 20 sujets et obtenu les résultats suivants: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114, 115. , 120 et 138. Ces chiffres ont une moyenne de 100,85 et une médiane de 99,5. Parce que vous êtes un bon scientifique, vous savez que chaque fois que vous signalez un certain nombre de chiffres calculés à partir de vos données (comme une moyenne ou une médiane), vous voudrez également indiquer la précision de cette valeur sous la forme d'une SE et d'un CI. Pour la moyenne, et si vous pouvez supposer que les valeurs IQ sont approximativement distribuées normalement, les choses sont assez simples. Vous pouvez calculer la SE de la moyenne comme étant de 3,54 et la CI 95 autour de la moyenne de 93,4 à 108,3. Mais qu'en est-il de la SE et CI pour la médiane, pour laquelle il n'ya pas de formules simples Et si vous pouvez être sûr que ces valeurs IQ proviennent d'une distribution normale Ensuite, les formules simples pourraient ne pas être fiables. Heureusement, il existe une méthode très générale pour estimer les SE et les CI pour tout ce que vous pouvez calculer à partir de vos données, et il ne nécessite aucune hypothèse sur la façon dont vos numéros sont distribués. La SE de toute statistique de l'échantillon est l'écart type (DE) de la distribution d'échantillonnage pour cette statistique. Et les 95 limites de confiance d'une statistique d'échantillonnage sont bien approximées par les 2 ème et 97 ème centiles de la distribution d'échantillonnage de cette statistique. Donc, si vous pouviez reproduire votre expérience entière plusieurs fois (en utilisant un échantillon différent de sujets à chaque fois), et à chaque fois calculer et enregistrer la valeur de la chose vous intéresse (médiane, ASC ou autre), cette collection de milliers de Valeurs serait une très bonne approximation de la distribution d'échantillonnage de la quantité d'intérêt. Ensuite, vous pourriez estimer le SE simplement comme le SD de la distribution d'échantillonnage et les limites de confiance à partir des centiles de la distribution. Mais en réalité la réalisation de ce scénario n'est pas possible 8212 vous don8217t ont probablement le temps, la patience ou de l'argent pour effectuer votre étude de milliers de fois. Heureusement, vous n'avez pas à répéter l'étude des milliers de fois pour obtenir une estimation de la distribution d'échantillonnage. Vous pouvez le faire en réutilisant les données de votre étude réelle, encore et encore Ceci peut sembler trop beau pour être vrai, et les statisticiens étaient très sceptiques de cette méthode quand il a été proposé pour la première fois. Ils l'ont appelée bootstrapping, en la comparant à la tâche impossible de vous prendre en charge par vos bootstraps.8221 Mais il s'avère que si vous continuez à réutiliser les mêmes données d'une certaine manière, cette méthode fonctionne réellement. Au fil des ans, la procédure bootstrap est devenue un moyen accepté d'obtenir des estimations fiables des SE et des CI pour presque tout ce que vous pouvez calculer à partir de vos données en fait, il est souvent considéré comme la 8220gold norme8221 contre laquelle diverses formules d'approximation pour SE et CI sont Jugé Pour voir comment fonctionne la méthode bootstrap, voici comment vous l'utiliserez pour estimer le SE et IC 95 de la moyenne et la médiane des 20 valeurs de QI montrées plus tôt. Vous devez rééchantillonner vos 20 numéros, maintes et maintes fois, de la façon suivante: Écrivez chacune de vos mesures sur une feuille de papier séparée et mettez-les toutes dans un sac. Dans cet exemple, vous écrivez les 20 QI mesurés sur des feuillets séparés. Atteindre et extraire un feuillet, écrire ce nombre vers le bas, et remettre le glissé dans le sac. (Cette dernière partie est très importante) Répétez l'étape 2 autant de fois que nécessaire pour faire correspondre le nombre de mesures que vous avez, en retournant le glissement au sac à chaque fois. C'est ce qu'on appelle le rééchantillonnage avec replaceeme nt, et il produit un ensemble de données rééchantillonné. Dans cet exemple, vous répétez l'étape 2 19 fois plus, pour un total de 20 fois (qui est le nombre de mesures de QI que vous avez). Calculez la statistique d'échantillon souhaitée des nombres rééchantillonnés des étapes 2 et 3 et enregistrez ce nombre. Dans cet exemple, vous trouvez la moyenne et la médiane des 20 numéros rééchantillonnés. Répétez les étapes 2 à 4 plusieurs milliers de fois. Chaque fois, vous générez un nouvel ensemble de données rééchantillonné à partir duquel vous calculez et enregistrez les statistiques d'échantillon souhaitées (dans ce cas, la moyenne et la médiane de l'ensemble de données rééchantillonné). Vous vous retrouvez avec des milliers de valeurs pour la moyenne et des milliers de valeurs pour la médiane. Dans chaque jeu de données rééchantillonné, certaines des valeurs originales peuvent se produire plus d'une fois, et certaines peuvent ne pas être présentes du tout. Presque toutes les données rééchantillonnées seront différentes de toutes les autres. La méthode bootstrap est basée sur le fait que ces valeurs moyennes et médianes des milliers d'ensembles de données rééchantillonnés comprennent une bonne estimation de la distribution d'échantillonnage pour la moyenne et la médiane. Collectivement, ils ressemblent au genre de résultats que vous avez mai obtenus si vous avez répété votre étude réelle encore et encore. Calculez l'écart-type de vos milliers de valeurs de la statistique de l'échantillon. Ce processus vous donne une estimation 8220bootstrapped8221 de la SE de la statistique de l'échantillon. Dans cet exemple, vous calculez le SD des milliers de moyens pour obtenir le SE de la moyenne, et vous calculez le SD des milliers de médianes pour obtenir le SE de la médiane. Obtenir les 2 ème et 97 ème centiles des milliers de valeurs de la statistique de l'échantillon. Pour ce faire, trimez les milliers de valeurs de la statistique de l'échantillon en ordre numérique, puis décachez les 2,5 pour cent les plus bas et les 2,5 pour cent les plus élevés de l'ensemble de nombres triés. Les valeurs les plus petites et les plus importantes qui restent sont l'estimation bootstrap de limites de confiance faibles et élevées pour la statistique de l'échantillon. Dans cet exemple, les centièmes 2,5 et 97,5 de la moyenne et de la médiane des milliers d'ensembles de données rééchantillonnés sont respectivement les 95 limites de confiance pour la moyenne et la médiane. Évidemment you8217d jamais essayer de faire ce processus bootstrap à la main, mais it8217s assez facile à faire avec des logiciels comme le programme gratuit Statistics101. Vous pouvez entrer vos résultats observés et lui dire de générer, par exemple, 100 000 ensembles de données rééchantillonnés, calculer et enregistrer la moyenne et la médiane de chacun, puis calculer le SD et les centièmes 2,5 et 97,5 de ces 100 000 moyennes et 100 000 Médianes. Voici quelques résultats d'une analyse bootstrap réalisée sur ces données: Données réelles: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114. , 115, 120 et 138. Moyenne 100,85 Médiane 99,5 Ensemble de données rééchantillonnées 1: 61, 88, 88, 89, 89, 90, 92, 93, 98, 102, 105, 105, 105, 109, 109, 109, 109 , 114, 114 et 120. Moyenne 1 99,45, Médiane 1 103,50 Ensemble de données rééchantillonné 2: 61, 88, 89, 89, 90, 92, 92, 98, 98, 98, 102, 105, 105, 108, 108, 113, 113, 113, 114 et 138. Moyenne 2 100,7, Médiane 2 100,0 (Entre l'Ensemble 2 et l'ensemble suivant, 99 996 autres ensembles de données amorcés ont été générés.) Ensemble de Données Rééchantillonné 99, 999: 61, 61, 88, 89 92, 93, 94, 98, 98, 98, 101, 102, 105, 109, 114, 115, 120, 120 et 138. Moyenne 99 999 99,45, Médiane 99 999 98,00 Ensemble de données rééchantillonné 100 000: 61, 88, 89, 89, 90, 93, 93, 94, 102, 105, 108, 109, 109, 114, 115, 115, 120 et 138. Moyenne 100 000 97,7, médiane 100 000 98,0 Voici un résumé de Les 100 000 rééchantillons: Le SD de la moyenne de 100 000 s 3,46 c'est le SE bootstrap de la moyenne (SEM). Le SD des 100 000 médianes 4.24 c'est le SE bootstrap de la médiane. Les centièmes 2,5 et 97,5 des 100 000 moyens 94,0 et 107,6 sont les limites de confiance bootstrap de la moyenne. Les 2 ème et 97 ème centiles des 100 000 médianes 92,5 et 108,5 sont les limites de confiance bootstrap de la médiane. Donc, vous devez déclarer votre moyenne et médiane, ainsi que leurs erreurs standard bootstrap et l'intervalle de confiance 95 de cette façon: Moyenne 100,85 177 3,46 (94,08211107,6) Médiane 99,5 177 4,24 (92,58211108,5). Vous remarquerez que la SE est plus grande (et l'IC est plus large) pour la médiane que pour la moyenne. Cela est généralement vrai pour les données normalement distribuées 8212 la médiane a environ 25 plus de variabilité que la moyenne. Mais pour les données non normalement distribuées, la médiane est souvent plus précise que la moyenne. Vous n'avez pas besoin d'utiliser bootstrapping pour quelque chose d'aussi simple que le SE ou CI d'un moyen parce qu'il ya des formules simples pour cela. Mais la méthode bootstrap peut tout aussi bien calculer la SE ou l'IC pour une médiane, un coefficient de corrélation ou un paramètre pharmacocinétique comme l'ASC ou la demi-vie d'élimination d'un médicament pour lequel il n'existe pas de formule SE ou CI simple et pour laquelle Les hypothèses de normalité pourraient ne pas s'appliquer. Bootstrapping est conceptuellement simple, mais il n'est pas infaillible. La méthode implique certaines hypothèses et présente certaines limites. Par exemple, it8217s probablement ne va pas être très utile si vous avez seulement quelques valeurs observées. Consultez Statistiques 101 pour plus d'informations sur l'utilisation de la méthode bootstrap (et pour le logiciel gratuit Statistics101 pour faire les calculs bootstrap très facilement). Statistiques: Analyse de données et logiciels statistiques Gustavo Sanchez, StataCorp En général, le bootstrap est utilisé dans les statistiques comme un Méthode de rééchantillonnage pour rapprocher les erreurs-types, les intervalles de confiance et les valeurs p pour les statistiques d'essai, sur la base des données de l'échantillon. Cette méthode est significativement utile lorsque la distribution théorique de la statistique du test est inconnue. Dans Stata, vous pouvez utiliser la commande bootstrap ou l'option vce (bootstrap) (disponible pour de nombreuses commandes d'estimation) pour initialiser les erreurs standard des estimations de paramètres. Nous vous recommandons d'utiliser l'option vce () chaque fois que possible, car elle tient compte déjà des caractéristiques spécifiques des données. Cet ajustement est particulièrement pertinent pour les données de panel où les observations choisies aléatoirement pour le bootstrap ne peuvent pas être choisies par enregistrement individuel mais par panneau. Dans l'option vce (), nous pouvons inclure toutes les spécifications que nous inclurons régulièrement dans la commande bootstrap. Par exemple, si nous avons besoin d'effectuer un test sur une combinaison linéaire de certains des coefficients du modèle de régression, nous pouvons incorporer directement l'expression de combinaison linéaire dans vce (). L'exemple ci-dessous montre le bootstrap pour les erreurs-types de la différence entre les coefficients pour l'âge et le travail sur une régression à effets fixes pour lnwage. . Stata-pressdatar14nlswork (Enquête longitudinale nationale, jeunes femmes âgées de 14 à 26 ans en 1968). Xtset idcode. Xtreg lnwage wkswork âge tenure ttlexp, fe gt vce (bootstrap (bage - bwkswork), rep (10) semences (123)) (exécutant xtreg sur l'échantillon d'estimation) Réplications bootstrap (10) Comme nous l'avons mentionné ci-dessus, Avec la commande bootstrap. Cependant, en utilisant l'option vce (), nous n'avons pas à spécifier explicitement les caractéristiques de données de panel de notre jeu de données. Avec des commandes écrites par l'utilisateur ou avec des commandes sans estimation, nous avons besoin d'utiliser bootstrap car il n'y a pas d'équivalent à l'option vce (). L'exemple ci-dessous montre les résultats bootstrap pour le rapport des moyennes de la première différence de deux variables variables (ttlexp et heures). Nous devons faire savoir à la commande que nous traitons des données de panel et, par conséquent, chaque sélection aléatoire doit correspondre à un panneau. En outre, les sélections répétées du même panneau dans un échantillon bootstrap doivent être traitées intérieurement comme des panneaux différents. Letrsquos d'abord écrire un programme qui calcule le rapport des moyennes de deux variables:. Programme myxtboot, rclass 1. résumer d.1, meanonly 2. scalar mean1r (mean) 3. résumer d.2, meanonly 4. scalar mean2r (moyenne) 5. return scalar ratioscalar (mean1) scalar (mean2) 6. end Suivant Letrsquos crée et définit la variable de cluster identificateur pour les panneaux bootstrap, puis marque l'échantillon pour ne conserver que les observations qui ne contiennent pas de valeurs manquantes pour les variables d'intérêt. . Générer newid idcode. Tsset newid year variable du panneau: newid (asymétrique) time variable: year, 68 to 88, mais avec des intervalles delta: 1 unité. Générer sample1-missing (ttlexp, heures). Keep if sample (67 observations supprimées) Enfin, nous effectuons la simulation en spécifiant les caractéristiques du panel:. Bootstrap ratior (ratio), rep (10) graine (123) gt cluster (idcode) idcluster (newid) nowarn: myxtboot ttlexp heures (en cours d'exécution myxtboot sur l'échantillon d'estimation)
No comments:
Post a Comment