抽樣
對(duì)
抽樣
的源代碼
跳轉(zhuǎn)到:
導(dǎo)航
,
搜索
編輯這個(gè)頁(yè)面須要登錄或更高權(quán)限!
您剛才的請(qǐng)求只有這個(gè)用戶組的用戶才能使用:
自動(dòng)確認(rèn)用戶
如果您還沒有登錄請(qǐng)
登錄
后重試。A+醫(yī)學(xué)百科是一個(gè)開放式網(wǎng)站,修改本站大部分內(nèi)容僅須要
花10秒鐘時(shí)間創(chuàng)建一個(gè)賬戶
。 如果您已經(jīng)登錄,本頁(yè)面可能是受保護(hù)的內(nèi)容。如果您認(rèn)為有修改的必要,請(qǐng)
聯(lián)系本站管理人員
。
條目源代碼:
'''抽樣'''(sampling),從研究對(duì)象的全體([[統(tǒng)計(jì)學(xué)]]上稱為總體)中隨機(jī)抽取一部分(統(tǒng)計(jì)學(xué)上稱為樣本)進(jìn)行研究,并據(jù)以論斷總體特征的統(tǒng)計(jì)學(xué)方法。在醫(yī)學(xué)中廣泛采用。例如,為了制訂中國(guó)少年兒童[[生長(zhǎng)發(fā)育]]時(shí)身體的正常值,中國(guó)3億少年兒童就是研究的總體,在用[[抽樣]]方法進(jìn)行研究時(shí),只需從總體中抽取一個(gè)樣本(如10萬(wàn)人)進(jìn)行[[身體測(cè)量]],最后以此10萬(wàn)人的測(cè)量結(jié)果來(lái)推論全國(guó)少年兒童身體生長(zhǎng)發(fā)育的正常值。用樣本來(lái)推論總體是有條件的,并不是從總體中抽取的任何一部分樣本都可用來(lái)推論總體,只有在解決了樣本的代表性、可比性的前提下,掌握了[[抽樣誤差]]的大小及發(fā)生概率時(shí),才能用樣本來(lái)推論總體。此即抽樣研究中的[[四性]](代表性、可靠性、可比性、顯著性)。 ==樣本的代表性== 一個(gè)有代表性的樣本,必須是總體的一個(gè)具體而微的縮影,也就是說(shuō),樣本除了比總體小以外,在組成、[[變異]]等特征方面,均應(yīng)與總體相同。上例中,中國(guó)的3億少年兒童是由地理區(qū)域、民族、家庭經(jīng)濟(jì)狀況、文化背景各不相同的少年兒童組成。從中抽取的10萬(wàn)人的樣本,也必須包括地理區(qū)域、民族、家庭經(jīng)濟(jì)狀況、文化背景各不相同的少年兒童,而且各特征的內(nèi)部構(gòu)成必須與總體基本一致。如果只抽南方兒童,某個(gè)測(cè)量指標(biāo)將偏低,如果只抽北方兒童,此測(cè)量指標(biāo)必然偏高。又如,欲了解某藥對(duì)急性細(xì)菌性[[痢疾]]的療效,如果只抽取在[[傳染病院]]住院的急性菌痢病人為樣本,那么它對(duì)總體來(lái)說(shuō)就沒有代表性,因?yàn)榧毙跃∮休p有重,而病情的輕重是影響療效的重要因素,住院者多為重癥,故其療效實(shí)際是對(duì)重癥急性菌痢的療效,而不能代表全部急性菌痢的療效。為了保證樣本具有代表性,首先要對(duì)研究的總體有十分明確的認(rèn)識(shí),例如,為了研究某藥對(duì)[[細(xì)菌性痢疾]]的療效,研究總體就應(yīng)包括急性、慢性、不同年齡不同病情不同菌型的患者的全體。具有代表性的樣本就必須包括上述各種類型的病人。又如為了研究某藥對(duì)兒童急性普通型菌痢的療效,則研究總體就是15歲以下,不合并[[中毒性休克]]的急性菌痢患者的全體。此時(shí)抽樣只需包括15歲以下,無(wú)中毒性休克的急性菌痢病人。上述第一種情況中,總體范圍太大,樣本數(shù)量必然很大,而實(shí)際工作中,往往不能達(dá)到如此大的樣本。后一種情況中,由于總體范圍較小,抽樣容易得多,但其結(jié)論也只能推論14歲以下普通型急性菌痢的療效,而不能推廣至各種類型的菌痢患者。另外,當(dāng)研究總體不夠明確、具體時(shí),往往易導(dǎo)致[[系統(tǒng)誤差]]。例如,要研究3歲兒童的身高,就必須明確規(guī)定出生年月的范圍(如1986年滿 3周歲的兒童應(yīng)為1983年1月1日至1983年12月31日出生的兒童),否則由于各地計(jì)算年齡的方法不同,則很可能將不到3歲的孩子誤抽為樣本,這樣必然影響研究結(jié)果的準(zhǔn)確性。 為了保證樣本具有代表性,抽樣時(shí)還應(yīng)當(dāng)遵守隨機(jī)的原則,即要保證總體中,每個(gè)個(gè)體都有同等機(jī)會(huì)被抽到。例如,要在某工廠內(nèi)觀察某[[中藥]]對(duì)某病的療效,除對(duì)影響該病的因素(如病程、病情等)要作明確具體的規(guī)定外,還要使在規(guī)定范圍內(nèi)的全體病人中,每個(gè)人都有同等的被抽取為觀察對(duì)象的機(jī)會(huì)。如可按病人的工作證號(hào)編碼抽樣,也可按車間班組抽樣,而不能由醫(yī)務(wù)室提供受試者名單,因?yàn)檫@樣提供的名單往往是病程長(zhǎng)、病情重或經(jīng)其他藥物治療無(wú)效者的名單。同樣,也不能讓患者自愿報(bào)名受試。因?yàn)橐话阒兴幏幂^麻煩,且味苦,故多數(shù)患者往往先選擇服用簡(jiǎn)便的藥物,如果讓患者自愿報(bào)名,則多數(shù)受試者,必然是療程過長(zhǎng)或其他藥物治療無(wú)效者。 ==樣本的可靠性== 一個(gè)有代表性的樣本,不一定就可以用來(lái)推論總體,這是因?yàn)閺挠凶儺惖目傮w中抽取樣本,即使遵循了[[隨機(jī)化]]的原則,偶然的抽樣機(jī)遇也會(huì)使樣本與總體之間有一定的差異。例如,在某地正常成年人的總體中,隨機(jī)抽取1000人,測(cè)定[[血清]][[谷氨酸]]-[[丙氨酸轉(zhuǎn)氨酶]](GPT)的平均值為85單位。在同樣條件下(抽樣方法、檢測(cè)技術(shù)、儀器[[試藥]]均相同)再抽取1000人進(jìn)行測(cè)定,則平均值不一定仍是85單位,而可能是75、80或90單位等。如果由于偶然的機(jī)會(huì),多抽取了一些GPT高的人,所得平均值就偏高。多抽取了一些 GPT低的人,平均值就偏低。這種偶然的抽樣機(jī)會(huì)導(dǎo)致的誤差,在統(tǒng)計(jì)學(xué)上稱為抽樣誤差。抽樣誤差在[[抽樣調(diào)查]]中客觀存在,不可避免。因此,在用樣本推論總體時(shí),必須考慮抽樣誤差的大小及其發(fā)生規(guī)律,從而借此確定用樣本推論總體的可信程度。 ===[[標(biāo)準(zhǔn)誤]]=== 用來(lái)表示抽樣誤差大小的指標(biāo),實(shí)際是均數(shù)的[[標(biāo)準(zhǔn)差]](見平均數(shù)、[[變異度]])。在統(tǒng)計(jì)學(xué)中標(biāo)準(zhǔn)差是反映事物變異程度的指標(biāo)。例如20歲左右女青年的身高可以1.5米至1.9米,但若分別測(cè)量?jī)山M同年齡的女青年(賓館服務(wù)員和大學(xué)生)的身高并計(jì)算其標(biāo)準(zhǔn)差,則結(jié)果必然是大學(xué)生組的標(biāo)準(zhǔn)差大于賓館服務(wù)員組。這是因?yàn)檎惺召e館服務(wù)員時(shí)身高有一定的要求,過矮過高的都不錄取,故她們的身高變異程度小,或者說(shuō)身高較整齊;而大學(xué)生的身高并非錄取條件,故她們的身高參差不齊,或者說(shuō)變異程度大。設(shè)有一研究總體,總體均數(shù)為 μ,在此總體中,多次重復(fù)抽樣,每次抽樣均可得到一個(gè)樣本均數(shù),這些樣本均數(shù)必然有的比 μ大,有的比μ ??;有的距離μ 較近,有的距離μ 很遠(yuǎn)。這些樣本均數(shù)也有一個(gè)變異程度,用來(lái)表示這種變異程度的指標(biāo)就是均數(shù)的標(biāo)準(zhǔn)差,或稱為標(biāo)準(zhǔn)誤。 標(biāo)準(zhǔn)誤(抽樣誤差)的大小與該事物的變異程度成正比(從變異大的總體中抽樣,抽樣誤差大,反之抽樣誤差小),與樣本數(shù)的平方根成反比(樣本數(shù)愈大,抽樣誤差愈?。?。 ===可信限=== 也稱[[可信區(qū)間]]。樣本統(tǒng)計(jì)值與總體統(tǒng)計(jì)值之間,由于偶然的抽樣機(jī)遇總會(huì)存在一定的差異。因此,用樣本推論總體時(shí),只能推論總體所在的范圍,及在此范圍內(nèi)的概率,而不可能確切推論總體的統(tǒng)計(jì)值。這種用樣本推論總體所在的范圍,即稱為可信限,常用的有95%及99%的可信限。以下簡(jiǎn)述其原理及計(jì)算方法。 假設(shè)某地區(qū)全部正常成年人的[[血清膽固醇]]的總平均值為160mg/100ml,在此總體內(nèi)重復(fù)抽樣1000次,則可得1000個(gè)樣本均數(shù)??梢钥吹竭@些樣本均數(shù)有的比 160大,有的比160小,但與160接近的最多,距離160往兩端愈遠(yuǎn)的愈少。如果把這些樣本均數(shù)的分布用直方圖表示,即可得圖1。圖中橫軸為均數(shù)的組段(血清膽固醇),縱軸為樣本數(shù)。若抽樣次數(shù)再增加,組再分細(xì),則可得圖2。當(dāng)抽樣次數(shù)增加到無(wú)限多,直方圖的鋸齒消失,成為一條光滑的曲線,即圖3,此曲線與統(tǒng)計(jì)學(xué)中的[[正態(tài)曲線]]極為近似。因此可以借用正態(tài)曲線的規(guī)律來(lái)推論總體所在的范圍。 ===正態(tài)曲線=== 以總體均數(shù)為中心(最高點(diǎn)),往兩端逐漸降低但與橫軸永不相交,兩側(cè)完全對(duì)稱的鐘形曲線(圖 4)。若以此曲線下的總面積為100%,以μ 表示總體均數(shù),σ塣表示總體標(biāo)準(zhǔn)誤,則曲線下各部分的面積有如下分布規(guī)律: μ±σ<sub>塣</sub>的面積占曲線下總面積的68.27% μ±1.96σ<sub>塣</sub>的面積占曲線下總面積的95.00% μ±2.58σ<sub>塣</sub>的面積占曲線下總面積的99.00%總體標(biāo)準(zhǔn)誤 σ<sub>塣</sub> 是說(shuō)明樣本均數(shù)圍繞總體均數(shù)變異程度的指標(biāo),在實(shí)際工作中常用樣本標(biāo)準(zhǔn)誤''S''<sub>塣</sub>來(lái)代替。μ±''S''<sub>塣</sub>的面積占總面積的68%的含義是:若從同一總體中重復(fù)抽取100個(gè)樣本,則這100個(gè)樣本均數(shù)有68個(gè)在 μ±''S''塣的范圍內(nèi),比 μ-''S''塣小的和比μ+''S''<sub>塣</sub>大的樣本均數(shù)各有16個(gè)。換一個(gè)角度來(lái)說(shuō),68%就是一個(gè)樣本均數(shù)落在μ-''S''<sub>塣</sub>至 μ+''S''<sub>塣</sub>范圍內(nèi)的概率。 同理, μ±1.96''S''<sub>塣</sub>的面積占總面積的95%,這說(shuō)明一個(gè)樣本均數(shù)落在 μ-1.96''S''<sub>塣</sub>至μ+1.96''S''塣范圍內(nèi)的可能性是95%,而比 μ-1.96''S''<sub>塣</sub>小的和比μ+1.96''S''塣大的可能性各有2.5%。μ±2.58''S''<sub>塣</sub>的面積,占總面積的99%,這說(shuō)明一個(gè)樣本均數(shù)落在 μ-2.58''S''<sub>塣</sub>至μ+2.58''S''<sub>塣</sub>范圍內(nèi)的可能性是99%,在此范圍以外的可能性只有1%。 以上規(guī)律是樣本均數(shù)(塢),距離總體均數(shù)(μ)的規(guī)律,但也可把它視為總體均數(shù)離開樣本均數(shù)的規(guī)律,因?yàn)樵趯?shí)際工作中,可以得到的是樣本均數(shù),要推論的是總體均數(shù)。既然樣本均數(shù)與總體均數(shù)相差±''S''<sub>塣</sub>的概率是68%,相差±1.96''S''<sub>塣</sub>的概率是95%;那么總體均數(shù)與樣本均數(shù)相差±''S''<sub>塣</sub>的概率當(dāng)然也是68%,總體均數(shù)與樣本均數(shù)相差 ±1.96''S''<sub>塣</sub>的概率也是95% 。因此所謂 塢±1.96''S''<sub>塣</sub>即95%的可信限。它的含意是:總體均數(shù)在塢±1.96''S''<sub>塣</sub>范圍內(nèi)的概率是95%?;蛘哒f(shuō)總體均數(shù)在 塢±1.96''S''<sub>塣</sub>范圍內(nèi)的可信程度是95%。所謂塢±2.58''S''<sub>塣</sub>即99%的可信限,它的含意是,總體均數(shù)在 塢±2.58''S''<sub>塣</sub>范圍內(nèi)的概率是99%,或者說(shuō)總體均數(shù)在 塢±2.58''S''<sub>塣</sub>范圍內(nèi)的可信程度為99%。 例如,為了了解某地正常成年人血清膽固醇的平均值,隨機(jī)抽取500人,測(cè)得樣本均值塢=165.0mg/100ml,標(biāo)準(zhǔn)差''S''=52.0mg/ml,并由''n''=500求得''S''塣=2.33mg/100ml;則95%的可信限為:165±1.96×2.33,即160.43~169.57mg/100ml。這說(shuō)明該地區(qū)正常成年人血清膽固醇的平均值在160.43~169.57mg/100ml范圍內(nèi)的概率為95%。 ==樣本的可比性== 在醫(yī)學(xué)研究中,常常需要判斷某種治療或預(yù)防措施的效果;也常需要分析研究影響疾病發(fā)生及轉(zhuǎn)歸的因素。在解決這兩類問題時(shí),往往要同時(shí)抽取兩個(gè)或兩個(gè)以上的樣本進(jìn)行對(duì)比分析,因?yàn)樵S多疾病可能自愈或自然緩解,沒有對(duì)比分析就很難下結(jié)論。例如,有人用柳樹葉治療[[急性黃疸型肝炎]](以下簡(jiǎn)稱[[急黃]]肝)120例,10周后基本治愈者93例,治愈率為 77.5%。于是下結(jié)論:“[[柳葉]]治療急黃肝療效好”。這樣的結(jié)論是不科學(xué)的。實(shí)際上,急黃肝只要注意休息、營(yíng)養(yǎng),不給任何特殊治療,10周后也必然會(huì)有一部分人自愈。如有人曾對(duì)與上述病人相同的70例急黃肝進(jìn)行觀察,除[[維生素B]]、C及[[酵母]]外,不給其他任何藥物,10周后基本治愈的49例,治愈率70%,這說(shuō)明急黃肝不給特殊治療,也有70%自愈,所謂77.5%的柳樹葉療效實(shí)際上是虛假的。 在對(duì)比分析研究時(shí),最重要的前提是對(duì)比組之間必須具有可比性。樣本間的可比性指相互比較的樣本之間,除了要比較的因素(如不同藥物)以外,其他影響研究結(jié)果的主要因素要控制得基本相同。例如,要比較不同治療方法對(duì)[[高血壓病]]的療效時(shí),比較組間除治療方法不同以外,其他影響治療效果的主要因素,如病情、病人的年齡等均應(yīng)控制得基本相同。 表1、表2為不同[[方劑]]對(duì)高血壓病療效的資料。不能根據(jù)表2就得出結(jié)論:[[小方]]劑的療效比大方劑好,因?yàn)閺谋?可以看出兩組病人的病情相差很大。大方劑組中Ⅰ期病人占28.8%,其余為Ⅱ、Ⅲ期病人;而小方劑組中Ⅰ期病人占55.9%,其余為Ⅱ、Ⅲ期病人。這說(shuō)明大方劑組病人病情重得多。這組病人的療效不好是因?yàn)橹委煼椒ú缓茫ǚ絼┻^大)還是病情較重,據(jù)此資料是不能斷定的。 控制樣本間的可比性,實(shí)際是去除混雜因素的干擾。表3、表4為[[高血壓]][[流行學(xué)]]調(diào)查報(bào)告的資料。研究者分析了高血壓的[[患病率]]與吸煙和年齡的關(guān)系,經(jīng)顯著性檢驗(yàn)后,認(rèn)為這兩個(gè)因素均影響高血壓的患病率。兩個(gè)表的觀察總數(shù)均為1133,但表 3在吸煙組與不吸煙組中,并未控制年齡基本相同;而表4未控制各年齡組中,吸煙者的[[比重]]基本一致,故上述結(jié)論是站不住腳的。正確的做法應(yīng)該將兩個(gè)因素放在一起來(lái)考慮,如表5所示,表中縱向看為吸煙的和不吸煙的不同年齡組的患病率;橫向看則為在同一年齡組中(即控制年齡相同)吸煙者和不吸煙者的患病率。表5表明高血壓的患病率與病人的年齡有關(guān)(隨年齡升高而升高),而與吸煙無(wú)關(guān)。應(yīng)該指出表5這樣的組合表的分析,只適用于因素較少的情況(一般3~4個(gè)因素)。因素過多時(shí),分組過多,每個(gè)格子內(nèi)的數(shù)據(jù)就少,而樣本往往達(dá)不到足夠分析的數(shù)量,因素較多時(shí),一般用[[多元分析]]的方法處理(見[[多變量統(tǒng)計(jì)分析]])。 ==樣本的顯著性== 若同時(shí)抽取多個(gè)樣本進(jìn)行研究,則同樣也存在抽樣誤差問題。大量實(shí)踐證明,[[黃連素]]治療急性普通型細(xì)菌性痢疾的療效為90%。設(shè)某[[中草藥]]治療同類痢疾的總有效率為70%。若從黃連素治療的急性菌痢總體中抽樣,由于抽樣機(jī)遇完全可能得到''p''<sub>1</sub>及''p''<sub>2</sub>的樣本(圖5),當(dāng)然,也可以得到其他數(shù)值的樣本。同理,在用中草藥治療的急性菌痢總體中抽樣,也完全可能得到''p''<sub>3</sub>及''p''<sub>4</sub>的樣本。''p''<sub>1</sub>和''p''<sub>2</sub>來(lái)自同一總體,它們之間有10%的差異,這是由于抽樣的偶然機(jī)遇所致。''p''<sub>1</sub>與''p''<sub>3</sub>之間也有10%的差異,但它們來(lái)自不同的總體,這種差異是本質(zhì)因素(本例為治療藥物不同)不同所致。由此可見:當(dāng)兩樣本(或多樣本)間有差異時(shí),其來(lái)源有兩種可能性,一是兩樣本間本來(lái)沒有什么差異,它們來(lái)自同一總體,它們之間的差異是偶然的抽樣機(jī)遇所致,是沒有意義的;另一種情況是兩樣本來(lái)自本質(zhì)不同的兩個(gè)總體,它們之間的差異不能用偶然的抽樣機(jī)遇來(lái)解釋,是有意義的。統(tǒng)計(jì)學(xué)中的[[顯著性檢驗(yàn)]],即用以檢驗(yàn)這兩類差異中,哪一類發(fā)生的可能性大。顯著性檢驗(yàn)的方法很多,但無(wú)論哪一種方法,其基本原理都是先假設(shè)兩樣本來(lái)自同一總體,即先假設(shè)兩樣本之間的差異是偶然的抽樣機(jī)遇所致,是沒有意義的(這一假設(shè)在統(tǒng)計(jì)學(xué)上,稱為檢驗(yàn)假設(shè)或無(wú)效假設(shè))。然后根據(jù)一定的公式計(jì)算,獲得兩樣本之差由偶然的抽樣機(jī)遇所致的概率''p''值。若''p''值大,說(shuō)明兩樣本之間的差異由偶然的抽樣機(jī)遇所致的機(jī)會(huì)大,符合原假設(shè),不能推翻原假設(shè),也即兩樣本之間,無(wú)本質(zhì)差別,或差異無(wú)意義(無(wú)顯著性)。若''p''值小,說(shuō)明兩樣本之間的差異由偶然的抽樣機(jī)遇所致的機(jī)會(huì)小,故可以推翻原假設(shè),也即兩樣本之間的差異是由某些本質(zhì)因素不同所致,是有意義的(有顯著性)。統(tǒng)計(jì)學(xué)上人為規(guī)定顯著性的界限如下:''p''≤0.05為有顯著性,''p''>0.05為無(wú)顯著性,''p''≤0.01為有極(高度)顯著性。應(yīng)當(dāng)強(qiáng)調(diào)的是,''p''值的大小與樣本間差異的大小是兩回事,''p''值說(shuō)明的是樣本間的差異由偶然抽樣機(jī)遇所致的概率大小,而不是樣本間的差異大小。另外,只有在樣本具有可比性的前提下,進(jìn)行顯著性檢驗(yàn)才有意義,否則''p''值再小,也不能反映樣本間的差異有意義。
返回到
抽樣
。
個(gè)人工具
登錄/創(chuàng)建賬戶
名字空間
頁(yè)面
討論
查看
閱讀
繁體/正體
編輯修改
修訂歷史
動(dòng)作
搜索
導(dǎo)航
首頁(yè)
大醫(yī)精誠(chéng)
人體穴位圖
中藥圖典
全國(guó)醫(yī)院列表
醫(yī)學(xué)電子書
藥品百科
中醫(yī)百科
疾病診斷
急救常識(shí)
疾病查詢
中藥百科
中醫(yī)方劑大全
怎樣看化驗(yàn)單
全國(guó)制藥企業(yè)
醫(yī)科院校大全
醫(yī)事漫談
醫(yī)學(xué)下載
醫(yī)學(xué)視頻
推薦工具
醫(yī)學(xué)網(wǎng)站大全
醫(yī)學(xué)詞典
醫(yī)學(xué)資訊博客
功能菜單
添加頁(yè)面
志愿者招募中
積分排名
關(guān)于廣告
網(wǎng)站事務(wù)
最近更改
工具箱
鏈入頁(yè)面
鏈出更改
所有特殊頁(yè)面
隱私政策
關(guān)于A+醫(yī)學(xué)百科
免責(zé)聲明