統計分析:データの種類

参照:相関関係を理解する

上の私たちのページ観察研究と二次データ2つの主要なデータソース(あなた自身の研究と以前に公開されたデータ)について説明しました。ただし、さまざまな種類のデータもあり、データはいくつかの異なる方法で分類できます。データの種類は、データの使用方法と、可能な統計分析に影響します。それはまたあなたが引き出すことができる結論と推論に影響を与えます。

したがって、データ型の選択は非常に重要です。このページでは、データ型のいくつかの違い、および調査方法と調査結果への影響について説明します。

定量的データと定性的データ

最初の最も明白な違いは、定量的データと定性的データの違いです。

  • 定量的データ数値です。収集して数値として表示できます。そして

  • 定性的データ数値ではありません。

上の私たちのページ定性的および定量的研究この違いをより詳細に説明し、両方の長所と短所を説明します。

客観的データと主観的データ

データは次のように分割することもできます客観的かつ主観的。

  • 客観的なデータは観察可能で測定可能です。それらには、身長、体重、要素数などが含まれます。それらは通常、観察または直接測定によって収集されます。

  • 主観的なデータは、個人からの個人的なコミュニケーションから収集されます。これは話したり書いたりすることができますが、他の形式を取ることもできます。たとえば、ボディーランゲージは主観的な情報を提供できます(「彼女はじっと横になり、目を閉じて口をきつく[客観的]、痛みを感じているように[主観的]。」)。

客観的データと主観的データの両方が定性的および定量的の両方である可能性があります。たとえば、色の変化(定性的)を観察(客観的)したり、数値スケール(定量的)を使用して問題(主観的)について意見を表明するように人々に求めることができます。

どちらのタイプにも長所と短所があります。たとえば、主観的なデータは、多くのものが単に測定不可能であるため、はるかに広い範囲の情報を提供できます。これらには、痛みのレベルなどの変数が含まれ、誰もが独自の解釈を持っています。データを定量的にする1から10のスケールを使用しても、それが個人間で直接比較できることを意味するわけではありません。

ただし、主観的なデータは、物事を正確に覚えて評価する人々にも依存します。したがって、人々がはるか昔の出来事を思い出さなければならない場合、主観的なデータはより信頼性が低くなる可能性があります。

したがって、可能な場合は客観的なデータが優先されますが、主観的なデータしか利用できない場合があるという一般的な理解があります。



縦断的データと横断的データ

縦断的データと横断的データの違いは、実際には研究デザインデータ型より。

  • 縦断的研究時間をかけて同じグループで作業します。したがって、時間の経過に伴う変化を示し、原因を特定できます。

  • 横断的研究異なる時点で、ただし異なるグループからデータを収集する場合があります。したがって、スナップショットまたは一連のスナップショットのみを時間内に表示できます。

2種類の研究、したがってデータの決定的な違いは、縦断的データが原因を示すことができるということです。

あなたはある瞬間についての情報しか持っていないので、断面データから因果関係を示すことは一般的に不可能であると考えられています。したがって、何かを変更して、それがどのような影響を与えるかを確認することはできません(つまり、因果関係)。

ただし、横断的研究の方がはるかに便利です。時間の経過とともにコホートを追跡するのではなく、単一の調査または調査を実行するだけで済みます。縦断的研究は非常に高品質のデータを提供し、原因を示すことができますが、コホートの脱落などの問題に悩まされています。また、長期的で質の高い縦断的研究のための資金を調達することも困難です。

例:横断的研究と縦断的研究の組み合わせ


ザ・教育研究におけるサリーコミュニケーションと言語(SCALES)は長期縦断研究の良い例であり、いくつかの断面要素も含まれています。

調査の最初の要素は、サリー州の180の小学校でのレセプション年度の子供たちの大規模な調査でした。人口のすべての子供たちは、各子供たちのためにクラスの教師によって行われた調査を通して、学校の入学時に言語能力についてスクリーニングされました。彼らは行動、言語、社会的スキルについて尋ねられました。これにより、入学時の言語能力のスナップショットが得られ、研究者はカリキュラムが能力と一致するかどうかを評価し、幼児が言語の問題を抱えている可能性が高いことを確認できました。

次の段階では、スクリーニングされた子供たちから590人の子供たちのサンプルを選択し、最初の段階の調査結果を使用して層別化し、さまざまな言語能力を提供しました。彼らは1年目と3年目に研究者に見られ、彼らの言語スキルが評価されました。両親はまた、両方の時点で言語と行動についての情報を提供するように求められました。

次の段階では、6年目と8年目の元のSCALESコホートをフォローアップして、社会的、感情的、精神的健康の結果を評価しました。

研究者たちは、幼児期の言語発達と青年期の社会的および感情的発達との関連に興味を持っていました。この種の情報は、横断的研究から、または異なる年齢の2つの別々の研究から単に収集することはできません。参加者や保護者に振り返ってもらうこともできますが、時間差があり、思い出すことができないほどです。

カテゴリ、連続、離散、ランク付けされたデータ

もう1つの違いは、カテゴリ、連続、離散、またはランク付けされたデータです。

  • カテゴリデータは、個別のグループまたはカテゴリに分類されます

    したがって、たとえば、性別、アイスクリームが好きかどうか、特定の国を訪れたことがあるかどうかなどが含まれます。 10年または5年のチャンクにグループ化されている場合は、年齢も含まれる場合があります。

  • 連続データは、任意の2つの値の間で無限の数の値を取ることができるデータとして定義されます。

    これは複雑に聞こえますが、実際には単純です。これらは、体重や身長などのデータであり、固定値ではなく、可能な体重と身長の範囲内の任意の値、またはアイスクリームが好きなクラスのパーセンテージ(0〜100%の範囲内の任意の値)です。各データポイントは別個の個別の番号であり、グループには分類されません。たとえば、年齢は、1年全体ではなく、数日または1年の端数で非常に正確に測定する場合に含まれます。

  • 離散データは、任意の2つの値の間に定義された数の可能な値を持つデータとして定義されます

    したがって、個別のデータには、顧客の苦情の数、またはアイスクリームが好きな人の数が含まれます。つまり、苦情の半分、または人の3分の1を持つことはできません。もう1つの例は、年間の年齢です。分析の目的上、離散データは連続データと非常に類似していると見なされます。

  • ランク付けされたデータは並べ替えられて順序付けられ、ランク付けされた順序で番号が付けられています

    たとえば、値が4、6、3、および7の4ビットのデータがある場合、それらを昇順で3、4、6、および7としてランク付けできます。これらのデータはランク順になるため、3は次のようになります。 1(1番目)、4は2(2番目)というようになります。データは通常、絶対値ではなく、関心のあるすべてが注文である場合にランク付けされます。これは通常、2つの変数が一緒に変化するが、直線的な関係がない(つまり、異なる速度で変化する)場合に当てはまります。たとえば、次のグラフは、このタイプの関係(この場合は指数関数)を示しています。

    2つの変数間の指数関係を示すグラフ。

    警告!


    データをランク付けすると、情報が失われることを覚えておくことが重要です。

    したがって、これは本当に必要な場合にのみ実行する必要があります。


これらの4種類のデータは、さまざまな種類の分析に適しています。それぞれについて、さまざまな統計的検定と分析形式を使用する必要があります。

分析にさまざまなタイプのデータを使用する方法の詳細については、次のページをご覧ください。相関関係

結論

調査の一環として収集できるデータには、さまざまな種類があります。データ型の選択は通常、調査方法によって決まります。調査方法は、調査の質問と調査に対する一般的なアプローチによって決まります。ただし、データタイプの選択は、分析のタイプ、および引き出すことができる結論にも影響を及ぼします。


次の手順に進みます。
相関関係を理解する
簡単な統計分析