Monday 20 November 2017

Zeigen Sie Eindeutige Werte In Stata Forex An


HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Class Notes Zählen von n bis N Einleitung Stata hat zwei eingebaute Variablen namens n und N. N ist Stata-Notation für die aktuelle Beobachtungsnummer. N ist 1 in der ersten Beobachtung, 2 in der zweiten, 3 in der dritten, und so weiter. N ist Stata Notation für die Gesamtzahl der Beobachtungen. Lets sehen, wie n und N arbeiten. Wie Sie sehen können, enthält die Variable id die Beobachtungsnummer, die von 1 bis 7 läuft, und nt ist die Gesamtzahl der Beobachtungen, die 7 ist. Zählen mit unter Verwendung von n und N in Verbindung mit dem Befehl by kann einige sehr nützliche Ergebnisse erzeugen. Natürlich, um den Befehl zu verwenden, müssen wir zuerst unsere Daten auf der Variablen sortieren. Nun ist n1 die Beobachtungsnummer innerhalb jeder Gruppe und n2 ist die Gesamtzahl der Beobachtungen für jede Gruppe. Um die niedrigste Punktzahl für jede Gruppe aufzulisten, verwenden Sie die folgenden Punkte: Um die höchste Punktzahl für jede Gruppe aufzulisten, verwenden Sie die folgenden: Eine andere Verwendung von n Lets verwenden n, um herauszufinden, ob es doppelte ID-Nummern in den folgenden Daten gibt: Wie sich herausstellt, Beobachtungen 6 und 7 haben die gleichen ID-Nummern und aber unterschiedliche Notenwerte. Duplikate finden Jetzt können wir N verwenden, um doppelte Beobachtungen zu finden. In diesem Beispiel sortieren wir die Beobachtungen durch alle Variablen. Dann verwenden wir alle Variablen in der by-Anweisung und setzen gesetzt n gleich der Gesamtzahl der identifizierenden Beobachtungen. Schließlich listen wir die Beobachtungen auf, für die N größer als 1 ist, wodurch die doppelten Beobachtungen identifiziert werden. Wenn Sie eine Menge von Variablen in der Datenmenge haben, könnte es eine lange Zeit dauern, um sie alle zweimal einzugeben. Wir können die Wildcard nutzen, um anzuzeigen, dass wir alle Variablen verwenden möchten. Weiter in den neuesten Versionen von Stata können wir sortieren und in eine einzige Aussage kombinieren. Unten ist eine vereinfachte Version des Codes, die genau die gleichen Ergebnisse wie oben liefert. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata FAQ Wie kann ich doppelte Beobachtungen erkennen Diese Stata FAQ zeigt, wie man überprüft, ob ein Datensatz doppelte Beobachtungen hat. Für diese Aufgabe stehen zwei Methoden zur Verfügung. Das erste Beispiel verwendet die in base Stata verfügbaren Befehle. Das zweite Beispiel wird ein benutzerdefiniertes Programm verwenden. Dieser benutzerdefinierte Befehl ist schön, weil er eine Variable erstellt, die alle benötigten Informationen erfasst, um alle gelöschten Beobachtungen zu replizieren. Dieses Beispiel verwendet die High School und Beyond Dataset, die keine doppelten Beobachtungen hat. Daher fügen wir fünf duplizierte Beobachtungen zu den Daten hinzu und verwenden dann den Befehl duplicates, um festzustellen, welche Beobachtungen wiederholt werden. Um auch die Empfindlichkeit des Befehls zu bewerten, ändern wir einen Wert einer der doppelten Beobachtungen. Die Begründung für die Veränderung eines Wertes ist zu imitieren, was in der Praxis passieren können, suchen wir oft nach quittierten Fällen, die nicht identisch in den Datensatz eingegeben werden. In der Datenmenge ist die Variable id die eindeutige Fallkennung. Um die doppelten Beobachtungen hinzuzufügen, sortieren wir die Daten nach id. Dann die ersten fünf Beobachtungen duplizieren (id 1 bis 5). Dies führt zu 195 einzigartigen und 5 doppelten Beobachtungen im Datensatz. Für das Subjekt id 1 werden alle ihre Werte dupliziert, außer für ihre Mathe-Punktzahl wird ein Duplikat-Score auf 84 gesetzt. Wir beginnen mit dem Duplikat-Report-Befehl, um die Anzahl der doppelten Zeilen im Datensatz anzuzeigen. Darauf folgen doppelte Berichte id. Die die Anzahl der replizierten Zeilen durch die in dieser Instanz angegebenen Variablen gibt, haben wir nur id. Wir könnten den Befehl duplicates examples anstelle des Befehls duplicates report verwendet haben. Der Befehl duplicates examples listet ein Beispiel für jedes duplizierte Set auf. Klar, die Ausgabe von Duplikaten berichten und dupliziert Berichts-ID unterscheiden sich. Die Ausgabe von Duplikaten zeigt die Anzahl der Replikatzeilen über alle Variablen an. Beachten Sie, dass in dem Duplikat, dessen Wert wir geändert haben (id1), die beiden Zeilen nicht technisch gleich sind, und dieser Befehl hat sie nicht richtig abgeholt. Der zweite Befehl dupliziert Berichts-ID zeigt, dass wir 195 eindeutige id-Werte und fünf id s (Überschuss) haben, die jeweils zweimal erscheinen (Kopien), was zu insgesamt 10 fragwürdigen Beobachtungen auf der Basis von id führt. Als nächstes listen wir doppelte Beobachtungen mit dem Befehl duplizierte Liste auf. Diese Duplikatliste entspricht der Auflistung dieser Beobachtungen mit doppelten Zeilen jedoch, wie bei Duplikatbericht gefunden. Es identifiziert nicht die fünf duplizierten id s. Deshalb versuchen wir duplikate list id. Jetzt sehen wir, welche fünf Fächer dupliziert werden, aber die doppelte Liste listet nur die angegebene Variable auf. Wir können die anderen Variablen auflisten, um zu sehen, welche Variablen die Differenz zwischen der Duplikatliste und den Duplikatenlisten-ID-Ausgängen verursachen. Um eine Ausgabe wie die aus Duplikate Liste gegeben haben. Wir verwenden den Befehl duplicates tag, um eine neue Variable Dupid zu erstellen, die eine 1 zuordnet, wenn die ID dupliziert wird, und 0, wenn sie einmal erscheint. Dann listen wir die Fälle auf, in denen dupid gleich 1 ist. Es ist offensichtlich, dass id 1 unterschiedliche Werte auf Mathe-Scores über die doppelten Beobachtungen hat. Von diesem, wäre es ratsam zu überprüfen, welche Punktzahl, wenn entweder, ist die richtige. Angenommen, in diesem Fall waren beide Scores falsch, und die reale Punktzahl war 44. Wir korrigieren die Punkte, und nach der Korrektur, die Ergebnisse von Duplikaten berichten und dupliziert Berichts-ID sollte zusammenfallen. Jetzt können wir den Duplikat-Drop-Befehl verwenden, um die doppelten Beobachtungen zu löschen. Der Befehl fällt alle Beobachtungen außer dem ersten Auftreten jeder Gruppe mit doppelten Beobachtungen. Nach dem Ausführen von Duplikaten fallen. Wir überprüfen, dass es keine anderen doppelten Beobachtungen gibt. Es scheint, dass wir die doppelten Beobachtungen losgeworden haben. In Stata stehen mehrere Programme zur Verfügung, um die Duplikate zu erkennen und können optional auch die Duplikate fallen lassen. Eines der Programme heißt Dups. Die Programm-Dups ist kein eingebautes Programm in Stata, sondern kann über das Internet mit Hilfe von Findit-Dups installiert werden (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen zur Verwendung von findit zu erhalten). Sobald Dups installiert sind, können wir es sofort nutzen. In diesem Beispiel wird die folgende Untermenge des größeren Datensatzes verwendet, der oben mit zusätzlichen Duplikaten verwendet wurde. Zuerst betreten wir die Daten: Dann schauen wir sie an: In unserem Beispiel haben wir eine Gruppe von Beobachtungen mit Duplikaten, bestehend aus Beobachtungsnummern 1, 7 und 8. Das sehen wir unten. Jetzt werden wir die Befehlsdups verwenden. Ohne irgendwelche Argumente gibt dups Informationen über die Anzahl der Gruppen von Beobachtungen, die Duplikate und die Anzahl der Duplikate in jeder Gruppe haben. Wir können eine variable Liste nach Dups hinzufügen. Zum Beispiel, im folgenden Beispiel, fügen wir die Variable Rennen nach Dups. Jetzt dups zählt, wie viele doppelte Beobachtungen nur im variablen Rennen. Wir können aus der Liste der Datensätze sehen, dass es drei Gruppen von Beobachtungen der Rasse (1, 2 und 4) und zwei von ihnen haben Duplikate. Das wird von Dups unten gezeigt. Durch Hinzufügen der Option eindeutig. Wir fordern auch Informationen über Gruppen, die eine einzige einmalige Beobachtung haben. Zum Beispiel mit dem Optionsschlüssel (varlist). Wir können die Beobachtungen auflisten. Zum Beispiel sehen wir im folgenden Beispiel die Werte der id in jeder Gruppe. Eine Option namens terse kann hinzugefügt werden, um zusammenfassende Informationen über Duplikate zu erhalten. Zum Beispiel, was nun, wenn wir die Duplikate fallen lassen wollen, können wir dies tun, indem wir eine Option namens drop hinzufügen. Wir möchten Sie warnen, dass es immer gefährlich ist, Beobachtungen zu löschen, da Sie Ihre Daten verlieren können. Also immer mit Vorsicht. Was ist schön über Dups ist, dass es eine neue Variable, die genug Informationen, um die gelöschten Beobachtungen wiederherzustellen, wenn wir unsere Meinung auf das, was wir gerade getan haben, Der Standardname der Variablen wird erweitert (Sie können den Namen ändern, indem Sie die Option nach Dups erweitern). Mit der Variablen erweitern können wir die gelöschten Beobachtungen zurück mit einem Befehl namens expand erhalten. Siehe das folgende Beispiel. Wenn Sie aus irgendeinem Grund zu einem Datensatz zurückkehren möchten, der Duplikate hat, können Sie den Erweiterungsbefehl verwenden, indem Sie die von Dups erstellte Erweiterungsvariable verwenden, um die Anzahl der zu erstellenden Duplikate anzugeben. Beachten Sie, dass dies nur Ihre ursprüngliche Datensatz wiederherstellen, wenn Sie Duplikate auf der Grundlage aller Variablen in Ihrem Dataset erkannt haben. Wenn du nur eine Untermenge von Variablen benutzt hast, dann kannst du nur die Werte dieser Fälle genau wiederherstellen (weil du keine Daten über die Variablen hast, die werent verwendet haben, um Duplikate zu bestimmen). Jetzt haben wir gesehen, wie man doppelte Beobachtungen mit dem benutzerdefinierten dups-Befehl erkennt und ablegt. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.

No comments:

Post a Comment