J'utilise un filtre de moyenne mobile pour lisser les données pour la suppression des valeurs aberrantes. En changeant le nombre de points moyens, je reçois des résultats différents. Mes données sont des vecteurs de fonctionnalités multidimensionnels. J'ai appliqué la moyenne mobile à la matrice entière puis aux variables individuelles. Ils donnent des résultats différents. Alors, comment choisirguise le nombre de points à la moyenne plus et devrait-il être appliqué sur la matrice entière ou sur une base un par un demandé 1 nov 13 à 21h44 Glenb 9830 155k 9679 20 9679 257 9679 531 Une approche pour choisir un Le paramètre de lissage serait d'optimiser des erreurs de prédiction en une étape (telles que des sommes de carrés des erreurs de prédiction en une étape). Si vous essayez d'identifier des valeurs aberrantes, vous voulez une mesure différente de l'erreur de prédiction - l'une raisonnablement robuste aux valeurs aberrantes (et puis les moyennes mobiles semblerait un choix impair - pourquoi pas quelque chose de plus robuste pour les valeurs aberrantes) ndash Glenb 9830 Nov 2 13 à 1: 11 Ni l'un ni l'autre. Tous les deux. Tout. Pardon. Mais je pense que c'est une autre tentative (bien qu'un astucieux) pour automatiser ce qui ne peut pas être automatisé. Bien sûr, différentes méthodes donnent des résultats différents les seuls moments où ils ne serait pas où l'outlier est si évident que vous n'avez pas besoin d'un test. Ma suggestion est d'utiliser une variété de méthodes pour identifier d'éventuels outliers, puis examiner ces outliers sur une base individuelle. Trend estimateur et son application dans Détection Outlier Ceci est le suivi du dernier message sur la détection de la fraude Vue d'ensemble. Dans cet article, nous allons nous concentrer sur les données de séries chronologiques et certaines méthodes pour trouver des valeurs aberrantes dans les séries chronologiques. Données de série temporelle Qu'est-ce qu'une série chronologique? Série chronologique est définie comme une collection de points de données qui est observée sur un intervalle de temps continu. Les données chronologiques sont souvent utilisées pour trouver les changements de données dans le temps. Par exemple, nous pouvons mesurer la quantité de calories que nous brûlons tous les jours pour voir si nous sommes en forme, nous pourrions également calculer l'argent que nous avons dépensé chaque jour pour trouver nos comportements de dépenses Change (Euro à VN). Source: google La figure ci-dessus si un exemple de données de séries temporelles (illustré par le graphique de droite à droite). Nous pourrions également identifier beaucoup d'autres dispositifs dans le graphique. Par exemple, en regardant le graphique, on peut constater qu'après 5 ans, la valeur de l'euro a été réduite (de 30 000 VND à 25 000 VND). De plus, il ya eu des changements drastiques à la fin de 2014 (ce qui correspond à leur crise). Même la tendance des données de l'année dernière pourrait également être identifiée. Qu'est-ce qu'un outlier dans les données de séries chronologiques Dans le dernier message, nous avons défini un outlier comme un point d'observation qui est éloigné des autres observations. Comme nous l'avons mentionné dans la dernière section, à l'aide de données de séries chronologiques, nous avons pu détecter la tendance mouvante des données dans le temps. Combiner ces deux, un outlier dans les séries chronologiques des données est un point de données qui est éloignée de la tendance générale de l'ensemble de données. En utilisant la définition ci-dessus, nous pourrions créer une méthode générale pour trouver les valeurs aberrantes dans les séries temporelles comme suit: Collecter des données de séries chronologiques avec des bruits et des valeurs aberrantes. Normaliser les données de valeur Trouver la tendance générale des données Identifier les points qui ne suivent pas la tendance globale (points trop éloignés des valeurs estimées selon la tendance globale) Détection des valeurs aberrantes dans les données de séries chronologiques Il existe de nombreuses façons de calculer le déplacement Tendance des données. Dans cette section, nous allons parler de deux méthodes: la moyenne mobile et la régression. Pour illustrer l'algorithme, permet de définir les données d'entrée. Supposons qu'on nous donne: Moyenne mobile La moyenne mobile est l'une des méthodes les plus simples pour calculer et visualiser la tendance des données de séries chronologiques. Son idée est simple, la valeur correspondante d'un timestamp est calculée comme la valeur moyenne des points environnants. Par exemple, soit 2k les fenêtres de la moyenne mobile. À l'horodatage xi nous pouvons calculer yi comme: Appliquer cette équation à tous les points donnés, nous obtenons les valeurs estimées de chaque timestamp. Trouver des valeurs aberrantes dans les données données est maintenant très simple. Il suffit de pré-définir un seuil, puis d'identifier toutes les données point j qui ont: L'utilisation de points environnants n'est pas un must. Nous pourrions également utiliser k points qui sont observés avant (ou après) le point sélectionné. Il y a plusieurs améliorations pour l'algorithme de la moyenne mobile. Vous pouvez les trouver ici Filtre médian La moyenne mobile offre un moyen simple d'estimer et de visualiser la tendance des données de séries chronologiques. Cependant, il a un grand inconvénient qui est: Outlier introduit souvent un changement drastique dans la valeur moyenne. Pour cette raison, vous pouvez finir par détecter certains points de données qui ne doivent pas être filtrés. Heureusement, le filtre médian pourrait résoudre ce problème en estimant les valeurs observées comme la médiane des valeurs environnantes. En d'autres termes, nous avons: Similaire à la moyenne mobile, nous devons maintenant définir un seuil et ensuite trouver l'aberrant en fonction du seuil. La moyenne mobile et le filtre médian doivent faire face au même problème: ils ne peuvent pas fournir un moyen efficace de prédire la valeur à l'avenir car nous n'avons pas de données à l'avenir. Par exemple, la valeur de l'Euro par rapport à la VND augmente selon le graphique de la dernière section. L'application des algorithmes de moyenne mobile ou de filtre médian pour l'étape suivante lui donnera une valeur prédite inférieure à la dernière heure mesurée. Par conséquent, la valeur prédite ne suivra pas la tendance générale des données. Pour résoudre ce problème, nous pouvons utiliser la méthode de régression. Régression Contrairement à la moyenne mobile et au filtre médian, la régression calcule la relation entre chaque paire de données observées dans l'ensemble de données. Parmi les méthodes de régression, la régression linéaire est considérée comme la méthode la plus simple. Il estime simplement une droite qui peut être considérée comme la tendance mouvante des données. En d'autres termes, nous essayons d'estimer une ligne qui est: Compte tenu des données, nous pouvons calculer le taux d'erreur: et l'erreur totale est: Minimiser les rendements d'erreur total Détection des valeurs aberrantes avec le processus gaussien La régression linéaire fournit une méthode pour trouver la tendance mobile des données. Cependant, ce n'est qu'une ligne droite. Dans les données du monde réel, nous avons vu de nombreuses données qui ne devraient pas être estimées en ligne droite. Le graphique de devise ci-dessus est un exemple. Par conséquent, nous avons besoin d'une meilleure méthode de régression qui non seulement capturer la nature de l'ensemble de données donné, mais aussi robuste au bruit (ou outlier) Gaussian Process est une méthode non paramétrique pour découvrir la tendance des données. Il offre également un bon modèle probabiliste qui est robuste au bruit d'entrée (qui peut être considéré comme outlier). Permet de déplacer l'algorithme du processus gaussien lui-même. Dans le processus gaussien, nous supposons que les points de données sont une collection de variables aléatoires, dont n'importe quel nombre fini a une distribution gaussienne commune Rasmussen. Comme pour la distribution gaussienne, le processus gaussien est défini par sa fonction moyenne et sa fonction de covariance. Ils peuvent être calculés comme: A ce moment, un processus gaussien est contrôlé par la fonction de covariance. Considérons la fonction de covariance la plus courante: fonction RBF (ou fonction gaussienne). Dans la fonction RBF, k (xi, xj) est calculé par l'équation suivante: Supposons que nous voulons prédire la valeur ym à xm. Nous avons besoin de préparer Alors, nous pouvons calculer le ym prédit par: Notons que: tous les paramètres du processus gaussien peuvent être appris à partir des données données en utilisant la méthode de l'ascension du gradient marginal. En statistique, nous avons la règle 67-95-99.7. En appliquant cette règle à notre problème, nous aurons la confiance prédictive de ym. Cela nous aide également à identifier les valeurs aberrantes dans les données (les données observées ne restent pas dans l'intervalle de confiance sélectionné de la donnée prédite da Données d'entrée Permet de créer une entrée en utilisant python Moyenne mobile Filtre médian Régression linéaire Processus gaussien
No comments:
Post a Comment