Analyse de données (des capteurs): xKy

Bonjour,

Je viens de recréer ce canal sur l’analyse de données pour le sujet xKy.

Bonjour,

J’ai remarqué que certains fichiers *_DataLinkyRAW_*.csv et *_DataLinkyAdditionnal_*.csv contiennent des lignes dupliquées qui n’apportent aucune information supplémentaire. Certains fichiers atteignent jusqu’à 14 000 lignes dupliquées. Il serait utile de les supprimer dans une prochaine version pour alléger les données.

Voici les détails:

détails DataLinkyAdditionnal

48 lignes dupliquées dans ‘Subject107_DataLinkyAdditionnal_202402.csv’.
42 lignes dupliquées dans ‘Subject107_DataLinkyAdditionnal_202403.csv’.
88 lignes dupliquées dans ‘Subject154_DataLinkyAdditionnal_202402.csv’.
322 lignes dupliquées dans ‘Subject154_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject206_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject176_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject92_DataLinkyAdditionnal_202403.csv’.
950 lignes dupliquées dans ‘Subject141_DataLinkyAdditionnal_202403.csv’.
104 lignes dupliquées dans ‘Subject141_DataLinkyAdditionnal_202402.csv’.
8 lignes dupliquées dans ‘Subject114_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject114_DataLinkyAdditionnal_202402.csv’.
60 lignes dupliquées dans ‘Subject178_DataLinkyAdditionnal_202402.csv’.
72 lignes dupliquées dans ‘Subject178_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject168_DataLinkyAdditionnal_202403.csv’.
757 lignes dupliquées dans ‘Subject203_DataLinkyAdditionnal_202403.csv’.
30 lignes dupliquées dans ‘Subject166_DataLinkyAdditionnal_202402.csv’.
330 lignes dupliquées dans ‘Subject166_DataLinkyAdditionnal_202403.csv’.
344 lignes dupliquées dans ‘Subject194_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject196_DataLinkyAdditionnal_202403.csv’.
6 lignes dupliquées dans ‘Subject149_DataLinkyAdditionnal_202402.csv’.
24 lignes dupliquées dans ‘Subject149_DataLinkyAdditionnal_202403.csv’.
497 lignes dupliquées dans ‘Subject204_DataLinkyAdditionnal_202403.csv’.
10 lignes dupliquées dans ‘Subject163_DataLinkyAdditionnal_202402.csv’.
74 lignes dupliquées dans ‘Subject163_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject165_DataLinkyAdditionnal_202403.csv’.
1144 lignes dupliquées dans ‘Subject118_DataLinkyAdditionnal_202403.csv’.
282 lignes dupliquées dans ‘Subject118_DataLinkyAdditionnal_202402.csv’.
48 lignes dupliquées dans ‘Subject147_DataLinkyAdditionnal_202402.csv’.
482 lignes dupliquées dans ‘Subject147_DataLinkyAdditionnal_202403.csv’.
4 lignes dupliquées dans ‘Subject189_DataLinkyAdditionnal_202402.csv’.
289 lignes dupliquées dans ‘Subject189_DataLinkyAdditionnal_202403.csv’.
44 lignes dupliquées dans ‘Subject144_DataLinkyAdditionnal_202403.csv’.
100 lignes dupliquées dans ‘Subject190_DataLinkyAdditionnal_202403.csv’.
138 lignes dupliquées dans ‘Subject202_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject1_DataLinkyAdditionnal_202402.csv’.
16 lignes dupliquées dans ‘Subject1_DataLinkyAdditionnal_202401.csv’.
4 lignes dupliquées dans ‘Subject151_DataLinkyAdditionnal_202403.csv’.
16 lignes dupliquées dans ‘Subject201_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject150_DataLinkyAdditionnal_202402.csv’.
158 lignes dupliquées dans ‘Subject150_DataLinkyAdditionnal_202403.csv’.
4 lignes dupliquées dans ‘Subject172_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject126_DataLinkyAdditionnal_202403.csv’.
4 lignes dupliquées dans ‘Subject217_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject121_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject205_DataLinkyAdditionnal_202403.csv’.
141 lignes dupliquées dans ‘Subject214_DataLinkyAdditionnal_202403.csv’.
1224 lignes dupliquées dans ‘Subject135_DataLinkyAdditionnal_202403.csv’.
135 lignes dupliquées dans ‘Subject135_DataLinkyAdditionnal_202402.csv’.
12 lignes dupliquées dans ‘Subject167_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject167_DataLinkyAdditionnal_202402.csv’.
2 lignes dupliquées dans ‘Subject193_DataLinkyAdditionnal_202402.csv’.
38 lignes dupliquées dans ‘Subject112_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject112_DataLinkyAdditionnal_202402.csv’.
88 lignes dupliquées dans ‘Subject159_DataLinkyAdditionnal_202403.csv’.
845 lignes dupliquées dans ‘Subject218_DataLinkyAdditionnal_202403.csv’.
108 lignes dupliquées dans ‘Subject219_DataLinkyAdditionnal_202403.csv’.
124 lignes dupliquées dans ‘Subject197_DataLinkyAdditionnal_202402.csv’.
1874 lignes dupliquées dans ‘Subject197_DataLinkyAdditionnal_202403.csv’.
169 lignes dupliquées dans ‘Subject177_DataLinkyAdditionnal_202403.csv’.
36 lignes dupliquées dans ‘Subject177_DataLinkyAdditionnal_202402.csv’.
6 lignes dupliquées dans ‘Subject181_DataLinkyAdditionnal_202402.csv’.
70 lignes dupliquées dans ‘Subject181_DataLinkyAdditionnal_202403.csv’.
16 lignes dupliquées dans ‘Subject185_DataLinkyAdditionnal_202403.csv’.
6 lignes dupliquées dans ‘Subject185_DataLinkyAdditionnal_202402.csv’.
28 lignes dupliquées dans ‘Subject105_DataLinkyAdditionnal_202402.csv’.
106 lignes dupliquées dans ‘Subject105_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject99_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject162_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject188_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject98_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject152_DataLinkyAdditionnal_202403.csv’.
8 lignes dupliquées dans ‘Subject175_DataLinkyAdditionnal_202403.csv’.
2 lignes dupliquées dans ‘Subject175_DataLinkyAdditionnal_202402.csv’.
14 lignes dupliquées dans ‘Subject125_DataLinkyAdditionnal_202403.csv’.

détails DataLinkyRAW

578 lignes dupliquées dans ‘Subject107_DataLinkyRAW_202403.csv’.
468 lignes dupliquées dans ‘Subject107_DataLinkyRAW_202402.csv’.
4 lignes dupliquées dans ‘Subject120_DataLinkyRAW_202402.csv’.
106 lignes dupliquées dans ‘Subject120_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject161_DataLinkyRAW_202403.csv’.
2268 lignes dupliquées dans ‘Subject154_DataLinkyRAW_202403.csv’.
752 lignes dupliquées dans ‘Subject154_DataLinkyRAW_202402.csv’.
208 lignes dupliquées dans ‘Subject206_DataLinkyRAW_202403.csv’.
790 lignes dupliquées dans ‘Subject131_DataLinkyRAW_202403.csv’.
36 lignes dupliquées dans ‘Subject176_DataLinkyRAW_202403.csv’.
210 lignes dupliquées dans ‘Subject92_DataLinkyRAW_202403.csv’.
40 lignes dupliquées dans ‘Subject92_DataLinkyRAW_202402.csv’.
4 lignes dupliquées dans ‘Subject133_DataLinkyRAW_202403.csv’.
7716 lignes dupliquées dans ‘Subject141_DataLinkyRAW_202403.csv’.
1037 lignes dupliquées dans ‘Subject141_DataLinkyRAW_202402.csv’.
138 lignes dupliquées dans ‘Subject114_DataLinkyRAW_202403.csv’.
30 lignes dupliquées dans ‘Subject114_DataLinkyRAW_202402.csv’.
252 lignes dupliquées dans ‘Subject178_DataLinkyRAW_202402.csv’.
124 lignes dupliquées dans ‘Subject178_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject168_DataLinkyRAW_202402.csv’.
22 lignes dupliquées dans ‘Subject168_DataLinkyRAW_202403.csv’.
4896 lignes dupliquées dans ‘Subject203_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject95_DataLinkyRAW_202402.csv’.
12 lignes dupliquées dans ‘Subject95_DataLinkyRAW_202403.csv’.
190 lignes dupliquées dans ‘Subject140_DataLinkyRAW_202403.csv’.
2009 lignes dupliquées dans ‘Subject166_DataLinkyRAW_202402.csv’.
14624 lignes dupliquées dans ‘Subject166_DataLinkyRAW_202403.csv’.
1849 lignes dupliquées dans ‘Subject194_DataLinkyRAW_202403.csv’.
134 lignes dupliquées dans ‘Subject117_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject195_DataLinkyRAW_202403.csv’.
86 lignes dupliquées dans ‘Subject196_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject179_DataLinkyRAW_202402.csv’.
26 lignes dupliquées dans ‘Subject179_DataLinkyRAW_202403.csv’.
34 lignes dupliquées dans ‘Subject90_DataLinkyRAW_202403.csv’.
138 lignes dupliquées dans ‘Subject149_DataLinkyRAW_202403.csv’.
44 lignes dupliquées dans ‘Subject149_DataLinkyRAW_202402.csv’.
2969 lignes dupliquées dans ‘Subject204_DataLinkyRAW_202403.csv’.
12 lignes dupliquées dans ‘Subject163_DataLinkyRAW_202402.csv’.
92 lignes dupliquées dans ‘Subject163_DataLinkyRAW_202403.csv’.
54 lignes dupliquées dans ‘Subject132_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject115_DataLinkyRAW_202403.csv’.
18 lignes dupliquées dans ‘Subject169_DataLinkyRAW_202403.csv’.
72 lignes dupliquées dans ‘Subject216_DataLinkyRAW_202403.csv’.
12 lignes dupliquées dans ‘Subject216_DataLinkyRAW_202402.csv’.
36 lignes dupliquées dans ‘Subject165_DataLinkyRAW_202403.csv’.
7506 lignes dupliquées dans ‘Subject118_DataLinkyRAW_202403.csv’.
1292 lignes dupliquées dans ‘Subject118_DataLinkyRAW_202402.csv’.
2 lignes dupliquées dans ‘Subject187_DataLinkyRAW_202403.csv’.
248 lignes dupliquées dans ‘Subject147_DataLinkyRAW_202402.csv’.
2049 lignes dupliquées dans ‘Subject147_DataLinkyRAW_202403.csv’.
1672 lignes dupliquées dans ‘Subject189_DataLinkyRAW_202403.csv’.
68 lignes dupliquées dans ‘Subject189_DataLinkyRAW_202402.csv’.
6 lignes dupliquées dans ‘Subject184_DataLinkyRAW_202403.csv’.
388 lignes dupliquées dans ‘Subject144_DataLinkyRAW_202403.csv’.
598 lignes dupliquées dans ‘Subject190_DataLinkyRAW_202403.csv’.
653 lignes dupliquées dans ‘Subject202_DataLinkyRAW_202403.csv’.
28 lignes dupliquées dans ‘Subject1_DataLinkyRAW_202401.csv’.
4 lignes dupliquées dans ‘Subject1_DataLinkyRAW_202402.csv’.
34 lignes dupliquées dans ‘Subject151_DataLinkyRAW_202402.csv’.
144 lignes dupliquées dans ‘Subject151_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject174_DataLinkyRAW_202403.csv’.
314 lignes dupliquées dans ‘Subject201_DataLinkyRAW_202403.csv’.
140 lignes dupliquées dans ‘Subject150_DataLinkyRAW_202402.csv’.
2167 lignes dupliquées dans ‘Subject150_DataLinkyRAW_202403.csv’.
12 lignes dupliquées dans ‘Subject172_DataLinkyRAW_202403.csv’.
30 lignes dupliquées dans ‘Subject126_DataLinkyRAW_202403.csv’.
28 lignes dupliquées dans ‘Subject217_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject136_DataLinkyRAW_202402.csv’.
22 lignes dupliquées dans ‘Subject121_DataLinkyRAW_202402.csv’.
64 lignes dupliquées dans ‘Subject121_DataLinkyRAW_202403.csv’.
68 lignes dupliquées dans ‘Subject205_DataLinkyRAW_202403.csv’.
405 lignes dupliquées dans ‘Subject214_DataLinkyRAW_202403.csv’.
3144 lignes dupliquées dans ‘Subject135_DataLinkyRAW_202403.csv’.
510 lignes dupliquées dans ‘Subject135_DataLinkyRAW_202402.csv’.
64 lignes dupliquées dans ‘Subject167_DataLinkyRAW_202402.csv’.
60 lignes dupliquées dans ‘Subject167_DataLinkyRAW_202403.csv’.
8 lignes dupliquées dans ‘Subject212_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject193_DataLinkyRAW_202402.csv’.
406 lignes dupliquées dans ‘Subject112_DataLinkyRAW_202403.csv’.
86 lignes dupliquées dans ‘Subject112_DataLinkyRAW_202402.csv’.
1114 lignes dupliquées dans ‘Subject159_DataLinkyRAW_202403.csv’.
80 lignes dupliquées dans ‘Subject159_DataLinkyRAW_202402.csv’.
4426 lignes dupliquées dans ‘Subject218_DataLinkyRAW_202403.csv’.
2744 lignes dupliquées dans ‘Subject219_DataLinkyRAW_202403.csv’.
6236 lignes dupliquées dans ‘Subject197_DataLinkyRAW_202403.csv’.
486 lignes dupliquées dans ‘Subject197_DataLinkyRAW_202402.csv’.
2 lignes dupliquées dans ‘Subject109_DataLinkyRAW_202403.csv’.
184 lignes dupliquées dans ‘Subject177_DataLinkyRAW_202402.csv’.
592 lignes dupliquées dans ‘Subject177_DataLinkyRAW_202403.csv’.
546 lignes dupliquées dans ‘Subject181_DataLinkyRAW_202403.csv’.
22 lignes dupliquées dans ‘Subject181_DataLinkyRAW_202402.csv’.
6 lignes dupliquées dans ‘Subject198_DataLinkyRAW_202403.csv’.
22 lignes dupliquées dans ‘Subject102_DataLinkyRAW_202403.csv’.
38 lignes dupliquées dans ‘Subject185_DataLinkyRAW_202402.csv’.
148 lignes dupliquées dans ‘Subject185_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject220_DataLinkyRAW_202403.csv’.
364 lignes dupliquées dans ‘Subject105_DataLinkyRAW_202402.csv’.
1422 lignes dupliquées dans ‘Subject105_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject192_DataLinkyRAW_202403.csv’.
12 lignes dupliquées dans ‘Subject192_DataLinkyRAW_202402.csv’.
64 lignes dupliquées dans ‘Subject119_DataLinkyRAW_202403.csv’.
34 lignes dupliquées dans ‘Subject99_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject99_DataLinkyRAW_202402.csv’.
16 lignes dupliquées dans ‘Subject162_DataLinkyRAW_202403.csv’.
28 lignes dupliquées dans ‘Subject188_DataLinkyRAW_202403.csv’.
2 lignes dupliquées dans ‘Subject188_DataLinkyRAW_202402.csv’.
20 lignes dupliquées dans ‘Subject208_DataLinkyRAW_202403.csv’.
16 lignes dupliquées dans ‘Subject98_DataLinkyRAW_202402.csv’.
48 lignes dupliquées dans ‘Subject98_DataLinkyRAW_202403.csv’.
10 lignes dupliquées dans ‘Subject152_DataLinkyRAW_202403.csv’.
4 lignes dupliquées dans ‘Subject152_DataLinkyRAW_202402.csv’.
32 lignes dupliquées dans ‘Subject175_DataLinkyRAW_202402.csv’.
34 lignes dupliquées dans ‘Subject175_DataLinkyRAW_202403.csv’.
16 lignes dupliquées dans ‘Subject199_DataLinkyRAW_202403.csv’.
86 lignes dupliquées dans ‘Subject125_DataLinkyRAW_202403.csv’.

J’ai analysé les données des Subject pour comparer la puissance active (effective) entre les fichiers RAW et Additionnal.
J’ai recalculé la puissance active (Puissance_W) à partir des fichiers RAW (écarts colonne BASE / pas de temps) et je l’ai comparée à celle fournit directement dans les fichiers Additionnal (colonne PEFF).

Décalage temporel : J’ai remarqué un décalage systématique entre les deux courbes (voir première image). Les pics de Puissance_W et PEFF sont décalés de quelques secondes, probablement à cause de la différence dans la fréquence d’échantillonnage, ou de la désynchronisation des horloges entre les appareils de mesure (RAW et Additionnal).


J’aimerais bien en savoir plus sur les fichiers RAW et Additionnel et les différences sur la façon dont les données sont mesurées.

Reconstruction des données manquantes : J’ai aussi constaté que PEFF a des lacunes (valeurs manquantes ou à 0), mais Puissance_W capture ces variations (voir deuxième image). En utilisant Puissance_W, j’ai pu reconstruire les données manquantes de PEFF.

Le décalage temporel entre les fichiers RAW (Puissance_W) et Additionnal (PEFF) n’est pas constant. Pour un même Subject, il varie sur la durée de la campagne de mesure, et il diffère aussi d’un Subject à l’autre. Cependant, il reste généralement de l’ordre d’une quarantaine de secondes (±20 secondes). Cela pourrait compliquer l’alignement des données.

Bonjour Mathieu,

  1. Quelles méthodes avez-vous utilisées dans la reconstruction des données?
  2. Comment interpréter les pics observés dans les données? anomalie ou pas?

D’après moi les pics observés sont simplement dus à la consommation d’appareils électrique pendant un breve instant dans la maison.
Puisqu’on les retrouve sur les deux courbes, il y a peu de chance qu’il s’agisse d’une anomalie.

Pour reconstruire les données manquantes de puissance active dans les fichiers Additionnal (PEFF), j’ai utilisé les fichiers RAW pour calculer Puissance_W à partir de BASE. Voici comment j’ai procédé avec le script ci-dessous :

Le script parcourt tous les fichiers *_DataLinkyRAW_*.csv dans SubjectData. Pour chaque fichier :

  1. Je calcule l’énergie consommée (Wh_consommés) comme la différence entre deux valeurs consécutives de BASE (avec df[‘BASE’].diff()).
  2. Je convertis Time(UTC) en datetime et calcule l’écart de temps entre deux lignes en heures (time_diff).
  3. Je calcule la puissance active Puissance_W (en W) comme Wh_consommés / time_diff (Wh/h = W).

Voici le script qui m’a permit de faire cela (à placer dans le dossier dataverse_files/xKy/):

voir le script
import os
import pandas as pd

base_path = "SubjectData"

# Parcourir tous les sous-dossiers et fichiers dans SubjectData
for root, dirs, files in os.walk(base_path):
    for file in files:
        # Vérifier si le fichier correspond au motif *_DataLinkyRAW_*.csv
        if "DataLinkyRAW" in file and file.endswith(".csv"):
            file_path = os.path.join(root, file)
            
            try:
                # Lire le fichier CSV
                df = pd.read_csv(file_path)
                
                # Vérifier la présence des colonnes nécessaires
                if 'BASE' not in df.columns:
                    print(f"Erreur : La colonne 'BASE' est absente dans '{file_path}'. Fichier ignoré.")
                    continue
                if 'Time(UTC)' not in df.columns:
                    print(f"Erreur : La colonne 'Time(UTC)' est absente dans '{file_path}'. Fichier ignoré.")
                    continue
                
                # Calculer l’énergie consommée (différence de BASE)
                df['Wh_consommés'] = df['BASE'].diff().fillna(0)
                
                # Convertir 'Time(UTC)' en datetime
                df['Time(UTC)'] = pd.to_datetime(df['Time(UTC)'], format='%Y-%m-%d %H:%M:%S')
                
                # Calculer le temps écoulé en heures entre chaque timestamp
                time_diff = df['Time(UTC)'].diff().dt.total_seconds() / 3600  # Conversion secondes -> heures
                
                # Calculer la puissance moyenne (Wh / h = W)
                df['Puissance_W'] = df['Wh_consommés'] / time_diff
                
                # Remplacer les valeurs infinies ou NaN (première ligne ou division par 0) par 0
                df['Puissance_W'] = df['Puissance_W'].replace([float('inf'), -float('inf')], 0).fillna(0)
                
                # Sauvegarder le fichier modifié
                df.to_csv(file_path, index=False)
                print(f"Le fichier '{file_path}' a été mis à jour avec les colonnes 'Wh_consommés' et 'Puissance_W'.")
            
            except Exception as e:
                print(f"Erreur lors du traitement du fichier '{file_path}': {e}")

print("Traitement terminé.")

D’accord.
Merci pour cette précision.

J’ai vérifié la cohérence des données dans les fichiers Additionnal pour les différents Subject. Voici les incohérences trouvées (hors NaN) :

  • PEFF (doit être entre 0 et 20000 W) : Des valeurs dépassent 20000 W dans plusieurs fichiers.
  • FACPUI (doit être entre 0 et 1) : Des valeurs négatives et supérieures à 1 apparaissent.
  • CONSOJ (doit être entre 0 et 300000 Wh) : Des valeurs dépassent 300000 Wh.
Détails
Colonne 'PEFF' (positif et inférieur ou égal à 20000) :
  - SubjectData/Subject35/Subject35_DataLinkyAdditionnal_202402.csv : 16 lignes (2 < 0, 14 > 20000)
  - SubjectData/Subject35/Subject35_DataLinkyAdditionnal_202401.csv : 13 lignes (3 < 0, 10 > 20000)
  - SubjectData/Subject54/Subject54_DataLinkyAdditionnal_202312.csv : 1 lignes supérieures à 20000
  - SubjectData/Subject141/Subject141_DataLinkyAdditionnal_202403.csv : 1 lignes supérieure à 20000
  - SubjectData/Subject71/Subject71_DataLinkyAdditionnal_202401.csv : 1 lignes supérieure à 20000
  - SubjectData/Subject71/Subject71_DataLinkyAdditionnal_202403.csv : 4 lignes supérieures à 20000
  - SubjectData/Subject71/Subject71_DataLinkyAdditionnal_202402.csv : 8 lignes supérieures à 20000
  - SubjectData/Subject189/Subject189_DataLinkyAdditionnal_202403.csv : 2 lignes supérieures à 20000
  - SubjectData/Subject1/Subject1_DataLinkyAdditionnal_202401.csv : 84 lignes (41 < 0, 43 > 20000)
  - SubjectData/Subject85/Subject85_DataLinkyAdditionnal_202401.csv : 1 lignes supérieure à 20000
  - SubjectData/Subject152/Subject152_DataLinkyAdditionnal_202402.csv : 1 lignes supérieure à 20000
  - SubjectData/Subject130/Subject130_DataLinkyAdditionnal_202403.csv : 124 lignes supérieures à 20000
Colonne 'FACPUI' (positif et compris entre 0 et 1 inclus) :
  - SubjectData/Subject35/Subject35_DataLinkyAdditionnal_202402.csv : 2 lignes inférieures à 0
  - SubjectData/Subject35/Subject35_DataLinkyAdditionnal_202401.csv : 3 lignes inférieures à 0
  - SubjectData/Subject1/Subject1_DataLinkyAdditionnal_202401.csv : 41 lignes inférieures à 0
Colonne 'CONSOJ' (positif et inférieur ou égal à 300000) :
  - SubjectData/Subject54/Subject54_DataLinkyAdditionnal_202312.csv : 199 lignes supérieures à 300000
  - SubjectData/Subject22/Subject22_DataLinkyAdditionnal_202312.csv : 76 lignes supérieures à 300000
  - SubjectData/Subject100/Subject100_DataLinkyAdditionnal_202403.csv : 3 lignes supérieures à 300000
  - SubjectData/Subject48/Subject48_DataLinkyAdditionnal_202402.csv : 1 lignes supérieure à 300000
  - SubjectData/Subject41/Subject41_DataLinkyAdditionnal_202312.csv : 68 lignes supérieures à 300000
  - SubjectData/Subject98/Subject98_DataLinkyAdditionnal_202403.csv : 11 lignes supérieures à 300000

Certains fichiers ont des valeurs de consommation de -23 537 150 000 de Watt ou encore 11 814 230 000 de Watt.
Je n’ai pas trouvé d’incohérences dans les fichiers RAW.

En analysant les incohérences signalées dans PEFF, FACPUI, et CONSOJ, j’ai trouvé que certains fichiers RAW ont des valeurs de BASE à 0, ce qui explique certaines de ces erreurs. Voici les fichiers concernés :

  • SubjectData/Subject35/Subject35_DataLinkyRAW_202401.csv : 3 lignes
  • SubjectData/Subject35/Subject35_DataLinkyRAW_202402.csv : 2 lignes
  • SubjectData/Subject1/Subject1_DataLinkyRAW_202401.csv : 54 lignes

Pour Subject1, les valeurs aberrantes de PEFF (comme -23 655 616 099 W) viennent de sauts de BASE à 0.
J’ai calculé ma propre puissance active (Puissance_W) avec ΔBASE/Δt, et j’obtiens des valeurs aberrantes similaires à PEFF (même ordre de grandeur).
Cela m’amène à l’hypothèse que PEFF est calculé de la même manière, c’est-à-dire PEFF=ΔBASE/Δt, ce qui explique pourquoi les BASE = 0 faussent les deux.
Je propose d’interpoler ces valeurs pour corriger.

En fait, ces valeurs BASE à 0 expliquent toutes les valeurs de PEFF négatives :slight_smile:

Etant donné que BASE est un index, toutes les valeurs à 0 doivent être problématiques.

1 « J'aime »

En fait, en plus des fichiers avec des valeurs de BASE à 0, il y a des fichiers avec des valeurs de BASE qui diminuent, ce qui n’est pas censé se produire.

Afficher la liste
=== Résumé des fichiers avec BASE décroissant ===
- SubjectData/Subject154/Subject154_DataLinkyRAW_202403.csv (3 occurrences)
- SubjectData/Subject35/Subject35_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject38/Subject38_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject53/Subject53_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject21/Subject21_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject21/Subject21_DataLinkyRAW_202403.csv (2 occurrences)
- SubjectData/Subject20/Subject20_DataLinkyRAW_202310.csv (1 occurrences)
- SubjectData/Subject25/Subject25_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject163/Subject163_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject45/Subject45_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject45/Subject45_DataLinkyRAW_202401.csv (1 occurrences)
- SubjectData/Subject26/Subject26_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject36/Subject36_DataLinkyRAW_202312.csv (3 occurrences)
- SubjectData/Subject165/Subject165_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject123/Subject123_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject123/Subject123_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject147/Subject147_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject58/Subject58_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject58/Subject58_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject84/Subject84_DataLinkyRAW_202402.csv (2 occurrences)
- SubjectData/Subject84/Subject84_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject190/Subject190_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject12/Subject12_DataLinkyRAW_202312.csv (3 occurrences)
- SubjectData/Subject12/Subject12_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject12/Subject12_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject1/Subject1_DataLinkyRAW_202312.csv (1 occurrences)
- SubjectData/Subject1/Subject1_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject1/Subject1_DataLinkyRAW_202401.csv (6 occurrences)
- SubjectData/Subject93/Subject93_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject93/Subject93_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject156/Subject156_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject174/Subject174_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject32/Subject32_DataLinkyRAW_202311.csv (2 occurrences)
- SubjectData/Subject59/Subject59_DataLinkyRAW_202401.csv (3 occurrences)
- SubjectData/Subject59/Subject59_DataLinkyRAW_202402.csv (3 occurrences)
- SubjectData/Subject59/Subject59_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject19/Subject19_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject172/Subject172_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject15/Subject15_DataLinkyRAW_202311.csv (5 occurrences)
- SubjectData/Subject15/Subject15_DataLinkyRAW_202312.csv (3 occurrences)
- SubjectData/Subject48/Subject48_DataLinkyRAW_202401.csv (1 occurrences)
- SubjectData/Subject48/Subject48_DataLinkyRAW_202312.csv (1 occurrences)
- SubjectData/Subject214/Subject214_DataLinkyRAW_202402.csv (3 occurrences)
- SubjectData/Subject214/Subject214_DataLinkyRAW_202403-1.csv (1 occurrences)
- SubjectData/Subject167/Subject167_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject80/Subject80_DataLinkyRAW_202402.csv (3 occurrences)
- SubjectData/Subject80/Subject80_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject222/Subject222_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject14/Subject14_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject14/Subject14_DataLinkyRAW_202311.csv (1 occurrences)
- SubjectData/Subject207/Subject207_DataLinkyRAW_202403.csv (2 occurrences)
- SubjectData/Subject192/Subject192_DataLinkyRAW_202403.csv (2 occurrences)
- SubjectData/Subject119/Subject119_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject83/Subject83_DataLinkyRAW_202402.csv (3 occurrences)
- SubjectData/Subject11/Subject11_DataLinkyRAW_202311.csv (3 occurrences)
- SubjectData/Subject11/Subject11_DataLinkyRAW_202312.csv (2 occurrences)
- SubjectData/Subject11/Subject11_DataLinkyRAW_202401.csv (1 occurrences)
- SubjectData/Subject10/Subject10_DataLinkyRAW_202310.csv (1 occurrences)
- SubjectData/Subject162/Subject162_DataLinkyRAW_202403.csv (4 occurrences)
- SubjectData/Subject46/Subject46_DataLinkyRAW_202402.csv (1 occurrences)
- SubjectData/Subject46/Subject46_DataLinkyRAW_202401.csv (2 occurrences)
- SubjectData/Subject46/Subject46_DataLinkyRAW_202403.csv (1 occurrences)
- SubjectData/Subject46/Subject46_DataLinkyRAW_202312.csv (2 occurrences)

J’ai analysé la relation entre la charge (PEFF) et le facteur de puissance (FACPUI) pour Subject1. Le graphique montre la moyenne de FACPUI par intervalles de 10 W de PEFF. On observe une courbe de type logarithmique : FACPUI est bas (~0.1-0.2) à faible charge, puis augmente rapidement pour tendre vers 1 à forte charge (>2000 W).
Je pense que cela s’explique par le fait que les appareils à faible charge (électronique, veille) ont un facteur de puissance bas, tandis que ceux à forte charge (chauffages, cuisson) sont souvent résistifs, faisant tendre FACPUI vers 1.
Qu’en pensez-vous ?

Plusieurs Subjects, comme le Subject36 ci dessous, ne suivent pas vraiment un profil de facteur de puissance logarithmique.
Je pense que cela s’explique par l’activation d’appareils à faible facteur de puissance (par exemple, des alimentations à découpage) dans la plage 600-700 W, alors que les appareils actifs à 400-500 W (comme un radiateur) ont un meilleur facteur de puissance.

Tout à fait. Ces valeurs représentent des anomalies pour des données de type BASE(index).
On peut également observé que cette situation se produit après un long temps d’attente (intervalle de temps irrégulier).

1 « J'aime »

L’analyse du pas de temps Δt dans “Subject154_DataLinkyRAW_202403.csv” a montré une certaine irrégularité comme le montre la figure ci-contre.
Peut-on considérer cette irrégularité comme une forme de données manquantes ou cela ne pose aucun problème?

Effectivement, si on prends le Subject154, les valeurs de puissance active après le 17 mars offrent une granularité plus faible. De plus, les saut de l’index BASE à des valeurs inférieures ou largement supérieures créés des puissances négatives et extrèmes. Je pense donc éviter d’utiliser ces données.


En revenche, pour le Subject1 ci dessous, le pas de temps entre les mesures est resté faible bien que les données de puissance active n’aient pas été enregistrées dans le fichier Additionnal sur la période du 16 au 22 octobre.

Ici les données semblent cohérentes et je pense les utilisées.

Je pense qu’utiliser le Δt pour trier les données peut en effet être une bonne idée.
Avez-vous plus d’informations sur la manière dont les fichiers csv RAW et Additionnal ont été produit ?

Bonjour Mathieu,

Je n’ai aucune information sur la manière dont les fichiers ont été produit.
Je pense que c’est SEUN qui s’en occupe.

1 « J'aime »

Salut,

Les donnees du xKY est mise à dispo par @ferrarij. Je vais lui laisser répondre à vos questions.

Cheers,

Hello,
je vais essayer de répondre aux diverses questions:

  • Pour les lignes dupliquées, je dois effectivement faire un nettoyage avec les nouveaux scripts.
  • Les pas de temps sont variables pour les mesures car elles dépendent de pas mal de paramètre car le Winky a besoin de recharger sa supercapa entre chaque envoi de mesure (ce pas va dépendre surtout du temps de connexion au wifi).
  • Le décalage temporel RAW Additionnel est normal car si l’on recalcul sans prendre en compte les temps entre la prise de mesure, le temps de connexion du winky on se retrouve avec une valeur temporel faussée. Je recacule à chaque fois en prenant en compte ses variables car ce n’est pas un pas de temps fixe. (Le calcul sera expliqué lors de la conférence SGE2025 et je publirai en même temps la méthode).
  • Les incohérences sont due au décalage temporel si le PEFF n’est pas corélée avec le bon PAPP (avance ou retard) on peux se retrouver avec un FACPUI bagotant.
  • Chez certains participants la première version du script ne vérifiait pas la cohérence d’où les erreurs. Comme pour les valeurs manquantes. Pour les PEFF à 0, il s’agit de participants possèdant une installation PV.

Voilà pour les premières explications,
Jérôme