done with dataprep for now

2021-01-18 17:21:25 +01:00
parent 504d3c2d1b
commit 31ff1d5888
2 changed files with 9 additions and 252 deletions
--- a/rowers/dataprep.py
+++ b/rowers/dataprep.py
@@ -2447,106 +2447,6 @@ def getsmallrowdata_db(columns, ids=[], doclean=True,workstrokesonly=True,comput

    return df

-def getsmallrowdata_db_dask(columns, ids=[], doclean=True,workstrokesonly=True,compute=True):
-    #    prepmultipledata(ids)
-
-    csvfilenames = ['media/strokedata_{id}.parquet.gz'.format(id=id) for id in ids]
-    data = []
-    columns = [c for c in columns if c != 'None']
-    columns = list(set(columns))
-
-    if len(ids)>1:
-        for id,f in zip(ids,csvfilenames):
-            try:
-                #df = dd.read_parquet(f,columns=columns,engine='pyarrow')
-                df = dd.read_parquet(f,columns=columns)
-                data.append(df)
-            except OSError:
-                rowdata, row = getrowdata(id=id)
-                if rowdata and len(rowdata.df):
-                    datadf = dataprep(rowdata.df,id=id,bands=True,otwpower=True,barchart=True)
-                    #                    df = dd.read_parquet(f,columns=columns,engine='pyarrow')
-                    df = dd.read_parquet(f,columns=columns)
-                    data.append(df)
-
-        df = dd.concat(data,axis=0)
-        # df = dd.concat(data,axis=0)
-
-    else:
-        try:
-            df = dd.read_parquet(csvfilenames[0],columns=columns)
-        except OSError:
-            rowdata,row = getrowdata(id=ids[0])
-            if rowdata and len(rowdata.df):
-                data = dataprep(rowdata.df,id=ids[0],bands=True,otwpower=True,barchart=True)
-                df = dd.read_parquet(csvfilenames[0],columns=columns)
-                #                df = dd.read_parquet(csvfilenames[0],
-                #                                     column=columns,engine='pyarrow',
-                #                )
-
-                # df = df.loc[:,~df.columns.duplicated()]
-
-
-
-    if compute:
-        data = df.compute()
-        if doclean:
-            data = clean_df_stats(data, ignorehr=True,
-                                workstrokesonly=workstrokesonly)
-        data.dropna(axis=1,how='all',inplace=True)
-        data.dropna(axis=0,how='any',inplace=True)
-        return data
-
-    return df
-
-def getsmallrowdata_db_old(columns, ids=[], doclean=True, workstrokesonly=True):
-    prepmultipledata(ids)
-    data,extracols = read_cols_df_sql(ids, columns)
-    if extracols and len(ids)==1:
-        w = Workout.objects.get(id=ids[0])
-        row = rdata(w.csvfilename)
-        try:
-            row.set_instroke_metrics()
-        except (AttributeError,TypeError):
-            pass
-
-        try:
-            f = row.df['TimeStamp (sec)'].diff().mean()
-        except (AttributeError,KeyError) as e:
-            f = 0
-
-        if f != 0 and not np.isnan(f):
-            windowsize = 2 * (int(10. / (f))) + 1
-        else:
-            windowsize = 1
-        for c in extracols:
-            try:
-                cdata = row.df[c]
-                cdata.fillna(inplace=True,method='bfill')
-                # This doesn't work because sometimes data are duplicated at save
-                try:
-                    cdata2 = savgol_filter(cdata.values,windowsize,3)
-                    data[c] = cdata2
-                except ValueError:
-                    data[c] = cdata
-
-
-
-            except (KeyError, AttributeError):
-                data[c] = 0
-
-
-    # convert newtons
-
-    if doclean:
-        data = clean_df_stats(data, ignorehr=True,
-                              workstrokesonly=workstrokesonly)
-        data.dropna(axis=1,how='all',inplace=True)
-        data.dropna(axis=0,how='any',inplace=True)
-
-
-    return data
-
 # Fetch both the workout and the workout stroke data (from CSV file)


@@ -2659,72 +2559,6 @@ def read_cols_df_sql(ids, columns, convertnewtons=True):

    return df,extracols

-def read_cols_df_sql_old(ids, columns, convertnewtons=True):
-    # drop columns that are not in offical list
-    #    axx = [ax[0] for ax in axes]
-    prepmultipledata(ids)
-    axx = [f.name for f in StrokeData._meta.get_fields()]
-
-    extracols = []
-
-    columns2 = list(columns)
-
-    for c in columns:
-        if not c in axx:
-            columns2.remove(c)
-            extracols.append(c)
-
-    columns = list(columns2) + ['distance', 'spm', 'workoutid']
-    columns = [x for x in columns if x != 'None']
-    columns = list(set(columns))
-    cls = ''
-    ids = [int(id) for id in ids]
-    engine = create_engine(database_url, echo=False)
-
-    for column in columns:
-        cls += column + ', '
-    cls = cls[:-2]
-    if len(ids) == 0:
-        return pd.DataFrame(),extracols
-    #        query = sa.text('SELECT {columns} FROM strokedata WHERE workoutid=0'.format(
-    #            columns=cls,
-    #        ))
-    elif len(ids) == 1:
-        query = sa.text('SELECT {columns} FROM strokedata WHERE workoutid={id} ORDER BY time ASC'.format(
-            id=ids[0],
-            columns=cls,
-        ))
-    else:
-        query = sa.text('SELECT {columns} FROM strokedata WHERE workoutid IN {ids} ORDER BY time ASC'.format(
-            columns=cls,
-            ids=tuple(ids),
-        ))
-
-
-    connection = engine.raw_connection()
-    df = pd.read_sql_query(query, engine)
-
-
-    df = df.fillna(value=0)
-
-    if 'peakforce' in columns:
-        funits = ((w.id, w.forceunit)
-                  for w in Workout.objects.filter(id__in=ids))
-        for id, u in funits:
-            if u == 'lbs':
-                mask = df['workoutid'] == id
-                df.loc[mask, 'peakforce'] = df.loc[mask, 'peakforce'] * lbstoN
-    if 'averageforce' in columns:
-        funits = ((w.id, w.forceunit)
-                  for w in Workout.objects.filter(id__in=ids))
-        for id, u in funits:
-            if u == 'lbs':
-                mask = df['workoutid'] == id
-                df.loc[mask, 'averageforce'] = df.loc[mask,
-                                                      'averageforce'] * lbstoN
-
-    engine.dispose()
-    return df,extracols

 def initiate_cp(r):
    success = update_rolling_cp(r,otwtypes,'water')
@@ -2750,93 +2584,7 @@ def read_df_sql(id):

    return df

-def read_df_sql_old(id):
-    engine = create_engine(database_url, echo=False)

-    df = pd.read_sql_query(sa.text('SELECT * FROM strokedata WHERE workoutid={id} ORDER BY time ASC'.format(
-        id=id)), engine)
-
-    engine.dispose()
-    df = df.fillna(value=0)
-
-    funit = Workout.objects.get(id=id).forceunit
-
-    if funit == 'lbs':
-        try:
-            df['peakforce'] = df['peakforce'] * lbstoN
-        except KeyError:
-            pass
-
-        try:
-            df['averageforce'] = df['averageforce'] * lbstoN
-        except KeyError:
-            pass
-
-    return df
-
-# Get the necessary data from the strokedata table in the DB.
-# For the flex plot
-
-
-def smalldataprep(therows, xparam, yparam1, yparam2):
-    df = pd.DataFrame()
-    if yparam2 == 'None':
-        yparam2 = 'power'
-    df[xparam] = []
-    df[yparam1] = []
-    df[yparam2] = []
-    df['distance'] = []
-    df['spm'] = []
-    for workout in therows:
-        f1 = workout.csvfilename
-
-        try:
-            rowdata = dataprep(rrdata(csvfile=f1).df)
-
-            rowdata = pd.DataFrame({xparam: rowdata[xparam],
-                                    yparam1: rowdata[yparam1],
-                                    yparam2: rowdata[yparam2],
-                                    'distance': rowdata['distance'],
-                                    'spm': rowdata['spm'],
-                                    }
-                                   )
-            if workout.forceunit == 'lbs':
-                try:
-                    rowdata['peakforce'] *= lbstoN
-                except KeyError:
-                    pass
-
-                try:
-                    rowdata['averageforce'] *= lbstoN
-                except KeyError:
-                    pass
-
-            df = pd.concat([df, rowdata], ignore_index=True)
-        except IOError:
-            try:
-                rowdata = dataprep(rrdata(csvfile=f1 + '.gz').df)
-                rowdata = pd.DataFrame({xparam: rowdata[xparam],
-                                        yparam1: rowdata[yparam1],
-                                        yparam2: rowdata[yparam2],
-                                        'distance': rowdata['distance'],
-                                        'spm': rowdata['spm'],
-                                        }
-                                       )
-                if workout.forceunit == 'lbs':
-                    try:
-                        rowdata['peakforce'] *= lbstoN
-                    except KeyError:
-                        pass
-
-                    try:
-                        rowdata['averageforce'] *= lbstoN
-                    except KeyError:
-                        pass
-                df = pd.concat([df, rowdata], ignore_index=True)
-            except IOError:
-                pass
-
-    return df

 # data fusion

--- a/rowers/tests/test_unit_tests.py
+++ b/rowers/tests/test_unit_tests.py
@@ -76,6 +76,15 @@ class DataPrepTests(TestCase):
        wmax = dataprep.check_marker(workouts[0])
        self.assertTrue(wmax.rankingpiece)

+    def test_workouttype_fromfit(self):
+        filename = 'rowers/tests/testdata/3x250m.fit'
+        res = dataprep.get_workouttype_from_fit(filename)
+        self.assertEqual(res,'Workout')
+
+    def test_workouttype_fromtcx(self):
+        filename = 'rowers/tests/testdata/crewnerddata.tcx'
+        res = dataprep.get_workouttype_from_tcx(filename)
+        self.assertEqual(res,'water')


 class InteractivePlotTests(TestCase):