From 57a18fbf9eec498d4dc73d1c5088d2cfb5c9d970 Mon Sep 17 00:00:00 2001
From: MuslemRahimi <moslem_rahimi@hotmail.de>
Date: Tue, 8 Oct 2024 10:59:25 +0200
Subject: [PATCH] bugfixing

---
 app/cron_ai_score.py                          |  27 +++++----
 app/cron_options_gex.py                       |   2 +-
 .../__pycache__/score_model.cpython-310.pyc   | Bin 4363 -> 8601 bytes
 app/ml_models/score_model.py                  |  54 +++---------------
 .../feature_engineering.cpython-310.pyc       | Bin 6863 -> 6308 bytes
 app/utils/feature_engineering.py              |  27 ---------
 6 files changed, 24 insertions(+), 86 deletions(-)

diff --git a/app/cron_ai_score.py b/app/cron_ai_score.py
index 565c358..d8007b6 100644
--- a/app/cron_ai_score.py
+++ b/app/cron_ai_score.py
@@ -80,7 +80,7 @@ def top_uncorrelated_features(df, target_col='Target', top_n=10, threshold=0.75)
             selected_features.append(feature)
     return selected_features
 
-async def download_data(ticker, con, start_date, end_date, skip_downloading):
+async def download_data(ticker, con, start_date, end_date, skip_downloading, save_data):
 
     file_path = f"ml_models/training_data/ai-score/{ticker}.json"
 
@@ -200,6 +200,7 @@ async def download_data(ticker, con, start_date, end_date, skip_downloading):
                 'operatingCashFlow','cashAndCashEquivalents', 'totalEquity','otherCurrentLiabilities', 'totalCurrentLiabilities', 'totalDebt',
                 'totalLiabilitiesAndStockholdersEquity', 'totalStockholdersEquity', 'totalInvestments','totalAssets',
             ]
+            
 
             # Function to compute combinations within a group
             def compute_column_ratios(columns, df, new_columns):
@@ -240,7 +241,7 @@ async def download_data(ticker, con, start_date, end_date, skip_downloading):
             df_copy = df_combined.copy().map(lambda x: round(x, 2) if isinstance(x, float) else x)
 
             # Save to a file if there are rows in the DataFrame
-            if not df_copy.empty:
+            if not df_copy.empty and save_data == True:
                 with open(file_path, 'wb') as file:
                     file.write(orjson.dumps(df_copy.to_dict(orient='records')))
 
@@ -251,7 +252,7 @@ async def download_data(ticker, con, start_date, end_date, skip_downloading):
             pass
 
 
-async def chunked_gather(tickers, con, skip_downloading, chunk_size):
+async def chunked_gather(tickers, con, skip_downloading, save_data, chunk_size):
     test_size = 0.2
     start_date = datetime(1995, 1, 1).strftime("%Y-%m-%d")
     end_date = datetime.today().strftime("%Y-%m-%d")
@@ -267,7 +268,7 @@ async def chunked_gather(tickers, con, skip_downloading, chunk_size):
     for chunk in tqdm(chunks(tickers, chunk_size)):
         # Create tasks for each chunk
         print(f"chunk size: {len(chunk)}")
-        tasks = [download_data(ticker, con, start_date, end_date, skip_downloading) for ticker in chunk]
+        tasks = [download_data(ticker, con, start_date, end_date, skip_downloading, save_data) for ticker in chunk]
         # Await the results for the current chunk
         chunk_results = await asyncio.gather(*tasks)
         
@@ -309,18 +310,18 @@ async def chunked_gather(tickers, con, skip_downloading, chunk_size):
         print(f'Overall Evaluation Metrics: {data}')
 
         
-async def warm_start_training(tickers, con, skip_downloading):
+async def warm_start_training(tickers, con, skip_downloading, save_data):
     
-    dfs = await chunked_gather(tickers, con, skip_downloading, chunk_size=100)
+    dfs = await chunked_gather(tickers, con, skip_downloading, save_data, chunk_size=100)
 
 
-async def fine_tune_and_evaluate(ticker, con, start_date, end_date, test_size, skip_downloading):
+async def fine_tune_and_evaluate(ticker, con, start_date, end_date, test_size, skip_downloading, save_data):
     try:
         df_train = pd.DataFrame()
         df_test_dict = {}  # Store test data for each ticker
         all_test_data = []  # Store all test data for overall evaluation
 
-        df = await download_data(ticker, con, start_date, end_date, skip_downloading)
+        df = await download_data(ticker, con, start_date, end_date, skip_downloading, save_data)
         split_size = int(len(df) * (1 - test_size))
         df_train = df.iloc[:split_size]
         df_test = df.iloc[split_size:]
@@ -345,22 +346,24 @@ async def fine_tune_and_evaluate(ticker, con, start_date, end_date, test_size, s
         # Save the evaluation data to a JSON file
             await save_json(ticker, data)
             print(f"Saved results for {ticker}")
-    except:
+    except Exception as e:
+        print(e)
         pass
 
 async def run():
     train_mode = False  # Set this to False for fine-tuning and evaluation
     skip_downloading = False
+    save_data = train_mode
     con = sqlite3.connect('stocks.db')
     cursor = con.cursor()
     cursor.execute("PRAGMA journal_mode = wal")
     
     if train_mode:
         # Warm start training
-        warm_start_symbols = list(set(['APO','UNM','CVS','SAVE','SIRI','EA','TTWO','NTDOY','GRC','ODP','IMAX','YUM','UPS','FI','DE','MDT','INFY','ICE','SNY','HON','BSX','C','ADP','CB','LOW','PFE','RTX','DIS','MS','BHP','BAC','PG','BABA','ACN','TMO','LLY','XOM','JPM','UNH','COST','HD','ASML','BRK-A','BRK-B','CAT','TT','SAP','APH','CVS','NOG','DVN','COP','OXY','MRO','MU','AVGO','INTC','LRCX','PLD','AMT','JNJ','ACN','TSM','V','ORCL','MA','BAC','BA','NFLX','ADBE','IBM','GME','NKE','ANGO','PNW','SHEL','XOM','WMT','BUD','AMZN','PEP','AMD','NVDA','AWR','TM','AAPL','GOOGL','META','MSFT','LMT','TSLA','DOV','PG','KO']))
+        warm_start_symbols = list(set(['CB','LOW','PFE','RTX','DIS','MS','BHP','BAC','PG','BABA','ACN','TMO','LLY','XOM','JPM','UNH','COST','HD','ASML','BRK-A','BRK-B','CAT','TT','SAP','APH','CVS','NOG','DVN','COP','OXY','MRO','MU','AVGO','INTC','LRCX','PLD','AMT','JNJ','ACN','TSM','V','ORCL','MA','BAC','BA','NFLX','ADBE','IBM','GME','NKE','ANGO','PNW','SHEL','XOM','WMT','BUD','AMZN','PEP','AMD','NVDA','AWR','TM','AAPL','GOOGL','META','MSFT','LMT','TSLA','DOV','PG','KO']))
 
         print(f'Warm Start Training: Total Tickers {len(warm_start_symbols)}')
-        await warm_start_training(warm_start_symbols, con, skip_downloading)
+        await warm_start_training(warm_start_symbols, con, skip_downloading, save_data)
     else:
         start_date = datetime(1995, 1, 1).strftime("%Y-%m-%d")
         end_date = datetime.today().strftime("%Y-%m-%d")
@@ -374,7 +377,7 @@ async def run():
         """)
         stock_symbols = [row[0] for row in cursor.fetchall()]
         for ticker in tqdm(stock_symbols):
-            await fine_tune_and_evaluate(ticker, con, start_date, end_date, test_size, skip_downloading)
+            await fine_tune_and_evaluate(ticker, con, start_date, end_date, test_size, skip_downloading, save_data)
     
 
     con.close()
diff --git a/app/cron_options_gex.py b/app/cron_options_gex.py
index 4383e8f..f44274e 100644
--- a/app/cron_options_gex.py
+++ b/app/cron_options_gex.py
@@ -367,7 +367,7 @@ etf_cursor.execute("PRAGMA journal_mode = wal")
 etf_cursor.execute("SELECT DISTINCT symbol FROM etfs")
 etf_symbols = [row[0] for row in etf_cursor.fetchall()]
 
-total_symbols = ['SPY'] #stock_symbols + etf_symbols
+total_symbols = stock_symbols + etf_symbols
 
 query_template = """
     SELECT date, close,change_percent
diff --git a/app/ml_models/__pycache__/score_model.cpython-310.pyc b/app/ml_models/__pycache__/score_model.cpython-310.pyc
index f11a41b61c63b681e062e2245b556042e16a5468..4bca0ec25617bfb740e6f33aa7f501bd3a14b023 100644
GIT binary patch
literal 8601
zcmb_hTZ|;vS+09mS6`;5=f2nW`jRwqX0pU2*2d1Pv(6gO?s(Y?cG|H@HGOJkx~Fe@
z>h!L+sRpAlSO^w7krE)bQBOd?O7Mmd@WLAs61)IH;wS>7Ak4fV5Ik+1nD0MTJ(u2b
z9uU>)zs~v3rB0pm|KI<eQ{6(r({Pzv*5)5Rt!dw*%;C#I<|6*lKS3~!=`F3MtGiJ%
zaW`64+pgJdr{=UXwM^Tsx$SH%t5aRG<+XFQoJw1*e7jI9sI=WGwu`l*O6#qu+LY?A
z)Sj+Qr@C@`rZ%I}PHVP3SDS0k*XGl*h4!MM=~{cKwv=j4)J~`#PS#GU`>EQgmo%1P
z?pqpj!?_)^b{hFC^N{z#>E;<|&O(!8d1&%GMy<m18(Ounhj-N0s<xc!@vz>A8r_Z`
z)w?{DdE|puE6uqZ=hIYyck6!8ucz5!P_OrSP`{VttGdizZFH^%Z`?rZkRxwiyYvEX
zmblH@RYPW83`7uxLVA?A(hXS1>okhPmx;_p{G+EJLN)(2gSpIL=36>e!D9AXTFqh(
z%iwOScgf1arG6y3?eqa_b?Rk&QJVgj@Q;=ugf`M+eOHe)--r#S^>to`&WsJEvzT@R
zD~eK;dZ5!J*`mwqTQYaK)eXeWuoHE;)L)g}m2PKqoV`~yr4@y(4PL@icp2h>#%FPR
z_}t1?w;isud9c-JH&!s#`gSJ__{w@v-wr!$CFu25+AY7`Wnn8?QR|RomV5W4>-&vP
zL-_tQ`ijU(^ZGe`Fn{Ewm&cXrIx37WN*nmAmnZ8Nc(JCw0~6o{WU(w}E9|HdKhXIM
zRBFVDm_t@(d>=J@pECbVeR=v|Zt~HpMx9E>7p3>7{nN<cxtLZ=_7sgE)|Zrq?i<Dp
zH7ZK)k4w#;8dud&<C12By)iksobPXjq9MYz?=RvZkptoBvpNR3G&#uqn#rp>G_jqa
z9s0iXe46fli_&@Dzuga7NeQ1vhkS{|DH61thXhRu&qL6XM=pem$GcYERN6WeM=qKX
zx}ql_#^(LDwxKhf8E?5TaF{q5_}iKV^M<3^(tL4k?UAV^>!Qx0UxpBxfHm(JBV!k6
zA<U75za68~T>~j+mvk8h`^MdcmhSK!W*#ZG(sDB`H<^8;+)2yrwA^NyU1PTZPsx(c
zRNb{bJYM_obL#rL)x9?{w#{$<7F~a}x_1$|50l)Vt?rS1R6S`&{a(m<1vxd<(&%)g
zcO$&r4?Cg}w4`&TL7pP5>*1AKz!2W;b^Ai*z8r}9)>@ah&oi0ngyL?OZ;ve{+vxQA
z!e@>416^i)zupR>$oCJ7T0QCvo*B`Di@F7Sada0y&zQV>|2fEG1rGe{6Rn*5E7nFD
zfy>yAbxx2o9+>`!0cSS4{BFS6=TM8EfEeWHVX3z2@Y7U4L*-{lD08IBvXH)4Jp@*#
z@20Htvs6zRW(6r~ue`zqYLw>GOdo5O7pdY+h_P8Jlhh7OlG)5rn5&{q%}Jt6EtABS
zn#&5Ti1KXcjdHshn_{K6v>m;cXVb8avMk=9=yHvRtWhU4orEbHkG@1>_%4Ldb}*H`
zE({vQeZp!}SR-3lO=pzZ)%XlEJ352KqU1n(hS|_M(7F3HpA%V@Q8|yfyZU?D2gZ($
zXiBYe&AeY=PMRuqEY!`aQhNFn^B_xrtI~UjpdT2>O{clM%9X`TbCxuio5FnqzBe9U
zofR<>K%GCw(1SnE(9&N}eo|iB+)&qltWwnM`1NkP*X_XIBWcz9ERbfs*S~prkh>K%
zI-8Z3uHCv&;WS@^Y@)ez?bhJLLA<ydHa53Jv=THvqe91^w8A<aKUFXH#MWS81!2C2
z2p&d=U4A425ia+(TNr>FzR`$;-`(bq;}Lrmh{pfmX`3HC_^-dcx_)i7y2vw7N+(j0
zofFJSvsVvzQK?yYr%@027buf&M1F85XtaX$Rwy(5DD;DNPue}+=m<Fl2=<fe3VEfQ
z2Ea(#cyYLXfrTREZN$4sH0m<D9(L+m?SOAfTLnj%RX6xHmveBOHoXcLNwD;Lf!LDM
zN8VJajBX^|cCZcG<B{~%2|N6#F$kp-_PX`0NETWEnGR;#=a?Bzv1AhF$@S<RqjM0h
zp4U&96ldn~&+D$?06B{ImCRYwq4=|K)ZmW?5Q^qBpUU!o4GCf=_!|TwLTj41n?urA
zq#45AoA$`rPiGFLZIoqVy$OV00$Y9G92z1EoyW`_<DIFYDRQHHY{Wo)U3&$=*urne
z)B#vGwDVfDdKZ2{zpvs?x~jFdM`l+w`4@5H&yiSxkjCBhY5`b{mA$(af;8G-kev-_
zb^^dRgfF^&r{7lXWMKpBMev{#0oU598vy@S&<my2?SX#$6!q!!8ue`$jm7%yUe!v-
z2*p)dKC+_9cBQ^Cu|9I{pcXx>(eW90=5=%sQRq(ADX&|W1)O(&P_&D>_pxP`eqfn{
zCnnbF*sdN4!uyc*Ec*YyE!;Rxxcq0(2dB~U8zcyc`7IJO^)h>O`qF@sFwFx_LZ~li
z4-Y<sXVWwg<STwMo`%8WKjM}5TO9^z6J6|^Dh)K@l1ztj6=0$UC^VU<aoDsvE(~k_
zh+!GbAnxZ|Am64+*+^N${i^nwH2C_2wIK?=ipMD{;a^2cTA<<Vpcd?NhAMoG#A_rb
zrex8l2L8dsj3Kar$`SFmB7FGN$DRT5rVl<fF*Tpmx=sc#z9{-<@mHSwuSmf2;LF6w
zm_7s>dr^CR{cFb18D?UqiCEG!X;*U}nmBVLpNYZXs2%Fq{Dx2w@0~K`K`y|;hAzC=
zjWavOF#E`4KYwJht&tmNclA+L^=FMdct5;6wkSsHTBm$mpK&&=Z;m|G&W0wx3-lY>
zx3jS=3Nf}2CuzZ~H5Hg{f@tMC*g~$iu(bh<R*U>H<^UTf@<eGM;y+LM>>%V_f0JYR
zRw-{%bZ~<{c0@rWfC?01lCVIu2pcL9_N3GA!H5A3#Ps<B8dkkzQ;<(Qot8J`GF#`U
z!LgT>*=|o@uZ71Y4&;fh2wGUlD3Y01eH8*^=H55~P6^70_)8Tg%_pDYiHa3HJU#j}
zga_J~H%fX*fxoB1z^NY=ElMSZ<myEuZwyXOno}}n)!UJ+DuvS={>p^D4c{BHNx;6|
z1f5^f0OA1f9UZ==HOKVFX=X+)D3`u%@uxvy43TO;Tg(qo8^i>pjLaz|Odc)g&=Q4a
zk+h?!T{5;3vtW)CMyC0fMR_!{tAWI5Lr2WUdThYlGGZ>ypnM*L$5u~S02%vP=Aa&E
z;eC7PqR++VQfw1FBx-oy8fL`_R@l*po;WE^q4nt<m=E0Hl_AD7Is;R-VjG5S4f8Ox
zvvFRTXg>C~HU7JC9_=b<WecyF+cEgpDcyW*bPl7lC{3wh0dDemoQn&w%Ex(De4k36
zpkNp0n7#l?I*+50ZG-<M=BSkDFhfM?PUBuio0<14HXGZ`Cs_s|bPoUd_pA?Gn!(#$
zv|32WAq;<UjlYbg8aN3f8#qMMqQ~F|MvLFvqqwd-<AKGmAT2Y|R)1pyw(a#0nc88y
z%kRk?LZnYSmk_kX1nc<_RdM~x>K;K09Vigpk<LayoLRbHGYv4J5S!u7M%9wGG9p<@
zNRf(+phk5eXZOuN;d)BT@1WB?0;)mgE5v&$uRYXP2HDr2u3UlHU#L7Zm!H`fILKZH
z<Ge=|&E?N;3>IDi)2b+@RZ)+sM8TbqEmxo7ucH!wg+ztK1_|<X<^GBwro=F%ef4g?
zBltzCK~5y|bZB!e;5cy#Te5VCV<2Bajc)HAjY-<-MWpot3)+}FRBRJNjQARLK^Vff
zs2}eoU`lfIq_*Ci97#<*{}PqwTVTEQt&lePTuxs{q8?tk{&MG93&;}mrM*FCJDea~
z+TbdiA-_sp+$GT>tw$UOlR)$DU>eYq^bXCrMU%pRlB(v_K!J1JelG$RQg|ZRNzf3m
zqY{csaRL;6n}mw=g#;ZaXydSqcd2FeVB}!L2<Zx?XzQ<*ROSw?|0H<L9Ae3;YoId`
z&FH5g2&>9Q5hS(<6r0z}KrTZ!fNUg7y7T>6*EPyWAut-2{zO{hP@Rt~+xmVf^Neo1
z36wiGfpW(@_6XQf)TM2O0=s8Zu!AE5*pl-(q7*+8>MA0Ocm@DSLCt9r#O3j~uxB&~
z-l$Y$n;u}}0;QY9(Nt^^?I4KhxTHI*L60Sj!4}g^L`IYW0&$;Z)+~06DpqUFIbIX<
zBLJTQ$BbA^!O;~<fHJLl0;iLX0>_g8#}3P&p3AZT$E-NTJOzDchZy<jbc|>kBmM*W
za<QjCDhH5q0aD)-XBZ%mbO5IU;Hn5HvJ@2ELD|$k6qOPvq7d8;da#W;P@>!6Z)0}(
zlO*1NxXA~UBu2-74r1@eDfJY@VCFK;SUw~AwEw9nM5(+s$giCL>^?B?U!{7bt8_kD
z*+^@Lta_HOQ!hS=3W-nhe@-T+Jf7dDR6v4Uh5rVL--M7;iliMl6#sQ9dWXcjB)(4K
zsN3^zkd91g!r%F~NT+=FB2v|S!Vupl?FS^(HpT-W)VF(G>`f=!kpDJSBIo1#ZZ_#z
zQ#27irY%gipMQ$l(K8UP;hANVHiIN*^^)NlCyw#0yi4riMB+bZCj4ij^CP}P=aDY{
z%6I-42U4&)?C1I#f1JFByyy|%(S+T^$q06c<R3cu2ekq}gtsLAfVSEFou!s=KanG@
z2am|ZQnhA*ndk>z1j~M&S+H!J3L(Thn;Lj6C<Gsh=}~!Cd*{axb{z!yvtX+(_ObL-
zlV$K+_y~9`&SKyXc5^1qD(^7h5t-3!?2YDjwbA^p^3dB?AK|xm5A)m3x&Mb}{DN2*
zEy4$N_+XA<9)Ag695yf~pd)$aZQG+IaRQ|UaT2_{02)*TjY(2d;&hrSi8E<xTAWQ&
zWl>={@mO4B`B|KWksqgYtip=WPaUJ5g1&T&z6AaBG5Trf%a7>KVdUi{JaafBD&q0c
z6Eq?=^FGdi2{$mV*?4Ar7Pbkh^BsLSi~Bt8bD(_l;>mb6p4&07f<^3F7KV%QOuVpd
zzpL{v#*0IIq3Rg#>bI8<-U6xgJ&{V^0I77$NTs8U=h?#hPC}u62S%)L>JU0%H+O~9
zLlQqvqE6yv2%J`#IMwBEB0VVGL?o<S8-KmJP}yTpKh&QbOsSF=((h9jDg*EG`HFHc
zq}}W4^A=Ls>n~rbym0FhT7HZR-$EP&W^_t->=oJI^c8GMDwG7L0;D3@T@Th9t%kUF
zp;GnI!|lD*O*|Rbzpthzd;hk&nVf=uZ&eL;^Kbr|uJ5j<E&g#_@gG(>9VaPR#-8R^
zklrH-vPbT{NAYpbf#APLf&hHaq!ht+G9&nkG5!!IvlwaeDUU1usj3o@q<s|*UqRO{
zQ$vN>6-sT8P;`y<9*0o*_b5xSF0JrR(3*tUFHkY@ssjeb8&o?JbvHyictbk)q=heA
z{8`f4;JLkf>WD)+cYyHqZB&TFJ)8i6$qEh#)3`(8=)e_G1RVouWc-`dmC<7|OPujC
zF+ph#8olaL!mk|gE36*>BkG6no&P?y$dghXg3!muoXU;&i}an7)->V~)$ddN!oeap
z!bp}>g996g<XrMS;k;^@SOZlouQxgYPb?=fmq-@Jjgw`O1(n}luq3<xg>_n$9{K!Q
zPE<#}yw2ithEN8YJVuQ}dSZ)*(N?#`B08zXa!346=zX&L1=7Y+_QT0IR-_f~g9RsH
z?4QvnB2)8B7ePyrKROrLCx)PfA6XeX<8&1<q!4F(bn0W{O*cbCk@6lk#yDRy)n*vF
zMPpG<etBb-$R_%>Ks{*_jo%MFdtB4dori<d6T$H42-m8GW50{MjzK3}L|M3s{@)?p
zACMpm$ETw7^x^MGb#P3iQgnRAe*)t3_(!C2anS3Ybf;a%&A6xBr=3p~bycJK7|tt$
z4htgw7u4#{Nzf6VoQiOWiL>No>{EE79woM|Tv6FJ`J*y*IXA8e<4TX_LBNu;_Wd#z
zs;>i4Ls2?H1+_&<-o{m*rI$OMWG|IVvTDbqcoU45zFRN%MWYoh)0TqM?oV+g*rqC@
z4-U&Xg;CoywU<iI*l>Ija@r&)=a&x1AMKqgq@hVVZuX@6T(U9x67kIBq#RRt3a4xI
Vqf>Kyg@R4dw>DUhQ7)91{ukK2Y(D@1

literal 4363
zcmaJ_+ix6K8K29}?Ck8tYsYr(>5@yEt%$9NdkA$Bmj=<s4RImqsA!noGrJypE}Jvs
zBsOaa$>o8Eh^Ib4spKGD^1r|fNJt#@0jUzOFG#2o4^c(=eP?EU!(~SM-Ola%zVn^$
ze6vZtZYy}2AM5>_(~9y5G5a4K%nkffQ&kkEFf~*h6<7<kNOQDEcXTzEmmC9fJv5`T
zQ<kz)XhjvL64{O|c_XYwHK!(NGpt7qry=QbI1x3SrlhTKGMaLxBwY!QMbpl7G~>)f
zv(9XE+&Lbda8AfJJ3JYka!y63ozs%9hG(L)&RI#T;W_6e=u!(?QOjvbSv~wxbly2%
zv|n&8NLwyC7bU*rT$1=@=VggsabA)5vUB;i!WwMieT7YIYfhV~%SyXBA`dOKHDNI?
z^RpoGMTH>q!^~@|qW<9at;Ntw)1Vjl9Q~%2Gq1ZA#Qi;~n7!x4EQ#JoxSwWwatxn-
zbIA|-E1iU=2juo`Zyj@b@zO2y(wBd<2sHIp(ht%s=-%`Dm?;gCxNV4u0r$HBF>cz$
z3Ze$y3&Vo5dRGgo&Xca|t#=Ey;dQ&~-0N=SJXEjU3F156lVyzdxoE(Un0cJ#JgISa
z@g`6yd&nZ-D)W2ZdYG}Gn{~-e`yUO=4gAvU0KN<)M`J3}-d7x*>8u1?Vg@sT4OV6r
zu*oXS1}?KIs{vcAjxA_F6SC_r_i3escM+bu578EWi}<C#1IUzZWvIAnCRcl^g4VMV
ztw^f@Vy&kpq(()_OerU6<!K4Ba%M4`R)4C2t7JB-vxc0bn$_gI^$a00R920i#+txo
z;7Q;L@Dy+r_!w}#r}d3&Vq3x7(@%BG)?_n)lT3k4vrGM+eEzurN7iDun?!>o_Twxa
zF&HtTliL66`M>^nr*n5<^eQ-E^#|+j3iiKk(g;LS5P5J%Dk_op#AW^<TM_lp_jrux
zb2-8lp&$d#O*7)m*j-IJsi<b$_ua_PRua}O@za={pCNFLz)Jw{2%UF&2#M-|CmpX7
zgh93;%r&3KemFAFgZ4jm<8kl`{Yk$gG~N?>`lu`PwKx`9+-d8=-lyn9FNnQxPj$K0
z=6n>oQGx@N&OfI4vUJ`HuE<!PhvM=uxkby|U@dG<@kwYP%v1&{pCU#dbUj`ossc^&
z`M62E#d`%?k<HMr;LDPSss&GRB&>Kmn#|<15yFt_iJ8Y9kI0ui%SX5aFI%A#k@{ip
zxx&AJ&M&UduOyK_A8~IbhyqxUbk}0+%6tc=_%WOJ27`SjOFQ%F<^~(Wa@`;fGS@wY
zxzg7FEVZU;x~A^E)(g$TTS%<W8s(a5salDI7AVj!z^K;0?fT~NgNJ8sJb#x?==dR;
z%%xNG={Er~Wk<zN8>-KMS9M^0izFqIY~fU`8aw7LUC!xc<+-}lwy^U9VLV>(k&Fyv
zrWjEXd$F(q+$?e9^@v}=BBI`dr5R#0?Ik?obC5mP_}8gPeIUJ=1JX#$AkQHhyGVRA
zCWu{RWbaKheM%cQtJ-i>P2IeB$lxP~eWCUI8s_5P254KHau@#&0on+@K;Q-eseR?3
z=KL15PzdZ(dV2rrI0;hcA5fp~0&HIRKe~>4cj;apKNR7+>F#G>hRTkTZ$qZ8YCA|Y
ztEFcuznmFFF?Cz}Wn)Xv%$@R3e@4mBx{o`&gm)Xad2C%((hHAORiXD?{4mPesSMSj
z_DoZeAa`t%6tijDxwOjkZH$qrth9t<kE8#%vw8eJ&PPk0kCr?!t<-zuv$=MSzYbM}
zmZYLYM@E?b6C|>fe~rYYWZ=ib90c99&=;jJ@fiOqHRuQrQDW;6qG`Z`ID1~ogQNT)
zj{s5LC<wK8*z?Es9ab4GNQ(C{YuW^`)rNe}eBRJzDQM0g+K3|tfAK!NhZ*<p13ZSy
zr|`UvBa?gH_#e-oIpleHqzccMnYQa=eTjb$Yiu^}P?~HZi~3ix_1I^KQSvOmLx7yg
zmk7K~fLzG$61YcTnZTjwq<rkVG*g~{eu6$}4IuXqyraW6=MMSi(4Yf;p~OsSRbIzE
zT+VxbfmhT#p={|x9W|Hob9kwzom93;!xGchj2&FmNG=AVO&c29+LoD_1y#<<1!ZMc
zK~=I!LD{&d^{hI?MLw-;s~;-N_((=5<R;|hBjjbsts~?X<dq}j70B(wa_DVC|0>q0
z4yzw3AIUxIqaOXOx>W<N1J{|d)yQhY+OWQ@y{`PY_MWyivDF+_hZAcC|6thMLTwzY
z4}Y<zDX790P=%JD3cWxTnhYDP@f#Bb#l+HxDxtsQhv%;go6UESKU%1n^3w2HiyueB
z3-!|GglxH46o1!RoAw)5TXKs*TlZw`2&!`L?Zwv3A1+>NjXuY-dG;+26C#~a5r$$D
z<Zfkft<|>szy1|HqlLayLHWl*QR4h<q5l>6e6qkDwDte+dwM=zC`SBc-0{!jj(=L<
zWK7%UCxAwDZI3AFjVQ84bgA=;L{TyvQFa{B{l(t}Ky74=>snEPwz>JdP8}$+c>_Qg
zDOHs1I=@XKnQZEXX|A+On6P$Z;0qmThgYfB1c8I|$de@uo~*}A=$pZyJ((vc6A23b
z7bfx(;U+=MJa%3xX1esz;9kv_lLc1br(&vu3W;wV=-L<$&TSEO$?sa3v%6LPq-;I#
z2{4t54pjfsSbo1oQV(HgEBLTjNkW!Vc}3qVyhjeJ>^2DFkr%G}hf_(zCo!tbJd><o
zkgQ(lQf?yG+PaMkn%)!I2{nH$t)WuIQqrbSvy|{^|FMm6KTS1XY@R)odk(I$)UHs$
z6nl~Hy25s8?e&o8n(IDX_rkn|e~Y$GCQ7;AbPeza1b#|jFDXijiVZ#ka1y_i!o@-j
zW?i*Ryp@_I+uE<<!lKWkRA>XnW&BYj3IoN>U_(|8qKry3NzyE@OPeXKHx%b{ew_MI
z2cKB7z?3!W<hX6Opym|o;@Ga-3m*Ay$J@Y$&`}W8aZCCr;<B)v9!o+bb&u!!kk_vh
z<0jPnJm{u*K+EGG1DcGK@hxV?JrS!#v4wk+)18?Y-Mbx_FTYvRfRaI8gIgh0@BL0B
z^swLI$E2R!Bn*9-F;b3y9TZXa(v7$qBp`xhCCdglu|d)cLYPLk7rrm?ea*j5OVTzR
mwLikTo^SPQlqk|K16WEEK}5kuRUo}*Bn_EH<?-G-rT-V|L!J--

diff --git a/app/ml_models/score_model.py b/app/ml_models/score_model.py
index d90bc67..50731ce 100644
--- a/app/ml_models/score_model.py
+++ b/app/ml_models/score_model.py
@@ -1,14 +1,8 @@
 import pandas as pd
 from datetime import datetime, timedelta
 import numpy as np
-from xgboost import XGBClassifier
-from sklearn.ensemble import StackingClassifier, RandomForestClassifier
-from sklearn.neighbors import KNeighborsClassifier
-from sklearn.naive_bayes import GaussianNB
-from sklearn.svm import SVC
-from sklearn.linear_model import LogisticRegression
 from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score, accuracy_score
-from sklearn.preprocessing import MinMaxScaler, StandardScaler
+from sklearn.preprocessing import MinMaxScaler
 from sklearn.decomposition import PCA
 import lightgbm as lgb
 
@@ -24,52 +18,19 @@ import os
 
 class ScorePredictor:
     def __init__(self):
-        self.scaler = StandardScaler()
+        self.scaler = MinMaxScaler()
         self.pca = PCA(n_components=0.95)
 
         # Define base models
-        self.xgb_model = XGBClassifier(
-            n_estimators=100,
-            max_depth=10,
-            learning_rate=0.001,
-            random_state=42,
-            n_jobs=10,
-            tree_method='gpu_hist',
-        )
-        '''
         self.lgb_model = lgb.LGBMClassifier(
-            n_estimators=100,
+            n_estimators=2000,
             learning_rate=0.001,
-            max_depth=10,
+            max_depth=5,
+            num_leaves=2**5-1,
             n_jobs=10
         )
-        '''
-        self.rf_model = RandomForestClassifier(
-            n_estimators=100,
-            max_depth=10,
-            random_state=42,
-            n_jobs=10
-        )
-
-        self.svc_model = SVC(probability=True, kernel='rbf')
-        self.knn_model = KNeighborsClassifier(n_neighbors=5)
-        self.nb_model = GaussianNB()
     
 
-        # Stacking ensemble (XGBoost + LightGBM) with Logistic Regression as meta-learner
-        self.model = StackingClassifier(
-            estimators=[
-                ('xgb', self.xgb_model),
-                #('lgb', self.lgb_model),
-                ('rf', self.rf_model),
-                ('svc', self.svc_model),
-                ('knn', self.knn_model),
-                ('nb', self.nb_model)
-            ],
-            final_estimator=LogisticRegression(),
-            n_jobs=10
-        )
-
         self.warm_start_model_path = 'ml_models/weights/ai-score/stacking_weights.pkl'
 
     def preprocess_train_data(self, X):
@@ -87,8 +48,8 @@ class ScorePredictor:
     def warm_start_training(self, X_train, y_train):
         X_train = self.preprocess_train_data(X_train)
         if os.path.exists(self.warm_start_model_path):
-            with open(self.warm_start_model_path, 'rb') as f:
-                self.model = pickle.load(f)
+            os.remove(self.warm_start_model_path)
+        
         self.model.fit(X_train, y_train)
         pickle.dump(self.model, open(self.warm_start_model_path, 'wb'))
         print("Warm start model saved.")
@@ -121,6 +82,7 @@ class ScorePredictor:
         print(f"ROC AUC: {round(test_roc_auc_score * 100)}%")
 
         last_prediction_prob = class_1_probabilities[-1]
+        print(pd.DataFrame({'y_test': y_test, 'y_pred': binary_predictions}))
         print(f"Last prediction probability: {last_prediction_prob}")
 
         thresholds = [0.8, 0.75, 0.7, 0.6, 0.5, 0.45, 0.4, 0.35, 0.3, 0]
diff --git a/app/utils/__pycache__/feature_engineering.cpython-310.pyc b/app/utils/__pycache__/feature_engineering.cpython-310.pyc
index c18cfcc9639dce38903bfac6bd0abdfd8d3f09f2..7bd3eeadbdab875289165f7ede8378d148c1c672 100644
GIT binary patch
delta 132
zcmX?ay2Ow#pO=@50SKmwu%xe1-N<*HUy&2YWd~wsATGYe#K2I)uz+D9LoHhkqYJ|X
z#@P7HYyx|j1Pa+|*cR}E#o2-xG^I8Rh#X>O(iE87ArZx1)C$zB$vOF}g#Tn;Nn=K@
c$&Hfk914sa%q&br>n4AZoWi(na;KCV0MyDLxBvhE

delta 673
zcmZ`$O^ee&7=9-+O+W0{cEdK^*0t*=ErNIuK?;i~di3B;&=5M=(rq`XlT<+>J$V$A
zh!+tO@DIpdd-CQ<@FENzy!s2gS>I{5ySX^<PVzqQ^E~q;^XdAx8)dIlDgdtFCmmet
zelGv0?5aMGbqC8g89)dzB=AxX$z6Cu9=|=(t8*>NZB%BJ5W-9Y5)$fsJIsE7k6I7u
zq1J$ypd=sW4>Dnvv)3ffCxEQx3F~xHSWa5&$y5E<p_)L9g{re@*JEs_2eUwni=6Uv
z_@um@5CfW^-qC<IR1nrcBq6-L3C1esZcj0a{QUoUynX7&skwH<j|zcbNIBjHb7gvQ
zneXICQ)Rw{81Bm$C~d0lvclqx<<Ha~Lg&iS_u3aaleLK$_8se)H=Z6kR^JoCk|p5;
zQ{noSKXRU@+R;=5)>>ir`_9-Ab};l@X{;4#^fz80h#GFPG_l2K==z?kP8uMD>(`#V
z$-If<%Id%thqh~t#<uS(hCH*1C2V)#$V#fQCjFpOi{5WN+LTPim5dMf_r)tT>=dFu
zTMsmujrQudh#S4A-@m#;%B(<&e~X!I(jo>m2%}w+TQJ%pU7{^=3qv<ZjxtTmqp$UM
KWF9>+@BITWueV$P

diff --git a/app/utils/feature_engineering.py b/app/utils/feature_engineering.py
index e8f20b5..c3eea7a 100644
--- a/app/utils/feature_engineering.py
+++ b/app/utils/feature_engineering.py
@@ -177,33 +177,6 @@ def generate_statistical_features(df, windows=[20,50,200], price_col='close',
         df_features[f'volume_skew_{window}'] = df[volume_col].rolling(window=window).skew()
         df_features[f'volume_kurt_{window}'] = df[volume_col].rolling(window=window).kurt()
         
-        # Price-volume correlations
-        df_features[f'price_volume_corr_{window}'] = (
-            df[price_col].rolling(window=window)
-            .corr(df[volume_col]))
-        
-        # Higher-order moments of returns
-        returns = df[price_col].pct_change()
-        df_features[f'returns_skew_{window}'] = returns.rolling(window=window).skew()
-        df_features[f'returns_kurt_{window}'] = returns.rolling(window=window).kurt()
-        
-    # Cross-sectional statistics
-    df_features['price_acceleration'] = df[price_col].diff().diff()
-    df_features['returns_acceleration'] = df[price_col].pct_change().diff()
-    
-    # Advanced volatility estimators
-    df_features['parkinson_vol'] = np.sqrt(
-        1/(4*np.log(2)) * (np.log(df[high_col]/df[low_col])**2))
-    
-    df_features['garman_klass_vol'] = np.sqrt(
-        0.5 * np.log(df[high_col]/df[low_col])**2 -
-        (2*np.log(2)-1) * np.log(df[price_col]/df['open'])**2
-    )
-    
-    # Dispersion measures
-    df_features['price_range'] = df[high_col] - df[low_col]
-    df_features['price_range_pct'] = df_features['price_range'] / df[price_col]
-    
     # Clean up any NaN values
     df_features = df_features.dropna()