Statistica Regressione/distribuzione bivariata

eva__88

Nuovo Utente
Registrato
12/6/19
Messaggi
14
Punti reazioni
1
Buonasera ,

scrivo per avere un'aiuto su come affrontare un problema di tipo economico statistico per un progetto universitario che mi è stato sottoposto.
Ho una variabile Y che rappresenta il consumo energetico giornaliero di una macchina e mi interessa stimare il consumo incrementale in funzione della "quantità" di lavoro prodotta.
Utilizzando i dati storici ho provato come prima cosa una regressione, tuttavia dal grafico che ottengo è evidente come siano presenti tre range in cui posso classificare la variabile Y in base a una quantità di lavoro bassa, una media e una alta.
La regressione lineare in questo caso perde di significato, perchè otterrei un valore medio su tre intervalli diversi.
Qualcuno ha suggerimenti? Una regressione multipla o pesata possono avere senso?

Grazie a chi mi saprà dare un suggerimento!;)
 
Mostra il grafico, così non è molto chiaro.

Per i termini che hai utilizzato ("classificare" tre intervalli distinti) ci sarebbe da usare una regressione logistica, ma per la maggior parte dei problemi di regressione una regressione locale è un grimaldello.
 
Buonasera ,

scrivo per avere un'aiuto su come affrontare un problema di tipo economico statistico per un progetto universitario che mi è stato sottoposto.
Ho una variabile Y che rappresenta il consumo energetico giornaliero di una macchina e mi interessa stimare il consumo incrementale in funzione della "quantità" di lavoro prodotta.
Utilizzando i dati storici ho provato come prima cosa una regressione, tuttavia dal grafico che ottengo è evidente come siano presenti tre range in cui posso classificare la variabile Y in base a una quantità di lavoro bassa, una media e una alta.
La regressione lineare in questo caso perde di significato, perchè otterrei un valore medio su tre intervalli diversi.
Qualcuno ha suggerimenti? Una regressione multipla o pesata possono avere senso?

Grazie a chi mi saprà dare un suggerimento!;)

Potresti utilizzare l'interpolazione polinomiale. Penso che nel tuo caso sia ottimale, in quanto non si tratta di trovare il successivo nodo(forecast), ma capire come varia il consumo in funzione della quantità di lavoro. In tal caso puoi avere una approssimazione non lineare di come varia il consumo al variare del moto nei tre differenti scenari che si ripetono.
 
Grazie ad entrambi per le risposte e i suggerimenti.
@Cren scusa l'ignoranza ma cosa intendi per regressione locale? La logistica non si utilizza solo con le dicotomiche? Quello che intuisco è che consumo giornaliero ( funzione di intervalli diversi della quantita di lavoro prodotta) è maggiore in alcuni momenti della giornata ( che posso pensare rappresentino condizioni ostili per l'impiego della macchina considerata).
@ amartya78 l interpolazione polinomiale se non erro non mi porta a stimare un singolo valore come consumo incrementale, o sbaglio?




Grazie ancora!
 
Grazie ad entrambi per le risposte e i suggerimenti.
@Cren scusa l'ignoranza ma cosa intendi per regressione locale? La logistica non si utilizza solo con le dicotomiche? Quello che intuisco è che consumo giornaliero ( funzione di intervalli diversi della quantita di lavoro prodotta) è maggiore in alcuni momenti della giornata ( che posso pensare rappresentino condizioni ostili per l'impiego della macchina considerata).
@ amartya78 l interpolazione polinomiale se non erro non mi porta a stimare un singolo valore come consumo incrementale, o sbaglio?




Grazie ancora!

Supponiamo hai 3 punti che chiaramente non hanno un andamento lineare e supponiamo vorresti conoscere che valori può assumere quella data relazione per esempio tra il punto 1 e 2 o tra 2 e 3. Scartata quindi l approssimazione tramite regressione lineare puoi optare per una approssimazione polinomiale che passa per i tre punti citati che chiaramente non avrà un andamento lineare. In generale questo tipo di approssimazione è migliore di quella lineare per stimare i valori tra range dati, quando ovviamente non presentano un andamento lineare. Nel tuo caso 1,2,3 se invece vuoi conoscere 4 allora non va bene. Nel caso da te posto però mi pare di capire che siamo nelle ipotesi che ti interessa conoscere cosa accade tra 1 e 2 o tra 2 e 3 e quindi in definitiva tra 1 e 3. Se sostituisci a 1,2,3 velocità bassa, media, alta ottieni il modello che stai cercando.

Puoi anche vedere l'interpolazione spline, che altro non è che una interpolazione polinomiale a tratti. Tuttavia questa tecnica mi sembra eccessiva per il tuo caso. Nel senso che alla fine hai solo 3 punti.
 
@Cren scusa l'ignoranza ma cosa intendi per regressione locale? La logistica non si utilizza solo con le dicotomiche? Quello che intuisco è che consumo giornaliero ( funzione di intervalli diversi della quantita di lavoro prodotta) è maggiore in alcuni momenti della giornata ( che posso pensare rappresentino condizioni ostili per l'impiego della macchina considerata).
Il riferimento alla regressione logistica era solo per dirti che il tuo non è un problema di classificazione.

Per quanto riguarda la regressione locale: Local Regression.

Ci sono davvero poche distribuzioni di dati che la LOESS non riesce a spiegare, in casi estremi si può usare il "super smoother" di Friedman.

Comunque ti invito nuovamente a pubblicare una immagine dei dati perché l'indagine visiva è il primo passo per capire che strumento impiegare.

Io, ad esempio, non ho inteso che la lunghezza del vettore di osservazioni sia di soli tre elementi, ma solo che hai un diagramma a dispersione a "scalini".
 
Ultima modifica:
Ciao a tutti, ecco due immagini dove potete notare che sotto il valore di 500000 siano concentrati la maggior parte dei punti. Posso ipotizzare che la macchina produca una quantità di lavoro quasi sembre bassa (forse esiste qualche tipo di ciclicità nelle osservazioni ma non è quello il punto rilevante, credo) a cui è associato un consumo energetico che assume sia valori alti che bassi. Forse più che tre range ci si può concentrare solo su due ma,quello che non capisco è come affrontare il problema. Intuitivamente infatti non credo sia utile stimare il consumo incrementale, tratterei i dati dividendo in intervalli le osservazioni oppure dando un peso diverso a ciascuna coppia.




Vedi l'allegato 2614289
Vedi l'allegato 2614290
 
Sti c az zi di grafici non si vedono…...:rolleyes:
 
Ciao a tutti, ecco due immagini dove potete notare che sotto il valore di 500000 siano concentrati la maggior parte dei punti. Posso ipotizzare che la macchina produca una quantità di lavoro quasi sembre bassa (forse esiste qualche tipo di ciclicità nelle osservazioni ma non è quello il punto rilevante, credo) a cui è associato un consumo energetico che assume sia valori alti che bassi. Forse più che tre range ci si può concentrare solo su due ma,quello che non capisco è come affrontare il problema. Intuitivamente infatti non credo sia utile stimare il consumo incrementale, tratterei i dati dividendo in intervalli le osservazioni oppure dando un peso diverso a ciascuna coppia.




Vedi l'allegato 2614289
Vedi l'allegato 2614290

ricarica i grafi plisss :)
 
Plot Break1.jpeg
 
Non so perchè non me li aveva caricati ma.. eccoli qui!
 
Scomodiamo una rete neurale? :D

A parte gli scherzi, già quella regressione locale che hai tracciato nel primo diagramma a dispersione non mi sembra faccia un cattivo lavoro.

Potresti fare una prima trasformazione applicando il logaritmo naturale alle ascisse, potrebbe esserci qualche pattern interessante e particolare sui valori più bassi che all'occhio sfugge e che la regressione ignora per via della compressione di scala.
 
Vanno separati i valori x < 0,5 e+5 e analizzati meglio. Esiste una spiegazione per la mancanza di correlazione fra x e y in quell'intervallo?

Ad occhio lì manca una variabile esplicativa........ (proverei anche a plottare ln x vs y)
 
buonasera a tutti

anche secondo me manca un terzo elemento (un 3º asse? , forse il fenomeno ha tre dimensioni... bho) quei grafici X-Y non spiegano per niente bene, insufficiente a descrivere il fenomeno.

Suggerirei di costruirti delle classi (diversi tentativi con diverse granulometrie.. e relative distribuzione di frequenza). Se la campana non è una campana ma una sequenza di colline, vuol dire che sei in presenza di più fenomeni (statisticamente parlando). Se è così bisognerà valutare poi cosa si può fare.
 
Cattura.JPG

Il logaritmo avevo già provato ad usarlo, forse sono più chiari le fascie di separazione:confused:
@Cren Quindi niente regressione logistica, niente distribuzione bivariata( perchè le variabili sono correlate?) ma solo una regressione locale?
 
@Scalpo

quindi fare una distribuzione bivariata o intendi trattare le due variabili separate?
 
Io li farei prima distinte, poi bivariate, proverei almeno con una trentina di classi , con i dati assoluti e quest'ultima anche percentualizzati.

PS: in quali unità di misura sono espresse X e Y nei dati grezzi?
 
Ultima modifica:
2614672d1562955980-statistica-regressione-distribuzione-bivariata-cattura.jpg


Non credo che con una distribuzione così ci sia da scomodare granché di più di una regressione con termine di secondo o terzo grado.

Almeno avrebbe una forma parametrica, che gli sarebbe comoda per portarla su carta e che tendenzialmente in ambiente accademico piace.
 
Indietro