Viac

Prečo analýza výberu podľa polohy vypočítava vzdialenosť nesprávnym spôsobom?


Chcem vybrať mestá, ktoré sú do 200 km od môjho vopred vybraného mesta. Môj výsledok však závisí od toho, či vytváram vyrovnávaciu pamäť a použijem ju na orezanie miest (dobrý výsledok), alebo použijem analýzu Vybrať podľa polohy a dodať jej rovnaké údaje. Moja verzia ArcGIS je 10.2.1.

Zistil som, že problém je v tom, že analýza neberie údaje v guľovom (geografickom) zmysle, ale v rovinnom (geometrickom) zmysle. Chcem tým povedať, že vypočítava vzdialenosť ako v súradniciach XY, takže údajný buffer predstavujúci vzdialenosť má perfektný tvar disku, ktorý je v smere Y v poriadku, avšak v prípade X sú výsledky úplne nesprávne), medzitým sú moje údaje geografický a používa stupňové stupne (údaje sú vo WGS84).

Urobil som experiment a vytvoril som vyrovnávaciu pamäť v PostGIS pre údaje importované ako geometria, nie geografia a výsledok dokonale zodpovedá vzdialenosti, ktorú používa Select By Location. Tiež som vytvoril vyrovnávaciu pamäť a použil som ju na orezanie miest a výsledok je správny.

Pripájam nasledujúce súbory:

  • mestá (vrstva s niektorými aljašskými mestami)
  • sel_city (vrstva s vopred zvoleným mestom pre vyrovnávaciu pamäť)
  • city_buff200 (vytvorenie správnej vyrovnávacej pamäte v ArcMap)
  • buff200_exp (vyrovnávacia pamäť vytvorená v Postgis, keď bol typ údajov nastavený ako geometria a nie geografia) [toto je znázornenie nesprávneho vyrovnávača vzdialenosti používaného výberom podľa umiestnenia]
  • cit_within200 (vrstva s mestami extrahovanými pomocou nesprávneho znázornenia vzdialenosti)
  • city_buff200_inter2 (správny výsledok)

Dátový odkaz: http://student.agh.edu.pl/~wysek/stack_data.rar

Kód, ktorý som použil na vytvorenie nesprávneho výsledku, je nasledujúci:

city_lyr = arcpy.mapping.Layer (cities) arcpy.SelectLayerByLocation_management (city_lyr, "WITHIN_A_DISTANCE", selected_city, "200 kilometre", "NEW_SELECTION") arcpy.CopyFeatures_management (city_lyr, "cit_withi200")

Nástroj Arc Select by location nefunguje tak dobre na analýzu vyrovnávacej pamäte, ak vaše údaje nie sú premietané (WGS 1984). Výsledný buffer nakreslí ako perfektný kruhový tvar, namiesto predvoleného nastavenia namiesto oválneho tvaru (euklidovský vs. geodetický).

Kruh nereprezentuje vzdialenosti presne, pretože nezohľadňuje zakrivenie Zeme a pri meraní bude nesprávny.

Ak by ste potrebovali použiť výber podľa umiestnenia, premietol by som vaše údaje, alebo by som zvážil iba použitie metódy buffer/clip.

Tu je ďalšie čítanie o tom, ako nástroj vyrovnávacej pamäte robí svoje. Existujú dobré informácie o tom, ako čerpá vyrovnávaciu pamäť a euklidovský vs. geodetický

http://resources.arcgis.com/en/help/main/10.1/index.html#/How_Buffer_Analysis_works/00080000001s000000/


Vyberte si najlepšie umiestnenie s prideľovaním polohy

Priradenie polohy pomáha nájsť najlepšie miesta pre zariadenia, ktoré budú slúžiť množine miest dopytu. Miesta sa môžu pokúšať pokryť čo najväčší objem dopytu alebo minimalizovať náklady na dosiahnutie dopytu alebo maximalizovať podiel na trhu. Proces prideľovania polohy môže byť spojený s množinou údajov o lokálnej sieti alebo so sieťovou službou hostenou v ArcGIS Online alebo ArcGIS Enterprise. Tento tutoriál ukazuje, ako použiť množinu údajov lokálnej siete na riešenie najlepších predajných miest na uspokojenie dopytu zákazníkov.

Pozor:

Analýza polohy v IoT a telematike veľkých dát

V dnešnej dobe nemôžete ísť na technologickú konferenciu bez toho, aby ste počuli o internete vecí (IoT). Panuje zhoda v tom, že senzory a informačné technológie budú čoskoro všade okolo nás, čo ovplyvní náš každodenný život a prinesie nám povedomie, efektivitu a bezpečnosť.
Túto zmenu už zažívame prostredníctvom rýchlo rastúceho používania inteligentných technológií: inteligentných hodiniek, inteligentných chladničiek a inteligentných tlačidiel na spotrebičoch.

Kde je inteligentné vozidlo?

Je ťažké nájsť telefón, ktorý nie je smartfónom. Na druhej strane je takmer nemožné kúpiť si dostupné auto, ktoré je skutočne inteligentným vozidlom. Inovatívni výrobcovia, ako sú Tesla, Faraday a Google, sú priekopníkmi v implementácii informačných technológií, zatiaľ čo mnohé z tradičných automobiliek sú stále v pomalom pásme.
Telematické informácie z automobilov cestujúcich v oblasti Bay Area v Kalifornii. Rôzne farby ukazujú rôznu rýchlosť, pričom červená je najrýchlejšia. Napríklad technológia Bluetooth je k dispozícii v smartfónoch viac ako 15 rokov, naopak, v roku 2015 je sotva štandardom vozidla. Ale nebojte sa, automobilový priemysel to doháňa. Spoločnosť Volvo predstavila novú technológiu, ktorá umožňuje ľuďom poskytovať jednorazové prístupové kódy do kufra svojho vozidla. Balíky je možné doručiť do vášho vozidla, čo robí zásielky pohodlnejšími. Navigácia vo vozidle má teraz prístup k dopravným informáciám v reálnom čase, čo výrazne zlepšuje presnosť smerovania. Myslím si však, že najzaujímavejším pokrokom je práca na prepojených vozidlách.
Prepojené vozidlá navzájom bezprostredne komunikujú o problémoch súvisiacich s bezpečnosťou, ako sú stav vozoviek, zmeny v činnosti iných vozidiel, napríklad prudké brzdenie alebo nebezpečenstvo. Táto nová schopnosť sa spolieha na telematiku a pripravuje cestu k autonómnemu, samoriadiacemu vozidlu.

Smart Mobility sa spolieha na inteligentnú analýzu polohy

Telematika kombinuje prepojenú komunikáciu vozidla s informačnými technológiami. Je to základný prvok inteligentných vozidiel alebo inteligentnej mobility. To, čo robí vozidlá inteligentnými, má tri hlavné schopnosti: schopnosť zbierať presné údaje z mnohých zdrojov, výpočtový výkon na analýzu týchto údajov alebo rozpoznanie relevantných vzorcov a schopnosť efektívne komunikovať výsledky s inými vozidlami, systémami a používateľmi.
Zdroje údajov zahŕňajú snímače rýchlosti a teploty na cestách, online informácie o počasí a systémy správy diaľnic. Inteligentná mobilita sa spolieha na analýzu inteligentnej polohy, to znamená na vedomie, kde presne sú všetky tieto mobilné a stacionárne prvky vo vzájomnom vzťahu.
Senzory vozidla dokážu detekovať informácie z bezprostredného okolia, nie však to, čo sa stalo pred minútou na nadchádzajúcom úseku diaľnice, alebo to, čo sa podľa predpokladov stane. Analýzou polohy môžeme pomôcť preklenúť priepasť medzi telematikou a inteligentnou mobilitou. Pozrime sa na príklad, ktorý popisuje, ako môže analýza polohy pomôcť inteligentnej mobilite zmeniť spôsob, akým cestujeme autom.

Nielen nudný deň na cestách

To môže znieť príliš povedome: rodina je na ceste, aby vyzdvihla babičku na ceste na svoje obľúbené miesto zimnej dovolenky, keď sa ich vozidlo dostane do nečakane hmlistej oblasti. Vodič okamžite spomalí, pričom si neuvedomuje, že hmla na zamrznutom povrchu vozovky kryštalizovala do ľadu. Auto sa začne vymknúť spod kontroly a zničí prednú pneumatiku, keď prejde po troskách na okraji cesty. Rodina vytiahne mobilný telefón a vyhľadá neďalekú pneuservis. O dve hodiny neskôr čaká rodina v miestnej reštaurácii, kým im opravujú pneumatiku.
Ako by mohla inteligentná mobilita zmeniť tento scenár k lepšiemu? Ako sa rodina pohybuje, palubný navigačný systém kontroluje v reálnom čase správy o počasí, premávke atď. Začínajúc dlho pred tým, ako sa vozidlo dostalo do hmlistého, zľadovateného úseku cesty, došlo k niekoľkým udalostiam inteligentnej mobility:

  1. Keď ostatné vozidlá prechádzajú úsekom cesty s úlomkami, senzory automaticky nahlásia toto nebezpečenstvo cestným posádkam, ktoré okamžite začnú odstraňovať prekážku.
  2. Cestné snímače informujú online služby o teplotách pod bodom mrazu, ktoré zasielajú palubnému systému vozidla upozornenie na nebezpečné podmienky.
  3. Meteorologické služby v reálnom čase hlásia tvorbu hmly v tejto oblasti a odosielajú upozornenie na diaľničný informačný systém, ako aj na všetky vozidlá v oblasti.
  4. Diaľničné známky sú aktualizované tak, aby upozorňovali na zľadovatenú vozovku a hmlu v dostatočnom predstihu pred každým vozidlom vstupujúcim do nebezpečnej oblasti.
  5. Diaľničné úrady odosielajú vozidlá, aby rozložili správnu zmes a množstvo rozmrazovacieho materiálu. Množstvo aplikovaného materiálu je starostlivo monitorované a upravované na základe meniacich sa poveternostných podmienok a stavu vozoviek.
  6. Na základe historických informácií o premávke a stave vozoviek, ako aj historických telematických údajov z tisícov vozidiel, ktoré prešli úsekom za podobných podmienok, rodinné vozidlo vypočítava rizikový faktor.
  7. Vozidlo automaticky zníži rýchlosť na bezpečné nastavenie a vyzve vodiča, aby si vybral alternatívu: urobte si 45 -minútovú obchádzku, vyčkajte bezprostredné nebezpečenstvo zastavením sa v miestnej reštaurácii približne na jednu hodinu alebo pokračujte podľa plánu na ceste. Poznanie alternatív a vypočítaného rizika pomôže rodine rýchlo sa rozhodnúť urobiť si prestávku na horúcu čokoládu.
  8. Pretože bolo vozidlo naprogramované tak, aby babičku informovalo o akýchkoľvek meškaniach, pošle jej automatickú textovú správu na základe novo projektovaného, ​​automaticky vypočítaného času príchodu.


Je to len scenár z ďalekej budúcnosti?

Technológia inteligentnej mobility je už k dispozícii. Špičkové vozidlá sú vybavené senzormi, ktoré pomáhajú s parkovaním alebo udržiavaním bezpečnej vzdialenosti od ostatných automobilov. Mestá a ďalšie vládne agentúry pracujú na implementácii inteligentnej mobility pre dochádzajúcich poskytovaním multimodálnych informácií vo verejnej doprave. Využívajú technológiu geografického informačného systému na poskytovanie presnej analýzy polohy. GIS je tiež kľúčovou technológiou na spracovanie veľkého objemu lokalizačných údajov, ako sú body GPS alebo rýchlosť vozidla. Automobilový priemysel pracuje na rýchlejších a inteligentnejších systémoch vo vozidlách, ktoré budú podporovať kombináciu analýzy polohy a inteligentnej mobility v prospech vodičov na celom svete.
IoT spája stovky tisíc senzorov dohromady prostredníctvom internetu. Tieto agregované informácie vytvárajú revolúciu možností v oblasti bezpečnosti, pohodlia a účinnosti. Vytvára tiež záplavu údajov, ktoré rýchlo zahltia existujúce systémy.
Odhaduje sa napríklad, že senzory vozidiel v modeloch 2020 budú produkovať až 350 MB dát za sekundu. To je niekoľko stokrát viac údajov, ako sú dnes mobilné technológie schopné zvládnuť. Úlohou je analyzovať tento obrovský tok „veľkých dát“ a filtrovať ich na údaje, ktoré sú pre používateľa dôležité. Jedným z najdôležitejších aspektov je poloha. Testuje sa nová generácia nástrojov na spracovanie veľkých dát v reálnom čase založených na GIS, aby umožnili budúce potreby internetu vecí a spracovali státisíce súborov údajov za sekundu na základe relevancie umiestnenia.
V našom prípade bude rodina IoT a analýza umiestnenia veľkých dát znamenať väčšiu bezpečnosť a pohodlie. Namiesto toho, aby sa deti pýtali: „Už sme tam?“ skontrolujú, aby zistili, koľko času majú na hranie svojich obľúbených geografických hier, ako napríklad Name the Landmark Ahead alebo Who Can Spot The Biggest Park with a Playground within 10 Miles.
Na jedného sa teším na cestovanie s IoT. A čo ty?


Syntax

Trieda vstupných funkcií obsahujúca stredové body pre správu. Vo väčšine prípadov to bude vrstva obchodu Business Analyst.

Jedinečné pole ID vo vrstve obchodu.

Vytvára obchodné oblasti pre body vo vrstve vstupných funkcií.

  • ALL —Oblastné oblasti sú vytvorené pre všetky body.
  • SINGLE - obchodné oblasti sú vytvorené pre jeden bod.
  • VYBRANÉ - pre vybrané body v programe ArcMap sa vytvoria obchodné oblasti.

Určuje, ako budú odvodené generované obchodné oblasti.

  • Jednoduché oblasti zvonenia - generuje jeden alebo viac statických krúžkov na základe stredových bodov úložnej vrstvy.
  • Časové oblasti jednotky-generuje jeden alebo viac polygónov jazdného času na základe stredových bodov úložnej vrstvy.

Vzdialenosti vo vzostupných veľkostiach používané na vytvorenie obchodných oblastí okolo vstupných funkcií.

Jednotky použité s hodnotami vzdialenosti. Štandardne sa vyberú jednotky definované v predvoľbách Business Analyst.

  • Desatinné stupne
  • Nohy
  • Kilometre
  • Merače
  • Miles - toto je predvolené nastavenie.
  • Námorné míle
  • Yardov

Trieda vstupných funkcií obsahujúca body za distribúciu zákazníkom. Vo väčšine prípadov pôjde o zákaznícku vrstvu Business Analyst.

Určuje miesto, odkiaľ bude odvodený výpočet počtu na trhu.

  • V tabuľke atribútov vrstvy - vypočítava prienik na trh na základe neštandardnej geografie.
  • Vypočítať pomocou geografickej úrovne - vypočíta penetráciu trhu na základe štandardnej geografickej vrstvy.
  • Vypočítajte pomocou online údajov Business Analyst - vypočítava prienik na trh na základe údajov online Business Analyst.

Pole, ktoré obsahuje základný celkový trh, sa počíta z vrstvy penetrácie trhu použitej na výpočet penetrácie trhu.

Vyberá geografickú úroveň, ktorá bude obsahovať celkový počet trhov.

Pole atribútu, ktoré obsahuje premennú použitú na celkový počet na trhu vybranú z geografickej úrovne.

Výstupný adresár, do ktorého bude správa uložená.

Pole používané na výber jedného bodu.

  • ID - vyberie jeden bod pomocou poľa ID obchodu.
  • Názov - vyberie jeden bod pomocou poľa s názvom obchodu.

ID alebo názov obchodu, ktorý sa má použiť ako jeden bod.

Vytvára neprekrývajúce sa sústredné prstence alebo prstencové pásy.

  • Pravda - vytvoria sa sústredné prstence. Toto je predvolená možnosť.
  • Nepravda - vytvorí výstupné polygóny, ktoré sú prstencami prstencov. Ak napríklad zadáte tri polomery (1, 2 a 3 míle), vytvoria sa tri výstupné pásma s krúžkami 0–1-, 1–3- a 3–5 míľ.

Odstráni prekrývanie pomocou Thiessenovho prístupu nakreslením čiar rovnakej vzdialenosti medzi dvoma susednými polygónmi.

  • Pravda - Odstraňuje prekrývanie obchodných oblastí.
  • Nepravda - neodstraňuje prekrývanie medzi obchodnými oblasťami. Toto je predvolené nastavenie.

Vytvorí podrobnú hranicu ignorujúcu oblasti, do ktorých sa nemožno dostať po riadení.

  • Pravda - vytvára podrobné hranice okolo obchodných oblastí.
  • Nepravda - negeneruje podrobné hranice okolo obchodných oblastí. Toto je predvolené nastavenie.

Jedinečné pole ID založené na vrstve na výpočet prieniku na trh. Toto ID obchodu je pole vo vrstve Prienik trhu.

Na generovanie správy o znížení vzdialenosti používa vybrané funkcie.

  • Pravda - generuje správu o znížení vzdialenosti o vybraných funkciách.
  • Nepravda - generuje správu o znížení vzdialenosti o všetkých funkciách. Toto je predvolené nastavenie

Definuje atribút zákazníckej vrstvy, ktorý sa použije na váženie oblastí obchodu.

Pole ID obchodu, ktoré sa použije na identifikáciu zákazníkov, ktorí sú priradení k jednotlivým obchodom. Toto ID obchodu je pole vo vrstve zákazníkov.

Vyberte požadovaný výstupný formát správy.

  • Jednoduché XML
  • PDF
  • HTML
  • CSV
  • PSČ
  • XLSV
  • Odizolované XLSX

Bodové, čiarové alebo mnohouholníkové bariéry, ktoré sa majú použiť na výpočet vzdialenosti alebo času jazdy.


CRAN - geosféra balíka

Sférická trigonometria pre geografické aplikácie. To znamená, že výpočtové vzdialenosti a súvisiace miery pre uhlové ...

Existuje viac ako 10 000 balíkov, ktoré sú oficiálne k dispozícii v systéme CRAN (The Comprehensive R Archive Network) a oveľa viac na ďalších miestach, ako je Github. To znamená, že keď mám problém vyriešiť pri analýze údajov alebo hádkach, s najväčšou pravdepodobnosťou to už vyriešil niekto iný a zdieľal riešenie vo forme balíka R, aby ho mohli používať všetci ostatní!

Môj kolega Hideaki však rýchlo napísal funkciu R na výpočet vzdialenosti medzi týmito dvoma geokódovanými polohami pomocou „distHaversine"Funkcia od"geosféra‘Balíček.

V zásade môžem tejto funkcii odovzdať dve geokódované (zemepisné dĺžky a šírky) polohy, potom vo výsledku vráti vzdialenosť medzi dvoma miestami vypočítanú v míľach.

Teraz vás prevediem tým, ako rýchlo to môžete nastaviť a používať s Exploratory Desktop.

Existujú nasledujúce štyri kroky.

  1. Nainštalujte balík „geosphere“
  2. Vytvorte skript a pridajte vlastnú funkciu R na výpočet vzdialenosti
  3. Použi to!

Na ukážku použijem údaje o hodnotení nemocníc v USA od The Centers for Medicare & amp Medicaid Services a pokúsim sa nájsť 50 najbližších nemocníc z miesta, kde žijem, a zistiť, ktoré sú dobré alebo zlé na základe skóre hodnotenia nemocníc.

Tu si môžete stiahnuť údaje. (V tomto príspevku nájdete informácie o tom, ako zdieľať a importovať údaje v aplikácii Exploratory Desktop.)


Geografická koncentrácia priemyslu v Jiangsu, Čína: analýza priestorových bodových vzorcov pomocou mikrogeografických údajov

Detekcia geografickej koncentrácie ekonomických aktivít v rôznych priestorových mierkach je už dlho predmetom záujmu výskumníkov z priestorovej ekonomiky, regionálnej vedy a ekonomickej geografie. Tento výskum s použitím jedinečného súboru údajov z prvého prieskumu priemyselného využívania pôdy tohto druhu v Číne predstavuje prvé úsilie pokúšajúce sa pomocou priestorových údajov preskúmať priestorovú distribúciu, najmä geografickú koncentráciu priemyselných odvetví v Číne. Na zisťovanie priestorových mierok a geografických polôh priemyselnej koncentrácie sa používajú funkcie založené na vzdialenosti a analýza priestorových klastrov. Výsledky naznačujú, že štyri z piatich vybraných odvetví sa vo všeobecnosti sústreďujú v južnom Ťiang -su v malých priestorových mierkach (menej ako 5 km), zatiaľ čo chemický priemysel ukazuje celkový vzorec priestorovej disperzie vzhľadom na distribúciu všetkých ostatných odvetví. Väčšina priemyselných klastrov má polomer menej ako 2,5 km a obsahuje 20–60% podnikov a 60–86% zamestnancov z každého vybraného odvetvia, pričom väčšie klastre vykazujú relatívne slabšiu koncentráciu. Tento výskum demonštruje súvislosti a komplementárnosť rôznych prístupov a dopĺňa predchádzajúce štúdie, ktoré používajú funkcie založené na vzdialenosti, so štatistikou priestorového skenovania.

Toto je ukážka obsahu predplatného, ​​ku ktorému máte prístup prostredníctvom svojej inštitúcie.


Prečo analýza výberu podľa polohy vypočítava vzdialenosť nesprávnym spôsobom? - Geografické informačné systémy

Aml Mostafa je magisterský študijný odbor odbor informačných systémov, Fakulta počítačových a informačných vied, Univerzita Ain Shamsa, Káhira, Egypt. V roku 2014 získala titul BSc z počítačových a informačných vied na univerzite Ain Shams. Medzi jej súčasné výskumné záujmy patrí dolovanie údajov, strojové učenie, sémantická analýza.

Walaa Gad je docentom na oddelení informačných systémov Fakulty počítačových a informačných vied Univerzity Ain Shamsa v Káhire, Egypt. V rokoch 2000 a 2005 získala titul BSc z počítačových a informačných vied na univerzite Ain Shams v Káhire v Egypte. Bola študentkou doktorandského štúdia v skupine Pattern and Machine Intelligence (PAMI) Group, Faculty of Electrical and Computer Engineering, University of Waterloo, Canada. Doktorát získala v roku 2010. Práca bola vykonaná spoločne medzi Fakultou počítačov a informačných vied, Univerzitou Ain Shams a Univerzitou Waterloo v Kanade. Medzi jej súčasné výskumné záujmy patrí dátová veda, sémantické webové a strojové učenie, dátový sklad a dátová analytika.


13 odpovedí 13

Oba zodpovedajú, ako ďaleko sú vaše hodnoty rozložené okolo priemeru pozorovaní.

Pozorovanie, ktoré je 1 pod priemerom, je rovnako "ďaleko" od priemeru ako hodnota, ktorá je 1 nad priemerom. Znamenie odchýlky by ste preto mali zanedbať. To je možné vykonať dvoma spôsobmi:

Vypočítajte absolútnu hodnotu odchýlok a sčítajte ich.

Odchýlky dajte na druhú a sčítajte tieto štvorce. Vďaka štvorcu pripisujete väčšiu váhu vysokým odchýlkam, a preto sa súčet týchto štvorcov bude líšiť od súčtu priemerov.

Po výpočte „súčtu absolútnych odchýlok“ alebo „druhej odmocniny súčtu druhých odchýlok“ ich priemerom získate „strednú odchýlku“ a „štandardnú odchýlku“.

Priemerná odchýlka sa používa len zriedka.

Štatistické hodnoty sú dnes prevažne počítané počítačovými programami (Excel,.), Nie už ručnými kalkulačkami. Preto by som predpokladal, že výpočet „priemernej odchýlky“ nie je ťažkopádnejší ako výpočet „štandardnej odchýlky“. Aj keď štandardná odchýlka môže mať ". Matematické vlastnosti, ktoré ju robia užitočnejšou v štatistike", v skutočnosti ide o skreslenie pojmu odchýlky od priemeru, pretože dáva dátovým bodom ďaleko od priemeru väčšiu váhu. Môže to chvíľu trvať, ale ja dúfam, že sa štatistici opäť vrátia k tomu, aby pri diskusii o rozdelení medzi dátovými bodmi častejšie používali „priemernú odchýlku“ - presnejšie to ukazuje, ako si distribúciu skutočne myslíme.

Obaja merajú rovnaký koncept, ale nie sú si rovní.

Porovnávate $ frac <1> sum | x_i- bar| $ s $ sqrt < frac <1> sum (x_i- bar)^2> $. Nie sú si rovné z dvoch dôvodov:

Po druhé$ n $ je teraz pri výpočte štandardnej odchýlky tiež pod druhou odmocninou.

Skúste vypočítať $ frac <1> sum sqrt <(x_i- bar)^2> $ - malo by poskytnúť rovnakú odpoveď ako stredná odchýlka a malo by vám pomôcť porozumieť.

Štandardná odchýlka sa uprednostňuje preto, že je matematicky jednoduchšie s ňou pracovať neskôr, keď sú výpočty komplikovanejšie.

@itsols, doplním Kasperov dôležitý koncept, že stredná odchýlka sa používa len zriedka. Prečo je štandardná odchýlka považovaná za lepší ukazovateľ variability ako priemerná absolútna odchýlka? Pretože aritmetický priemer je miestom minimálneho súčtu štvorcový (a nie súčet absolútnych) odchýlok od nej.

Predpokladajme, že chcete posúdiť stupeň altruizmu. Potom sa pravdepodobne nebudete pýtať človeka na to, koľko je pripravený dať peniaze vo „všeobecnej situácii“ života. Skôr sa rozhodnete opýtať sa, ako veľmi je pripravený to urobiť v obmedzenej situácii, kde má minimálne možné zdroje na vlastný život. Tj. aké množstvo individuálneho altruizmu je v situácii, keď je táto suma minimálna?

Rovnako tak, aký je stupeň variability týchto údajov? Intuitívne je pre neho najlepším meracím indexom ten, ktorý je v tomto kontexte minimalizovaný (alebo maximalizovaný) až na hranicu limitu. Kontext je „okolo aritmetického priemeru“. Potom sv. odchýlka je v tomto zmysle najlepšou voľbou. Ak by kontext bol „okolo mediánu“, znamenalo by to | odchýlku | by bola najlepšia voľba, pretože medián je miestom minimálneho súčtu absolútnych odchýlok od neho.

Jedna vec, ktorú treba dodať, je, že najpravdepodobnejším dôvodom, prečo vaša 30-ročná učebnica používala absolútnu priemernú odchýlku na rozdiel od štandardnej odchýlky, je to, že je jednoduchšie ju vypočítať ručne (bez kvadratúr / odmocnin). Teraz, keď sú kalkulačky ľahko dostupné pre študentov stredných škôl, nie je dôvod nepožiadať ich o výpočet štandardnej odchýlky.

Stále existuje niekoľko situácií, kedy sa pri štandardnom vybavení modelu namiesto štandardných odchýlok používajú absolútne odchýlky. Absolútne odchýlky sú menej citlivé na extrémne hodnoty (hodnoty ďaleko od priemeru/trendovej čiary) v porovnaní so štandardnými odchýlkami, pretože nezarovnávajú túto vzdialenosť pred pridaním k hodnotám z iných údajových bodov. Pretože metódy modelovania sú zamerané na zníženie celkovej odchýlky od trendovej čiary (podľa toho, ktorá odchýlka metódy je výpočet), metódy, ktoré používajú štandardnú odchýlku, môžu nakoniec viesť k vytvoreniu trendovej čiary, ktorá sa odchyľuje od väčšiny bodov, aby bola bližšie k odľahlej hodnote . Použitie absolútnych odchýlok znižuje toto skreslenie, ale za cenu komplikovania výpočtu trendovej čiary.

Je to preto, že, ako už uviedli iní, štandardná odchýlka má matematické vlastnosti a vzťahy, ktoré ju vo všeobecnosti robia užitočnejšou v štatistike. „Užitočné“ si však nikdy nemožno zamieňať s dokonalým.

Oba merajú rozptyl vašich údajov vypočítaním vzdialenosti údajov k ich priemeru.

  1. znamená absolútnu odchýlku používa normu L1 (hovorí sa mu aj Manhattanská vzdialenosť alebo priamočiara vzdialenosť)
  2. štandardná odchýlka používa normu L2 (nazýva sa tiež euklidovská vzdialenosť)

Rozdiel medzi týmito dvoma normami je ten, že štandardná odchýlka je výpočet druhej mocniny rozdielu, zatiaľ čo znamená absolútnu odchýlku sa pozerá iba na absolútny rozdiel. Preto veľké odľahlé hodnoty vytvoria vyššiu disperziu pri použití štandardnej odchýlky namiesto inej metódy. Euklidovská vzdialenosť sa skutočne používa častejšie. Hlavným dôvodom je, že štandardná odchýlka majú pekné vlastnosti, keď sú údaje normálne distribuované. Za tohto predpokladu sa preto odporúča použiť ho. Ľudia však často robia tento predpoklad pre údaje, ktoré v skutočnosti nie sú bežne distribuované, čo spôsobuje problémy. Ak vaše údaje nie sú bežne distribuované, stále môžete použiť štandardnú odchýlku, ale pri interpretácii výsledkov by ste mali byť opatrní.

Nakoniec by ste mali vedieť, že obe miery rozptylu sú konkrétnymi prípadmi Minkowského vzdialenosti pre p = 1 a p = 2. Môžete zvýšiť p, aby ste získali ďalšie miery rozptylu vašich údajov.

Sú to podobné opatrenia, ktoré sa pokúšajú kvantifikovať rovnaký pojem. Spravidla používate sv. odchýlka, pretože má pekné vlastnosti, ak urobíte nejaký predpoklad o základnej distribúcii.

Na druhej strane absolútna hodnota priemernej odchýlky spôsobuje určité problémy z matematického hľadiska, pretože ju nemôžete rozlíšiť a nemôžete ju ľahko analyzovať. Nejaká diskusia tu.

Amar Sagoo má veľmi dobrý článok, ktorý to vysvetľuje.

Aby som pridal svoj vlastný pokus o intuitívne porozumenie:

Priemerná odchýlka je slušný spôsob, ako sa pýtať, ako ďaleko je hypotetický & quotaverage & quot; bod od priemeru, ale v skutočnosti nefunguje, ak sa pýta, ako ďaleko sú všetky body od seba alebo ako & quotspread & quot údaje sú.

Štandardná odchýlka sa pýta, ako ďaleko sú od seba všetky body, takže obsahuje viac užitočných informácií ako len priemernú odchýlku (preto sa stredná odchýlka zvyčajne používa iba ako odrazový mostík k pochopeniu štandardnej odchýlky).

Dobrou analógiou je Pytagorova veta. Pythagorova veta nám hovorí o vzdialenosti medzi bodmi v dvoch dimenziách tak, že vezme vodorovnú vzdialenosť a zvislú vzdialenosť, vydelí ich do štvorcov, sčíta štvorce a odmocninu z celku.

Ak sa na to pozriete pozorne, vzorec pre (populáciu) štandardnej odchýlky je v zásade rovnaký ako Pytagorova veta, ale má oveľa viac ako dve dimenzie (a vzdialenosť od každého bodu k priemeru sa používa ako vzdialenosť v každej dimenzii). Vďaka tomu poskytuje najpresnejší obraz o „vzdialenosti“ medzi všetkými bodmi vo vašom súbore údajov.

Aby sa táto analógia posunula ešte o niečo ďalej, priemerná absolútna odchýlka by bola ako vzatie priemeru horizontálnych a vertikálnych vzdialeností, ktoré sú kratšie ako celková vzdialenosť, zatiaľ čo súčet absolútnych odchýlok by spočítal horizontálne a vertikálne vzdialenosti, ktoré sú dlhšie. než je skutočná vzdialenosť.

Nie. Mýlite sa. Robím si srandu. Existuje však mnoho životaschopných dôvodov, prečo by sme chceli vypočítať priemernú odchýlku a nie formálne štandardy, a týmto spôsobom súhlasím s hľadiskom svojich inžinierskych bratov. Ak počítam štatistiky na porovnanie s existujúcou prácou, ktorá vyjadruje kvalitatívne aj kvantitatívne závery, určite by som sa držal štandardu. Ale napríklad predpokladajme, že sa pokúšam nejaké spustiť rýchlo algoritmy na detekciu anomálií na binárnych, strojom generovaných dátach. Neberiem akademické porovnania za svoj konečný cieľ. Zaujíma ma však zásadný záver o „šírení“ konkrétneho toku údajov o jeho priemere. Tiež ma zaujíma, ako to vypočítať iteratívne a čo najefektívnejšie. V digitálnom elektronickom hardvéri neustále hráme špinavé triky - destilujeme násobky a delenia do ľavého a pravého posunu a pri „výpočte“ absolútnych hodnôt jednoducho zahodíme znamienko (a v prípade potreby vypočítame jeden alebo dva doplnky). , obe ľahké transformácie). Mojou voľbou je teda vypočítať to čo najmenej ťahaním kĺbov a použiť na svoje výpočty lineárne prahy na rýchlu detekciu anomálií v požadovaných časových oknách.

Štandardná odchýlka predstavuje disperziu spôsobenú náhodnými procesmi. Konkrétne, mnoho fyzikálnych meraní, od ktorých sa očakáva, že sú dôsledkom súčtu mnohých nezávislých procesov, majú normálne distribúcie (zvonová krivka).

Kde $ Y $ je pravdepodobnosť získania hodnoty $ x $ vzhľadom na priemer $ mu $ a $ sigma $ ... štandardná odchýlka!

Inými slovami, štandardná odchýlka je termín, ktorý pochádza z nezávislých náhodných premenných, ktoré sa sčítajú. Nesúhlasím teda s niektorými z tu uvedených odpovedí - štandardná odchýlka nie je len alternatívou k strednej odchýlke, ktorá „sa zdá byť pohodlnejšia pre neskoršie výpočty“. Štandardná odchýlka je správna cesta modelovať disperziu pre normálne distribuované javy.

Ak sa pozriete na rovnicu, môžete vidieť, že štandardná odchýlka viac váži väčšie odchýlky od priemeru. Intuitívne môžete o strednej odchýlke uvažovať ako o meraní skutočné priemerná odchýlka od priemeru, zatiaľ čo štandardná odchýlka predstavuje zvon v tvare alias „normálneho“ rozdelenia okolo priemeru. Ak sú teda vaše údaje normálne distribuované, štandardná odchýlka vám hovorí, že ak odoberiete vzorky viac hodnôt,

68% z nich sa nachádza v rámci jednej štandardnej odchýlky okolo priemeru.

Na druhej strane, ak máte jednu náhodnú premennú, distribúcia môže vyzerať ako obdĺžnik s rovnakou pravdepodobnosťou, že sa hodnoty objavia kdekoľvek v rámci rozsahu. V tomto prípade môže byť vhodnejšia stredná odchýlka.

TLDR, ak máte údaje, ktoré sú dôsledkom mnohých základných náhodných procesov, alebo o ktorých jednoducho viete, že sú distribuované normálne, použite funkciu štandardnej odchýlky.


Ak sa vás pýta, ako môžem určiť, koľko klastrov je vhodných na analýzu mojich údajov na kilometer? , potom je tu niekoľko možností. Článok wikipédie o určovaní počtu klastrov má dobrý prehľad o niektorých z týchto metód.

Po prvé, niektoré reprodukovateľné údaje (údaje v Q sú mi nejasné):

Jeden. Vyhľadajte ohyb alebo lakeť v súčte grafu súčtu štvorcových chýb (SSE). Viac informácií nájdete na stránke http://www.statmethods.net/advstats/cluster.html & amp http://www.mattpeeples.net/kmeans.html. Poloha lakťa vo výslednom grafe naznačuje vhodný počet zhlukov pre kmean:

Mohli by sme dospieť k záveru, že touto metódou by boli označené 4 klastre:

Dva. Rozdelenie okolo medoidov môžete vykonať na odhadnutie počtu klastrov pomocou funkcie pamk v balíku fpc.

Tri. Kritérium Calinsky: Ďalší prístup k diagnostike, koľko klastrov vyhovuje údajom. V tomto prípade vyskúšame 1 až 10 skupín.

Štyri. Určte optimálny model a počet klastrov podľa Bayesovského informačného kritéria na maximalizáciu očakávaní, inicializovaného hierarchickým zoskupením pre parametrizované modely Gaussových zmesí

Päť. Klastrovanie propagácie afinity (AP), pozri http://dx.doi.org/10.1126/science.1136800

Šesť. Štatistiky rozdielov v odhade počtu klastrov. Pekný grafický výstup nájdete aj v kóde. Skúste 2 až 10 klastrov tu:

Tu je výstup z implementácie štatistiky medzier Edwinom Chenom:

Sedem. Tiež môže byť užitočné preskúmať svoje údaje pomocou clustergramov na vizualizáciu priradenia klastrov, pozri http://www.r-statistics.com/2010/06/clustergram-visualization-and-diagnostics-for-cluster-analysis-r- kód/ pre viac informácií.

Osem. Balík NbClust poskytuje 30 indexov na určenie počtu klastrov v množine údajov.

Tiež pre vysokodimenzionálne údaje je knižnica pvclust, ktorá vypočítava hodnoty p pre hierarchické klastrovanie pomocou viacškálového prevzorkovania bootstrapu. Tu je príklad z dokumentácie (nebude pracovať na takých nízkorozmerných údajoch, ako v mojom prípade):


Estimating Experimental Uncertainty for a Single Measurement

Consider, as another example, the measurement of the width of a piece of paper using a meter stick. Being careful to keep the meter stick parallel to the edge of the paper (to avoid a systematic error which would cause the measured value to be consistently higher than the correct value), the width of the paper is measured at a number of points on the sheet, and the values obtained are entered in a data table. Note that the last digit is only a rough estimate, since it is difficult to read a meter stick to the nearest tenth of a millimeter (0.01 cm).


Pozri si video: Analýza dat 10 - Inferenční statistika v Excelu (Septembra 2021).