Kernel Density estimativas Estimativa forma de uma função de densidade . A função de densidade mostra frequência com que uma variável aparece em uma amostra aleatória de uma população. A Densidade Kernel Estimation é considerado um método não-paramétrico . Nas estatísticas , existem métodos paramétricos e não paramétricos. Métodos paramétricos fazer mais hipóteses do que os não-paramétricos. Não há suposições sobre a distribuição, meios, ou desvios-padrão são necessários em estatística não paramétrica . Por exemplo, se você queria saber se o décimo teste em uma sala de aula terá uma pontuação maior do que o primeiro nove, no raciocínio paramétrico você teria que saber a média eo desvio-padrão para obter uma resposta. No raciocínio não-paramétrico , basta saber o número de teste é o suficiente para saber o último teste tem uma chance de 10 por cento de estar acima das pontuações anteriores.
Kernel
a Densidade Kernel Estimation tem dois componentes cruciais: o kernel e largura de banda. O kernel é a função de densidade . Existem seis tipos comuns de funções de densidade em estatísticas não-paramétricas : normal, uniforme , triangular, Epanechnikov , quartic , triweight e cosseno . Cada uma dessas funções é usado para estimar a frequência de uma variável aleatória em uma população .
Bandwidth
O segundo componente , a largura de banda , suaviza o resultando dados da função densidade do núcleo . A largura de banda , por conseguinte , tem afectou fortemente a representação visual dos dados . A linha irregular pode tornar-se progressivamente, até que os dados suavizados foi então parafraseado que ele não é mais útil . Na fórmula estimativa da densidade Kernel , a largura de banda é representada pela letra h . Ele deve ser positivo e resultará em uma distribuição que resume a um.
Vantagens
Kernel Density Estimation tem vantagens para outros métodos de estimativa não-paramétricos , especialmente histogramas. Os histogramas representam a distribuição de uma variável em caixas ao longo de um intervalo horizontal . Caixas empilhadas representam uma maior densidade da variável no setor dos dados. Porque histogramas simbolizar dados através de caixas , a variável é compartimentada e diferentes distribuições são irregulares e discreto , deturpando a distribuição de fluidos de uma variável que realmente existe em uma população . Kernel Density Estimation melhor representa essa fluidez com linha suave , cuja suavidade é determinado pela largura de banda escolhida na fórmula densidade kernel.