在本文中,我们将在 Python 中学习通过多种方法查找或计算数据样本的平均值、中位数和众数。
平均值
数值样本如下,那么它的平均值是值的总和除以值的数量。
lst = [6, 9, 6, 5, 1, 2, 8, 7, 5, 6]
(6+9+6+5+1+2+8+7+5+6)/10=5.5
在 Python 中计算数据样本的平均值,可以使用两个内置函数。一个用于计算值的总和,另一个用于计算样本的长度。
sum():返回可迭代对象的和。
len():返回对象的长度。
以下是我们计算平均值的方法:
<span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>,</span> <span>6</span><span>]</span><span>def</span> <span>mymean(m):</span> <span>return</span> <span>sum(m)</span> <span>/</span> <span>len(m)</span><span>print(mymean(lst))</span>
Python 在 statistics 模块中提供了一个 mean() 函数,用于计算数据集的平均值。
<span>import</span> <span>statistics</span><span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>,</span> <span>6</span><span>]</span><span>print(statistics.mean(lst))</span>
我们只需要导入模块,使用数据样本作为参数进行调用,直接返回样本的平均值。
中位数
要找到中位数,我们需要对数据样本进行排序,在排序样本的中间找到值。在排序样本中间定位数字时,我们可能会面临两种情况:如果样本的长度为奇数,则排序样本中的中间值为中位数;如果样本的长度为偶数,那么我们需要计算排序样本中两个中间值的平均值。
示例1:[3, 5, 1, 4, 2]
排序:[1, 2, 3, 4, 5]
中位数:3
示例2:[3, 5, 1, 4, 2, 6]
排序:[1, 2, 3, 4, 5, 6]
中位数:(3 + 4) / 2 = 3.5
使用 Python 求中位数,首先需要对样本进行排序。可以使用内置的 sorted() 函数来实现。
在具有奇数个值的样本中找中位数,可以使用长度整除 2,结果将是排序样本中间值的索引。
如果样本的长度为偶数,需要找到两个中间值。使用长度除以 2,我们得到的是中间第一个值的索引,索引递减 1,找到中间第二个值的索引,取其对应值平均值得到中位数。
<span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>,</span> <span>6</span><span>]</span><span>def</span> <span>mymedian(m):</span> <span>n</span> <span>=</span> <span>len(m)</span> <span>index</span> <span>=</span> <span>n</span> <span>//</span> <span>2</span> <span>if</span> <span>n</span> <span>%</span> <span>2:</span> <span>return</span> <span>sorted(m)[index]</span> <span>return</span> <span>sum(sorted(m)[index</span> <span>-</span> <span>1</span><span>:index</span> <span>+</span> <span>1</span><span>])</span> <span>/</span> <span>2</span><span>print(mymedian(lst))</span>
更简单的方法是使用 statistics 模块中的 median() 函数,直接返回中位数。
<span>import</span> <span>statistics</span><span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>,</span> <span>6</span><span>]</span><span>print(statistics.median(lst))</span>
median() 函数,会自动处理具有奇数或偶数个值的样本的中位数。
众数
怎样找出一个序列中出现次数最多的元素呢?
<span>from</span> <span>collections</span> <span>import</span> <span>Counter</span><span>def</span> <span>my_mode(m):</span> <span>c</span> <span>=</span> <span>Counter(m)</span> <span>return</span> <span>[k</span> <span>for</span> <span>k,</span> <span>v</span> <span>in</span> <span>c.items()</span> <span>if</span> <span>v</span> <span>==</span> <span>c.most_common(1)[0][1]]</span><span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>]</span><span>print(my_mode(lst))</span><span># 输出</span><span>[6,</span> <span>5</span><span>]</span>
collections.Counter 的 most_common() 方法。Counter 类是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为 key,其计数作为 value。
most_common() 方法,以元组列表的形式返回元素及次数,按次数排序。如果想要筛选出出现频率最大的前 n 个,则需使用 most_common(n) 参数。
因为频率最大的不止一个,利用列表推导式筛选。most_common(1)[0][1] 返回频率最大元素对应的次数。
查找众数简单的方法还可以直接使用 statistics 模块的 mode()、multimode() 方法。mode() 用于计算给定数据集的众数,如果数据集中存在多个众数且频率相同,则 mode() 方法会返回遇到的第一个众数。multimode() 方法直接返回多个众数。
<span>import</span> <span>statistics</span><span>lst</span> <span>=</span> <span>[6,</span> <span>9</span><span>,</span> <span>6</span><span>,</span> <span>5</span><span>,</span> <span>1</span><span>,</span> <span>2</span><span>,</span> <span>8</span><span>,</span> <span>7</span><span>,</span> <span>5</span><span>]</span><span>print(statistics.mode(lst))</span><span>print(statistics.multimode(lst))</span><span># 输出</span><span>6</span><span>[6,</span> <span>5</span><span>]</span>
在本文中,我们学习了如何创建自己的函数来查找或计算平均值、中位数和众数。最快捷的的方法是使用 Python 的 statistics 模块。