Pandas之groupby( )用法笔记小结-StartMVC超轻量PHP框架

groupby官方解释


DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

Group series using mapper (dict or key function, apply given function to group, return result as series) or by a series of columns.

讲真的，非常不能理解pandas官方文档的这种表达形式，让人真的有点摸不着头脑，example给得又少，参数也不给得很清楚，不过没有办法，还是只能选择原谅他。

groupby我用过的用法

基本用法我这里就不呈现了，我觉得用过一次的人基本不会忘记，这里我主要写一下我用过的关系groupby函数的疑惑：

apply & agg

这个问题着实困扰了我很久，经过研究，找了一些可能帮助理解的东西。先举一个例子：


import pandas as pd
df = pd.DataFrame({'Q':['LI','ZHANG','ZHANG','LI','WANG'], 'A' : [1,1,1,2,2], 'B' : [1,-1,0,1,2], 'C' : [3,4,5,6,7]})

	A	B	C	Q
0	1	1	3	LI
1	1	-1	4	ZHANG
2	1	0	5	ZHANG
3	2	1	6	LI
4	2	2	7	WANG


df.groupby('Q').apply(lambda x:print(x))

A B C Q 0 1 1 3 LI 3 2 1 6 LI A B C Q 0 1 1 3 LI 3 2 1 6 LI A B C Q 4 2 2 7 WANG A B C Q 1 1 -1 4 ZHANG 2 1 0 5 ZHANG


df.groupby('Q').agg(lambda x:print(x))

0 1 3 2 Name: A, dtype: int64 4 2 Name: A, dtype: int64 1 1 2 1 Name: A, dtype: int64 0 1 3 1 Name: B, dtype: int64 4 2 Name: B, dtype: int64 1 -1 2 0 Name: B, dtype: int64 0 3 3 6 Name: C, dtype: int64 4 7 Name: C, dtype: int64 1 4 2 5 Name: C, dtype: int64

	A	B	C
Q
LI	None	None	None
WANG	None	None	None
ZHANG	None	None	None

从这个例子可以看出，使用apply()处理的对象是一个个的类如DataFrame的数据表，然而agg()则每次只传入一列。

不过我觉得这一点区别在实际应用中分别并不大，因为Ipython的Out输出对于这两个函数几乎没有差别，不管是处理一列还是一表。

我觉得agg()有一点让我很开心就是他可以同时传入多个函数，简直不要太方便哈哈：


df.groupby('Q').agg(['mean','std','count','max'])

	A				B				C
	mean	std	count	max	mean	std	count	max	mean	std	count	max
Q
LI	1.5	0.707107	2	2	1.0	0.000000	2	1	4.5	2.121320	2	6
WANG	2.0	NaN	1	2	2.0	NaN	1	2	7.0	NaN	1	7
ZHANG	1.0	0.000000	2	1	-0.5	0.707107	2	0	4.5	0.707107	2	5

Plotting

这个也是我刚刚学会的，groupby的plot简直不要太方便了：(不过这个例子选的不是很好)


%matplotlib inline
df.groupby('Q').agg(['mean','std','count','max']).plot(kind='bar')


<matplotlib.axes._subplots.AxesSubplot at 0x1133bd710>

MultiIndex

这个是困扰我最多的一个问题，因为如果我groupby的时候选择了两个level，之后的data总是呈现透视表的形式，如：


Muldf = df.groupby(['Q','A']).agg('mean')
print(Muldf)

B C Q A LI 1 1.0 3.0 2 1.0 6.0 WANG 2 2.0 7.0 ZHANG 1 -0.5 4.5

我开始甚至以为这应该不是dataframe，是一个我可能没注意过的一个东西，可是后来我发现，这不过是MultiIndex形式的一种dataframe罢了。


Muldf.B

Q A LI 1 1.0 2 1.0 WANG 2 2.0 ZHANG 1 -0.5 Name: B, dtype: float64

如果要选择某一个index，用`xs()`函数：


Muldf.xs('LI')

	B	C
A
1	1.0	3.0
2	1.0	6.0

PS：有个问题困扰好久了，怎么把multiindex对象变回原来的形式呢。如：

Multiindex格式如下：（a, b, c, ...），

index	column
(a1,b1,c1)	d1
(a2,b2,c2)	d2

直接调用函数reset_index()，Multiindex中（a, b, c, ...）就变成columns了，index重置为（0,1,2,...), 如下：

index				column
0	a1	b1	c1	d1
1	a2	b2	c2	d2

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

Pandas groupby

python

Pandas之groupby( )用法笔记小结

文章分类

相关文章