dataframe的使用方法
数据挖掘过程中你使用最多的工具是什么?
数据挖掘过程中你使用最多的工具是什么?
可以举例语言或是具体的框架之类的
当然是Python了,之所以Python能在机器学习方面笑傲江湖,全靠他哥俩,numpy和pandas,因为有了他俩,Python处理数组和矩阵才成为现实。
在数据挖掘过程中,数据探索和数据处理方面,主要是pandas,提供了类似行列式DataFrame的数据结构,在读取外部数据,变换数据,处理空置和异常数据方面有极其强大的作用,而且使用起来非常简单。是我日常分析数据,处理数据常用的工具。
matplotlib库是Python数据图库,提供了强大的图表功能,在在平面和三维立体图方面非常便捷,是数据可视化的机器。
当然,还有机器学习库scikit-learn,里面包含了绝大部分算法,分类,回归,降维,还提供了强大的模型优化类和模型评估类,也有专门用作文本分析的算法和特征提取,特征选择等。
当然,Python也有不足之处,就是Python不支持分布式计算,在当然大数据方面,这是致命的不足,不过分布式计算平台spark,提供了全面的Python接口,可以方便的使用Python来操作spark来处理数据。
怎么用Python制作EXCEL表格?
你说的是用python读写excel吧,这里介绍3种方式,分别是pandas,openpyxl和xlrd,xlwt,使用起来都挺简单的,下面我简单介绍一下这3种方式,实验环境win7 python3.6 pycharm5.0,主要内容如下:
这里为了方便演示,新建了一个excel.xls文件,后面读取的文件都以这个文件为例,内容如下:
pandas读写excel:pandas是python的一个数据处理包,里面提供了大量处理数据的函数和类,包括csv,json,excel等文件,下面我简单介绍一下pandas如何读取excel,测试代码及截图如下:
1.读取excel文件,这里直接使用read_excel这个函数就行,如下,1行代码就搞定excel文件数据的读取:
程序运行截图如下:
2.写入excel,这个实现起来也挺简单的,直接使用DataFrame类的to_excel函数就可轻松实现,代码如下:
程序运行截图如下,成功保存数据到excel中:
openpyxl:这是python一个专门用于读写excel文件的包,目前来说,只支持xlsx文件的读写,不支持xls文件,网上有许多这个包的教程,下面我简单介绍一下这个包的使用:
1.读取excel文件,这里直接按行按列直接读取就行,测试代码如下:
程序运行截图如下,已经成功读取到数据:
2.写入excel文件,这个也挺简单的,数据构造完成后,直接写入excel就行,测试代码如下:
程序运行截图如下:
xlrd和xlwt读写excel文件,这里的excel类型只能是xls,不能是xlsx,其中xlrd专门用于读取excel文件,xlwt专门用于写入excel文件,这是一种最基础的操作excel文件的包,下面我简单介绍一下:
1.xlrd读取excel文件,代码很简单,如下:
程序运行截图如下:
2.xlwt写入excel文件,这里也挺简单的,直接构造数据,写入就行,测试代码如下:
程序运行截图如下:
至此,我们就完成了对excel文件的读写。总的来说,这3种方式都挺简单的,只要你有一定的python基础,多加练习,很快就能掌握的,网上也有很多这方面的教程,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧。