头头体育官网-Series是一个一维结构的序列
你的位置:头头体育官网 > 头头体育官网 > Series是一个一维结构的序列
Series是一个一维结构的序列
发布日期:2022-02-16 13:03    点击次数:196

Series是一个一维结构的序列

本文转载自微信公众号「大数据DT」,作家张秋剑 张浩 等。转载本文请关系大数据DT公众号。 DataFrame是咱们常见的二维数据表,包含多个变量(列)和样本(行),无为被称为数据框。 Series是一个一维结构的序列,包含指定的索引信息,不错被视作DataFrame中的一列或一排。其操作圭臬与DataFrame非常通常。 Panel是包含序列及截面信息的三维结构,无为被称为面板数据。

咱们可通过适度时辰ID和样本ID赢得对应的Series和DataFrame。

根据2021年测试自动化报告,超过40%的公司正在寻求扩展和投资于测试自动化的资源。虽然这并不意味着手动测试会消失,但从ROI的角度来看,人们对自动化的兴趣越来越大——无论是在金钱还是时间方面。

由于这些对象的常用操作圭臬非常通常,因此本文主要使用DataFrame进行演示。

1 读取文献

Pandas库提供了方便读取土产货结构化数据的圭臬。这里主要以csv数据为例,read_csv函数不错读取csv数据,代码如下:

import 头头体育官网,头头体育APP,头头体育电子竞技pandas as pd csv = pd.read_csv('data/sample.csv') csv 
id name   scores 0   1  小明    78.0 1   2  小红    87.0 2   3  小白    99.0 3   4  小青 99999.0 4   5  小兰     NaN 

按照常规,Pandas会以pd为别称,以read_csv函数读取指定旅途下的文献,然后复返一个DataFrame对象。要是在敕令行中打印DataFrame对象,可读性可能会略差一些;要是在Jupyter Notebook中打印的话,可读性会大幅提高。

打印出来的DataFrame包含索引(第一列),列名(第一排)及数据本体(除第一排和第一列除外的部分)。

此外,read_csv函数有好多参数不错缔造,如下所示。

filepath_or_buffer csv文献的旅途 sep = ',' 分隔符,默许为逗号 header = 0 int类型,0代表第一排为列名,若设定为None将使用数值列名 names = [] list,从头界说列名,默许为None usecols = [] list,界说读取的列,设定后将缩小读取数据的时辰,并减小内存耗尽,相宜读取多量数据,默许为None dtype = {} dict,界说读取列的数据类型,默许为None nrows = None int类型,指定读取数据的前n行,默许为None na_values = ... str类型,list或dict,指定缺失值的填充值 na_filter = True bool类型,自动发现数据中的缺失值,默许值为True,若笃定数据完满失,不错设定值为False,以提高数据载入的速率 chunksize = 1000 int类型,分块读取,当数据量较大时,不错设定分块读取的行数,默许为None encoding = 'utf-8' str类型,数据的编码,Python3默许编码为UTF-8,Python2默许编码为ASCII Pandas除了不错胜利读取csv、excel、json、html等文献生成的DataFrame,也不错在列表、元组、字典等数据结构中创建DataFrame。 2 读取指定行和指定列

使用参数usecol和nrows读取指定的列和前n行,这么不错加速数据读取速率。读取原数据的两列、两行示举例下。

csv = pd.read_csv('data/sample.csv',\                   usecols=['id','name'],\                   nrows=2) #读取'id'和'name'两列,仅读取前两行 csv 
id name 0   1  小明 1   2  小红 
3 分块读取

参数chunksize不错指定分块读取的行数,并复返一个可迭代对象。这里,big.csv是一个4500行、4列的csv数据,设定chunksize=900,分5块读取数据,每块900行,4个变量,如下所示:

csvs = pd.read_csv('data/big.csv',chunksize=900) for i in csvs:    print (i.shape) 
(900, 4) (900, 4) (900, 4) (900, 4) (900, 4) 

不错使用pd.concat函数读取沿路数据:

csvs = pd.read_csv('data/big.csv',chunksize=900) dat = pd.concat(csvs,ignore_index=True) dat.shape 
(4500, 4) 
4 将不对理数据读取为缺失值

在数据sample.csv中,“小青”的分数中有的取值为99999,这里令其读取为缺失值,操作如下:

csv = pd.read_csv('data/sample.csv',                   na_values='99999') csv 
id name  scores 0   1  小明   78.0 1   2  小红   87.0 2   3  小白   99.0 3   4  小青    NaN 4   5  小兰    NaN 
5 以指定编码方式读取

读取数据时,乱码情况时时出现。这里需要先弄廓清原始数据的编码模式,再以指定的编码模式读取,举例sample.csv编码为UTF-8,这里以指定编码(参数encoding)方式读取。

csv = pd.read_csv('data/sample.csv',                   encoding='utf-8') csv 
id name   scores 0   1  小明    78.0 1   2  小红    87.0 2   3  小白    99.0 3   4  小青 99999.0 4   5  小兰     NaN 

对于作家:张秋剑,赴任于腾讯云金融拓展中心,从事微信金钱营销管制、数据中台、AI行使等搞定决议拓展责任,接续地方包括数字化转型、翻新实践等。

张浩,曾任腾讯云金融首席架构师和星环科技金融行业技能总监,主要从事大数据、人工智能、云运筹帷幄、区块链、联邦学习等有关技能研发与居品野心,具有丰富的企业架构野心、企业数字化计谋转型运营与业务洽商讲解。

周大川,赴任于某中央金融企业金融科技研发中心,主要从事企业级数据平台拓荒、中枢业务平台设置、AI赋能金融科技翻新等责任,具有丰富的新一代金融业务系统设置讲解。

常国珍,曾任毕马威洽商大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营洽商讲解,是金融信用风险、反诓骗和反洗钱算法限度的各人。

 

本文摘编自《金融生意数据分析:基于Python和SAS》,经出书方授权发布。(ISBN:9787111695837)

头头体育官网,头头体育APP,头头体育电子竞技平台客服QQ:865083652

 



  • 上一篇:没有了
  • 下一篇:紧接着是 PrintNightmare