- 发布日期:2022-02-16 13:03 点击次数:196

咱们可通过适度时辰ID和样本ID赢得对应的Series和DataFrame。
根据2021年测试自动化报告,超过40%的公司正在寻求扩展和投资于测试自动化的资源。虽然这并不意味着手动测试会消失,但从ROI的角度来看,人们对自动化的兴趣越来越大——无论是在金钱还是时间方面。
由于这些对象的常用操作圭臬非常通常,因此本文主要使用DataFrame进行演示。
1 读取文献Pandas库提供了方便读取土产货结构化数据的圭臬。这里主要以csv数据为例,read_csv函数不错读取csv数据,代码如下:
import 头头体育官网,头头体育APP,头头体育电子竞技pandas as pd csv = pd.read_csv('data/sample.csv') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 99999.0 4 5 小兰 NaN
按照常规,Pandas会以pd为别称,以read_csv函数读取指定旅途下的文献,然后复返一个DataFrame对象。要是在敕令行中打印DataFrame对象,可读性可能会略差一些;要是在Jupyter Notebook中打印的话,可读性会大幅提高。
打印出来的DataFrame包含索引(第一列),列名(第一排)及数据本体(除第一排和第一列除外的部分)。
此外,read_csv函数有好多参数不错缔造,如下所示。
filepath_or_buffer csv文献的旅途 sep = ',' 分隔符,默许为逗号 header = 0 int类型,0代表第一排为列名,若设定为None将使用数值列名 names = [] list,从头界说列名,默许为None usecols = [] list,界说读取的列,设定后将缩小读取数据的时辰,并减小内存耗尽,相宜读取多量数据,默许为None dtype = {} dict,界说读取列的数据类型,默许为None nrows = None int类型,指定读取数据的前n行,默许为None na_values = ... str类型,list或dict,指定缺失值的填充值 na_filter = True bool类型,自动发现数据中的缺失值,默许值为True,若笃定数据完满失,不错设定值为False,以提高数据载入的速率 chunksize = 1000 int类型,分块读取,当数据量较大时,不错设定分块读取的行数,默许为None encoding = 'utf-8' str类型,数据的编码,Python3默许编码为UTF-8,Python2默许编码为ASCII Pandas除了不错胜利读取csv、excel、json、html等文献生成的DataFrame,也不错在列表、元组、字典等数据结构中创建DataFrame。 2 读取指定行和指定列使用参数usecol和nrows读取指定的列和前n行,这么不错加速数据读取速率。读取原数据的两列、两行示举例下。
csv = pd.read_csv('data/sample.csv',\ usecols=['id','name'],\ nrows=2) #读取'id'和'name'两列,仅读取前两行 csv
id name 0 1 小明 1 2 小红3 分块读取
参数chunksize不错指定分块读取的行数,并复返一个可迭代对象。这里,big.csv是一个4500行、4列的csv数据,设定chunksize=900,分5块读取数据,每块900行,4个变量,如下所示:
csvs = pd.read_csv('data/big.csv',chunksize=900) for i in csvs: print (i.shape)
(900, 4) (900, 4) (900, 4) (900, 4) (900, 4)
不错使用pd.concat函数读取沿路数据:
csvs = pd.read_csv('data/big.csv',chunksize=900) dat = pd.concat(csvs,ignore_index=True) dat.shape
(4500, 4)4 将不对理数据读取为缺失值
在数据sample.csv中,“小青”的分数中有的取值为99999,这里令其读取为缺失值,操作如下:
csv = pd.read_csv('data/sample.csv', na_values='99999') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 NaN 4 5 小兰 NaN5 以指定编码方式读取
读取数据时,乱码情况时时出现。这里需要先弄廓清原始数据的编码模式,再以指定的编码模式读取,举例sample.csv编码为UTF-8,这里以指定编码(参数encoding)方式读取。
csv = pd.read_csv('data/sample.csv', encoding='utf-8') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 99999.0 4 5 小兰 NaN
对于作家:张秋剑,赴任于腾讯云金融拓展中心,从事微信金钱营销管制、数据中台、AI行使等搞定决议拓展责任,接续地方包括数字化转型、翻新实践等。
张浩,曾任腾讯云金融首席架构师和星环科技金融行业技能总监,主要从事大数据、人工智能、云运筹帷幄、区块链、联邦学习等有关技能研发与居品野心,具有丰富的企业架构野心、企业数字化计谋转型运营与业务洽商讲解。
周大川,赴任于某中央金融企业金融科技研发中心,主要从事企业级数据平台拓荒、中枢业务平台设置、AI赋能金融科技翻新等责任,具有丰富的新一代金融业务系统设置讲解。
常国珍,曾任毕马威洽商大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营洽商讲解,是金融信用风险、反诓骗和反洗钱算法限度的各人。
本文摘编自《金融生意数据分析:基于Python和SAS》,经出书方授权发布。(ISBN:9787111695837)
头头体育官网,头头体育APP,头头体育电子竞技平台客服QQ:865083652
- 朴实无华、温顺可儿幽默的人品质格2022-06-21
- 全力加速扭转事故多发的被迫地方2022-06-21
- 全力加速扭转事故多发的被迫方位2022-06-21
- 也提议了逍遥保障的一系列撑持战略2022-06-21
- 要是是处在疫情影响严重地区2022-06-21
- 国际体育仲裁法庭发现“不及时通报的严重问题”2022-06-21