python

超轻量级php框架startmvc

Python3实现将本地JSON大数据文件写入MySQL数据库的方法

更新时间:2020-06-05 23:00:01 作者:startmvc
本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家

本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家参考,具体如下:

最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使用本地文件,选择python来分析,那么效率是非常低的;另一方面使用SQL来储存文本文件最为安全,之前使用CSV,txt存储的文本文件最后莫名其妙地出现一些奇怪字符,导致读取数据分割时出现错乱。下面给出一个简单的代码,将本地JSON文件内容存入数据库。

说明:python版本为3.5,使用第三方库为pymysql。因为数据量比较大,不能一次性读取到内存(否则内存报错),这里使用逐行读取的方式。数据库先创建后再使用以下代码;


import json
import pymysql
# 读取review数据,并写入数据库
# 导入数据库成功,总共4736897条记录
def prem(db):
 cursor = db.cursor()
 cursor.execute("SELECT VERSION()")
 data = cursor.fetchone()
 print("Database version : %s " % data) # 结果表明已经连接成功
 cursor.execute("DROP TABLE IF EXISTS review") # 习惯性
 sql = """CREATE TABLE review (
 review_id VARCHAR(100),
 user_id VARCHAR(100),
 business_id VARCHAR(200),
 stars INT,
 text VARCHAR(10000) NOT NULL,
 useful INT,
 funny INT,
 cool INT)"""
 cursor.execute(sql) # 根据需要创建一个表格
def reviewdata_insert(db):
 with open('E:/data/yelp_data/dataset/review.json', encoding='utf-8') as f:
 i = 0
 while True:
 i += 1
 print(u'正在载入第%s行......' % i)
 try:
 lines = f.readline() # 使用逐行读取的方法
 review_text = json.loads(lines) # 解析每一行数据
 result = []
 result.append((review_text['review_id'], review_text['user_id'], review_text['business_id'],review_text['stars'], review_text['text'], review_text['useful'],
 review_text['funny'], review_text['cool']))
 print(result)
 inesrt_re = "insert into review(review_id, user_id, business_id, stars, text, useful, funny, cool) values (%s, %s, %s, %s,%s, %s,%s, %s)"
 cursor = db.cursor()
 cursor.executemany(inesrt_re, result)
 db.commit()
 except Exception as e:
 db.rollback()
 print(str(e))
 break
if __name__ == "__main__": # 起到一个初始化或者调用函数的作用
 db = pymysql.connect("localhost", "root", "password(你的密码)", "数据库名称", charset='utf8')
 cursor = db.cursor()
 prem(db)
 reviewdata_insert(db)
 cursor.close()

PS:这里再为大家推荐几款比较实用的json在线工具供大家参考使用:

在线JSON代码检验、检验、美化、格式化工具: http://tools.jb51.net/code/json

JSON在线格式化工具: http://tools.jb51.net/code/jsonformat

在线XML/JSON互相转换工具: http://tools.jb51.net/code/xmljson

json代码在线格式化/美化/压缩/编辑/转换工具: http://tools.jb51.net/code/jsoncodeformat

在线json压缩/转义工具: http://tools.jb51.net/code/json_yasuo_trans

Python3 本地 JSON大数据文件 写入 MySQL数据库