zhuerding

Gene Weaver

基因编织

当前版本:V 1.6.0  更新日志

(使用时尽量使用外置代理,以便更快的采集数据)

目录

一、项目简介

  欢迎使用Gene Waver。
  这是一款基于python3.9开发的完全免费开源的基因筛查工具,本程序利 用OCR、计算机爬虫等技术可以实现对StarBase、Ualcan、 mirWalk、mirDIP、miRDB、TargetScan 、TarBase、PubMed、中国知网等多个数据库进行检索,获取相应靶基因信息、差异表达、 生存曲线等信息,从而得出可靠的miRNA -> gene symbol通路。同时程序 还可以生成表格、韦恩图等多种输出形式,亦可在公共服务器上运行。

  适用人群: 有大批量miRNA检索需求的生信科研人员
  项目更新地址:https://github.com/zhuerding/gene_weaver
  安装包下载:https://pan.baidu.com/s/1vuHv1Jge21XpvRkUpbk4dw?pwd=5pbl

二、文件结构

其余文件为主程序依赖的包,请勿修改

三、功能详解

  1. 手动导入
      当出现手动导入数据集模式启动:提示时 就说明配置文件中没有正确导入或者没有写入数据集地址,此时便要手动导入数据集。
      手动导入数据集同ini配置导入,当数据集位于本程序所在的文件夹时使用相对路径,不在本程序所在的文件夹时使用绝对路径。 但是一次只能填写一个,例如:C:\Users\xx\Desktop\xxx.tsv或者xxx.tsv,输入完成后敲击回车即可。
      当米娜桑输入完成最后一个数据集地址敲击回车后,可以输入y或者Y完成导入,至此米娜桑可以开始摸鱼了。

注意事项:

  1. 多集导入时GSE数据集请使用 .tsv 格式,单集导入可以选择 .txt.tsv格式,并且保证其为 utf-8编码格式

编码格式查看可使用windows系统自带记事本软件打开数据集,右下角即为 该tsv文件编码格式,若编码不是utf-8,可以将该文件另存为,在另存为时选择utf-8编码格式。

  2. GSE数据集解析分为两种模式
  - 单集解析
  单集解析即只导入一个数据集,当导入一个数据集时,默认 读取第一列的数据,所以请保证单集导入时,第一列数据为米娜桑的miRNA名称(hsa-miR-***格式)。

  - 多集解析
  多集解析即导入多个数据集,只要任意两个数据集之间的miRNA存在交集,便会进行查询,此时默认读取第七列的数据(hsa-miR-***格式)(大多数GSE数据集均第七列为miRNA名称)。

  此外,请保证GSE数据集第一行为标题行,不然无法查询位于第一行的miRNA信息。

  当成功导入数据集后,程序便会第一个查询StarBase数据库,因为Ualcan数据库相关miRNA信息较少,且服务器位于境外,故本程序不采用Ualacn数据库为筛选数据库。
  本程序在这一环节中会使用计算机爬虫技术,获取miRNA的差异表达和生存分析曲线的统计学p值,当两个p值均小于等于0.05,满足统计学意义时,便进入下一查询环节。

1.6.0更新:

  在更新1.6.0版本后,该程序可以自动对StarBase上miRNA的箱式图、生存曲线自动分析,得出该miRNA的性质,并比较两图是否对应。不过,需要注意的是,为保证图像质量,程序识别中存在一定的模糊分析,即对比相关数据时会乘以0.951.05的系数,使得Normal组和Cancer组或Low组和High组的图像差异性更加显著。

  当筛选完可用miRNA后,程序便会进一步查询Ualcan数据库,因为Ualcan数据库相关miRNA较少,可能存在只有前体没有成熟体或只有成熟体没有前体的情况,故本程序提供模糊搜索功能,将会根据miRNA名称,自动对其成熟体或前体再次查询,以达到全面获得数据的目的。
  本程序在这一环节中会使用计算机爬虫技术,获取miRNA的差异表达和生存分析曲线的统计学p值,无论两个p值是否均小于等于0.05,都会进行记录并标明前体或成熟体。

-  当关键词云与相关论文摘要完全匹配时,degree为Very High,即有大概率这个miRNA有人做过相关癌种了,你做了大概率被导师骂一顿。
-  当关键词云与相关论文摘要基本匹配时,degree为High,即有一定概率这个miRNA有人做过相关癌种了。
-  当关键词云与相关论文摘要基本不匹配时(可能有其他癌种有相关研究),degree为Low,即有小概率这个miRNA有人做过相关癌种了。
-  当没有相关论文时,degree为None,即基本没人做过这个基因的任何研究。

  程序会自动对miRNA进行分类,根据米娜桑在配置文件中设置的model值进行下一步搜索。

  根据米娜桑填写的model值,程序会查询mirWalk数据库,程序通过pandas模块对下载到的csv文件进行解析,获取靶蛋白bindingp = 1的靶蛋白。

  根据米娜桑填写的model值,程序会查询miRDB数据库,程序通过xpath模块对页面进行解析,获取靶蛋白Target Score > 80的靶蛋白。

  根据米娜桑填写的model值,程序会查询TargetScan数据库,程序通过panads模块对下载到的xlsx文件进行解析,获取靶蛋白Total context++ score < -0.5 的靶蛋白。

  根据米娜桑填写的model值,程序会查询mirDIP数据库,程序通过对下载到的tsv文件进行解析,获取靶蛋白very high的靶蛋白。

  根据米娜桑填写的model值,程序会查询Tarbase数据库,程序通过xpath模块对页面进行解析,获取靶蛋白Score > 5 的靶蛋白。

  导出的文件都位于./output文件夹。
  导出文件夹的命名格式为电子签名 + 年-月-日 + 时:分:秒 + 癌种 + gene weaver 1.5 output,例如 “zhuerding 22-08-13 13:18:33 ACC gene weaver 1.5 output”
  符合条件基因的生存曲线、差异分析的p值信息以及文献可疑度指数都位于命名格式为年-月-日 + 时-分-秒 + 癌种.xlsx的excel文件中。
  程序运行过程中保存输出的文字信息(方便在程序崩溃后重启)的日志文件位于命名格式为day年_月_日.log的.log文件中,可以用记事本打开。   靶基因信息都位于./miRNA名的文件夹内。

五、配置文件

  本程序提供了一定的自由度,所以配置文件较为复杂……本章会为米娜桑解释配置文件中的参数含义。当然,在配置文件中也有相应的解释。
   ./config.ini 为我们的配置文件,其他文件若未在本文档的日后版本中提及,请不要修改。

   注意事项

  1. 请不要删去[base][query]model = 等这类符号,此为分隔符或参数名。
  2. 如果米娜桑不小心修改了不该修改的东西,而且不小心保存了,可以选择删除config.ini文件,然后运行主程序gene_weaver.exe,主程序在检测到配置文件消失后会自动重新生成一份船新的配置文件。
  3. 在输入参数的时候,所以符号请输入半角(即英文状态下输入),'不要用"代替,此外不要写一些奇奇怪怪的东西到参数里面,很有可能程序就瓦塔了。
  4. 在程序的更新中会陆续增加新的参数,请在主程序更新后亦更新配置文件,不然新程序可能会罢工……
  5. 因为很多生信数据库都是免费的,所以其服务器运营压力较大,很有可能突然就噶了,所以最好在程序运行前检查一下网站还能否使用,不然程序也有可能会报错。

六、Bug相关

  写在前面

  程序的开发者是一只医学牲,所有python语法都是自学,并未系统性学习过编程,所以出现Bug是意料之外,情理之中……不管怎样,本人会尽可能修复Bug,并维持版本更新~
***

  以上日志文件均可以用记事本软件打开,若确认不是因为配置文件中写入了一些奇奇怪怪的东西,就麻烦米娜桑打包以上两个日志文件发送标题中带有【BUG】字样的邮件发送至 zhuerding@zhuerding.top ,如果可以的话希望详细说明发生问题的场景和输入的参数(如果涉及课题组机密,请尽可能用相同的数据脱敏告诉我~)。