正在加载
安徽十一选五
版本:7.4.1
大小:264936KB

安徽十一选五

    一文学会JASPAR数据库使用方法 嗨,小伙伴们大家好!这里是每周一弘毅专栏,我志向用小小文字助力你的SCI发表之路。很多小伙伴在设计转录因子相关课题的时候经常会遇到这样一个问题,在已知靶基因的情况/p>

    一文学会JASPAR数据库使用方法

    嗨,小伙伴们大家好!这里是每周一弘毅专栏,我志向用小小文字助力你的SCI发表之路。很多小伙伴在设计转录因子相关课题的时候经常会遇到这样一个问题,在已知靶基因的情况下怎么寻找它上游的转录因子?或者是已知转录因子怎么找到它可能参与调控的靶基因?本周给大家梳理的知识点和介绍的JASPAR数据库便是用来解决这两个问题的,跟着弘毅的脚步一起来看看吧~!

    写在前面:认识转录因子及其结合位点

    1、认识转录因子

    概念

    转录因子(Tranion factor, TF):是一类序列特异性DNA结合蛋白,能够结合在靶基因上游的转录因子结合位点序列(Tranion factor binding site, TFBS),参与调控基因转录过程。

    特征

    1)结构特征:至少含有一个DNA结合结构域(DNA binding domain, DBD),用以识别和结合靶基因上游TFBS序列;含有多个转录效应结构,用以结合其他转录调节因子形成转录调控复合物。

    2)功能特征:往往形成一个“基因启动子区域+TF+RNA聚合酶+其他辅助转录调控因子”形式的转录起始复合物,参与调控下游基因转录过程。

    分类

    两种分类原则

    1)根据转录因子对转录调控的特性分为通用型转录因子和特异型转录因子。

    2)根据转录因子DBD分为四大类:

    ①Basic domains,以同源或异源二聚体形式发挥作用,代表分子为basic leucine zipper domain(bZIP)和basic helix-loop-helix domain(bHLH);

    ②Zinc-coordinating DBD,含有锌指结构的C2H2、C4或C6蛋白,参与基因转录调控;

    ④beta-scaffold factors with minor groove contacts,代表分子为Rel homology region(RHR)。

    2、转录因子结合位点

    基本概念

    转录因子结合位点(Tranion factor binding site, TFBS)是转录因子结合在靶基因DNA上的区域。

    特征

    1)转录因子结合位点序列具有保守性,通常为一段6~12bp的DNA序列,最多不超过20bp;

    2)某些转录因子结合位点冗余;

    3)转录因子在基因组结合位点不固定,允许错配,理论上转录因子可以结合在DNA任意区域,但是通常只有结合在启动子区域的转录因子才能发挥生物学意义。

    表述方式

    1)一致性序列:将能与同一个转录因子结合的所有DNA片段按照对应位置进行排列,选择每个位置最可能出现的碱基组成该转录因子结合位点的一致性序列,序列包括A,T,C,G这4中碱基和IUPAC兼并码,后者代表某个位置上可能出现的碱基组合。

    2)序列标识图:依次绘出某个DNA motif中各个位置可能出现的碱基字母,碱基字母高度反映该位置的碱基保守性,字母越少高度越高的位置碱基保守性越好,碱基字母的大小与碱基在该位置上出现的频率成正比例关系。

    3)位置频率矩阵:矩阵中,行代表转录因子结合位点区域每个碱基位置信息,列代表每个位置四种碱基出现的概率,可以矩阵或表格形式展示。

    3、在线网站预测转录因子结合位点的缺陷与策略

    目前转录因子结合位点的预测主要是基于热力学亲和力,并非真实发生在细胞内的结合,在转录因子结合位点预测时允许碱基错配,因此可能存在大量的假阳性预测结果。另外,转录因子发挥作用时,需要分子伴侣与或组成转录因子复合物发挥转录调控作用,组蛋白表观遗传学修饰引起的染色体结构改变也会影响转录因子的结合,在使用网站预测时没有考虑到这点。综上,我们在做转录因子预测研究时,可以考虑多个数据库的多种算法,将获得的结果取交集,并参考转录因子和靶基因的表达相关性,同时选择一个转录因子复合物内的多个转录因子进行研究,以通量解决概率问题。

    JASPAR数据库概览

    进入JASPAR主页(),点击左侧栏About可查看JASPAR基本信息,该数据库为收录转录因子和DNA结合位点信息的开源公共数据库,目前更新到2020年第8版,共有10个子数据集,点击任意一个子数据集,下拉菜单可以看到其简介,右侧显示该子数据集在不同物种中的分布情况,包括脊椎动物、植物、真菌、昆虫和线虫等。

    点击左侧栏10个子数据库各自对应的Browse,可进入该模块下各种motif信息的目录界面,分别介绍如下。

    JASPAR CORE子数据库,是JASPAR的核心数据库,也是使用最多的一个数据库,收录来自文献的实验证实的真核生物转录因子结合位点序列信息,是一个经过人工校对过的非冗余数据库,数据质量较高,主要用于特定转录因子或具有特定结构特征的某一类转录因子的结合位点预测。该模块每个motif编号以MA开头。

    Collection CNE子数据库,包含233个人类基因组中高度保守的非编码基因转录因子结合位点序列信息,大部分可以作为增强子来调控发育和分化相关基因表达,主要用于分析潜在的增强子。该模块每个motif编号以CN开头。

    Collection FAM子数据库,是基于JASPAR CORE数据,根据结合位点序列特征将转录因子划分为11个不同的class家族,便于同一位点的多方预测,同时还能发现新的家族模型或将新发现的转录因子进行功能聚类。该模块每个class编号以MF开头。

    Collection PBM子数据库,包含基于k-mer微阵列技术获得的104种小鼠转录因子矩阵模式数据。该模块每个motif编号以PB开头。

    Collection PBM HLH子数据库,包含基于k-mer微阵列技术获得的19种线虫Helix-turn-helix转录因子模型数据。该模块下的motif编号以PL开头。

    Collection PBM HOMEO子数据库,包含基于k-mer微阵列技术获得的176种鼠同源结构转录因子矩阵模式数据。该模块每个motif编号以PH开头。

    Collection PHYLOFACTS子数据库,包含174种进化上保守的基因上游结合元件,基于实验验证和尚未定义的转录因子结合位点信息,与JASPAR CORE数据互补,主要用于分析启动子的组织特异性和结构特异性。该部分每个motif的编号以PF开头。

    Collection POLII子数据库,包含已知的与RNA聚合酶II核心启动子相关的DNA基序,用于分析潜在的核心启动子。该部分每个motfi编号以PL开头。

    Collection SPLICE子数据库,包含6种典型的或非典型的剪切位点序列模型,主要用于剪切位点和可变剪切相关研究。6个motif编号均以SA开头。

    Collection UNVALIDATED子数据库,2020年新增板块,包含一些未被验证的现有文献未见报道的转录因子结合位点信息,官方不建议使用。该部分每个motfi编号以UN开头。

    点击About目录下Documentation子目录,可以查看每个子数据集包含的具体数据条目,以JASPAR CORE为例,该条目下包含每个Motif的ID编号,转录因子类型和家族信息,种属,文献PMID号等信息。

    JASPAR功能及操作演示

    一、转录因子TFBS信息查询

    以JASPAR数据库示例转录因子SPI1为例,进入JASPAR主页,检索框输入SPI1,高级设置选项分别选择感兴趣的子数据库(Collection)、物种(Taxon)、种属(Species)、数据类型(Date type)、转录因子类型(Class)、转录因子家族(Family)和JASPAR版本。

    点击Search进入检索结果页面,转录因子SPI1共得到5个版本结果,点击最新版ID进入详情界面。

    Profile summary提供该转录因子Matrix ID,转录因子名称、类型和家族信息,所属的子数据集,种属,文献PMID号,以及对应的各种数据库ID号,如Uniprot ID、PAZAR ID和TFBSshape ID等。该页面还提供序列标识图和位置频率矩阵,均提供下载功能。另外,可点击外链直接进入PDB、Uniprot和Remap数据库。

    点击Binding sites information下HTML file查看结合位点序列,红色标识即就是motif对应的具体的序列信息。

    页面下拉,点击ChIP-seq centrality,展示ChIP-seq数据的Motif富集结果,P值小于0.05,即logP<-1.3表示转录因子与Motif结合具有统计学意义。可视化图形中,横坐标为peak相对位置,纵坐标是motif出现次数,峰尖位于0附近,峰形尖锐表明得到的peak确实是转录因子结合的DNA motif位置。

    First order TFFM与Detailed TFFM二者类似,只是算法不同,点击任意一个查看TFFM核酸关联性分析示意图,该图形表示motif中上一个位置出现某种碱基对下一个位置出现某个碱基概率的影响。

    二、靶基因候选转录因子预测

    第一步

    获取靶基因潜在启动子区域碱基序列

    【使用NCBI或UCSC数据库,以NCBI为例说明】

    以人类RET基因为例,进入NCBI数据库,选择Gene子数据库,输入基因名称RET,点击Search得到检索结果,第一条结果即为目标基因,点击进入详情页面。

    页面继续下拉,在Genomic regions, trans, and products目录下,选择前文一致的的基因组版本,找到FSAT点击进入,右侧输入RET基因启动子区域位置信息,点击Update View,即可得到该基因潜在启动子序列。

    第二步

    预测潜在的结合在靶基因启动子区域的转录因子

    【联合UCSC和JASPAR数据库】

    点击进入UCSC数据库主页,My Data下拉菜单选Track Hubs点击进入后,Public Hubs搜索栏输入JASPAR,点击Search Public Hubs,检索结果处找到Connect点击,页面刷新提示JASPAR track加载成功。

    返回UCSC主页,Genomes下拉菜单选择前文一致的基因组版本,页面刷新显示基因组信息浏览页面。点击hide all隐藏所以track,然后在最新版JASPAR下拉菜单中选择pack,再点击最右上角refresh,设置为仅保留JASPAR track的信息界面。

    可设置JASPAR track参数过滤预测结果,点击JASPAR进入设置界面,Minimum Score一般在200以上即可视为有统计学意义,由于预测到的转录因子较多,此处设置500,点击Submit,页面刷新可见预测到的转录因子明显减少。

    第三步

    预测候选转录因子在靶基因启动子区域的结合位点序列

    【使用JASPAR数据库】

    以预测到的箭头颜色较深的NFIC、PAX9、ZNF382、SP4和EGR1这5个转录因子为例。进入JASPAR主页,检索框输入NFIC,设置同前文所述,检索结果选择最新版本,前面打勾,点击右侧Add to cart。同法将其余转录因子加入购物车,然后点击View cart。

    右侧工具栏Scan,找到前文NCBI数据库查询到的RET基因潜在启动子区域序列FASTA格式,全部复制后粘贴入检索框,阈值默认80%,当预测结果较多时可提高阈值,此处设置85%,点击Scan,页面刷新,结果显示预测到的结合位点序列。

    结果显示5个转录因子满足预测条件的有3个,其中EGR1预测到两个结合位点序列,表格提供的信息有:预测评分,评分越高预测结果越可靠;TFBS序列起止位置;具体的碱基序列。点击Copy或CSV可保存预测结果。

    文献单图复现

    文献案例:PMID: 32899428,IF=4.556分

    本文Table1作者在JASPAR数据库中预测转录因子YY1在靶基因BIRC5启动子区域的可能结合位点序列,而后通过ChIP-seq实验证实预测结果。

    单图复现如下:

    投我以桃,报之以李,开发并维护数据库不易,小伙伴们使用JASPAR时,别忘记引用以下参考文献哦!~

    写在结尾

    我有双份的快乐,一份留给我的family members,一份留给不经意间看到的你!好啦~关于JASPAR数据库加餐就到这里啦!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~~!

    lnRNA生信一站式分析神器!差异表达,临床分析,ceRNA网络都有了,还要啥自行车!

    肿瘤基因突变Biomarkers的药物研究神器—OncoKB数据库

    肿瘤药敏及多组学研究好帮手-GDSC数据库,真香!好用到停不下来!

    这里有瓜吃!LncRNA这么热,临床医生该怎么找课题~

    欢迎大家关注解螺旋生信频道-挑圈联靠公号~

    END

    撰文丨弘 毅

    排版丨四金兄

    值班 | 弘 毅

    主编丨小雪球

    展开全部收起
    {$title}