Informations

Quelle est la distribution des structures secondaires par AA dans le protéome humain ?

Quelle est la distribution des structures secondaires par AA dans le protéome humain ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Si l'on classait chaque acide aminé comme étant soit dans une bobine, un brin bêta ou une hélice alpha, quelle serait la distribution de ces classes dans le protéome humain ?

Est-ce 33 %-33 %-33 % ou est-ce biaisé ? S'il est biaisé, pourquoi ?

Je pensais que cela devrait être à peu près égal, mais j'ai passé tout le protéome via PSIPRED et j'ai trouvé que la distribution était de 60% Coil, 30% Helix, 10% Sheet. Pourquoi en est-il ainsi ?


La question demande pourquoi la distribution de la bobine, de l'hélice alpha et du brin bêta est de 60:30:10 plutôt que de 33:33:33. La réponse est:

"Pourquoi pas"

En effet, il n'y a aucune raison de s'attendre à ce que trois types de structure (ou dans le cas des bobines, un manque de structure*) soient présents en quantités égales en protéines. C'est comme s'attendre à ce que le pourcentage d'intron, d'exon et d'ADN « poubelle » soit le même, ou que le pourcentage de réserves de carburant stockées sous forme de glycogène et de graisse soit le même. Oui, ils appartiennent à la même catégorie, mais ils sont suffisamment différents dans chaque cas pour qu'on ne s'étonne pas s'ils ne sont pas exigés en quantités égales.

Pour comprendre cela, il faut examiner un peu plus attentivement l'apparition d'une conformation en hélice alpha ou en brin bêta dans la structure tridimensionnelle des protéines. Trois points peuvent être soulignés :

  • Les acides aminés ont des conformations particulières car ils font partie d'une hélice étendue ou d'une feuille de brins dont l'intégralité conduit à sa stabilité structurelle - vous n'avez pas de mélange aléatoire.
  • Dans de nombreux cas, les hélices ou les feuillets se présentent dans des combinaisons particulières pour donner une famille de protéines de structure globale similaire. Encore une fois, l'idée de mélanges aléatoires n'entre pas dans l'équation.
  • Ces structures globales sont adaptées à des fonctions particulières, de sorte que l'abondance des protéines d'une famille structurelle particulière sera déterminée par le besoin d'anticorps ou de transporteurs d'ions ou de protéines de transduction de signaux, etc., et non par un coup de dés.

Des images illustrant deux de ces familles sont présentées ci-dessous :

(a) montre des protéines de transport d'ions, principalement des hélices alpha, tandis que (b) est un domaine d'immunoglobuline avec un motif distinctif de brins bêta (ainsi qu'une certaine hélice). Pour plus d'exemples et d'informations, je suggère le cours en ligne EMBL sur la classification des protéines et Berg et al. en ligne, par exemple la section 7.3.

*Note 1 : Situations où des occurrences égales peuvent être attendues Il vaut la peine de comparer la situation avec la structure secondaire des protéines à certaines où l'attente préalable pourrait bien être pour un usage égal, et l'écart par rapport à cela pourrait être considéré comme un biais et une explication à demander :

  • La proportion différente des 20 acides aminés dans les protéines (bien qu'un chimiste ne s'attendrait pas à des proportions égales)
  • Les différentes utilisations des codons synonymes du code génétique dans diverses espèces et ARNm
  • L'utilisation différente des molécules similaires avec un potentiel de transfert de groupe phosphoryle élevé : ATP, GTP, UTP et CTP (souvent appelées « haute énergie »)

*Note 2 : Une bobine n'est pas une structure secondaire

Comme indiqué dans l'entrée de Wikipédia pour la structure secondaire des protéines :

La bobine aléatoire n'est pas une véritable structure secondaire, mais est la classe de conformations qui indiquent une absence de structure secondaire régulière.

On pourrait mentionner en ce qui concerne la structure des protéines qu'il existe des motifs tridimensionnels plus petits que l'analyse citée ne prend pas en compte. Ceux-ci ne se produisent pas non plus dans des proportions égales, à la grande surprise de personne.


Prédiction de la structure des protéines

Prédiction de la structure des protéines est l'inférence de la structure tridimensionnelle d'une protéine à partir de sa séquence d'acides aminés, c'est-à-dire la prédiction de sa structure secondaire et tertiaire à partir de sa structure primaire. La prédiction de structure est différente du problème inverse de la conception de protéines. La prédiction de la structure des protéines est l'un des objectifs les plus importants poursuivis par la biologie computationnelle et elle est importante en médecine (par exemple, dans la conception de médicaments) et en biotechnologie (par exemple, dans la conception de nouvelles enzymes).

Depuis 1994, les performances des méthodes actuelles sont évaluées semestriellement dans le cadre de l'expérience CASP (Critical Assessment of Techniques for Protein Structure Prediction). Une évaluation continue des serveurs web de prédiction de la structure des protéines est réalisée par le projet communautaire CAMEO3D.


La biologie

L'histoire naturelle du paludisme implique une infection cyclique des humains et des femmes Anophèle les moustiques. Chez l'homme, les parasites se développent et se multiplient d'abord dans les cellules du foie puis dans les globules rouges du sang. Dans le sang, des couvées successives de parasites se développent à l'intérieur des globules rouges et les détruisent, libérant des parasites filles (&ldquomérozoïtes») qui continuent le cycle en envahissant d'autres globules rouges.

Les parasites au stade sanguin sont ceux qui provoquent les symptômes du paludisme. Lorsque certaines formes de parasites au stade sanguin (gamétocytes, présents sous les formes mâles et femelles) sont ingérées pendant l'alimentation sanguine par une femelle Anophèle moustique, ils s'accouplent dans l'intestin du moustique et commencent un cycle de croissance et de multiplication chez le moustique. Après 10 à 18 jours, une forme du parasite appelée sporozoïte migre vers les glandes salivaires du moustique. Quand le Anophèle le moustique prend un repas de sang sur un autre humain, de la salive anticoagulante est injectée avec les sporozoïtes, qui migrent vers le foie, commençant ainsi un nouveau cycle.

Ainsi le moustique infecté transporte la maladie d'un humain à un autre (agissant comme un &ldquovecteur&rdquo), tandis que les humains infectés transmettent le parasite au moustique. Contrairement à l'hôte humain, le moustique vecteur ne souffre pas de la présence des parasites.

Le cycle de vie du parasite du paludisme implique deux hôtes. Au cours d'un repas de sang, une femme infectée par le paludisme Anophèle le moustique inocule des sporozoïtes à l'hôte humain. Les sporozoïtes infectent les cellules hépatiques et mûrissent en schizontes, qui se rompent et libèrent des mérozoïtes. (À noter, dans P. vivax et P. ovale un stade de dormance [hypnozoïtes] peut persister dans le foie (si non traité) et provoquer des rechutes en envahissant la circulation sanguine des semaines, voire des années plus tard.) Après cette réplication initiale dans le foie (schizogonie exo-érythrocytaire), les parasites subissent une multiplication asexuée dans les érythrocytes (schizogonie érythrocytaire). Les mérozoïtes infectent les globules rouges. Les trophozoïtes au stade annulaire mûrissent en schizontes, qui se rompent en libérant des mérozoïtes. Certains parasites se différencient en stades érythrocytaires sexués (gamétocytes) . Les parasites au stade sanguin sont responsables des manifestations cliniques de la maladie. Les gamétocytes, mâles (microgamétocytes) et femelles (macrogamétocytes), sont ingérés par un Anophèle moustique lors d'un repas de sang. La multiplication des parasites chez le moustique est connue sous le nom de cycle sporogonique. Alors qu'ils se trouvent dans l'estomac du moustique, les microgamètes pénètrent dans les macrogamètes générant des zygotes. Les zygotes deviennent à leur tour mobiles et allongés (ookinètes) qui envahissent la paroi intestinale du moustique où ils se développent en oocystes. Les oocystes se développent, se rompent et libèrent des sporozoïtes, qui se dirigent vers les glandes salivaires des moustiques. L'inoculation des sporozoïtes à un nouvel hôte humain perpétue le cycle de vie du paludisme.

Facteurs humains et paludisme

Les caractéristiques biologiques et les traits comportementaux peuvent influencer un risque individuel de développer le paludisme et, à plus grande échelle, l'intensité de la transmission dans une population.

Où se produit la transmission du paludisme ?

Pour que la transmission du paludisme se produise, les conditions doivent être telles que les trois composantes du cycle de vie du paludisme soient présentes :

  • Anophèle les moustiques, capables de se nourrir d'humains humains, et dans lesquels les parasites peuvent compléter l'hôte invertébré la moitié de leur cycle de vie
  • Humains. qui peut être mordu par Anophèle moustiques, et chez qui les parasites peuvent compléter l'hôte la moitié de leur cycle de vie
  • Parasites du paludisme.

Dans de rares cas, les parasites du paludisme peuvent être transmis d'une personne à une autre sans nécessiter de passage par un moustique (de la mère à l'enfant dans le « paludisme congénital » ou par transfusion, transplantation d'organes ou partage d'aiguilles.)

Climat

Le climat est un déterminant clé de la répartition géographique et de la saisonnalité du paludisme. Sans précipitations suffisantes, les moustiques ne peuvent pas survivre, et s'ils ne sont pas suffisamment chauds, les parasites ne peuvent pas survivre dans le moustique.

Anophèle pondent leurs œufs dans une variété de plans d'eau douce ou saumâtre, avec différentes espèces ayant des préférences différentes. Les œufs éclosent en quelques jours, les larves qui en résultent mettent 9 à 12 jours pour se développer en adultes dans les zones tropicales. Si les habitats larvaires s'assèchent avant la fin du processus, les larves meurent si les pluies sont excessives, elles peuvent être évacuées et détruites. La vie est précaire pour les larves de moustiques, la plupart périssant avant de devenir adultes.

La vie est généralement courte pour les moustiques adultes également, la température et l'humidité affectant la longévité. Seules les femelles plus âgées peuvent transmettre le paludisme, car elles doivent vivre assez longtemps pour que les sporozoïtes se développent et se déplacent vers les glandes salivaires. Ce processus prend au moins neuf jours lorsque les températures sont chaudes (30°C ou 86°F) et prendra beaucoup plus de temps à des températures plus fraîches. Si les températures sont trop fraîches (15°C ou 59°F pour Plasmodium vivax, 20°C ou 68°F pour P. falciparum), le développement ne peut pas être achevé et le paludisme ne peut pas être transmis. Ainsi, la transmission du paludisme est beaucoup plus intense dans les zones chaudes et humides, la transmission n'étant possible dans les zones tempérées que pendant les mois d'été.

Dans les climats chauds, les gens sont plus susceptibles de dormir à l'extérieur sans protection, augmentant ainsi l'exposition aux morsures nocturnes. Anophèle les moustiques. Pendant les saisons de récolte, les travailleurs agricoles peuvent dormir dans les champs ou à proximité, sans protection contre les piqûres de moustiques.

Anophèle Les moustiques

Les types (espèces) de Anophèle présent dans une zone à un moment donné influencera l'intensité de la transmission du paludisme. Pas tout Anophèle sont des vecteurs tout aussi efficaces de transmission du paludisme d'une personne à une autre. Les espèces les plus susceptibles de mordre les humains sont les plus dangereuses, car les morsures infligées aux animaux qui ne peuvent pas être infectés par le paludisme humain rompent la chaîne de transmission. Si le moustique pique régulièrement les humains, la chaîne de transmission est ininterrompue et davantage de personnes seront infectées. Certaines espèces sont biologiquement incapables de soutenir le développement des parasites du paludisme humain, tandis que d'autres sont facilement infectées et produisent un grand nombre de sporozoïtes (le stade du parasite qui est infectieux pour l'homme).

Bon nombre des espèces les plus dangereuses mordent l'homme à l'intérieur. Pour ces espèces, les moustiquaires imprégnées d'insecticide et la pulvérisation intradomiciliaire à effet rémanent (par laquelle les murs intérieurs des habitations sont recouverts d'un insecticide de longue durée) sont des interventions efficaces. Ces deux interventions nécessitent une attention particulière à la résistance aux insecticides, qui évoluera si le même insecticide est utilisé en continu dans la même zone.

Humains

Les caractéristiques biologiques (innées et acquises) et les traits comportementaux peuvent influencer un risque individuel de paludisme et, à plus grande échelle, l'écologie globale du paludisme.

Parasites

Les caractéristiques du parasite du paludisme peuvent influencer la survenue du paludisme et son impact sur les populations humaines, par exemple :

  • Des zones où P. falciparum prédomine (comme l'Afrique au sud du Sahara) souffrira plus de maladies et de décès que les zones où d'autres espèces, qui ont tendance à provoquer des manifestations moins graves, prédominent
  • P. vivax et P. ovale ont des stades (&ldquohypnozoïtes&rdquo) qui peuvent rester dormants dans les cellules du foie pendant de longues périodes (de quelques mois à plusieurs années) avant de se réactiver et d'envahir le sang. De telles rechutes peuvent entraîner une reprise de la transmission après des efforts de lutte apparemment réussis, ou peuvent introduire le paludisme dans une zone qui était exempte de paludisme.
  • P. falciparum (et dans une moindre mesure P. vivax) ont développé des souches résistantes aux antipaludiques. De telles souches ne sont pas uniformément réparties. Une surveillance constante de la sensibilité de ces deux espèces de parasites aux médicaments utilisés localement est essentielle pour assurer un traitement efficace et des efforts de contrôle réussis. Les voyageurs se rendant dans des zones à risque de paludisme ne doivent utiliser à des fins de prévention que les médicaments qui seront protecteurs dans les zones à visiter.

Plasmodium falciparum prédomine en Afrique au sud du Sahara, l'une des raisons pour lesquelles le paludisme est si grave dans cette région.

Réservoirs d'animaux

Une certaine espèce de paludisme appelée P. knowlesi a récemment été reconnue comme étant la cause d'un nombre important d'infections humaines. P. knowlesi est une espèce qui infecte naturellement les macaques vivant en Asie du Sud-Est. Les humains vivant à proximité des populations de ces macaques peuvent être à risque d'infection par ce parasite zoonotique.

Zones où le paludisme n'est plus endémique

La transmission du paludisme a été éliminée dans de nombreux pays du monde, y compris aux États-Unis. Cependant, dans bon nombre de ces pays (y compris les États-Unis) Anophèle les moustiques sont toujours présents. En outre, des cas de paludisme surviennent encore dans les pays non endémiques, principalement chez les voyageurs de retour ou les immigrants (&ldquoimported malaria&rdquo). Ainsi, le potentiel de réintroduction de la transmission active du paludisme existe dans de nombreuses régions non endémiques du monde. Tous les patients doivent être diagnostiqués et traités rapidement pour leur propre bénéfice mais aussi pour éviter la réintroduction du paludisme.

Facteurs génétiques

Les caractéristiques biologiques présentes dès la naissance peuvent protéger contre certains types de paludisme. Deux facteurs génétiques, tous deux associés aux globules rouges humains, se sont avérés être épidémiologiquement importants. Les personnes qui ont le trait drépanocytaire (hétérozygotes pour le gène anormal de l'hémoglobine HbS) sont relativement protégées contre P. falciparum paludisme et ainsi bénéficier d'un avantage biologique. Parce que P. falciparum le paludisme est l'une des principales causes de décès en Afrique depuis des temps reculés, le trait drépanocytaire est maintenant plus fréquent en Afrique et chez les personnes d'ascendance africaine que dans d'autres groupes de population. En général, la prévalence des troubles liés à l'hémoglobine et d'autres dyscrasies des cellules sanguines, telles que l'hémoglobine C, les thalassémies et le déficit en G6PD, sont plus fréquentes dans les zones d'endémie palustre et on pense qu'elles offrent une protection contre la maladie palustre.

Les personnes négatives pour le groupe sanguin Duffy ont des globules rouges résistants à l'infection par P. vivax. Comme la majorité des Africains sont Duffy négatifs, P. vivax est rare en Afrique au sud du Sahara, en particulier en Afrique de l'Ouest. Dans ce domaine, le créneau de P. vivax a été repris par P. ovale, un parasite très similaire qui infecte les personnes Duffy-négatives.

D'autres facteurs génétiques liés aux globules rouges influencent également le paludisme, mais dans une moindre mesure. Divers déterminants génétiques (tels que le « complexe HLA », qui joue un rôle dans le contrôle des réponses immunitaires) peuvent également influencer le risque individuel de développer un paludisme grave.

L'immunité acquise

L'immunité acquise influence grandement la façon dont le paludisme affecte un individu et une communauté. Après des attaques répétées de paludisme, une personne peut développer une immunité partiellement protectrice. De telles personnes « emi-immunes » peuvent souvent encore être infectées par des parasites du paludisme mais peuvent ne pas développer une maladie grave et, en fait, ne présentent souvent aucun symptôme typique du paludisme.

Dans les zones à haute P. falciparum transmission (la majeure partie de l'Afrique au sud du Sahara), les nouveau-nés seront protégés pendant les premiers mois de la vie vraisemblablement par les anticorps maternels qui leur sont transférés par le placenta. Comme ces anticorps diminuent avec le temps, ces jeunes enfants deviennent vulnérables à la maladie et à la mort par paludisme. S'ils survivent à des infections répétées jusqu'à un âge plus avancé (2 à 5 ans), ils auront atteint un statut semi-immun protecteur. Ainsi, dans les zones à forte transmission, les jeunes enfants constituent un groupe à risque majeur et sont ciblés préférentiellement par les interventions de lutte contre le paludisme.

Dans les régions à faible transmission (comme l'Asie et l'Amérique latine), les infections sont moins fréquentes et une plus grande proportion d'enfants plus âgés et d'adultes n'ont pas d'immunité protectrice. Dans ces régions, le paludisme peut être présent dans tous les groupes d'âge et des épidémies peuvent survenir.

Anémie chez les jeunes enfants de la baie d'Asembo, une zone hautement endémique de l'ouest du Kenya. L'anémie survient le plus souvent entre 6 et 24 mois. Au bout de 24 mois, elle diminue car les enfants ont construit leur immunité acquise contre le paludisme (et sa conséquence, l'anémie).

Une mère et son nouveau-né à l'hôpital de Jabalpur, dans l'État du Madhya Pradesh, en Inde. La mère avait le paludisme, avec infection du placenta.

Grossesse et paludisme

La grossesse diminue l'immunité contre de nombreuses maladies infectieuses. Les femmes qui ont développé une immunité protectrice contre P. falciparum ont tendance à perdre cette protection lorsqu'elles tombent enceintes (en particulier pendant la première et la deuxième grossesse). Le paludisme pendant la grossesse est nocif non seulement pour les mères mais aussi pour les enfants à naître. Ces dernières courent un plus grand risque d'accoucher prématurément ou avec un faible poids à la naissance, avec par conséquent des chances de survie réduites pendant les premiers mois de la vie. Pour cette raison, les femmes enceintes sont également ciblées (en plus des jeunes enfants) pour la protection par les programmes de lutte contre le paludisme dans les pays endémiques.

Facteurs comportementaux

Le comportement humain, souvent dicté par des raisons sociales et économiques, peut influencer le risque de paludisme pour les individus et les communautés. Par exemple:

  • Les populations rurales pauvres des zones d'endémie palustre n'ont souvent pas les moyens d'acheter des logements et des moustiquaires qui les protégeraient de l'exposition aux moustiques. Ces personnes manquent souvent des connaissances nécessaires pour reconnaître le paludisme et le traiter rapidement et correctement. Souvent, les croyances culturelles entraînent l'utilisation de méthodes de traitement traditionnelles et inefficaces.
  • Les voyageurs en provenance de zones non endémiques peuvent choisir de ne pas utiliser d'insectifuge ou de médicaments pour prévenir le paludisme. Les raisons peuvent inclure le coût, les inconvénients ou un manque de connaissances.
  • Les activités humaines peuvent créer des sites de reproduction pour les larves (eau stagnante dans les fossés d'irrigation, les terriers)
  • Les travaux agricoles tels que la récolte (également influencés par le climat) peuvent entraîner une exposition nocturne accrue aux piqûres de moustiques
  • L'élevage d'animaux domestiques à proximité du foyer peut fournir d'autres sources de repas de sang pour Anophèle les moustiques et ainsi diminuer l'exposition humaine
  • La guerre, les migrations (volontaires ou forcées) et le tourisme peuvent exposer les individus non immunisés à un environnement à forte transmission du paludisme.

Le comportement humain dans les pays endémiques détermine également en partie le succès des activités de lutte contre le paludisme dans leurs efforts pour réduire la transmission. Les gouvernements des pays d'endémie palustre manquent souvent de ressources financières. En conséquence, les agents de santé du secteur public sont souvent sous-payés et surchargés de travail. Ils manquent d'équipement, de médicaments, de formation et de supervision. Les populations locales sont conscientes de telles situations lorsqu'elles surviennent et cessent de dépendre des formations sanitaires du secteur public. A l'inverse, le secteur privé souffre de ses propres problèmes. Les mesures réglementaires n'existent souvent pas ou ne sont pas appliquées. Cela encourage les consultations privées par des prestataires de santé non agréés et coûteux, ainsi que la prescription et la vente anarchiques de médicaments (dont certains sont des produits contrefaits). Corriger cette situation est un énorme défi qui doit être relevé pour que la lutte contre le paludisme et, en fin de compte, son élimination soient couronnées de succès.

Effet protecteur du trait drépanocytaire contre le paludisme

Le gène de la drépanocytose est causé par une seule mutation d'acide aminé (valine au lieu de glutamate en 6ème position) dans la chaîne bêta du gène de l'hémoglobine. L'héritage de ce gène muté des deux parents conduit à la drépanocytose et les personnes atteintes de cette maladie ont une espérance de vie plus courte. Au contraire, les personnes porteuses de la drépanocytose (avec un gène de la drépanocytose et un gène de l'hémoglobine normal, également connu sous le nom de trait drépanocytaire) ont un certain avantage protecteur contre le paludisme. En conséquence, les fréquences de porteurs de drépanocytose sont élevées dans les zones d'endémie palustre.

Les études de cohorte de naissance du CDC (Asembo Bay Cohort Project dans l'ouest du Kenya) menées en collaboration avec le Kenya Medical Research Institute ont permis une enquête sur cette question. Il a été constaté que le trait drépanocytaire offre une protection de 60% contre la mortalité globale. La majeure partie de cette protection se produit entre 2 et 16 mois de la vie, avant le début de l'immunité clinique dans les zones de transmission intense du paludisme.

Graphique des courbes de survie (&ldquosurvival function estimate&rdquo) des enfants sans aucun gène de drépanocytose (HbAA), des enfants drépanocytaires (HbAS) et des enfants drépanocytaires (HbSS). Ceux qui avaient le trait drépanocytaire (HbAS) avaient un léger avantage de survie par rapport à ceux qui n'avaient aucun gène drépanocytaire (HbAA), les enfants atteints de drépanocytose (HbSS) étant les plus mal lotis.

Référence: Effets protecteurs du gène de la drépanocytose contre la morbidité et la mortalité du paludisme. Aidoo M, Terlouw DJ, Kolczak MS, McElroy PD, ter Kuile FO, Kariuki S, Nahlen BL, Lal AA, Udhayakumar V. Lancet 2002 359:1311-1312.

Les moustiques anophèles

Le paludisme est transmis à l'homme par les moustiques femelles du genre Anophèle. Les moustiques femelles prennent des repas de sang pour la production d'œufs, et ces repas de sang sont le lien entre l'humain et les moustiques hôtes dans le cycle de vie du parasite. Le succès du développement du parasite du paludisme chez le moustique (du stade &ldquogamétocyte&rdquo au stade &ldquosporozoïte&rdquo) dépend de plusieurs facteurs. Le plus important est la température et l'humidité ambiantes (des températures plus élevées accélèrent la croissance du parasite chez le moustique) et si le Anophèle survit assez longtemps pour permettre au parasite de terminer son cycle dans le moustique hôte (cycle &ldquosporogonic&rdquo ou &ldquoextrinsic&rdquo, durée 9 à 18 jours). Contrairement à l'hôte humain, l'hôte moustique ne souffre pas sensiblement de la présence des parasites.

Schéma du moustique femelle adulte

Carte du monde montrant la répartition des vecteurs prédominants du paludisme

Anopheles freeborni moustique pompant le sang
Image agrandie

Informations générales

Il existe environ 3 500 espèces de moustiques regroupées en 41 genres. Le paludisme humain n'est transmis que par les femelles du genre Anophèle. Sur les quelque 430 Anophèle espèces, seules 30 à 40 transmettent le paludisme (c'est-à-dire qu'elles sont des « vecteurs ») dans la nature. Les autres mordent rarement les humains ou ne peuvent pas soutenir le développement des parasites du paludisme.

Distribution géographique

Les anophèles sont présents dans le monde entier, à l'exception de l'Antarctique. Le paludisme est transmis par différents Anophèle espèces dans différentes régions géographiques. Au sein des régions géographiques, différents environnements soutiennent une espèce différente.

Les anophèles qui peuvent transmettre le paludisme se trouvent non seulement dans les zones d'endémie palustre, mais aussi dans les zones où le paludisme a été éliminé. Ces zones sont donc à risque de réintroduction de la maladie.

Étapes de la vie

Comme tous les moustiques, les moustiques anophèles passent par quatre étapes dans leur cycle de vie : œuf, larve, nymphe et adulte. Les trois premiers stades sont aquatiques et durent de 7 à 14 jours, selon l'espèce et la température ambiante. La femelle mordante Anophèle le moustique peut être porteur du paludisme. Les moustiques mâles ne piquent pas et ne peuvent donc pas transmettre le paludisme ou d'autres maladies. Les femelles adultes sont généralement de courte durée, avec seulement une petite proportion vivant assez longtemps (plus de 10 jours dans les régions tropicales) pour transmettre le paludisme.

Les femelles adultes pondent de 50 à 200 œufs par ponte. Les œufs sont pondus individuellement directement sur l'eau et ont la particularité d'avoir des flotteurs de chaque côté. Les œufs ne résistent pas au séchage et éclosent en 2-3 jours, bien que l'éclosion puisse prendre jusqu'à 2-3 semaines dans les climats plus froids.

Larves

Les larves de moustiques ont une tête bien développée avec des brosses buccales utilisées pour se nourrir, un grand thorax et un abdomen segmenté. Ils n'ont pas de jambes. Contrairement aux autres moustiques, Anophèle les larves n'ont pas de siphon respiratoire et pour cette raison se positionnent de manière à ce que leur corps soit parallèle à la surface de l'eau.

Sommet: Anophèle Oeuf noter les flotteurs latéraux.
Bas: Anophèle les œufs sont pondus individuellement.

Les larves respirent par des stigmates situés sur le 8ème segment abdominal et doivent donc remonter fréquemment à la surface.

Les larves passent la plupart de leur temps à se nourrir d'algues, de bactéries et d'autres micro-organismes de la microcouche de surface. Ils le font en faisant pivoter leur tête à 180 degrés et en se nourrissant par le dessous de la microcouche. Les larves ne plongent sous la surface que lorsqu'elles sont dérangées. Les larves nagent soit par mouvements saccadés de tout le corps, soit par propulsion avec les brosses buccales.

Les larves se développent en 4 stades, ou stades, après quoi elles se métamorphosent en pupes. À la fin de chaque stade, les larves muent, perdant leur exosquelette, ou peau, pour permettre une croissance ultérieure.

Anophèle Larve. Notez la position, parallèle à la surface de l'eau.

Les larves se trouvent dans un large éventail d'habitats, mais la plupart des espèces préfèrent l'eau propre et non polluée. Larves de Anophèle des moustiques ont été trouvés dans les marais d'eau douce ou salée, les mangroves, les rizières, les fossés herbeux, les bords des ruisseaux et des rivières et de petites mares de pluie temporaires. De nombreuses espèces préfèrent les habitats avec de la végétation. D'autres préfèrent les habitats qui n'en ont pas. Certains se reproduisent dans des étangs ouverts et éclairés par le soleil, tandis que d'autres se trouvent uniquement dans des sites de reproduction ombragés en forêt. Quelques espèces se reproduisent dans les trous des arbres ou à l'aisselle des feuilles de certaines plantes.

Pupes

La nymphe est en forme de virgule lorsqu'elle est vue de côté. Il s'agit d'un stade de transition entre la larve et l'adulte. La pupe ne se nourrit pas, mais subit une métamorphose radicale. La tête et le thorax sont fusionnés en un céphalothorax avec l'abdomen courbé en dessous. Comme pour les larves, les pupes doivent fréquemment remonter à la surface pour respirer, ce qu'elles font à l'aide d'une paire de trompettes respiratoires sur le céphalothorax. Après quelques jours de pupe, la surface dorsale du céphalothorax se fend et le moustique adulte émerge à la surface de l'eau.

La durée de l'œuf à l'adulte varie considérablement d'une espèce à l'autre et est fortement influencée par la température ambiante. Les moustiques peuvent passer de l'œuf à l'adulte en aussi peu que 7 jours, mais prennent généralement 10 à 14 jours dans des conditions tropicales.

Anophèle Adultes. Notez (rangée du bas) la position de repos typique.

Adultes

Comme tous les moustiques, les anophèles adultes ont un corps élancé avec 3 sections : tête, thorax et abdomen.

La tête est spécialisée pour l'acquisition d'informations sensorielles et pour l'alimentation. La tête contient les yeux et une paire de longues antennes à plusieurs segments. Les antennes sont importantes pour détecter les odeurs de l'hôte ainsi que les odeurs des habitats larvaires aquatiques où les femelles pondent des œufs. La tête a également un proboscis allongé et saillant vers l'avant utilisé pour l'alimentation, et deux palpes sensoriels.

Le thorax est spécialisé pour la locomotion. Trois paires de pattes et une seule paire d'ailes sont attachées au thorax.

L'abdomen est spécialisé pour la digestion des aliments et le développement des œufs. Cette partie du corps segmentée se dilate considérablement lorsqu'une femelle prend un repas de sang. Le sang est digéré au fil du temps et sert de source de protéines pour la production d'œufs, qui remplissent progressivement l'abdomen.

Anophèle les moustiques se distinguent des autres moustiques par les palpes, qui sont aussi longs que la trompe, et par la présence de discrets blocs d'écailles noires et blanches sur les ailes. Adulte Anophèle peuvent également être identifiés par leur position de repos typique : les mâles et les femelles se reposent avec leur abdomen dressé en l'air plutôt que parallèle à la surface sur laquelle ils reposent.

Les moustiques adultes s'accouplent généralement quelques jours après leur sortie du stade nymphal. Chez certaines espèces, les mâles forment de grands essaims, généralement au crépuscule, et les femelles volent dans les essaims pour s'accoupler. Les habitats d'accouplement de nombreuses espèces restent inconnus.

Les mâles vivent environ une semaine, se nourrissant de nectar et d'autres sources de sucre. Les femelles se nourrissent également de sources de sucre pour l'énergie, mais ont généralement besoin d'un repas de sang pour le développement des œufs. Après avoir obtenu un repas complet de sang, la femelle se reposera pendant quelques jours pendant que le sang est digéré et que les œufs se développent. Ce processus dépend de la température mais prend généralement 2-3 jours dans des conditions tropicales. Une fois que les œufs sont complètement développés, la femelle les pond puis cherche du sang pour soutenir un autre lot d'œufs.

Le cycle se répète jusqu'à ce que la femelle meure. Les femelles peuvent survivre jusqu'à un mois (ou plus en captivité), mais la plupart ne vivent pas plus de 1 à 2 semaines dans la nature. Leurs chances de survie dépendent de la température et de l'humidité, mais aussi de leur capacité à réussir un repas de sang tout en évitant les défenses de l'hôte.

Femelle Anopheles dirus alimentation

Facteurs impliqués dans la transmission du paludisme et la lutte contre le paludisme

Comprendre la biologie et le comportement des Anophèle les moustiques peuvent aider à concevoir des stratégies de contrôle appropriées. Les facteurs qui affectent la capacité d'un moustique à transmettre le paludisme comprennent sa susceptibilité innée à Plasmodium, son choix d'hôte et sa longévité. Les espèces à longue durée de vie qui préfèrent le sang humain et favorisent le développement des parasites sont les plus dangereuses. Les facteurs qui doivent être pris en considération lors de la conception d'un programme de lutte comprennent la sensibilité des moustiques du paludisme aux insecticides et le lieu d'alimentation et de repos préféré des moustiques adultes.

Sources préférées pour les repas de sang

Un facteur comportemental important est le degré auquel un Anophèle l'espèce préfère se nourrir d'humains (anthropophilie) ou d'animaux comme le bétail (zoophilie). anthropophile Anophèle sont plus susceptibles de transmettre les parasites du paludisme d'une personne à une autre. Plus Anophèle les moustiques ne sont pas exclusivement anthropophiles ou zoophiles, beaucoup sont opportunistes et se nourrissent de n'importe quel hôte disponible. Cependant, les principaux vecteurs du paludisme en Afrique, Un. Gambie et Un. funeste, sont fortement anthropophiles et, par conséquent, sont deux des vecteurs du paludisme les plus efficaces au monde.

Durée de vie

Une fois ingérés par un moustique, les parasites du paludisme doivent se développer à l'intérieur du moustique avant d'être infectieux pour l'homme. Le temps nécessaire au développement du moustique (la période d'incubation extrinsèque) est de 9 jours ou plus, selon l'espèce de parasite et la température. Si un moustique ne survit pas plus longtemps que la période d'incubation extrinsèque, il ne pourra pas transmettre de parasites du paludisme.

Il n'est pas possible de mesurer directement la durée de vie des moustiques dans la nature, mais de nombreuses études ont indirectement mesuré la longévité en examinant leur état reproducteur ou en marquant, relâchant et recapturant des moustiques adultes. La majorité des moustiques ne vivent pas assez longtemps pour transmettre le paludisme, mais certains peuvent vivre jusqu'à trois semaines dans la nature. Bien que les preuves suggèrent que le taux de mortalité augmente avec l'âge, la plupart des travailleurs estiment la longévité en termes de probabilité qu'un moustique vivra un jour. Habituellement, ces estimations vont d'un minimum de 0,7 à un maximum de 0,9. Si la survie est de 90 % par jour, alors une proportion substantielle de la population vivrait plus de 2 semaines et serait capable de transmettre le paludisme. Toute mesure de contrôle qui réduit la durée de vie moyenne de la population de moustiques réduira le potentiel de transmission. Les insecticides n'ont donc pas besoin de tuer les moustiques d'emblée, mais peuvent être efficaces en limitant leur durée de vie.

Modes d'alimentation et de repos

Plus Anophèle les moustiques sont crépusculaires (actifs au crépuscule ou à l'aube) ou nocturnes (actifs la nuit). Certains Anophèle les moustiques se nourrissent à l'intérieur (endophages) tandis que d'autres se nourrissent à l'extérieur (exophages). Après l'alimentation par le sang, certains Anophèle les moustiques préfèrent se reposer à l'intérieur (endophiles) tandis que d'autres préfèrent se reposer à l'extérieur (exophiles). Mordant par nocturne, endophage Anophèle les moustiques peuvent être considérablement réduits grâce à l'utilisation de moustiquaires imprégnées d'insecticide (MII) ou par l'amélioration de la construction de logements pour empêcher l'entrée des moustiques (par exemple, des moustiquaires aux fenêtres). Les moustiques endophiles sont facilement contrôlés par la pulvérisation intérieure d'insecticides à effet rémanent. En revanche, les vecteurs exophages/exophiles sont mieux contrôlés par la réduction à la source (destruction des habitats larvaires).

Résistance aux insecticides

Les mesures de contrôle à base d'insecticides (par exemple, la pulvérisation intérieure d'insecticides, les MII) sont le principal moyen de tuer les moustiques qui piquent à l'intérieur. Cependant, après une exposition prolongée à un insecticide sur plusieurs générations, les moustiques, comme les autres insectes, peuvent développer une résistance, une capacité à survivre au contact d'un insecticide. Étant donné que les moustiques peuvent avoir plusieurs générations par an, des niveaux élevés de résistance peuvent apparaître très rapidement. La résistance des moustiques à certains insecticides a été documentée quelques années après l'introduction des insecticides. Il existe plus de 125 espèces de moustiques avec une résistance documentée à un ou plusieurs insecticides. Le développement d'une résistance aux insecticides utilisés pour la pulvérisation intradomiciliaire à effet rémanent a été un obstacle majeur pendant la campagne mondiale d'éradication du paludisme. L'utilisation judicieuse d'insecticides pour la lutte contre les moustiques peut limiter le développement et la propagation de la résistance, notamment via la rotation des différentes classes d'insecticides utilisées pour la lutte. Le suivi de la résistance est essentiel pour alerter les programmes de lutte afin qu'ils passent à des insecticides plus efficaces.

Susceptibilité/Réfractaire

Certains Anophèle Les espèces sont de mauvais vecteurs de paludisme, car les parasites ne se développent pas bien (ou pas du tout) en leur sein. Il existe également des variations au sein des espèces. Au laboratoire, il a été possible de sélectionner des souches de Un. Gambie qui sont réfractaires à l'infection par les parasites du paludisme. Ces souches réfractaires ont une réponse immunitaire qui encapsule et tue les parasites après qu'ils aient envahi la paroi de l'estomac des moustiques. Les scientifiques étudient le mécanisme génétique de cette réponse. On espère qu'un jour, des moustiques génétiquement modifiés réfractaires au paludisme pourront remplacer les moustiques sauvages, limitant ou éliminant ainsi la transmission du paludisme.

Parasites du paludisme

Les parasites du paludisme sont des micro-organismes appartenant au genre Plasmodium. Il existe plus de 100 espèces de Plasmodium, qui peut infecter de nombreuses espèces animales telles que les reptiles, les oiseaux et divers mammifères. Quatre espèces de Plasmodium ont longtemps été reconnus pour infecter les humains dans la nature. De plus, il existe une espèce qui infecte naturellement les macaques et qui a récemment été reconnue comme étant une cause de paludisme zoonotique chez l'homme. (Il existe quelques espèces supplémentaires qui peuvent, exceptionnellement ou dans des conditions expérimentales, infecter les humains.)

Trophozoites annulaires de P. falciparum dans un frottis sanguin fin.

Trophozoites annulaires de P. vivax dans un frottis sanguin fin.

trophozoïtes de P. ovale dans un frottis sanguin fin.

Trophozoites en bandes de P. malariae dans un frottis sanguin fin.

Schizont et trophozoïte en forme d'anneau de P. knowlesi dans un frottis sanguin fin.


Introduction

Le coronavirus 2 du syndrome respiratoire aigu sévère (SARS-CoV-2, SCoV2) est la cause de la maladie pulmonaire du coronavirus pandémique au début de 2020 (COVID-19) et appartient à Bêtacoronavirus, un genre de la famille des Coronaviridae couvrant les genres α−δ (Leao et al., 2020). Le grand génome à ARN de SCoV2 a un arrangement complexe et hautement condensé de séquences codantes (Wu et al., 2020). Les séquences commençant par le codon de départ principal contiennent un cadre de lecture ouvert 1 (ORF1), qui code pour deux grands polypeptides distincts (pp), dont l'abondance relative est régie par l'action d'un élément de structure pseudo-nœud d'ARN. Lors du repliement de l'ARN, cet élément provoque un décalage du cadre de lecture 𢄡 pour permettre la poursuite de la traduction, entraînant la génération d'un polypeptide 794 kDa de 7 096 acides aminés. Si le pseudo-nœud n'est pas formé, l'expression du premier ORF génère un polypeptide de 4 405 acides aminés de 490 kDa. Les polypeptides courts et longs traduits à partir de cet ORF (pp1a et pp1ab, respectivement) sont clivés après la traduction par des protéases codées par le virus en protéines fonctionnelles non structurelles (nsps). ORF1a encode onze nsps et ORF1ab encode en plus les nsps 12�. Les ORF en aval codent pour des protéines structurelles (S, E, M et N) qui sont des composants essentiels pour la synthèse de nouvelles particules virales. Entre celles-ci, des protéines supplémentaires (facteurs accessoires/auxiliaires) sont codées, pour lesquelles les séquences se chevauchent partiellement (Finkel et al., 2020) et dont l'identification et la classification font l'objet de recherches en cours (Nelson et al., 2020 Pavesi, 2020) . Au total, le nombre de peptides ou de protéines identifiés générés à partir du génome viral est d'au moins 28 au niveau de la preuve, un ensemble supplémentaire de protéines ou de peptides plus petits étant prédit avec une probabilité élevée.

Des études à haute résolution des protéines SCoV et SCoV2 ont été menées en utilisant toutes les approches canoniques de biologie structurale, telles que la cristallographie aux rayons X sur les protéases (Zhang et al., 2020) et les méthyltransférases (MTase) (Krafcikova et al., 2020), cryo -EM de l'ARN polymérase (Gao et al., 2020 Yin et al., 2020), et à l'état liquide (Almeida et al., 2007 Serrano et al., 2009 Cantini et al., 2020 Gallo et al., 2020 Korn et al., 2020a Korn et al., 2020b Kubatova et al., 2020 Tonelli et al., 2020) et la spectroscopie RMN à l'état solide des protéines transmembranaires (TM) (Mandala et al., 2020). Ces études ont considérablement amélioré notre compréhension des fonctions des composants moléculaires, et elles reposent toutes sur la production recombinante de protéines virales en grande quantité et pureté.

Outre les structures, les protéines SCoV2 purifiées sont nécessaires pour les approches expérimentales et précliniques conçues pour comprendre les principes de base du cycle de vie viral et les processus sous-jacents à l'infection et à la transmission virales. Les approches vont des études sur les réponses immunitaires (Esposito et al., 2020), l'identification des anticorps (Jiang et al., 2020) et les interactions avec d'autres protéines ou composants de la cellule hôte (Bojkova et al., 2020 Gordon et al., 2020). Ces exemples mettent en évidence l'importance d'approches larges pour la production recombinante de protéines virales.

Le consortium de recherche COVID19-RMN fondée en 2020 vise à soutenir la recherche de médicaments antiviraux en utilisant une approche de dépistage basée sur la RMN. Cela nécessite la production à grande échelle de toutes les protéines et ARN médicamenteux et leurs attributions de résonance RMN. Ce dernier permettra la détermination de la structure de la solution des protéines virales et des ARN pour la conception rationnelle de médicaments et la cartographie rapide des sites de liaison des composés. Nous avons récemment produit et déterminé des structures secondaires de l'ARN SCoV2 cis-éléments de régulation quasi complets par spectroscopie RMN, validés par DMS-MaPseq (Wacker et al., 2020), pour fournir une base de criblage de fragments orientés ARN avec RMN.

Nous compilons ici un recueil de plus de 50 protocoles (voir les tableaux supplémentaires SI1–SI23) pour la production et la purification de 23 des 30 protéines SCoV2 ou de fragments de celles-ci (résumées dans les tableaux 1, 2). Nous avons défini ces 30 protéines comme existantes ou putatives à notre connaissance actuelle (voir la discussion plus loin). Ce recueil a été généré dans le cadre d'un effort coordonné et concerté entre les laboratoires du monde entier (tableau supplémentaire S1), dans le but de fournir des quantités pures de mg de protéines SCoV2. Nos protocoles incluent la stratégie rationnelle pour la conception de la construction (le cas échéant, guidée par les structures homologues disponibles), l'optimisation de l'expression, la solubilité, le rendement, la pureté et l'adéquation aux travaux de suivi, en mettant l'accent sur le marquage uniforme des isotopes stables.

TABLEAU 1. Constructions de protéines SCoV2 exprimées et purifiées, données avec la position génomique et les PDB correspondants pour la conception de la construction.


Résultats

L'irradiation gamma provoque des dommages protéiques plus ciblés dans D. radiodurans que E. coli

Pour étudier les dommages oxydatifs aux protéines bactériennes, les cultures ont été exposées à une dose aiguë de rayonnement (6,7 kGy) létale pour E. coli mais donnant 55-70% de survie de D. radiodurans, et les carbonyles de protéines et les changements d'abondance relative ont été mesurés par spectrométrie de masse (figures 1B, 2 et EV1). Sur la base de travaux antérieurs (Krisko & Radman, 2010 ), une dose de rayonnement létale pour E. coli est nécessaire afin d'observer tout impact délétère sur D. radiodurans survie. De plus, notre dosage sélectionné se rapproche du dosage le plus élevé signalé (7 kGy) utilisé dans les mesures de carbonylation des protéines en vrac à partir de lysats de cellules entières et d'échantillons dialysés des deux espèces (Krisko & Radman, 2010), fournissant une base pour modéliser l'impact de la protection extrinsèque des protéines. par de petites molécules antioxydantes. Afin de limiter de novo synthèse des protéines tout au long et après l'irradiation, les cultures bactériennes ont été maintenues près de 0°C en utilisant une conception de rack personnalisé (Dataset EV1 et EV2). Il est important de noter que cela a entraîné des abondances de protéines relatives différentielles dues spécifiquement aux dommages oxydatifs (matériaux et méthodes), distinguant nos résultats des études protéomiques précédentes. Les concentrations de protéines lors de l'extraction étaient similaires quelle que soit l'irradiation pour chaque espèce (tableau de l'annexe S1), et les profils de bandes SDS-PAGE étaient également qualitativement similaires dans les échantillons de protéines extraits de la même espèce (figure de l'annexe S2). Dans l'ensemble, ces résultats suggèrent que l'intégrité de la membrane cellulaire a été préservée lors du rayonnement.

Figure 2. Résumé des données protéomiques redox de fusil de chasse

  1. Protéines carbonylées totales détectées par mesure protéomique redox au fusil de chasse dans trois réplicats biologiques chacun de E. coli et D. radiodurans avec et sans irradiation. L'axe de gauche est le nombre de protéines à séquence unique détectées comme carbonylées. L'axe de droite est le nombre de sites au total détectés comme carbonylés (rouge) ou non oxydés (noir) dans les peptides portant au moins un carbonyle. Les rayures indiquent les protéines carbonylées et les sites carbonylables détectés uniquement dans les échantillons irradiés. Voir également l'annexe Fig S1.
  2. Graphiques volcaniques pour les changements d'abondance relative des protéines mesurés par spectrométrie de masse dans E. coli (à gauche) et D. radiodurans (à droite) après irradiation en utilisant les mêmes répliques biologiques que sur la figure 2A. Les points entourés de noir sont les protéines avec des changements significatifs (appariés, recto-verso t-test P-valeur < 0,05) de > 2 fois ou < 0,5 fois. Les points rouges sont des protéines avec au moins un peptide carbonylé détecté. Changement de pli et PLes seuils de valeur considérés comme significatifs sont indiqués par des lignes pointillées. Voir aussi la figure EV1.

Figure EV1. Limites de survie et d'échantillonnage des sites carbonylés pour les expériences protéomiques, liées aux figures 2 et 3

  1. Taux de survie (basés sur le nombre d'UFC) des personnes irradiées E. coli et D. radiodurans correspondant à des échantillons biologiques en triple à partir desquels des données protéomiques ont été acquises. Absolument aucune colonie n'a été récupérée de E. coli cultures qui avaient été irradiées, même sans diluer les échantillons avant l'étalement.
  2. Courbes de saturation de la mesure du site carbonyle pour les mesures protéomiques rédox au fusil de chasse biologique en triple dans E. coli et D. radiodurans. Les fonctions de saturation exponentielle ont été ajustées en minimisant la somme des erreurs au carré avec les points de données en triple. Le terme en gras dans chaque fonction est le nombre estimé de sites carbonyles non redondants totaux dans nos échantillons.

Comme prévu (Krisko & Radman, 2010 ), nous avons observé la carbonylation de plus de protéines dans E. coli (

700 CS dans 102 des 1 373 protéines identifiées) que dans D. radiodurans (

400 CS dans 70 des 1 264 protéines identifiées) dans des conditions non irradiées ou irradiées (figure 2A et tableau EV1). D. radiodurans a montré des taux de détection similaires à ceux de Photobacterium angustum exposés aux UVB (62 protéines carbonylées sur 1 221 identifiées) en utilisant la même technique de protéomique redox (Matallana-Surget et al, 2013 ). La moindre carbonylation totale des protéines dans D. radiodurans était probablement due à ses mécanismes efficaces de détoxification des ROS (Slade & Radman, 2011). Les courbes de saturation CS suggèrent les moins d'événements de carbonylation détectés dans D. radiodurans représentent un pourcentage plus élevé de couverture de tous in vivo événements que ce n'est le cas pour E. coli (85 et 27%, respectivement Fig EV1B), en accord avec la différence de sensibilité au stress oxydatif entre ces espèces. Un peu plus de protéines uniques ont été détectées comme carbonylées d'une manière dépendante du rayonnement dans D. radiodurans (25) que dans E. coli (20 Figure 2A). Sur la base de la couverture estimée beaucoup plus faible de tous les in vivo carbonylation dans E. coli, nous suggérons que des dommages importants au E. coli protéome, conduisant à des protéines plus dégradées et agrégées, a empêché l'identification de certains peptides carbonylés par spectrométrie de masse.

La quantification relative des protéines a fourni des preuves claires de dommages protéiques différentiels contrastés distinguant ces organismes (figure 2B et tableau EV2). Bien qu'en E. coli seules six protéines ont montré une abondance relative différentielle significative > 2 fois (appariement t-test P-valeur < 0,05), 163 protéines au total ont montré > des changements d'un facteur 2, bien qu'avec une variabilité plus élevée entre les répétitions. Dans D. radiodurans, 81 protéines ont significativement changé en abondance relative de > 2 fois l'ampleur du changement était plus grande en moyenne avec une variabilité plus faible que dans E. coli. Les protéines pour lesquelles nous avons détecté au moins un CS ont diminué en abondance relative plus que les autres protéines dans D. radiodurans (non apparié t-test P-valeur = 0,031), illustrant la relation attendue entre la carbonylation et le degré de dégradation des protéines. Cependant, cette relation était moins importante dans notre E. coli données (non appariées t-test P-valeur = 0,104). Par conséquent, bien que E. coli accumulé plus de carbonyles de protéines dans l'ensemble, leur distribution est plus large à travers des espèces de protéines distinctes, fournissant des preuves de mécanismes plus spécifiques aux protéines pour la protection contre les ROS dans D. radiodurans qui sont absents dans E. coli.

Une quantification relative analogue des peptides a également été effectuée. Pour D. radiodurans, 148 peptides représentant 134 protéines uniques ont significativement augmenté en abondance relative (changement de pli > 2, satisfaisant les critères de Benjamini-Hochberg avec un taux de fausse découverte de 0,05) après irradiation, et un peptide a significativement diminué (changement de pli < 0,5, satisfaisant les critères de Benjamini-Hochberg) . Pour E. coli, 26 peptides représentant 25 protéines uniques ont significativement diminué en abondance relative après irradiation, et aucun peptide n'a augmenté de manière significative. Aucun peptide carbonylé individuel n'a changé de manière significative en abondance relative dans l'une ou l'autre des espèces. Ces observations sont généralement parallèles à la réponse contrastée attendue lors de l'irradiation de ces espèces. Cependant, une plus grande puissance statistique est obtenue lors de la mise en commun des peptides pour évaluer les changements d'abondance au niveau de la protéine entière. Cela est dû en partie au fait que les sites trypsiques stochastiquement manqués et les modifications post-traductionnelles conduisent à une identité peptidique imparfaite lors de la quantification au niveau peptidique.

Une large caractérisation fonctionnelle des protéines avec un changement d'abondance relative substantiel (<0,5 fois ou > 2 fois) a été réalisée par Gene Ontology (GO) analyse d'enrichissement des termes du processus biologique avec correction de l'abondance des protéines (Scholz et al, 2015 ). Ces protéines dans E. coli ne présentait pas d'annotations GO significativement sur ou sous-représentées. En revanche, D. radiodurans les protéines avec une augmentation relative > 2 fois étaient surreprésentées par les protéines impliquées dans la traduction et le métabolisme plus large des protéines (tableau 1), y compris de nombreuses sous-unités ribosomiques. En outre, D. radiodurans les protéines avec un changement de < 0,5 fois sous-représentées les protéines impliquées dans la biosynthèse des composés azotés, ce qui implique indirectement l'importance de la synthèse des acides aminés et des nucléotides. Par conséquent, la résistance à l'oxydation des protéines dans D. radiodurans protège préférentiellement le processus critique de régénération du protéome sous stress oxydatif.

Retenu ou perdu ID ALLER Sur-/sous-représenté % premier plan % Contexte Enrichissement des plis Nombre de premier plan Nombre d'arrière-plans P-valeur GO processus biologique
Retenu > 2 fois ALLER : 0006412 O 16.67 7.58 2.20 22 10 0.037 Traduction
ALLER : 0006518 O 19.70 9.09 2.17 26 12 0.022 Processus métabolique peptidique
GO:0044267 O 21.97 11.36 1.93 29 15 0.031 Processus métabolique des protéines cellulaires
ALLER : 0009059 O 24.24 12.88 1.88 32 17 0.026 Processus de biosynthèse des macromolécules
ALLER:0019538 O 28.03 15.91 1.76 37 21 0.025 Processus métabolique des protéines
ALLER : 0009987 O 73.49 61.36 1.20 97 81 0.049 Processus cellulaire
Perdu < 0,5 fois ALLER : 0044271 U 12.12 27.27 0.44 8 18 0.048 Procédé de biosynthèse des composés azotés cellulaires

La composition en acides aminés protège contre les dommages oxydatifs

Bien que la fréquence relative des résidus RKTP carbonylés ait généralement confirmé des études antérieures (Rao & Moller, 2011 Matallana-Surget et al, 2013), nous avons trouvé que la lysine était aussi sensible que la proline à la carbonylation sous irradiation γ (Fig 3A) dans D. radiodurans (ratio 1,77 contre 1,66) et dans une moindre mesure en E. coli (ratio 1,17 contre 1,43). Carbonylation des protéines par ROS générées nativement chez les eucaryotes (Rao & Moller, 2011) et irradiation UV chez P. angustum (Matallana-Surget et al, 2013) ont tous deux indiqué que la proline était la plus sensible aux ROS de RKPT et la lysine comme pas particulièrement ou la moins sensible, respectivement. La carbonylation de la proline conduit souvent à un auto-clivage du polypeptide, ce qui peut expliquer la teneur relativement faible en proline des protéines ribosomiques bactériennes par rapport aux protéines non ribosomiques (Lott et al, 2013 ), une adaptation évolutive contribuant à la protection de la traduction contre le stress oxydatif. En revanche, la lysine, trouvée incorporée dans des protéines beaucoup plus fréquemment, manque d'un mécanisme similaire pour l'auto-clivage lors de la carbonylation. Le rôle plus complexe de la lysine dans le stress oxydatif est discuté ci-dessous.

Figure 3. Prévalence des acides aminés dans les données protéomiques avant et après irradiation

  1. Prévalence des résidus RKPT individuels et prévalence de la forme carbonylée dans les peptides mesurés expérimentalement combinant les trois réplicats biologiques des deux conditions pour chaque organisme. Les ratios sont donnés au-dessus de chaque paire de barres. Toutes les proportions sont significativement différentes entre chaque RKPT et leur état de carbonylation respectif par le test z bilatéral de deux proportions (P-valeurs < 0.01 voir Matériels et méthodes), et les proportions carbonylées ne sont pas déterminées simplement par la prévalence relative de RKPT. Voir également l'annexe Fig S1.
  2. Prévalence de tous les acides aminés canoniques avant irradiation de E. coli et D. radiodurans, combinant les trois réplicats biologiques pour chaque condition. Les ratios sont donnés au-dessus de chaque paire de barres. Toutes les proportions sont significativement différentes entre les espèces par z-test de deux proportions (P-valeurs < 0.01). Voir également les figures EV1 et EV2.

La composition sélective en acides aminés est une adaptation majeure des organismes ont évolué pour prospérer dans diverses niches environnementales (Brbic et al, 2015 ). Comparaison des compositions entre les protéomes exprimés de E. coli et D. radiodurans dans des conditions permissives (figure 3B) a révélé des différences significatives entre les acides aminés oxydables. La lysine et l'arginine, toutes deux chargées positivement au pH physiologique, diffèrent par leur sensibilité aux ROS et présentent des différences d'utilisation significatives. Alors que la lysine hautement sensible s'est avérée moins fréquemment utilisée dans les D. radiodurans, l'arginine moins sensible était surreprésentée à la place (0,71 fois et 1,57 fois, respectivement). Les acides aminés contenant du soufre oxydables de manière réversible, la cystéine et la méthionine, étaient rares chez les deux espèces, mais significativement moins répandus chez les D. radiodurans dans des conditions permissives (0,53 fois et 0,17 fois, respectivement). Les méthionines et cystéines de surface aident à protéger les protéines des dommages oxydatifs dans de nombreux organismes en raison de leur propre oxydation réversible (Stadtman & Levine, 2003). Cependant, la cystéine et la méthionine sont métaboliquement coûteuses (c'est-à-dire qu'elles consomment stoechiométriquement le plus d'ATP) pour la synthèse bactérienne (Kaleta et al, 2013 ), et D. radiodurans est auxotrophe pour la méthionine (Zhou et al, 2017 ), ce qui peut expliquer leur prévalence significativement plus faible dans les D. radiodurans malgré les bénéfices attendus pour la résistance. Le tryptophane et la tyrosine, deux acides aminés métaboliquement peu coûteux qui fonctionnent comme des antioxydants intégrés dans certaines protéines (Moosmann & Behl, 2000 ), étaient significativement plus abondants dans D. radiodurans que dans E. coli (les deux

Pour évaluer l'impact du stress oxydatif sur la prévalence des acides aminés dans les protéines identifiées, nous avons comparé les changements dans la composition des acides aminés après irradiation de E. coli et D. radiodurans (Fig EV2). Alors que seulement sept acides aminés ont changé de manière significative dans E. coli, 16 ont considérablement changé en D. radiodurans et à une plus grande ampleur. La plus forte diminution parmi les RKPT était la lysine chez les deux espèces, ce qui confirme que la lysine incorporée est un médiateur important des dommages oxydatifs des protéines sous irradiation . La lysine peut parfois être échangée contre de l'histidine dans les protéines tout en préservant la fonction des protéines, comme le montrent les études de mutation synthétique (Yampolsky & Stoltzfus, 2005). Notamment, la prévalence relative de l'histidine a augmenté modestement (+2 %) dans E. coli et significativement (+11%) en D. radiodurans après irradiation, suggérant que D. radiodurans a développé des protéines qui sont davantage composées d'histidine non carbonylable plutôt que de lysine en tant qu'autre mécanisme de protection intrinsèque aux protéines. En effet, à travers les séquences d'orthologues fonctionnels et d'isozymes dans ces espèces (annexe Fig S3), nous avons trouvé une composition d'histidine 10% plus élevée dans D. radiodurans que dans E. coli en fraction de l'histidine totale et de la lysine (appariés t-test P-valeur < 6 × 10 −60 ). Après irradiation, la prévalence de la tyrosine a augmenté de manière significative dans E. coli (+4%) et en D. radiodurans (+8%) et la cystéine n'a augmenté de manière significative (+18%) que dans D. radiodurans. La baisse la plus significative de E. coli (−13%) et augmentation de D. radiodurans (+45 %) était pour la méthionine. Ce contraste suggère un système de méthionine sulfoxyde réductase plus efficace sous stress oxydatif dans D. radiodurans. Tous ensemble, ces résultats établissent que les propriétés intrinsèques aux protéines, même dans la structure primaire, diffèrent entre E. coli et D. radiodurans et affectent quelles protéines résistent à l'assaut des dommages oxydatifs induits par les ROS.

Figure EV2. Changement canonique de la prévalence des acides aminés après irradiation de E. coli (à gauche) et D. radiodurans (à droite), lié à la figure 3

Un modèle basé sur la structure et la séquence prédit la vulnérabilité des protéines à la carbonylation

Ingénierie des caractéristiques moléculaires basée sur la structure

La phase de calcul de cette étude (figure 1B) impliquait la dérivation à l'échelle du protéome de structures 3D pour étudier les propriétés moléculaires contribuant à la susceptibilité aux ROS (figure 4A, tableau EV3 et matériaux et méthodes). En raison de la couverture incomplète du protéome par les structures cristallines (<3% pour D. radiodurans protéines), le calcul des caractéristiques moléculaires a nécessité une modélisation à haut débit des protéines à chaîne unique, que nous avons réalisée de novo pour D. radiodurans et utilisé des modèles publiés pour E. coli (Xu et Zhang, 2013b Yang et al, 2015 ). Le défi de dériver D. radiodurans protéines par les stratégies de modélisation disponibles est résumé dans la figure EV3A. Le meilleur modèle représentatif à partir de méthodes alternatives (tableau annexe S2) pour chaque protéine a été sélectionné à l'aide de plusieurs métriques de qualité de structure (tableau annexe S3). Modèles généralement évalués de manière comparable aux structures cristallines pour D. radiodurans protéines par ces métriques (Fig EV3B et Tableau EV4).Les meilleurs modèles représentatifs ont été obtenus pour >95% des D. radiodurans protéines (Fig EV3C), résultant le plus souvent de I-TASSER (Yang et al, 2015 ) ou ProtMod (http://protmod.godziklab.org/protmod-cgi/protModHome.pl). Le remplacement futur par des modèles de meilleure qualité ou des structures déterminées expérimentalement pourrait améliorer les performances de notre algorithme.

Figure 4. Ingénierie des fonctionnalités

  1. Ingénierie des caractéristiques tridimensionnelles à partir des propriétés moléculaires. Les propriétés initiales qui ne peuvent être déterminées qu'avec une structure de résolution atomique, dans le contexte d'une séquence d'acides aminés, ou qui ne dépendent que de l'identité des acides aminés sont indiquées à gauche. Cette liste de propriétés est un ensemble abrégé non redondant de toutes les propriétés considérées (voir le tableau S4 de l'annexe et les matériaux et méthodes pour plus de détails). Les colonnes de la matrice de caractéristiques à droite sont des sommes de propriétés et des moyennes alternées aux échelles spatiales indiquées sous la matrice. p = un propriété moléculaire je = RRésidu KPT k = nrésidus voisins de je r = rlongueur d'adius. Voir aussi la figure EV3.
  2. Les caractéristiques basées sur l'homologie de séquence pour l'apprentissage automatique ont été dérivées en effectuant des alignements de séquences de tous les sites RKPT (± 10 résidus) ancrés au résidu central pour calculer les scores d'alignement qui ont ensuite été réduits à un nombre de caractéristiques gérable par le calcul par analyse en composantes principales (ACP) .

Figure EV3. D. radiodurans modélisation de la structure du protéome, liée aux figures 4–6, 4–6, 4–6

  1. Distribution de D. radiodurans protéines par difficulté de modélisation d'homologie basée sur des modèles et régimes de taille pertinents pour déterminer l'applicabilité de l'algorithme de modélisation de la structure. Facile signifie ≥ 10 modèles homologues de haute confiance disponibles. Moyen signifie ≥ 1 modèle homologue de haute confiance disponible. Difficile signifie qu'aucun modèle homologue de haute confiance n'est disponible. Les protéines d'une longueur de 200 résidus se prêtent à ab initio pliant. Les protéines 800 résidus de long se prêtent à une modélisation d'homologie.
  2. Critères d'évaluation de la qualité de la structure et pourcentage de D. radiodurans structures protéiques qui satisfont aux seuils des critères publiés. Le tracé bleu représente les meilleurs modèles représentatifs pour D. radiodurans protéines. Le graphique gris représente les meilleures structures cristallines disponibles de l'APB pour D. radiodurans protéines.
  3. Distribution des méthodes utilisées pour dériver les meilleures structures protéiques représentatives pour D. radiodurans. « Aucun » indique les protéines pour lesquelles aucune structure PDB n'existe, et aucune méthode de modélisation n'est applicable.

Nous avons conçu pour la première fois des caractéristiques moléculaires à plusieurs échelles spatiales à l'aide de structures 3D (figure 4A, tableau EV3, tableau annexe S4 et matériaux et méthodes) pour prédire la carbonylation. Les caractéristiques ont été calculées par rapport à tous les RKPT à travers D. radiodurans et E. coli protéomes. Ces caractéristiques résument quantitativement l'environnement moléculaire des sites carbonylables. Des résumés statistiques des propriétés structurelles locales ont été calculés en tant que sommes et moyennes des valeurs de propriétés canoniques pour les résidus voisins dans des rayons multiples pour tenir compte d'un gradient d'échelles. Cette stratégie d'ingénierie des caractéristiques a permis l'incorporation de plus de propriétés moléculaires et avec une dimensionnalité spatiale que possible en utilisant des séquences seules pour représenter les protéines.

Combiner des approches basées sur la structure et la séquence pour l'apprentissage automatique

En plus des caractéristiques dérivées de la structure, nous avons mis en œuvre une ingénierie de caractéristiques simple basée sur l'alignement de séquences pour prédire CS (Fig 4B). Nous avons défini un voisinage local centré sur chaque RKPT couvert par des peptides carbonylés dans nos données protéomiques et effectué des alignements de séquences par paires de ces régions, en utilisant la matrice de score d'alignement comme caractéristiques prédictives potentielles. Cette approche basée sur l'alignement est agnostique pour des motifs de séquences spécifiques tout en tirant parti de toute homologie de séquence locale utile à travers CS.

Tous les RKPT des peptides carbonylés ont été mappés sur la structure et la séquence respectives de la protéine pour attribuer les résidus carbonylés et non carbonylés. Contrairement aux précédents efforts de prédiction CS (Maisonneuve et al, 2009 Niv et al, 2014 Weng et al, 2017 ), nous n'avons pas supposé qu'un RKPT donné soit carbonylé de manière déterministe ou non. La carbonylation des protéines est un processus intrinsèquement stochastique. Par conséquent, nous avons adopté une approche probabiliste et utilisé toutes les données de peptide carbonylé indépendamment de la redondance ou de l'occurrence du site comme carbonylé dans un peptide mais non carbonylé dans un autre. Les approches précédentes ont également souvent échantillonné la RKPT non modifiée sur tous les peptides détectés, carbonylés ou non, pour définir les négatifs pour l'entraînement. Par rapport aux peptides non carbonylés, la RKPT non modifiée sur les peptides portant un carbonyle sur un autre résidu représente mieux les données négatives car il est certain que ces molécules ont été directement exposées aux ROS mais n'ont pas réagi avec les ROS.

Des estimateurs de probabilité indépendants pour CS ont été formés par régression logistique en utilisant des caractéristiques basées sur la structure et des caractéristiques basées sur la séquence, puis combinés dans un modèle empilé. Chaque modèle indépendant et le modèle empilé ont été évalués par une validation d'exclusion et leurs performances quantifiées par une analyse des caractéristiques de fonctionnement du récepteur (ROC) (figure 5A à partir des données des tableaux EV5 et EV6). À l'échelle des résidus, notre modèle empilé a surperformé (AUCnorme = 0,73) chacun de ses composants basés sur la structure et la séquence. Le brassage de chaque fonctionnalité avant l'entraînement a donné des performances aléatoires (AUCnorme = 0,54), ce qui soutient fortement le pouvoir prédictif de nos fonctionnalités conçues. Nous avons également évalué les performances de notre modèle pour prédire la vulnérabilité à l'échelle des protéines à l'oxydation (Fig 5B) en calculant une métrique d'enrichissement CS. Les enrichissements de carbonylation prévus pour les protéines d'ensemble d'entraînement sont fortement corrélés avec les enrichissements dérivés de peptides carbonylés mesurés (Spearman ρ = 0,82, test de permutation P-valeur = 1,3 × 10 −22 pour E. coli et Spearman ρ = 0,87, test de permutation P-valeur = 7,2 × 10 −21 pour D. radiodurans), ce qui signifie que notre modèle peut prédire la propension relative à la carbonylation de différentes espèces de protéines. En raison de la sensibilité prioritaire, notre modèle a tendance à prédire des valeurs d'enrichissement plus élevées que celles dérivées expérimentalement (1,9 fois en moyenne pour E. coli et 1,7 fois pour D. radiodurans), mais ces valeurs d'enrichissement prédites sont plausibles étant donné que in vivo les événements de carbonylation sont sous-échantillonnés expérimentalement (Fig EV1B).

Figure 5. Validation multi-échelle du prédicteur de carbonylation des protéines

  1. Validation à l'échelle des résidus : courbes des caractéristiques de fonctionnement du récepteur (ROC) pour les prédicteurs CS dérivées de la validation Leave-1-out. La ligne noire en pointillés à y=x correspond aux performances attendues par hasard. En haut à gauche = prédicteur final formé en empilant des modèles basés sur la structure et la séquence. En haut au milieu = prédicteur formé uniquement sur les caractéristiques basées sur la structure. En haut à droite = prédicteur formé uniquement sur des caractéristiques basées sur des séquences. En bas à gauche = puissance prédictive maximale théorique pour un estimateur de probabilité (AUC = 0,98). En bas au milieu = même algorithme que celui utilisé pour le prédicteur final mais avec toutes les fonctionnalités mélangées au préalable. En bas à droite = modèle CSPD développé à l'aide des données du site d'oxydation catalysée par un métal (MCO) de E. coli. Voir également les figures EV3 et EV4.
  2. Validation à l'échelle de la protéine : comparaison entre l'enrichissement prédit de CS de la validation Leave-1-out à l'enrichissement CS calculé à partir de tous les peptides carbonylés mesurés pour E. coli (à gauche) et D. radiodurans (droit). Chaque point représente une espèce protéique différente. Enrichissement CS prédit pondéré en fonction de la probabilité = (somme des probabilités de carbonylation sur les sites de l'ensemble d'apprentissage)/(nombre de résidus dans les peptides correspondants des expériences). Enrichissement CS pondéré par la probabilité mesuré expérimentalement = (somme des probabilités d'oxydation empiriques sur les sites de l'ensemble d'apprentissage)/(nombre de résidus dans les peptides correspondants des expériences). La ligne continue est la ligne de régression ajustée et les lignes pointillées indiquent les limites de l'intervalle de confiance à 95 %.

Les propriétés moléculaires expliquent la vulnérabilité à la carbonylation

400 caractéristiques basées sur la structure dans la modélisation, seuls sept des coefficients de régression logistique étaient non nuls : réactivité relative avec ROS (reactivity_res), diversité des codons, si le site RKPT était un résidu de thréonine, volume moléculaire, surface accessible au solvant local, charge positive locale et résidus de lysine locaux. La diversité des codons (AAindCodonDiv_res) elle-même est peu susceptible d'être causale. Au lieu de cela, cette caractéristique a le même ordre de classement que la prévalence de la carbonylation dans D. radiodurans de nos expériences (Fig 3A) et est donc un proxy fortuite pour la réactivité -spécifique. La thréonine est de loin la RKPT la moins fréquemment carbonylée chez les deux espèces (Fig 3A), et l'inclusion de cette caractéristique (Thr_res) dans notre modèle reflète cette plus faible propension à réagir avec les ROS.

Mis à part les caractéristiques de réactivité différenciant RKPT, toutes les autres propriétés explicatives de la susceptibilité aux ROS dérivent de structures 3D (Fig 6). L'accessibilité aux ROS favorise la carbonylation (Fig 6A). Plus le volume moléculaire d'un résidu (AAindMolVol_res) est faible, plus il est susceptible de réagir avec les ROS en raison des effets stériques inférieurs. De même, une surface locale plus faible (areaSAS_5A_sum) entourant un site proche de la surface indique une probabilité moindre de protection par la structure environnante, telle que la saillie de la figure 6D. Les charges positives locales (posCharge_8A_sum) favorisent la carbonylation en attirant les radicaux superoxydes chargés négativement (Fig 6B). La colocalisation de sites hautement réactifs peut provoquer un mauvais repliement progressif des protéines, exposant les résidus voisins aux ROS (Maisonneuve et al, 2009 Figure 6C). Dans notre modèle, les résidus de lysine voisins (Lys_8A_sum) contribuent à la probabilité de carbonylation, la lysine étant le RKPT le plus carbonylé sous irradiation γ dans nos données (Fig 3A). La polarité conduisant à la solubilité des régions riches en lysine pourrait également contribuer à cet effet. Les sites sans lysines voisines sont moins susceptibles d'être carbonylés (figure 6D).

Figure 6. Propriétés moléculaires prédisant la vulnérabilité des protéines à la carbonylation

  • UN D. Exemples de sites sujets à la carbonylation. (A) DRA0302_P252, (B) DR0099_P51 et (C) b0911_K411 et exemple de site robuste (D) b3313_P69.

Notre algorithme s'étend également à la prédiction de l'oxydation catalysée par un métal

Nous avons appliqué la détection de sites carbonylés et de protéines (CSPD) développée par Maisonneuve et al (2009) pour prédire CS à travers notre ensemble d'entraînement (Fig 5A). La performance CSPD sur nos données était essentiellement aléatoire (AUCnorme = 0,53). Il est important de noter que le CSPD a été développé en utilisant des données d'oxydation catalysée par un métal (MCO) à partir d'un ensemble de seulement 23 carbonylés E. coli protéines dérivées d'échantillons préparés dans des conditions similaires à nos contrôles négatifs. Cependant, alors que nous gardions nos échantillons sur de la glace après avoir récolté les cellules en phase exponentielle, Maisonneuve et al n'ont signalé aucun traitement thermique similaire pour leurs échantillons. Ainsi, les échantillons de Maisonneuve et al être préparé à une température plus élevée a permis une synthèse et un renouvellement des protéines qui auraient conduit à moins de protéines carbonylées détectables que nous n'en avons mesuré. De plus, Maisonneuve et al ont effectué une SDS-PAGE 2D et n'ont excisé que les points visibles marqués pour la carbonylation, ce qui aurait pu limiter davantage le nombre de protéines carbonylées distinctes identifiées à partir de leurs échantillons. Au total, nous avons identifié 82 protéines carbonylées dans notre E. coli-contrôles négatifs, dont 10 en commun avec la Maisonneuve et al Les données. L'incapacité du CSPD à se généraliser à la carbonylation à partir de l'irradiation γ peut être due en partie aux différences expérimentales notées ci-dessus en plus d'une différence dans les effets de chaque source spécifique de ROS. Par conséquent, pour comparer plus directement les performances algorithmiques, nous avons également utilisé notre algorithme pour entraîner un modèle prédisant le MCO en utilisant les mêmes données protéomiques redox utilisées pour développer le CSPD (Fig EV4). CSPD a montré une performance positive modeste sur cet ensemble de données (AUCnorme = 0,58), l'écart dans les performances précédemment rapportées en raison de notre inclusion de tous les peptides carbonylés avec des résidus carbonylés et non carbonylés définis comme décrit ci-dessus. Nous concluons que le CSPD a été surajusté aux données MCO et dépend de l'hypothèse d'une carbonylation déterministe des protéines et de normes moins strictes pour définir les résidus non carbonylés dans les données protéomiques.

Figure EV4. Validation à l'échelle des résidus du prédicteur d'oxydation catalysée par un métal (MCO), liée à la figure 5 A

De plus, notre modèle empilé pour la prédiction du MCO a mieux fonctionné (AUCnorme = 0,75) que notre modèle d'oxydation induite par γ avec une meilleure synergie dans l'empilement de la structure- (AUCnorme = 0,72) et basé sur la séquence (AUCnorme = 0,67) modèles. Cette différence de performance était probablement due aux produits relativement moins diversifiés du MCO que l'oxydation induite par γ. La production de ROS dans le MCO est plus localisée car elle dépend de la présence de cations Fe ou Cu pour conduire la réaction de Fenton et affecte donc un plus petit nombre de protéines que l'oxydation induite par γ. En effet, les données d'expériences d'irradiation γ incluent non seulement la CS causée par les ROS provenant de la radiolyse de l'eau, mais également l'oxydation cellulaire basale due aux sources de ROS natives, y compris la MCO et la respiration cellulaire. Ainsi, l'oxydation par irradiation γ est plus diversifiée et complexe que les produits MCO et plus difficile pour l'apprentissage des signatures de structure et de séquence.

Différences intra- et inter-espèces dans la vulnérabilité des protéines à la carbonylation

Le maintien du protéome de D. radiodurans est protégé de la carbonylation

Orthologues et isozymes cartographiés entre E. coli et D. radiodurans (Annexe Fig S3) ont été comparés par leur enrichissement en carbonylation non pondéré (Fig 7 et Tableau EV7) tel que calculé à partir de la prédiction CS à l'échelle du protéome dans E. coli et D. radiodurans pour révéler des classes fonctionnelles et des protéines individuelles de sensibilité différente entre et au sein de ces protéomes. Les classes fonctionnelles connues pour être impliquées dans la résistance et la récupération du stress oxydatif sont les suivantes : ribosomique, assemblage ribosomique, traduction, chaperon protéique, protéase et peptidase, transport d'acides aminés et de peptides, réparation de l'ADN, réponse aux dommages de l'ADN et régulation de la réparation, ROS natifs la production, la détoxification des ROS, la réponse aux ROS, le transport des métaux, la synthèse des terpénoïdes et l'accumulation de polyamines.

Figure 7. Comparaison interspécifique de la vulnérabilité prédite des protéines à la carbonylation

91% de tous les points de données. Cette région de référence distingue les points aberrants éloignés de la population principale. Les valeurs aberrantes avec des preuves expérimentales associées liées à l'hypersensibilité au stress oxydatif sont étiquetées avec leurs noms de protéines. Voir également l'annexe Fig S3 et Fig EV5.

Les orthologues par paires ont été comparés sur la base de facteurs intrinsèques et extrinsèques aux protéines contribuant à leur propension à la carbonylation (Fig 7). La distance perpendiculaire à la diagonale y = x représente le degré relatif auquel un orthologue est intrinsèquement plus ou moins sensible compte tenu du même dosage de ROS sur la base de l'enrichissement en carbonylation seul. Les facteurs extrinsèques aux protéines, tels que le système de piégeage dépendant du Mn dans D. radiodurans (Daly, 2012 ) et le caroténoïde antioxydant déinoxanthine (Tian et al, 2009 ), contribuent également aux différences interspécifiques dans l'oxydation des protéines. De tels facteurs protéiques extrinsèques agissent largement en réduisant le dosage cellulaire efficace de ROS. Une dose gamma aiguë de 7 kGy, approximativement la même que dans cette étude, a produit environ 3,78 fois plus de carbonyles de protéines dans E. coli lysat que dans D. radiodurans (Matériaux et Méthodes) en raison de petites molécules amovibles par dialyse (Krisko & Radman, 2010 ). En supposant que de tels facteurs agissent globalement sans favoriser la protection de protéines spécifiques, le degré auquel ces facteurs extrinsèques différencient la vulnérabilité à la carbonylation entre les orthologues peut être modélisé en combinaison avec des facteurs intrinsèques aux protéines en calculant simplement la distance perpendiculaire à la diagonale y = x/3,78 (Fig. 7). Par ce modèle, les protéines particulièrement sensibles bénéficient davantage d'un dosage effectivement plus faible de ROS dans D. radiodurans.

La vulnérabilité relative aux ROS différait entre E. coli et D. radiodurans au sein de classes fonctionnelles particulières (Fig 7). Nous avons prédit la susceptibilité intrinsèque de E. coli protéines ribosomiques plus de 2,4 fois supérieures à celles de tous les orthologues (non appariées t-test P-valeur = 0,01). La prise en compte de la protection extrinsèque des ROS a prédit que les protéines ribosomiques seraient la classe fonctionnelle la plus favorisée dans D. radiodurans plus de E. coli (1,5 fois, non apparié t-test P-valeur = 1,2 × 10 −26 ), en accord avec D. radiodurans les protéines ribosomiques enrichies parmi celles ayant une abondance relative augmentent après irradiation. Les chaperons de protéines dans E. coli ont été prédits en moyenne 1,13 fois plus intrinsèquement vulnérables que dans D. radiodurans (non apparié t-test P-valeur = 0,02), une différence encore plus marquée en raison d'être plus de 4,5 fois supérieure à la différence entre tous les orthologues (non appariés t-test P-valeur = 0,003) et 1,14 fois plus élevée si l'on tient compte également de la protection extrinsèque (non appariée t-test P-valeur = 0,02). E. coli les protéines impliquées dans la synthèse et l'absorption des polyamines devraient être plus de 3,7 fois intrinsèquement vulnérables que dans tous les orthologues (non appariées t-test P-valeur = 0,04). Revenant sur l'observation selon laquelle l'utilisation de la méthionine figurait en bonne place dans D. radiodurans protéines retenues après irradiation, nous avons prédit que les méthionine sulfoxyde réductases agissant sur la méthionine incorporée dans la protéine MsrB et MsrP sont toutes deux 1,4 fois plus intrinsèquement sensibles à la carbonylation dans E. coli. MsrP était également dans le 94 e centile des protéines bénéficiant d'une protection extrinsèque dans D. radiodurans.

La comparaison des valeurs aberrantes interspécifiques révèle des protéines impliquées dans la résistance au stress oxydatif

De nombreuses protéines impliquées dans la gestion du stress oxydatif étaient des valeurs aberrantes significatives dans la vulnérabilité intrinsèque prédite à la carbonylation (Fig 7). Il y avait 111 paires orthologues supérieures à 3 écarts-types de distance par rapport à la moyenne de la distribution ou supérieures à 3 écarts-types par rapport à la distance perpendiculaire moyenne à la diagonale y = x. Nous avons regroupé ces valeurs aberrantes selon trois propriétés : (i) sensibilité ou robustesse intrinsèque par rapport au reste du protéome, (ii) vulnérabilité intrinsèque comparative entre D. radiodurans et E. coli, et (iii) l'effet relatif de la détoxification des ROS dans D. radiodurans plus de E. coli (Fig EV5).

Figure EV5. Valeurs aberrantes prévues regroupées par vulnérabilité intrinsèque et extrinsèque comparative à la carbonylation dans D. radiodurans et E. coli, lié à la figure 7

Protéines prédites comme significativement plus protégées intrinsèquement ou extrinsèquement contre les ROS dans D. radiodurans relatif à E. coli se répartissent en trois groupes en fonction des trois propriétés décrites ci-dessus. Les protéines du groupe 1 ont été prédites fortement sujettes à la carbonylation mais plus protégées intrinsèquement et extrinsèquement dans D. radiodurans que dans E. coli. En moyenne, ces 12 protéines étaient 1,4 fois plus enrichies en CS en E. coli et au-dessus du 99 e centile de protection extrinsèque dans D. radiodurans. Sur 10 protéines détectées dans les deux organismes par protéomique, huit présentaient des changements d'abondance relative induits par γ plus négatifs dans E. coli que D. radiodurans, avec une médiane E. coli-à-D. radiodurans rapport de 0,47. Les sous-unités ribosomiques comprenaient 11 de ces protéines, dont huit sont essentielles dans E. coli. E. coli KO de rpmI (Nakayashiki & Mori, 2013) sont hypersensibles au stress oxydatif. Surexpression de rpmG augmente la résistance au stress oxydatif de la mitomycine C (Bolt et al, 2015 ), et la surexpression de GroS diminue l'accumulation de protéines carbonyles (Fredriksson et al, 2005 ). Sept de ces protéines présentent une expression induite par le stress oxydatif dans D. radiodurans (Liu et al, 2003 Slade & Radman, 2011 ). Les protéines du groupe 2 ont été prédites comme étant intrinsèquement sujettes à la carbonylation chez les deux espèces, mais significativement protégées de manière extrinsèque chez D. radiodurans. En moyenne, ces 22 protéines se situent au-dessus du 86 e centile de protection extrinsèque chez D. radiodurans. Sur 13 protéines détectées dans les deux organismes par protéomique, 11 ont montré des changements d'abondance relative induits par γ sensiblement plus positifs dans D. radiodurans. Dans ce groupe, 13 protéines sont des sous-unités ribosomiques. Dans E. coli, pstS les knock-out sont hypersensibles au stress oxydatif (Sargentini et al, 2016 ), rpsL il a été démontré que les mutants affectent la tolérance au stress oxydatif (Ballesteros et al, 2001 Miskinyte & Gordo, 2013 ), et 13 autres sont des gènes essentiels (Baba et al, 2006 Boubunenko et al, 2007 ). Dans D. radiodurans, rpsS et hupA les knock-out sont hypersensibles au stress oxydatif (Dulermo et al, 2015 ) et la surexpression de rpsS, rpsT, rplQ, rpsM, rpmB, rplK, rpsL, thpR, tr/min, nrdH, rplR, rplV, et rpsR se produit pendant le stress oxydatif (Liu et al, 2003 Slade & Radman, 2011 ). Les protéines du groupe 3 ont été prédites significativement plus sensibles à la carbonylation dans E. coli que dans D. radiodurans. En moyenne, ces 27 protéines étaient 1,9 fois plus enrichies en CS en E. coli et au-dessus du 95 e centile de protection extrinsèque dans D. radiodurans. Dans E. coli, tr/min (Nakayashiki & Mori, 2013 Sargentini et al, 2016 ) et icd (Krisko et al, 2014 ) les knock-out sont hypersensibles au stress oxydatif, et osmY (Basak & Jiang, 2012 ) est également impliqué dans la résistance au stress oxydatif. Dans D. radiodurans, xseB les knock-out sont hypersensibles au stress oxydatif (Dulermo et al, 2015 ), et adk, icd, Masculin, osmC, ppiA, rplB, tr/min, rpsC, et yceI sont fortement exprimés sous stress oxydatif (Liu et al, 2003 Slade & Radman, 2011 Basu & Apte, 2012 ). Résistance plus élevée à la carbonylation des protéines de ces groupes D. radiodurans Excepté E. coli et délimite les transgènes qui pourraient servir à augmenter la tolérance au stress dans E. coli.

Les valeurs aberrantes interspécifiques ne sont pas prédites comme étant significativement plus protégées contre les ROS dans D. radiodurans se diviser en deux groupes. Les protéines du groupe 4 ont été prédites comme hautement intrinsèquement robustes à la carbonylation chez les deux espèces et donc ne pas bénéficier substantiellement de la protection extrinsèque dans D. radiodurans. Sur ces cinq protéines, trois étaient plus intrinsèquement vulnérables dans E. coli, comprenant secE, ce qui est essentiel dans E. coli (Baba et al, 2006 ), et fdx, qui est fortement exprimé sous stress oxydatif dans D. radiodurans (Liu et al, 2003 ). Les protéines du groupe 5 ont été prédites comme significativement plus intrinsèquement vulnérables à la carbonylation dans D. radiodurans que dans E. coli. Ces 14 protéines fonctionnellement diverses comprennent trois mutants knock-out hypersensibles au stress oxydatif connus dans D. radiodurans (Dulerme et al, 2015 ) cependant, tous sauf 2 se situent toujours au-dessus de y = x/3,78 dans la figure 7, suggérant que la protection extrinsèque pourrait toujours compenser les différences de vulnérabilité intrinsèque entre ces espèces.


MATÉRIAUX ET MÉTHODES

Collecte et classification des protéines du spliceosome

Un total de 244 protéines trouvées dans les analyses protéomiques du principal spliceosome humain [provenant d'une ou plusieurs des références suivantes (2, 4, 8, 37-41)], et 8 protéines spécifiques au di-snRNP U11/U12 sous-unité du spliceosome mineur (tableau supplémentaire S1) (42), ont été téléchargées à partir de la base de données NCBI Protein (nr). Les protéines ont été classées comme « abondantes » et « non abondantes » selon (2), et elles ont été réparties en groupes basés principalement sur (2), suivis de références (4, 38-40). Les protéines classées ici comme « diverses » ont été classées dans les sources primaires, de manière variable, en tant que « protéines diverses », « facteurs d'épissage divers », « protéines supplémentaires », « protéines non détectées de manière reproductible » et « protéines non détectées auparavant ». Nous déclinons toute responsabilité quant à l'exactitude factuelle de l'association des protéines avec les groupes pertinents au-delà du point de suivre les sources primaires.

Recherches de séquences, alignements et clustering

Des recherches d'homologues de protéines dans la base de données NCBI Protein (nr) ont été effectuées au NCBI en utilisant BLASTP/PSI-BLAST ( 43) avec des paramètres par défaut. L'homologie putative a été validée par des recherches BLASTP réciproques par rapport à la base de données de protéines avec « humain » (identifiant de taxon NCBI : 9606) comme délimiteur de recherche de taxon. Les alignements de séquences ont été calculés à l'aide du serveur MAFFT en utilisant la stratégie Auto (http://mafft.cbrc.jp/alignment/server/) (44). L'analyse de clustering des séquences d'hélicase a été réalisée avec CLANS (45).

Identification et description des régions structurales des protéines

L'identification des régions intrinsèquement ordonnées et désordonnées des protéines, la prédiction de la structure secondaire des protéines et des limites de domaine, ainsi que des analyses de reconnaissance de pli (FR), ont été effectuées via la passerelle GeneSilico MetaServer (pour les références aux méthodes originales, voir https :/ /genesilico.pl/meta2) ( 46). Dans les cas non triviaux (généralement lorsque les modèles de modélisation putatifs renvoyés par FR obtenaient un score faible et/ou que diverses méthodes étaient en désaccord sur le meilleur modèle), les alignements FR sur les modèles les mieux notés de la PDB ont été comparés, évalués et classés par le serveur PCONS ( 47), et le résultat du PCONS a été utilisé pour identifier les limites des régions. Des recherches supplémentaires ont été effectuées sur le serveur HHPRED ( 48).

Base de données SCOP (49) Les identifiants utilisés à des fins d'identification de domaine structurel ont été soit extraits de la Protein Data Bank, soit des fichiers analysables SCOP sur le site Web SCOP (http://scop.mrc-lmb.cam.ac.uk/scop /parse/index.html) ou attribué à l'aide du serveur fastSCOP (http://fastscop.life.nctu.edu.tw/) ( 50). Les noms de domaine PFAM ont été attribués sur le site Web de PFAM (http://pfam.sanger.ac.uk/). SCOP v. 1.75 et PFAM v. 25.0 ont été utilisés. La similarité structurelle a été comparée à l'aide du serveur DALI (51).

Affectation de modèles aux régions structurales des protéines

Pour attribuer des modèles structurels aux régions, nous avons suivi une procédure en quatre étapes ( Figure 1). Chaque fois qu'un modèle structurel expérimental à haute résolution (structure aux rayons X ou RMN) était disponible, nous l'avons attribué à la région de séquence correspondante. Si une similitude structurelle avec une protéine de structure connue était prédite pour une région donnée par des algorithmes de reconnaissance de pli (voir ci-dessous pour plus de détails), nous avons construit un modèle pour cette région par une technique de modélisation comparative (basée sur un modèle), en utilisant la méthode expérimentale détectée. structures comme modèles. En l'absence de modèles prédits avec confiance, nous avons utilisé de novo méthodes de repliement pour des fragments relativement petits susceptibles de former des domaines globulaires. Pour les régions restantes (celles sans structures résolues expérimentalement et pour lesquelles la méthodologie de modélisation actuelle ne peut pas fournir des prédictions fiables de la structure 3D), nous avons généré pro forma modèles, dans lesquels seules la structure primaire et secondaire (prédite) étaient représentées explicitement, tandis que l'arrangement tertiaire était arbitraire. Pro forma les modèles ne sont pas censés être fiables au niveau tertiaire et ont été construits pour des analyses ultérieures (par exemple, pour initialiser des analyses de repliement des protéines qui nécessitent une sorte de représentation structurelle en entrée).

Règles de sélection et de production de représentations structurales de régions protéiques. De gauche à droite, les représentations structurelles diminuent dans la confiance moyenne.

Règles de sélection et de production de représentations structurales de régions protéiques. De gauche à droite, les représentations structurelles diminuent dans la confiance moyenne.

Pour les régions avec plusieurs structures résolues dans la Protein Data Bank, les critères de préférence suivants ont été utilisés : (i) structures de la région en complexe avec d'autres protéines et/ou acides nucléiques état) ont eu la priorité sur les structures de la région isolées, (ii) les structures cristallographiques ont eu la priorité sur les structures RMN, (iii) les structures cristallographiques à plus haute résolution ont eu la priorité sur les structures à plus faible résolution et (iv) des structures plus complètes ont été données priorité aux structures moins complètes. Les artefacts expérimentaux suivants ont été supprimés des fichiers de structure expérimentale ou corrigés par des procédures de modélisation standard : des séquences non natives ajoutées pour faciliter l'expression des protéines et le processus de détermination de la structure (par exemple, les balises d'affinité), les acides aminés non standard (par exemple, la sélénométhionine a été remplacée par la méthionine ), et des lacunes dans les séquences (par exemple, de courts fragments de boucle désordonnée ont été ajoutés). Les chaînes simples n'étaient retenues que si le fichier PDB original contenait plusieurs chaînes de la même protéine.

Des modèles comparatifs ont été construits par défaut avec MODELLER (52) sur la base de modèles identifiés dans le processus de reconnaissance des plis. Des modèles difficiles sélectionnés ont été construits à l'aide du serveur I-TASSER ( 53). Les modèles sélectionnés ont également été ajustés avec ROSETTA 3.0/3.1 en utilisant le mode de modélisation en boucle ( 54). De novo les modèles ont été produits avec l'application ROSETTA 3.0/3.1 AbInitioRelax et regroupés avec l'application Rosetta 3.0/3.1 Cluster, en suivant les protocoles définis dans le guide de l'utilisateur ROSETTA pour la version 3.1. (http://www.rosettacommons.org/manual_guide) (54). De novo le repliement a été tenté si les conditions suivantes étaient remplies : la région avait une longueur d'environ 125 résidus, prédite être complètement ordonnée et prédite contenir des éléments de structure secondaires. Ces conditions correspondent à la limite pratique actuelle d'utilité de ce type de méthodes (55). Artificiel pro forma les représentations spatiales des chaînes protéiques de structure inconnue/incertaine ou dont on prévoit qu'elles manqueront de structure stable ont été construites avec UCSF Chimera (v.1.4/1.5) en utilisant le Outils>Modification de la structure>Construire la structure commande ( 56). Pro forma les constructions reflètent uniquement la structure primaire connue et la structure secondaire prédite des régions correspondantes, tandis que leur structure tertiaire doit être considérée comme non attribuée (et reste à modéliser à l'avenir). Diverses manipulations de structures et de modèles de molécules au cours de cette étape ont été effectuées dans UCSF Chimera ( 56) et Swiss-PdbViewer v. 4.0.1 ( 57).

Évaluation de la qualité du modèle protéique

L'évaluation de la qualité du modèle a été réalisée avec MetaMQAPII [https://genesilico.pl/toolkit/unimod?method=MetaMQAPII, une version mise à jour d'une méthode décrite dans ( 58)] et QMEAN [http://swissmodel.expasy.org/ qmoyen/ ( 59)].

MetaMQAP prédit l'écart du modèle de requête par rapport à la structure native (inconnue) et l'exprime comme l'écart moyen quadratique global (RMSD) et le score total du test de distance global (GDT_TS) (60). Plus le RMSD prédit est bas et plus le score GDT_TS prédit est élevé, meilleur est le modèle.

QMEAN calcule d'abord un score interne, puis le QMEAN Z-score indique de combien d'écarts types le score QMEAN du modèle diffère des valeurs attendues pour les structures expérimentales qui ont une longueur similaire au modèle. Les modèles de haute qualité devraient avoir un QMEAN positif Z-scores, et les bons modèles devraient avoir un QMEAN Z-score supérieur à -2,0. Les indicateurs de précision des résidus individuels ont été générés par MetaMQAPII et sont fournis sous forme de valeurs de facteur B dans les fichiers de modèle disponibles sur le site Web de la base de données SpliProt3D (voir ci-dessous). Ils peuvent être visualisés avec la commande UCSF Chimera Render By Attribute > (attributs des résidus : facteur B moyen) ou avec des commandes équivalentes dans d'autres programmes de visualisation moléculaire. Valeurs moyennes et écarts types du QMEAN Z-les scores pour les six facteurs contributifs QMEAN sont fournis avec cette publication (tableau supplémentaire S4) et les valeurs pour tous les modèles sont fournies avec les fichiers de modèle. Les modèles de faible qualité devraient avoir un QMEAN fortement négatif Z-score, mais aussi fortement négatif Z-scores pour la plupart des termes contributifs.

Comme MetaMQAPII n'est pas capable d'évaluer des modèles multimériques, pour les modèles de complexes protéiques (11 modèles radiographiques et 2 modèles RMN) seule la qualité de la chaîne la plus longue a été évaluée par MetaMQAPII.

Site Web/base de données de modèles

Des modèles et des données supplémentaires, y compris des alignements de séquences représentatives annotées avec des prédictions d'ordre/désordre, de structure secondaire, de trouble de liaison, d'accessibilité au solvant et de bobines enroulées, ainsi que des annotations de sites de modification post-traductionnelle d'UniProt (29), sont disponibles via le serveur Web SpliProt3D à l'adresse http://iimcb.genesilico.pl/spliprot3D. L'archive complète des fichiers disponibles au téléchargement a environ 250 Mo.

Visualisation des alignements de séquences et des structures moléculaires

Les alignements de séquences ont été visualisés avec Jalview v. 2.6.1 (61), tandis que les graphiques de structure moléculaire ont été produits avec UCSF Chimera (56).


Structure des protéines

Chaque niveau successif de repliement des protéines contribue finalement à sa forme et donc à sa fonction.

Objectifs d'apprentissage

Résumer les quatre niveaux de structure protéique

Points clés à retenir

Points clés

  • La structure de la protéine dépend de sa séquence d'acides aminés et des liaisons chimiques locales à faible énergie entre les atomes à la fois dans le squelette polypeptidique et dans les chaînes latérales d'acides aminés.
  • La structure de la protéine joue un rôle clé dans sa fonction si une protéine perd sa forme à n'importe quel niveau structurel, elle peut ne plus être fonctionnelle.
  • La structure primaire est la séquence d'acides aminés.
  • La structure secondaire est constituée d'interactions locales entre des tronçons d'une chaîne polypeptidique et comprend des structures en hélice et en feuillet plissé .
  • La structure tertiaire est le repliement global en trois dimensions entraîné en grande partie par les interactions entre les groupes R.
  • Les structures quaternaires sont l'orientation et l'arrangement des sous-unités dans une protéine à plusieurs sous-unités.

Mots clés

  • antiparallèle: La nature des orientations opposées des deux brins d'ADN ou de deux brins bêta qui constituent la structure secondaire d'une protéine
  • Un pont disulfure: Une liaison, constituée d'une liaison covalente entre deux atomes de soufre, formée par la réaction de deux groupes thiol, notamment entre les groupes thiol de deux protéines
  • feuille -plissée: structure secondaire des protéines où les groupes N-H dans le squelette d'un brin complètement étendu établissent des liaisons hydrogène avec les groupes C=O dans le squelette d'un brin complètement étendu adjacent
  • -hélice: structure secondaire des protéines où chaque squelette N-H crée une liaison hydrogène avec le groupe C=O de l'acide aminé quatre résidus plus tôt dans la même hélice.

La forme d'une protéine est essentielle à sa fonction car elle détermine si la protéine peut interagir avec d'autres molécules. Les structures des protéines sont très complexes et les chercheurs n'ont pu que très récemment déterminer facilement et rapidement la structure de protéines complètes jusqu'au niveau atomique. (Les techniques utilisées remontent aux années 1950, mais jusqu'à récemment, elles étaient très lentes et laborieuses à utiliser, de sorte que les structures complètes des protéines étaient très lentes à être résolues.) Les premiers biochimistes structurels ont divisé conceptuellement les structures des protéines en quatre "niveaux" à fabriquer il est plus facile d'appréhender la complexité de l'ensemble des structures. Pour déterminer comment la protéine obtient sa forme ou sa conformation finale, nous devons comprendre ces quatre niveaux de structure protéique : primaire, secondaire, tertiaire et quaternaire.

Structure primaire

La structure primaire d'une protéine est la séquence unique d'acides aminés dans chaque chaîne polypeptidique qui constitue la protéine. En réalité, ce n'est qu'une liste des acides aminés qui apparaissent dans quel ordre dans une chaîne polypeptidique, pas vraiment une structure. Mais, parce que la structure finale de la protéine dépend en fin de compte de cette séquence, cela a été appelé la structure primaire de la chaîne polypeptidique. Par exemple, l'insuline, l'hormone pancréatique, possède deux chaînes polypeptidiques, A et B.

Structure primaire: La chaîne A de l'insuline est longue de 21 acides aminés et la chaîne B est longue de 30 acides aminés, et chaque séquence est unique à la protéine insuline.

Le gène, ou la séquence d'ADN, détermine finalement la séquence unique d'acides aminés dans chaque chaîne peptidique. Un changement dans la séquence nucléotidique de la région codante du gène peut entraîner l'ajout d'un acide aminé différent à la chaîne polypeptidique en croissance, provoquant un changement dans la structure de la protéine et donc dans sa fonction.

L'hémoglobine, protéine de transport d'oxygène, est constituée de quatre chaînes polypeptidiques, deux chaînes identiques et deux chaînes identiques. Dans l'anémie falciforme, une seule substitution amino dans la chaîne de l'hémoglobine provoque un changement dans la structure de la protéine entière. Lorsque l'acide aminé acide glutamique est remplacé par la valine dans la chaîne , le polypeptide se replie en une forme légèrement différente qui crée une protéine d'hémoglobine dysfonctionnelle. Ainsi, une seule substitution d'acide aminé peut provoquer des changements spectaculaires. Ces protéines d'hémoglobine dysfonctionnelles, dans des conditions de faible teneur en oxygène, commencent à s'associer les unes aux autres, formant de longues fibres constituées de millions d'hémoglobines agrégées qui déforment les globules rouges en forme de croissant ou de « faucille » qui obstruent les artères. Les personnes touchées par la maladie souffrent souvent d'essoufflement, de vertiges, de maux de tête et de douleurs abdominales.

Drépanocytose: Les cellules falciformes sont en forme de croissant, tandis que les cellules normales sont en forme de disque.

Structure secondaire

La structure secondaire d'une protéine est toute structure régulière résultant d'interactions entre des acides aminés voisins ou proches lorsque le polypeptide commence à se replier dans sa forme tridimensionnelle fonctionnelle.Des structures secondaires apparaissent lorsque des liaisons H se forment entre des groupes locaux d'acides aminés dans une région de la chaîne polypeptidique. Il est rare qu'une seule structure secondaire s'étende tout au long de la chaîne polypeptidique. C'est généralement juste dans une section de la chaîne. Les formes les plus courantes de structure secondaire sont les structures en hélice et en feuillet plissé et elles jouent un rôle structurel important dans la plupart des protéines globulaires et fibreuses.

Structure secondaire: L'hélice et la feuille plissée en raison de la liaison hydrogène entre les groupes carbonyle et amino dans le squelette peptidique. Certains acides aminés ont une propension à former une hélice , tandis que d'autres ont une propension à former une feuille plissée .

Dans la chaîne α-hélice, la liaison hydrogène se forme entre l'atome d'oxygène dans le groupe carbonyle du squelette polypeptidique dans un acide aminé et l'atome d'hydrogène dans le groupe amino du squelette polypeptidique d'un autre acide aminé qui est quatre acides aminés plus loin le long de la chaîne. Cela maintient l'étirement des acides aminés dans une bobine pour droitier. Chaque tour d'hélice dans une hélice alpha a 3,6 résidus d'acides aminés. Les groupes R (les chaînes latérales) du polypeptide dépassent de la chaîne de l'hélice et ne sont pas impliqués dans les liaisons H qui maintiennent la structure de l'hélice .

Dans les feuilles plissées β, des segments d'acides aminés sont maintenus dans une conformation presque entièrement étendue qui "plis" ou zigzague en raison de la nature non linéaire des liaisons covalentes C-C et C-N uniques. Les feuilles plissées β ne se produisent jamais seules. Ils doivent être maintenus en place par d'autres feuilles plissées β. Les tronçons d'acides aminés dans les feuilles plissées sont maintenus dans leur structure de feuille plissée parce que des liaisons hydrogène se forment entre l'atome d'oxygène dans un groupe carbonyle du squelette polypeptidique d'une feuille plissée et l'atome d'hydrogène dans un groupe amino du squelette polypeptidique d'un autre β -feuille plissé. Les feuilles plissées qui se maintiennent s'alignent parallèlement ou antiparallèlement les unes aux autres. Les groupes R des acides aminés dans une feuille plissée sont perpendiculaires aux liaisons hydrogène maintenant ensemble les feuilles plissées et ne sont pas impliqués dans le maintien de la structure de la feuille plissée .

Structure tertiaire

La structure tertiaire d'une chaîne polypeptidique est sa forme globale en trois dimensions, une fois que tous les éléments de la structure secondaire se sont repliés les uns sur les autres. Les interactions entre les groupes R polaires, non polaires, acides et basiques au sein de la chaîne polypeptidique créent la structure tertiaire tridimensionnelle complexe d'une protéine. Lorsque le repliement des protéines a lieu dans l'environnement aqueux du corps, les groupes R hydrophobes des acides aminés non polaires se trouvent principalement à l'intérieur de la protéine, tandis que les groupes R hydrophiles se trouvent principalement à l'extérieur. Les chaînes latérales de la cystéine forment des liaisons disulfure en présence d'oxygène, la seule liaison covalente se formant lors du repliement des protéines. Toutes ces interactions, faibles et fortes, déterminent la forme tridimensionnelle finale de la protéine. Lorsqu'une protéine perd sa forme tridimensionnelle, elle ne sera plus fonctionnelle.

Structure tertiaire: La structure tertiaire des protéines est déterminée par des interactions hydrophobes, des liaisons ioniques, des liaisons hydrogène et des liaisons disulfure.

Structure quaternaire

La structure quaternaire d'une protéine est la façon dont ses sous-unités sont orientées et disposées les unes par rapport aux autres. En conséquence, la structure quaternaire ne s'applique qu'aux protéines multi-sous-unités, c'est-à-dire aux protéines constituées de plus d'une chaîne polypeptidique. Les protéines fabriquées à partir d'un seul polypeptide n'auront pas de structure quaternaire.

Dans les protéines avec plus d'une sous-unité, de faibles interactions entre les sous-unités aident à stabiliser la structure globale. Les enzymes jouent souvent un rôle clé dans la liaison des sous-unités pour former la protéine fonctionnelle finale.

Par exemple, l'insuline est une protéine globulaire en forme de boule qui contient à la fois des liaisons hydrogène et des liaisons disulfure qui maintiennent ses deux chaînes polypeptidiques ensemble. La soie est une protéine fibreuse qui résulte d'une liaison hydrogène entre différentes chaînes plissées β.

Quatre niveaux de structure protéique: Les quatre niveaux de structure des protéines peuvent être observés dans ces illustrations.


Quelle est la distribution des structures secondaires par AA dans le protéome humain ? - La biologie

Figure 1 : Galerie de protéines. Des exemples représentatifs de la taille des protéines sont présentés avec des exemples dessinés pour illustrer certains des rôles fonctionnels clés qu'elles assument. Toutes les protéines de la figure sont représentées à la même échelle pour donner une impression de leurs tailles relatives. Les petits objets rouges montrés sur certaines des molécules sont les substrats de la protéine d'intérêt. Par exemple, dans l'hexokinase, le substrat est le glucose. La poignée dans l'ATP synthase est connue mais la structure exacte n'était pas disponible et n'était donc que schématiquement dessinée. Les noms entre parenthèses sont les ID des entrées des structures de la base de données PDB. (Figure avec l'aimable autorisation de David Goodsell).

Les protéines sont souvent appelées les chevaux de bataille de la cellule. Une impression des tailles relatives de ces différentes machines moléculaires peut être recueillie à partir de la galerie illustrée à la figure 1. Un exemple préféré est fourni par la protéine Rubisco illustrée sur la figure qui est responsable de la fixation du carbone atmosphérique, construisant littéralement la biosphère à partir de minces air. Cette molécule, l'une des protéines les plus abondantes sur Terre, est responsable de l'extraction d'une centaine de Gigatonnes de carbone de l'atmosphère chaque année. C'est ≈10 fois plus que toutes les émissions de dioxyde de carbone produites par l'humanité à partir des tuyaux d'échappement des voitures, des moteurs à réaction, des centrales électriques et de toutes nos autres technologies alimentées par les combustibles fossiles. Pourtant, les niveaux de carbone continuent d'augmenter globalement à des taux alarmants car ce carbone fixé est ensuite réémis dans des processus tels que la respiration, etc. Cette fixation chimique est réalisée par ces molécules de Rubisco avec une masse monomérique de 55 kDa fixant le CO.2 un à la fois, avec chaque CO2 avec une masse de 0,044 kDa (juste une autre façon d'écrire 44 Da qui clarifie le rapport 1000:1 en masse). Pour un autre acteur dominant de notre biosphère, considérons l'ATP synthase (MW≈500-600 kDa, BNID 106276), également illustrée à la figure 1, qui décore nos membranes mitochondriales et est responsable de la synthèse des molécules d'ATP (MW=507 Da) qui alimentent une grande partie de la chimie de la cellule. Ces usines moléculaires produisent tellement de molécules d'ATP que tous les ATP produits par les mitochondries d'un corps humain en une journée auraient presque autant de masse que le corps lui-même. Comme nous le discutons dans la vignette sur « Quel est le temps de renouvellement des métabolites ? » le roulement rapide rend cela moins improbable qu'il n'y paraît.

Figure 2 : Une galerie d'homooligomères montrant la belle symétrie de ces complexes protéiques communs. Surlignées en rose sont les sous-unités monomères constituant chaque oligomère. Figurine de David Goodsell.

La taille des protéines telles que Rubisco et ATP synthase et bien d'autres peuvent être mesurées à la fois géométriquement en termes d'espace qu'elles occupent et en termes de taille de séquence déterminée par le nombre d'acides aminés qui sont enchaînés pour fabriquer la protéine. . Étant donné que l'acide aminé moyen a une masse moléculaire de 100 Da, nous pouvons facilement effectuer une interconversion entre la masse et la longueur de la séquence. Par exemple, le monomère Rubisco de 55 kDa a environ 500 acides aminés constituant sa chaîne polypeptidique. L'étendue spatiale des protéines solubles et leur taille de séquence présentent souvent une propriété d'échelle approximative où le volume s'échelonne linéairement avec la taille de la séquence et donc les rayons ou les diamètres ont tendance à s'échelonner comme la taille de la séquence à la puissance 1/3. Une règle empirique simple pour penser aux protéines solubles typiques comme le monomère Rubisco est qu'elles ont un diamètre de 3 à 6 nm, comme illustré à la figure 1 qui montre non seulement Rubisco, mais de nombreuses autres protéines importantes qui font fonctionner les cellules. Dans environ la moitié des cas, il s'avère que les protéines fonctionnent lorsque plusieurs copies identiques sont liées symétriquement les unes aux autres, comme le montre la figure 2. Ceux-ci sont appelés homo-oligomères pour les différencier des cas où différentes sous-unités protéiques sont liées ensemble formant le so- appelés hétéro-oligomères. Les états les plus courants sont le dimère et le tétramère (et les monomères non oligomères). Les homo-oligomères sont environ deux fois plus courants que les hétéro-oligomères (BNID 109185).

Il existe une différence de taille souvent surprenante entre une enzyme et les substrats sur lesquels elle agit. Par exemple, dans les voies métaboliques, les substrats sont des métabolites qui ont généralement une masse inférieure à 500 Da alors que les enzymes correspondantes sont généralement environ 100 fois plus lourdes. Dans la voie de la glycolyse, de petites molécules de sucre sont traitées pour extraire à la fois de l'énergie et des éléments constitutifs pour une biosynthèse ultérieure. Cette voie est caractérisée par une multitude de machines à protéines, qui sont toutes beaucoup plus grandes que leurs substrats de sucre, avec des exemples montrés dans le coin inférieur droit de la figure 1 où nous voyons la taille relative des substrats indiqués en rouge lors de l'interaction avec leurs enzymes .

Figure 3 : Distribution des longueurs de protéines dans E. coli, levure bourgeonnante et cellules HeLa humaines. (A) La longueur des protéines est calculée en acides aminés (AA), sur la base des séquences codantes dans le génome. (B) Les distributions sont tirées après pondération de chaque gène avec le nombre de copies de protéines déduit des études protéomiques de spectrométrie de masse (M. Heinemann sous presse, M9 + glucose LMF de Godoy et al. Nature 455 : 1251, 2008, média défini T. Geiger et al., Mol. Cell Proteomics 11:M111.014050, 2012). Les lignes continues sont des estimations de densité de noyau gaussien pour les distributions servant de guide à l'œil.

Tableau 1 : Longueur médiane des séquences codantes de protéines basées sur les génomes de différentes espèces. Les entrées de ce tableau sont basées sur une analyse bioinformatique par L. Brocchieri et S. Karlin, Nuc. Acides. Res., 33:3390, 2005, BNID 106444. Comme indiqué dans le texte, nous proposons une métrique alternative qui pondère les protéines en fonction de leur abondance, comme l'ont révélé les récents recensements de masse protéomique à l'échelle du protéome. Les résultats ne sont pas très différents des entrées de ce tableau, avec des eucaryotes longs d'environ 400 aa en moyenne et des bactéries d'environ 300 aa.

Des valeurs concrètes pour la longueur médiane des gènes peuvent être calculées à partir des séquences du génome en tant qu'exercice bioinformatique. Le tableau 1 rapporte ces valeurs pour divers organismes montrant une tendance vers des séquences de codage de protéines plus longues lors du passage d'organismes unicellulaires à des organismes multicellulaires. Dans la figure 3, nous allons au-delà des tailles moyennes des protéines pour caractériser la distribution complète des longueurs de séquences codantes sur le génome, en rapportant des valeurs pour trois organismes modèles. Si notre objectif était de connaître le spectre des tailles de protéines, cette définition basée sur la longueur génomique pourrait suffire. Mais lorsque nous voulons comprendre l'investissement en ressources cellulaires qui entre dans la synthèse des protéines, ou prédire la longueur moyenne d'une protéine choisie au hasard dans la cellule, nous préconisons une définition alternative, rendue possible grâce aux récents recensements à l'échelle du protéome. Pour ce genre de questions, les protéines les plus abondantes devraient se voir attribuer un poids statistique plus élevé dans le calcul de la longueur de protéine attendue. Nous calculons ainsi la distribution pondérée des longueurs de protéines représentées sur la figure 3, en donnant à chaque protéine un poids proportionnel à son nombre de copies. Cette distribution représente la longueur attendue d'une protéine pêchée au hasard hors de la cellule plutôt que pêchée au hasard hors du génome. Les distributions qui émergent de cette approche centrée sur le protéome dépendent des conditions de croissance spécifiques de la cellule. Dans ce livre, nous avons choisi d'utiliser comme règle empirique simple la longueur de la protéine « typique » chez les procaryotes 300 aa et chez les eucaryotes ≈400 aa. Les distributions de la figure 3 montrent qu'il s'agit d'une estimation raisonnable bien qu'elle puisse être surestimée dans certains cas.

L'un des charmes de la biologie est que l'évolution nécessite des éléments fonctionnels très divers créant des valeurs aberrantes dans presque toutes les propriétés (ce qui est aussi la raison pour laquelle nous avons discuté des médianes et non des moyennes ci-dessus). En ce qui concerne la taille des protéines, la titine est une exception. La titine est une protéine multifonctionnelle qui se comporte comme un ressort non linéaire dans les muscles humains avec ses nombreux domaines se déployant et se repliant en présence de forces et donnant aux muscles leur élasticité. La titine est environ 100 fois plus longue que la protéine moyenne avec sa chaîne polypeptidique de 33 423 aa (BNID 101653). L'identification des plus petites protéines du génome est encore controversée, mais les protéines ribosomiques courtes d'environ 100 aa sont courantes.

Il est très courant d'utiliser le marquage GFP des protéines afin de tout étudier de leur localisation à leurs interactions. Armés de la connaissance de la taille caractéristique d'une protéine, nous sommes maintenant prêts à revisiter l'acte apparemment anodin de marquer une protéine. La GFP a une longueur de 238 aa, composée d'un tonneau bêta dans lequel les acides aminés clés forment le chromophore fluorescent comme discuté dans la vignette « Quel est le temps de maturation des protéines fluorescentes ? ». En conséquence, pour de nombreuses protéines, l'acte de marquage devrait en réalité être considéré comme la création d'un complexe protéique qui est maintenant deux fois plus grand que la protéine non perturbée d'origine.


Discussion et conclusions

Des preuves de plus en plus nombreuses indiquent qu'un large éventail de protéines sans relation dans la séquence, la structure native et la fonction peuvent former des condensats biomoléculaires (1, 2, 4, 53). Ces observations suggèrent que l'état de gouttelette peut avoir un caractère générique et être accessible à la plupart des protéines. Cette possibilité peut ne pas être immédiatement évidente à partir des données actuellement disponibles car la condensation de différentes protéines a été rapportée pour des conditions expérimentales souvent éloignées des conditions physiologiques. De plus, une compréhension complète des interactions entraînant la formation des gouttelettes n'a pas encore été atteinte, en raison d'une grande variété de motifs de séquence associés à l'état des gouttelettes.

Dans ce travail, nous avons exploité le fait qu'une grande partie des protéines du protéome humain ont des entropies de liaison favorables en visitant un ensemble d'états liés (54, 55), ce qui est réalisé via des modes de liaison désordonnés. Nous avons donc émis l'hypothèse que la forte entropie conformationnelle associée aux interactions de chaînes latérales non spécifiques contribue à la stabilisation de l'état des gouttelettes, et avons proposé un modèle pour le quantifier à partir de sa séquence. Nous avons montré que les propensions à favoriser les gouttelettes peuvent être prédites à l'aide d'un tel modèle générique, même sans l'incorporation explicite de types spécifiques d'interactions. La spécificité de notre modèle provient des biais de séquence compositionnelle locaux, qui sont utilisés pour estimer l'entropie dans l'état lié (23). C'est-à-dire que les motifs hydrophobes et hydrophiles peuvent médier sélectivement les interactions s'ils sont intégrés dans un environnement de caractère opposé, expliquant comment la sélectivité peut être obtenue via une grande variété d'interactions et de types de contact. Nous avons montré précédemment que cette approche est capable de décrire une liaison ordonnée et désordonnée dans des conditions cellulaires (27).

En utilisant ces principes généraux, nous avons développé la méthode FuzDrop pour prédire les profils de promotion de gouttelettes et la propension des protéines à entraîner la formation de gouttelettes. En appliquant cette méthode de prédiction à différents ensembles de données de protéines à séparation de phases, nous avons décrit deux mécanismes de formation de gouttelettes : 1) le mécanisme de commande, qui ne nécessite pas de composants supplémentaires pour la séparation de phases, et dépend de l'entropie conformationnelle globale de la protéine, et 2 ) le mécanisme client, qui est induit par les interactions protéiques et dépend de la présence de régions spécifiques favorisant les gouttelettes dans la séquence de la protéine. Nos résultats indiquent que les protéines peuvent utiliser les mécanismes conducteur ou client, ou une combinaison de ceux-ci, pour former des gouttelettes.

Notre analyse à l'échelle du protéome indique que la présence de régions favorisant les gouttelettes est répandue dans les séquences du protéome humain. Sur la base de cette analyse, nous concluons que l'état de gouttelette est accessible, même de manière transitoire, pour la plupart des protéines. Dans environ 40 % du protéome humain, il est prévu qu'il se produise spontanément, alors qu'une fraction approximativement égale peut nécessiter une variété de composants cellulaires ou de conditions non physiologiques. Les protéines des organites sans membrane connus représentent une combinaison de ces mécanismes, tandis que celles identifiées par des études à haut débit représentent principalement des gouttelettes clientes.

Pris ensemble, ces résultats indiquent que l'état de gouttelette est probablement un état fondamental des protéines, aux côtés des états natif et amyloïde.


Résumé

La protéine virale 35 (VP35), une protéine cruciale du virus Ebola du Zaïre (EBOV), interagit avec une pléthore de protéines humaines pour paralyser le système immunitaire humain. Malgré son importance, la structure entière de l'assemblage tétramérique d'EBOV VP35 et les moyens par lesquels il antagonise l'autophosphorylation du domaine kinase de la protéine kinase humaine R (PKR K ) est encore insaisissable. Nous consultons les informations structurelles existantes pour modéliser un assemblage tétramérique de la protéine VP35 où 93% de la protéine est modélisée à l'aide de modèles de structure cristalline. Nous analysons notre structure tétramérique modélisée pour identifier les réseaux de liaison interchaînes et utilisons des simulations de dynamique moléculaire et une analyse en mode normal pour démêler la flexibilité et la déformabilité des différentes régions de la protéine VP35. Nous établissons que le C-terminal de VP35 (VP35 C ) interagit directement avec PKR K pour l'empêcher de s'autophosphoryler. En outre, nous identifions trois complexes VP35 C-PKR K plausibles avec une meilleure affinité que le dimère PKR K formé pendant l'autophosphorylation et utilisons la conception de protéines pour établir un nouveau tronçon dans VP35 C qui interagit avec PKR K. L'assemblage tétramérique proposé contribuera à une meilleure compréhension de la protéine VP35, et les complexes VP35 C-PKR K rapportés ainsi que leurs sites d'interaction aideront à la présélection des inhibiteurs de petites molécules.

PROBLEME SPECIAL

Cet article fait partie du numéro spécial Proteomics in Pandemic Disease.

Cet article est mis à disposition via le sous-ensemble ACS COVID-19 pour une réutilisation et des analyses de RECHERCHE sans restriction sous quelque forme ou par quelque moyen que ce soit avec mention de la source d'origine. Ces autorisations sont accordées pour la durée de la déclaration de l'Organisation mondiale de la santé (OMS) de COVID-19 en tant que pandémie mondiale.


Voir la vidéo: Cours protéomique-niveaux des structures des protéines-Master1-Biochimie-BPC-elearning-Moodle-USDB (Août 2022).