Research - Duolingo

Data & Tools

2020 Notification Bandit Data

Replication data for our KDD 2020 paper, "A Sleeping, Recovering Bandit Algorithm for Optimizing Recurring Notifications." Includes 200 million examples of Duolingo practice reminder push notifications sent to Duolingo users over a 35 day period, including which template was used, whether the user converted within 2 hours, and other metadata.

Data
2020 STAPLE Shared Task Data

Data for the 2020 Shared Task on Simultaneous Translation And Paraphrase for Language Education (STAPLE). This corpus contains more than 3 million pairs of English sentences with multiple possible translations into Portuguese, Hungarian, Japanese, Korean, and Vietnamese.

Data Website
2018 SLAM Shared Task Data

Data for the 2018 Shared Task on Second Language Acquisition Modeling (SLAM). This corpus contains 7 million words produced by learners of English, Spanish, and French. It includes user demographics, morph-syntactic metadata, response times, and longitudinal errors for 6k+ users over 30 days.

Data Website
Spaced Repetition Data

Data used to develop our half-life regression (HLR) spaced repetition algorithm. This is a collection of 13 million user-word pairs for learners of several languages with a variety of language backgrounds. It includes practice recall rates, lag times between practices, and other morpho-lexical metadata.

Data Code

Our Team

We are a diverse team of experts in AI and machine learning, data science, learning sciences, UX research, linguistics, and psychometrics. We work closely with product teams to build innovative features based on world-class research. We are growing, so check out our job openings below!

André Horie AI + Machine Learning
Bożena Pająk Learning + Curriculum
Erin Gustafson Data Science + Analytics
Cindy Berger Learning + Curriculum
Angela DiCostanzo Learning + Curriculum
Cindy Blanco Learning + Curriculum
Lisa Bromberg Learning + Curriculum
Klinton Bicknell AI + Machine Learning
Will Monroe AI + Machine Learning
Geoff LaFlair Assessment + Psychometrics
Hope Wilson Learning + Curriculum
Kevin Yancey AI + Machine Learning
Xiangying Jiang Learning + Curriculum
Jessica Becker Learning + Curriculum
Stephen Mayhew AI + Machine Learning
Meredith McDermott UX Research
Andrew Runge AI + Machine Learning
Connor Brem AI + Machine Learning
Emily Moline Learning + Curriculum
Elizabeth Strong Learning + Curriculum
Cory Wheeler Learning + Curriculum
Lauren Bilsky AI + Machine Learning
Emma Gibson Learning + Curriculum
James Leow Learning + Curriculum
Danchen Yang Learning + Curriculum
Isabel Deibel Learning + Curriculum
Elizabeth Onstwedder Learning + Curriculum
Kevin Lenzo AI + Machine Learning
Mancy Liao Assessment + Psychometrics
Nora Gordon Learning + Curriculum
Sharon Wilkinson Learning + Curriculum
Naveen Shankar Data Science + Analytics
Antony Kunnan Assessment + Psychometrics
Jackie Bialostozky Learning + Curriculum
Lucy Portnoff Data Science + Analytics
Ramsey Cardwell Assessment + Psychometrics
Alina von Davier Assessment + Psychometrics
Yigal Attali Assessment + Psychometrics
Audrey Kittredge Learning + Curriculum
Ben Reuveni Learning + Curriculum
J.R. Lockwood Assessment + Psychometrics
Rich Forest Learning + Curriculum
Mark Lock Data Science + Analytics
Will Belzak Assessment + Psychometrics

Duolingo Research

About Us

Publications

Jump-Starting Item Parameters for Adaptive Language Tests

Mining Process Data to Detect Aberrant Test Takers

Methods for Language Learning Assessment at Scale: Duolingo Case Study

A Sleeping, Recovering Bandit Algorithm for Optimizing Recurring Notifications

Exploring Neural Entity Representations for Semantic Information

Simultaneous Translation and Paraphrase for Language Education

Indigenous Language Teaching Policy in California/the U.S.: What’s Left Unsaid in Discourse/Funding

Predictors Of Second Language English Lexical Recognition: Further Insights From A Large Database Of Second Language Lexical Decision Times

Ongoing Cognitive Processing Influences Precise Eye-Movement Targets in Reading

Machine Learning Driven Language Assessment

Using LSTMs to Assess the Obligatoriness of Phonological Distinctive Features for Phonotactic Learning

Learning from Omission

A Rational Model of Word Skipping in Reading: Ideal Integration of Visual and Linguistic Information

Observing the Emergence of Constructional Knowledge: Verb Patterns in German and Spanish Learners of English at Different Proficiency Levels

Influence of Speaking Style Adaptations and Semantic Context on the Time Course of Word Recognition in Quiet and in Noise

Second Language Acquisition Modeling

Learning Additional Languages As Hierarchical Probabilistic Inference: Insights from First Language Processing

A Trainable Spaced Repetition Model for Language Learning

Difficulty in Learning Similar-Sounding Words: A Developmental Stage or a General Property of Learning?

Self-directed Learning Favors Local, Rather Than Global, Uncertainty

Mixture Modeling of Individual Learning Curves

Data & Tools

2020 Notification Bandit Data

2020 STAPLE Shared Task Data

2018 SLAM Shared Task Data

Spaced Repetition Data

Our Team

Ready to work with us?

AI + Machine Learning

Data Science + Analytics

Learning + Curriculum