Home/Use Cases/Named Entity Recognition (NER) for Indian Languages

Named Entity Recognition (NER) for Indian Languages

This use case focuses on leveraging Named Entity Recognition (NER) to automatically detect and classify key entities in Indian languages

About Use Case

This use case focuses on leveraging Named Entity Recognition (NER) to detect and classify key entities—such as names, locations, organizations, and dates—in Indian languages. It enables automated text processing for media, legal, healthcare, and government applications, transforming unstructured multilingual data into structured insights for faster analysis and decision-making.

Potential Use Cases:

Customer Service Automation: Detects names, addresses, and complaints from customer interactions in regional languages.
Legal Document Processing: Extracts case details, dates, and jurisdiction names from court records.
News & Media Monitoring: Identifies people, locations, and organizations from multilingual news articles.

Data Artifacts & Potential AI Solutions:

Input Data:

Unstructured Multilingual Text: Includes text documents, news reports, customer interactions
Labeled Named Entity Datasets: Annotated corpora for training AI models on entity recognition.

Potential Outputs:

Structured, annotated text with categorized named entities.
Automated data extraction for news tracking, legal insights, and customer engagement.
AI-enhanced multilingual search and analysis for enterprises and government agencies.

Potential Solutions:

NER Models (IndicNER, Transformer-Based Models): Extracts and classifies named entities across Indian languages.

Potential Benefits:

Automated Text Processing: Speeds up legal analysis, media tracking, and government data processing.
Enhanced Customer Insights: Enables businesses to analyze multilingual interactions for better service.
Efficient Data Structuring: Converts unstructured text into actionable, searchable information.

Source Organization

India AI

Sector

Sector Agnostic

Resources

External Resources:

LegalNER Dataset (NER for Legal Documents)

Naamapadam (NER Dataset for Indian Languages)

Samanantar Parallel Corpus (Used for Training IndicNER)

Named Entity Recognition with SpaCy

Fine-tuning Transformers for Named Entity Recognition (NER)

Building a Custom NER Model with BERT

Associated Datasets

Updated 9 day(s) ago

Punjabi ASR Benchmark Dataset (Common voice Punjabi)

Punjabi ASR (Automatic Speech Recognition) benchmark dataset for supporting the development of robust regional speech recognition systems.

ASR

NLP Dataset

Benchmark

Punjabi

Automatic Speech Recognition

Speech Technology

AI4Bharat

Regional Languages

Audio Processing

1
22.20 MB
19

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Hindi to Malayalam Translation Benchmark Dataset

Bhashini's Hindi-Malayalam Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Translation

NLP Dataset

Language Modeling

Bilingual Translation

Benchmark

News Domain

Machine Translation

Microsoft

Hindi-Malayalam

Document-Level Evaluation

3
1.57 MB
28

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Bengali to Gujarati Translation Benchmark Dataset

Bhashini's Bengali-Gujarati Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Document-Level Evaluation

Bengali-Gujarati

Microsoft

Machine Translation

News Domain

Benchmark

Bilingual Translation

Language Modeling

Translation

NLP Dataset

2
1.37 MB
29

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Tamil to Sindhi Translation Benchmark Dataset

Bhashini's Tamil-Sindhi Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Translation

Tamil-Sindhi

Microsoft

Machine Translation

News Domain

Benchmark

Bilingual Translation

Language Modeling

NLP Dataset

Document-Level Evaluation

2
1.31 MB
16

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Telugu to Urdu Translation Benchmark Dataset

Bhashini's Telugu-Urdu Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Translation

Telugu-Gujrati

Microsoft

Machine Translation

News Domain

Benchmark

Bilingual Translation

Language Modeling

NLP Dataset

Document-Level Evaluation

3
1.17 MB
19

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Sindhi to Gujarati Translation Benchmark Dataset

Bhashini's Sindhi-Gujarati Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Microsoft

Translation

Document-Level Evaluation

NLP Dataset

Language Modeling

Bilingual Translation

Benchmark

News Domain

Machine Translation

Sindhi-Gujrati

3
1.11 MB
19

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Gujarati to English Translation Benchmark Dataset

Bhashini's Gujarati-English Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

NLP Dataset

Bilingual Translation

Benchmark

News Domain

Machine Translation

Microsoft

Gujrati-English

Document-Level Evaluation

Translation

Language Modeling

2
999.07 KB
28

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Bengali to Malayalam Translation Benchmark Dataset

Bhashini's Bengali-Malayalam Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Microsoft

Machine Translation

News Domain

Benchmark

Bengali-Malayalam

Bilingual Translation

Language Modeling

NLP Dataset

Document-Level Evaluation

Translation

1
1.56 MB
31

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

English to Bengali Translation Benchmark Dataset

Bhashini's English-Bengali Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

NLP Dataset

Language Modeling

Bilingual Translation

Benchmark

News Domain

Machine Translation

Microsoft

English-Bengali

Translation

Document-Level Evaluation

2
1007.50 KB
28

DIGITAL INDIA BHASHINI DIVISION

View Details

Updated 9 day(s) ago

Telugu to English Translation Benchmark Dataset

Bhashini's Telugu-English Translation Benchmark is a detailed text dataset for testing machine translation quality. It includes document-level information and helps researchers build better multilingual translation systems.

Language Modeling

Microsoft

Machine Translation

News Domain

Benchmark

Bilingual Translation

NLP Dataset

Telugu-bengali

Document-Level Evaluation

Translation

4
1021.54 KB
33

DIGITAL INDIA BHASHINI DIVISION

View Details

Associated Models

Bhashini - IndicNER

IndicNER is a multilingual Named Entity Recognition model fine-tuned on 11 Indian languages to identify named entities in text

Multilingual

Foreigners

NLP

Transformer

Token Classification

Pytorch

Samanantar

Bert

NER

9
591.28 MB
303

Updated 9 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Accessibility options by UX4G

Named Entity Recognition (NER) for Indian Languages

About Use Case

Source Organization

Tags

Sector

Resources

Associated Datasets

Associated Models

AIKosha

Resources

Support