KI-Experte / Data Analyst / Data Engineer
Aktualisiert am 11.06.2024
Profil
Mitarbeiter eines Dienstleisters
Remote-Arbeit
Verfügbar ab: 11.06.2024
Verfügbar zu: 80%
davon vor Ort: 100%
Skill-Profil eines fest angestellten Mitarbeiters des Dienstleisters
Deutsch
Muttersprache
Rumänisch
Muttersprache
Englisch
verhandlungssicher

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

3 Monate
2023-10 - 2023-12

Web-Scraping und Übersetzung Automobilteile

Dateningenieur Web-Scraping mit Selenium und Beautiful Soup SEO-Optimierung Integration effektiver Updatemechanismen für Produktinformationen ...
Dateningenieur
  • Im Rahmen dieses Projekts wurde ein Web-Scraping- und Übersetzungsmechanismus entwickelt, um detaillierte Informationen über mehr als 50.000 Automobilteile für einen Online-Marktplatz zu sammeln und zu verarbeiten.
  • Ziel war es, eine effiziente Lösung zur Automatisierung der Datenerfassung und der anschließenden Übersetzung ins Deutsche zu implementieren, um die Präsentation und Suche der Produkte für den europäischen Markt zu optimieren. Dies beinhaltete den Einsatz von Technologien wie Selenium und Beautiful Soup für Web-Scraping und das Parsen der Daten. Im Rahmen des Projektes wurden maßgeschneiderte spezialisierte Algorithmen zur Übersetzung und Kategorisierung der Produktinformationen entwickelt.
    • Entwicklung und Implementierung eines automatisierten Web-Scraping-Systems mit Selenium und Beautiful Soup
    • Verarbeitung und Übersetzung von über 50.000 Produktinformationen ohne Nutzung von Übersetzungs-APIs
    • Optimierung des Logistikprozesses basierend auf den gesammelten Daten
    • Durchführung von Marktanalysen zur kontinuierlichen Verbesserung des Angebots
Web-Scraping mit Selenium und Beautiful Soup SEO-Optimierung Integration effektiver Updatemechanismen für Produktinformationen Marktanalyse und Anpassung an Kundenbedürfnisse Effektive Produktkategorisierung Fachgerechte Übersetzung von Produktinformationen ins Deutsche Optimierung von Übersetzungsprozessen für Produktinformationen Qualitätskontrolle von gesammelten Daten
Automobil/ Ersatzteile
Deutschland
2 Jahre 5 Monate
2021-08 - 2023-12

MiMoText und ReCap

Wissenschaftliche Hilfskraft Web-Scraping und Regex Data Mining und Datenanalyse Exception handling ...
Wissenschaftliche Hilfskraft
  • Beteiligung an der ReCAP-Initiative und dem MiMoText-Projekt zur Unterstützung von ETL/ELT-Prozessen. Dies umfasste die Sammlung, Analyse, Transformation und Verwaltung von Daten. Die Arbeit beinhaltete die enge Zusammenarbeit mit dem Data Science Team und dem Annotations Team, um Skripte für einen semiautomatisierten Workflow zu entwickeln, was eine deutliche Beschleunigung der Annotationsgeschwindigkeit zur Folge hatte.
  • Das ReCAP-Projekt identifizierte und analysierte Argumentationsmuster in umfangreichen Textdaten, förderte das Verständnis rhetorischer Techniken und trieb die Entwicklung neuer Textanalyse-Algorithmen voran. Das MiMoText-Projekt optimierte den Umgang mit digitalen Textsammlungen durch neue fortschrittliche Datenmodellierung und Erschließung neuer Analysemethoden, was die wissenschaftliche Forschung in den Geisteswissenschaften wesentlich bereicherte.
    • Bereitstellung von ETL/ELT-Support für die Publikationen, sowie für die literaturgeschichtliche Textsammlungsanalyse im Linked-Open-Data Kontext.
    • Entwicklung von Skripten mit dem Annotations Team für einen semi-automatisierten Workflow im MiMoText-Projekt.
    • Unterstützung aller Teams bei Fragen zur Datenqualität, Annotationsprozessen, feature engineering, Regex und Edge-Cases.
Web-Scraping und Regex Data Mining und Datenanalyse Exception handling Feature Engineering Linguistische Expertise Modellierung literarischer Texte und Sekundärliteratur (LOD) Annotation-Prozess Optimierung Computational Argumentation
Forschung/ Datenwissenschaft
Deutschland
5 Monate
2023-03 - 2023-07

Argument-Mining aus Podcasts mit ChatGPT

Prompt Engineering: ChatGPT GPT-4 Adobe Audition Adobe Media Encoder ...
Entwicklung eines neuartigen Ansatzes zum Extrahieren argumentativer Strukturen aus Podcasts nach deren Transkription. Die Studie umfasst die Transkription von drei Podcasts zu unterschiedlichen Themen, um die Vielseitigkeit der Methode zu demonstrieren. Die Herausforderung bestand darin, die unstrukturierte und informelle Natur von Podcasts zu bewältigen. OpenAI?s GPT-4 wurde verwendet, um Argumentationsstrukturen aus den transkribierten Texten zu extrahieren, um die Machbarkeit und Effektivität dieses Ansatzes in der computergestützten Argumentation zu beweisen.
  • Transkription von Podcast-Episoden mit OpenAI?s Whisper
  • Entwicklung spezieller Prompts zur Identifizierung argumentativer Strukturen mittels OpenAI?s GPT-4
  • Analyse und Auswertung der von GPT-4 extrahierten Argumentstrukturen
  • Veröffentlichung eines Datensatzes mit ca. 1500 transkribierten Podcast-Episoden
  • Messung und Analyse der Effektivität des Ansatzes anhand spezifischer Metriken (z.B. Handle Accuracy, Stance Quality, Semantic Coverage)
Prompt Engineering: ChatGPT GPT-4 Adobe Audition Adobe Media Encoder Argument Mining Web-Scraping Speech Processing: Whisper; Librosa; NeMo; Speechbrain
Universität Trier
4 Monate
2022-01 - 2022-04

Kategorisierung politischer Statements entlang des Spektrums durch Machine Learning

Natural Language Processing (NLP) Support Vector Machines Sentence Transformers ...
Entwicklung und Anwendung von Machine Learning Techniken zur Einordnung von Aussagen entlang des politischen Spektrums, um die politische Position des Verfassers bzw. des Textes zu bestimmen. Im Projekt wurden dafür die Beziehungen zwischen lexikalisch-semantischen Strukturen und politischer Ausrichtung untersucht. Grundlage hierfür war eine Analyse deutscher Parteiprogramme. Support Vector Machines und Sentence Transformer wurden verwendet, um Muster und Trends in der Verwendung politisch relevanter Begriffe zu identifizieren und zu klassifizieren. Die Auswahl der Statements und Klassifikation erfolgte auf Basis der Methodologie und Fragestellungen des Wahl-O-Mat Tools.
  • Extraktion von Schlüsselbegriffen aus Parteiprogrammen zur Analyse ihrer politischen Ausrichtung
  • Anwendung von Support Vector Machines zur Klassifizierung und Vergleich der politischen Statements
  • Einsatz von Sentence Transformers zur Verbesserung der Kontextualisierung der Textanalyse
  • Entwicklung von Algorithmen zur Erkennung, Analyse, Auswertung und Visualisierung politischer Muster
Natural Language Processing (NLP) Support Vector Machines Sentence Transformers Text Mining und Datenvisualisierung Analyse politischer Programme Lexikalisch-semantische Analyse
Universität Trier

Aus- und Weiterbildung

Aus- und Weiterbildung

2022 ? 2023
Studium - Natural Language Processing
Universität Trier
Abschluss: Master of Science

2017 ? 2022
Studium - Anglistik und Phonetik
Universität Trier
Abschluss: B.A.

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • IBM Certified Python Programmer for Data Science and AI Development

Position

Position

  • KI-Experte
  • Data Analyst
  • Data Engineer

Kompetenzen

Kompetenzen

Schwerpunkte

  • Natural Language Processing, z.B. mit Whisper, Speechbrain
  • Generative KI und Large Language Models (LLMs), z.B. mit GPT-4, LangChain, Hugging Face
  • Web Scraping, z.B. mit Selenium, Beautiful Soup
  • ETL/ELT, z.B. mit Python, Apache Airflow, Apache Spark

Aufgabenbereiche

Anforderungsanalyse
Datenanalyse/ -visualisierung
Infromation Retrieval, Data Mining
Data Warehousing
Datenbankadministration
Graphdatenbanken und Linked-Open-Data (LOD)
ETL/ ELT
Speech Processing
Large Language Models (LLM)
Prompt Engieering
Natural Language Processing (NLP)
Data Science/ Machine Learning (ML)

Produkte / Standards / Erfahrungen / Methoden

Profil
  • Der Mitarbeiter bietet erprobte Kenntnisse mit den modernsten Technologien im Bereich der Künstlichen Intelligenz und der Verarbeitung natürlicher Sprache (NLP). Dabei bringt er umfangreiche Fähigkeiten von der Erfassung der Daten mittels Web Scraping über das Speichern und Verwalten bis hin zur Analyse und Generierung von Erkenntnissen mit.
  • In einem Zeitalter, in dem Daten das neue Gold sind, hat er sich als herausragendes Naturtalent auf dem Gebiet der Datenverarbeitung und der künstlichen Intelligenz, insbesondere im sprachwissenschaftlichen Kontext, erwiesen.
  • Schon während seiner akademischen Laufbahn beschäftigte er sich intensiv mit dem Thema Künstliche Intelligenz und der Verarbeitung natürlicher Sprache, wo er mit seinem linguistischen Hintergrund innovative Perspektiven einbrachte.
  • Er entwickelte etwa das erste Verfahren zur Argumentdatengewinnung mittels GPT-4 und leistete bedeutende Beiträge zur Methodik der Analyse großer Textsammlungen (Linked-Open-Data).
  • Durch die intensive Arbeit mit Transformer-Modellen und offenen Daten hat er eine tiefe Datenkompetenz entwickelt, die ihn besonders in den Feldern Web-Scraping, Prompt Engineering, Data Engineering, Datenanalyse und -normalisierung sowie Laufzeitoptimierung auszeichnet.
  • Der Mitarbeiter zeichnet sich nicht allein durch seine umfangreiche Fachexpertise aus, sondern auch durch seine besondere Fähigkeit, interdisziplinäre Verbindungen herzustellen und innovative Ansätze zu entwickeln. Er strebt danach, sein tiefgreifendes Wissen und seine vielfältigen Erfahrungen zielgerichtet in neuen Projekten einzubringen und so wertvolle Beitrage zu leisten und neue Maßstäbe zu setzen. Seine hohe Motivation und sein Engagement machen ihn zu einem wertvollen Teammitglied, das wir gerne weiterempfehlen.

TECHNOLOGIEN & PRODUKTE
  • Data Engineering und Analyse
    • pandas, spaCy
    • Beautiful Soup, Selenium
    • Matplotlib, Seaborn
    • Apache Spark
    • Apache Airflow
    • Calc, Excel
  • Stimm- und Signalverarbeitung
    • OpenAI Whisper
    • NVIDIA NeMo
    • Speechbrain
    • Adobe Audition
    • Praat
    • Librosa
    • SciPy
  • KI- und Machine Learning
    • ChatGPT GPT-4
    • Huggingface
    • scikit-learn, Pytorch
    • Langchain
    • OpenCV, OpenAI GPT-4V (Vision), DALL-E 3
  • Entwicklungsumgebung
    • MS Visual Studio Code
    • Anaconda, Jupyter Notebook
    • Git
    • ?Poetry

BERUFLICHER WERDEGANG

2024 - heute
Firma: auf Anfrage

2024 - heute
Position: Datenigenieur 
Firma: auf Anfrage

2021 - 2024
Position: Wissenschaftliche Hilfskraft 
Firma: Lehrstuhl Informationswissenschaften und Datenbanken, Universität Trier

Betriebssysteme

Windows
GNU/ Linux

Programmiersprachen

Python
Scala
Java
Bash

Datenbanken

PostgreSQL
MySQL
Neo4j

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

3 Monate
2023-10 - 2023-12

Web-Scraping und Übersetzung Automobilteile

Dateningenieur Web-Scraping mit Selenium und Beautiful Soup SEO-Optimierung Integration effektiver Updatemechanismen für Produktinformationen ...
Dateningenieur
  • Im Rahmen dieses Projekts wurde ein Web-Scraping- und Übersetzungsmechanismus entwickelt, um detaillierte Informationen über mehr als 50.000 Automobilteile für einen Online-Marktplatz zu sammeln und zu verarbeiten.
  • Ziel war es, eine effiziente Lösung zur Automatisierung der Datenerfassung und der anschließenden Übersetzung ins Deutsche zu implementieren, um die Präsentation und Suche der Produkte für den europäischen Markt zu optimieren. Dies beinhaltete den Einsatz von Technologien wie Selenium und Beautiful Soup für Web-Scraping und das Parsen der Daten. Im Rahmen des Projektes wurden maßgeschneiderte spezialisierte Algorithmen zur Übersetzung und Kategorisierung der Produktinformationen entwickelt.
    • Entwicklung und Implementierung eines automatisierten Web-Scraping-Systems mit Selenium und Beautiful Soup
    • Verarbeitung und Übersetzung von über 50.000 Produktinformationen ohne Nutzung von Übersetzungs-APIs
    • Optimierung des Logistikprozesses basierend auf den gesammelten Daten
    • Durchführung von Marktanalysen zur kontinuierlichen Verbesserung des Angebots
Web-Scraping mit Selenium und Beautiful Soup SEO-Optimierung Integration effektiver Updatemechanismen für Produktinformationen Marktanalyse und Anpassung an Kundenbedürfnisse Effektive Produktkategorisierung Fachgerechte Übersetzung von Produktinformationen ins Deutsche Optimierung von Übersetzungsprozessen für Produktinformationen Qualitätskontrolle von gesammelten Daten
Automobil/ Ersatzteile
Deutschland
2 Jahre 5 Monate
2021-08 - 2023-12

MiMoText und ReCap

Wissenschaftliche Hilfskraft Web-Scraping und Regex Data Mining und Datenanalyse Exception handling ...
Wissenschaftliche Hilfskraft
  • Beteiligung an der ReCAP-Initiative und dem MiMoText-Projekt zur Unterstützung von ETL/ELT-Prozessen. Dies umfasste die Sammlung, Analyse, Transformation und Verwaltung von Daten. Die Arbeit beinhaltete die enge Zusammenarbeit mit dem Data Science Team und dem Annotations Team, um Skripte für einen semiautomatisierten Workflow zu entwickeln, was eine deutliche Beschleunigung der Annotationsgeschwindigkeit zur Folge hatte.
  • Das ReCAP-Projekt identifizierte und analysierte Argumentationsmuster in umfangreichen Textdaten, förderte das Verständnis rhetorischer Techniken und trieb die Entwicklung neuer Textanalyse-Algorithmen voran. Das MiMoText-Projekt optimierte den Umgang mit digitalen Textsammlungen durch neue fortschrittliche Datenmodellierung und Erschließung neuer Analysemethoden, was die wissenschaftliche Forschung in den Geisteswissenschaften wesentlich bereicherte.
    • Bereitstellung von ETL/ELT-Support für die Publikationen, sowie für die literaturgeschichtliche Textsammlungsanalyse im Linked-Open-Data Kontext.
    • Entwicklung von Skripten mit dem Annotations Team für einen semi-automatisierten Workflow im MiMoText-Projekt.
    • Unterstützung aller Teams bei Fragen zur Datenqualität, Annotationsprozessen, feature engineering, Regex und Edge-Cases.
Web-Scraping und Regex Data Mining und Datenanalyse Exception handling Feature Engineering Linguistische Expertise Modellierung literarischer Texte und Sekundärliteratur (LOD) Annotation-Prozess Optimierung Computational Argumentation
Forschung/ Datenwissenschaft
Deutschland
5 Monate
2023-03 - 2023-07

Argument-Mining aus Podcasts mit ChatGPT

Prompt Engineering: ChatGPT GPT-4 Adobe Audition Adobe Media Encoder ...
Entwicklung eines neuartigen Ansatzes zum Extrahieren argumentativer Strukturen aus Podcasts nach deren Transkription. Die Studie umfasst die Transkription von drei Podcasts zu unterschiedlichen Themen, um die Vielseitigkeit der Methode zu demonstrieren. Die Herausforderung bestand darin, die unstrukturierte und informelle Natur von Podcasts zu bewältigen. OpenAI?s GPT-4 wurde verwendet, um Argumentationsstrukturen aus den transkribierten Texten zu extrahieren, um die Machbarkeit und Effektivität dieses Ansatzes in der computergestützten Argumentation zu beweisen.
  • Transkription von Podcast-Episoden mit OpenAI?s Whisper
  • Entwicklung spezieller Prompts zur Identifizierung argumentativer Strukturen mittels OpenAI?s GPT-4
  • Analyse und Auswertung der von GPT-4 extrahierten Argumentstrukturen
  • Veröffentlichung eines Datensatzes mit ca. 1500 transkribierten Podcast-Episoden
  • Messung und Analyse der Effektivität des Ansatzes anhand spezifischer Metriken (z.B. Handle Accuracy, Stance Quality, Semantic Coverage)
Prompt Engineering: ChatGPT GPT-4 Adobe Audition Adobe Media Encoder Argument Mining Web-Scraping Speech Processing: Whisper; Librosa; NeMo; Speechbrain
Universität Trier
4 Monate
2022-01 - 2022-04

Kategorisierung politischer Statements entlang des Spektrums durch Machine Learning

Natural Language Processing (NLP) Support Vector Machines Sentence Transformers ...
Entwicklung und Anwendung von Machine Learning Techniken zur Einordnung von Aussagen entlang des politischen Spektrums, um die politische Position des Verfassers bzw. des Textes zu bestimmen. Im Projekt wurden dafür die Beziehungen zwischen lexikalisch-semantischen Strukturen und politischer Ausrichtung untersucht. Grundlage hierfür war eine Analyse deutscher Parteiprogramme. Support Vector Machines und Sentence Transformer wurden verwendet, um Muster und Trends in der Verwendung politisch relevanter Begriffe zu identifizieren und zu klassifizieren. Die Auswahl der Statements und Klassifikation erfolgte auf Basis der Methodologie und Fragestellungen des Wahl-O-Mat Tools.
  • Extraktion von Schlüsselbegriffen aus Parteiprogrammen zur Analyse ihrer politischen Ausrichtung
  • Anwendung von Support Vector Machines zur Klassifizierung und Vergleich der politischen Statements
  • Einsatz von Sentence Transformers zur Verbesserung der Kontextualisierung der Textanalyse
  • Entwicklung von Algorithmen zur Erkennung, Analyse, Auswertung und Visualisierung politischer Muster
Natural Language Processing (NLP) Support Vector Machines Sentence Transformers Text Mining und Datenvisualisierung Analyse politischer Programme Lexikalisch-semantische Analyse
Universität Trier

Aus- und Weiterbildung

Aus- und Weiterbildung

2022 ? 2023
Studium - Natural Language Processing
Universität Trier
Abschluss: Master of Science

2017 ? 2022
Studium - Anglistik und Phonetik
Universität Trier
Abschluss: B.A.

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • IBM Certified Python Programmer for Data Science and AI Development

Position

Position

  • KI-Experte
  • Data Analyst
  • Data Engineer

Kompetenzen

Kompetenzen

Schwerpunkte

  • Natural Language Processing, z.B. mit Whisper, Speechbrain
  • Generative KI und Large Language Models (LLMs), z.B. mit GPT-4, LangChain, Hugging Face
  • Web Scraping, z.B. mit Selenium, Beautiful Soup
  • ETL/ELT, z.B. mit Python, Apache Airflow, Apache Spark

Aufgabenbereiche

Anforderungsanalyse
Datenanalyse/ -visualisierung
Infromation Retrieval, Data Mining
Data Warehousing
Datenbankadministration
Graphdatenbanken und Linked-Open-Data (LOD)
ETL/ ELT
Speech Processing
Large Language Models (LLM)
Prompt Engieering
Natural Language Processing (NLP)
Data Science/ Machine Learning (ML)

Produkte / Standards / Erfahrungen / Methoden

Profil
  • Der Mitarbeiter bietet erprobte Kenntnisse mit den modernsten Technologien im Bereich der Künstlichen Intelligenz und der Verarbeitung natürlicher Sprache (NLP). Dabei bringt er umfangreiche Fähigkeiten von der Erfassung der Daten mittels Web Scraping über das Speichern und Verwalten bis hin zur Analyse und Generierung von Erkenntnissen mit.
  • In einem Zeitalter, in dem Daten das neue Gold sind, hat er sich als herausragendes Naturtalent auf dem Gebiet der Datenverarbeitung und der künstlichen Intelligenz, insbesondere im sprachwissenschaftlichen Kontext, erwiesen.
  • Schon während seiner akademischen Laufbahn beschäftigte er sich intensiv mit dem Thema Künstliche Intelligenz und der Verarbeitung natürlicher Sprache, wo er mit seinem linguistischen Hintergrund innovative Perspektiven einbrachte.
  • Er entwickelte etwa das erste Verfahren zur Argumentdatengewinnung mittels GPT-4 und leistete bedeutende Beiträge zur Methodik der Analyse großer Textsammlungen (Linked-Open-Data).
  • Durch die intensive Arbeit mit Transformer-Modellen und offenen Daten hat er eine tiefe Datenkompetenz entwickelt, die ihn besonders in den Feldern Web-Scraping, Prompt Engineering, Data Engineering, Datenanalyse und -normalisierung sowie Laufzeitoptimierung auszeichnet.
  • Der Mitarbeiter zeichnet sich nicht allein durch seine umfangreiche Fachexpertise aus, sondern auch durch seine besondere Fähigkeit, interdisziplinäre Verbindungen herzustellen und innovative Ansätze zu entwickeln. Er strebt danach, sein tiefgreifendes Wissen und seine vielfältigen Erfahrungen zielgerichtet in neuen Projekten einzubringen und so wertvolle Beitrage zu leisten und neue Maßstäbe zu setzen. Seine hohe Motivation und sein Engagement machen ihn zu einem wertvollen Teammitglied, das wir gerne weiterempfehlen.

TECHNOLOGIEN & PRODUKTE
  • Data Engineering und Analyse
    • pandas, spaCy
    • Beautiful Soup, Selenium
    • Matplotlib, Seaborn
    • Apache Spark
    • Apache Airflow
    • Calc, Excel
  • Stimm- und Signalverarbeitung
    • OpenAI Whisper
    • NVIDIA NeMo
    • Speechbrain
    • Adobe Audition
    • Praat
    • Librosa
    • SciPy
  • KI- und Machine Learning
    • ChatGPT GPT-4
    • Huggingface
    • scikit-learn, Pytorch
    • Langchain
    • OpenCV, OpenAI GPT-4V (Vision), DALL-E 3
  • Entwicklungsumgebung
    • MS Visual Studio Code
    • Anaconda, Jupyter Notebook
    • Git
    • ?Poetry

BERUFLICHER WERDEGANG

2024 - heute
Firma: auf Anfrage

2024 - heute
Position: Datenigenieur 
Firma: auf Anfrage

2021 - 2024
Position: Wissenschaftliche Hilfskraft 
Firma: Lehrstuhl Informationswissenschaften und Datenbanken, Universität Trier

Betriebssysteme

Windows
GNU/ Linux

Programmiersprachen

Python
Scala
Java
Bash

Datenbanken

PostgreSQL
MySQL
Neo4j

Vertrauen Sie auf GULP

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.