Data Scientist | Machine Learning Engineer | Python | AI | NLP | Mehrwert durch Daten erzeugen
Aktualisiert am 02.04.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 01.04.2024
Verfügbar zu: 100%
davon vor Ort: 50%
Python
SQL
Machine Learning
Deep Learning
NLP
LLM
Computer Vision
PyTorch
TensorFlow
Apache Spark
Databricks
Pandas
MLOps
Kubernetes
Docker
CI/CD
Git
Mlflow
Java
Beratung
Scrum
AWS s3
Apache Airflow
Deutsch
Muttersprache
Englisch
Muttersprache

Einsatzorte

Einsatzorte

Deutschland
möglich

Projekte

Projekte

1 Jahr 7 Monate
2022-09 - heute

Clustering von mehrdimensionalen Daten

Data Scientist
Data Scientist
  • Clustering von mehrdimensionalen Daten durch Ausnutzung von effizienter LLM Datenrepräsentation - Verbesserung von existierenden Clustering Lösungen um 50%
  • Entwicklung von verteilten, end-to-end Machine Learning Pipelines in PySpark, zur Anomalieerkennung und Datensatzverknüpfung - Ermöglichen von manueller Uberprüfung von Anomalien durch Fachabteilungen.
  • Skalierung und Logging der Hyperparametersuche von ML Pipelines mit PySpark und MLFlow - Beschleunigung der bisherigen Suche um 500%.
  • Deployment, Skalierung und Überwachung von KI-Anwendungen auf einem Kubernetes Cluster. 
  • Beratung externer Kunden zu modernen KI-Architekturen und -Tools.
SVA System Vertrieb Alexander GmbH
Köln, Deutschland
2 Monate
2024-03 - 2024-04

Fine tuning von LLMs für NLP Use Cases in Deutscher Sprache

Data Scientist Python LLM GenAI
Data Scientist
  • Fine-tuning von foundational LLMs (Llama, Mistral) mit dem Ziel der Generierung von Textzusammenfassungen in deutscher Sprache
  • Umsetzung mittels Parameter Efficient Fine Tuning (PEFT) und Low Rank Adaption (LoRA) mit Huggingface
  • Optimierung des Trainingsprozesses auf Nvidia A100 GPUs
  • Effizientes und kostengünstiges Deployment der Lösung auf Nvidia A30 GPUs - Bereitstellung des Modells via FastAPI
Llama-7b Mistral-7b PEFT Lora Huggingface RAG FastAPI Transformer
Python LLM GenAI
3 Monate
2024-01 - 2024-03

Migration von KI-Anwendungen vom Hadoop Stack in einen Kubernetes Data Lake

Machine Learning Engineer Python Kubernetes Docker
Machine Learning Engineer
  • Migrieren von KI-Anwendungen von einem Hadoop Data Lake zu einem modernen Kubernetes Data Lake
  • Deployment, Skalierung und Überwachung von KI-Anwendungen im Kubernetes Cluster
  • Nutzung, Konfiguration und Optimierung von Apache Spark auf Kubernetes
  • Einführung von modernen GitOps Praktiken für CI/CD im Migrationsprozess
PySpark Hadoop Kubernetes Docker Stackable Data Lake S3 Hashicorp Vault Apache Airflow
Python Kubernetes Docker
Köln
7 Monate
2023-07 - 2024-01

Skalierung und Deployment von KI-Anwendungen mit PySpark

Machine Learning Engineer Python PySpark MLOps
Machine Learning Engineer
  • Deployment von entwickelten PySpark Pipelines im Spark Cluster
  • Skalierung und Logging der Hyperparametersuche von ML-Pipelines mit PySpark und MLFlow - Beschleunigung der bisherigen Suche um 500%.
  • Performance- und Ressourcen Optimierung von verschiedenen Machine Learning Apps durch anpassen von Spark Konfigurationen und Datenpartitionierung
  • Einbindung von Monitoring Tools (mlflow) zur kontinuierlichen Modellüberwachung (MLOps)
mlflow
Python PySpark MLOps
6 Monate
2023-02 - 2023-07

Enwicklung von KI-Anwendungen in PySpark

Data Scientist Python Machine Learning Clustering
Data Scientist
  • Clustering von mehrdimensionalen Daten durch Ausnutzung von effizienter LLM Datenrepräsentation - Verbesserung von existierenden Clustering Lösungen um 50%
  • Entwicklung von verteilten, end-to-end Machine Learning Pipelines in PySpark, zur Anomalieerkennung und Datensatzverknüpfung - Ermöglichen von manueller Überprüfung von Anomalien durch Fachabteilungen.
  • Verwendung von Approximate Nearest Neighbor Algorithmen (ANN) zur effizienten Indizierung von Daten
PySpark Hadoop Data Lake
Python Machine Learning Clustering
9 Monate
2021-01 - 2021-09

Datenanalyse

Data Analyst Python R SQL
Data Analyst
  • Entwickeln von baumbasierten Klassifizierungsmodellen zur Erkennung von Anomalien in Ladestationen für Elektrofahrzeuge, wodurch datengesteuerte Validierungsregeln eingeführt wurden.
  • Implementieren mehrerer web-scraper, wodurch mehr als 100k neue Ladestationen zur Datenbank hinzufügt wurden.
sklearn postman MS SQL Server
Python R SQL
Utrecht, Niederlande

Aus- und Weiterbildung

Aus- und Weiterbildung

2 Jahre 7 Monate
2020-02 - 2022-08

Master of Science: Artificial Intelligence

Master of Science, GPA: 8.22/10.0, cum laude, Utrecht University
Master of Science, GPA: 8.22/10.0, cum laude
Utrecht University
  • Deep Learning, NLP, Reinforcement Learning, Causal Inference, Bayesian Statistics
  • Thesis: auf Anfrage
3 Jahre 1 Monat
2016-10 - 2019-10

Bachelor of Science: Psychologie in IT

Bachelor of Science, GPA: 1.8/4.0, Technische Universität Darmstadt
Bachelor of Science, GPA: 1.8/4.0
Technische Universität Darmstadt
  • Statistik, Machine Learning, Software Engineering
  • Thesis: Solving Bongard Problems Using Artificial Neural Networks

Position

Position

  • Data Scientist
  • AI Engineer
  • Machine Learning Engineer

Kompetenzen

Kompetenzen

Top-Skills

Python SQL Machine Learning Deep Learning NLP LLM Computer Vision PyTorch TensorFlow Apache Spark Databricks Pandas MLOps Kubernetes Docker CI/CD Git Mlflow Java Beratung Scrum AWS s3 Apache Airflow

Schwerpunkte

NLP
Experte
Deep Learning
Experte
Kubernetes
Experte

Produkte / Standards / Erfahrungen / Methoden

Agile Softwareentwicklung
Experte
Scrum
Experte

Technische Skills

Machine Learning, Deep Learning, Clustering, Time Series Forecasting, GenAI, LLM, Computer Vision, PyTorch, PySpark, SparkML, Databricks, scikit-learn, XGBoost, Pandas, MLOps, Mlflow, Airflow, K8s, Docker, Ray, Statistics, A/B Testing, Bayesian Statistics, Causal Inference, Visualization, CI/CD, Git


Soft Skills

Beratung, Kommunikation, Pr¨asentation vor Stakeholdern, SCRUM

Programmiersprachen

Python
SQL
Java
C++
R

Einsatzorte

Einsatzorte

Deutschland
möglich

Projekte

Projekte

1 Jahr 7 Monate
2022-09 - heute

Clustering von mehrdimensionalen Daten

Data Scientist
Data Scientist
  • Clustering von mehrdimensionalen Daten durch Ausnutzung von effizienter LLM Datenrepräsentation - Verbesserung von existierenden Clustering Lösungen um 50%
  • Entwicklung von verteilten, end-to-end Machine Learning Pipelines in PySpark, zur Anomalieerkennung und Datensatzverknüpfung - Ermöglichen von manueller Uberprüfung von Anomalien durch Fachabteilungen.
  • Skalierung und Logging der Hyperparametersuche von ML Pipelines mit PySpark und MLFlow - Beschleunigung der bisherigen Suche um 500%.
  • Deployment, Skalierung und Überwachung von KI-Anwendungen auf einem Kubernetes Cluster. 
  • Beratung externer Kunden zu modernen KI-Architekturen und -Tools.
SVA System Vertrieb Alexander GmbH
Köln, Deutschland
2 Monate
2024-03 - 2024-04

Fine tuning von LLMs für NLP Use Cases in Deutscher Sprache

Data Scientist Python LLM GenAI
Data Scientist
  • Fine-tuning von foundational LLMs (Llama, Mistral) mit dem Ziel der Generierung von Textzusammenfassungen in deutscher Sprache
  • Umsetzung mittels Parameter Efficient Fine Tuning (PEFT) und Low Rank Adaption (LoRA) mit Huggingface
  • Optimierung des Trainingsprozesses auf Nvidia A100 GPUs
  • Effizientes und kostengünstiges Deployment der Lösung auf Nvidia A30 GPUs - Bereitstellung des Modells via FastAPI
Llama-7b Mistral-7b PEFT Lora Huggingface RAG FastAPI Transformer
Python LLM GenAI
3 Monate
2024-01 - 2024-03

Migration von KI-Anwendungen vom Hadoop Stack in einen Kubernetes Data Lake

Machine Learning Engineer Python Kubernetes Docker
Machine Learning Engineer
  • Migrieren von KI-Anwendungen von einem Hadoop Data Lake zu einem modernen Kubernetes Data Lake
  • Deployment, Skalierung und Überwachung von KI-Anwendungen im Kubernetes Cluster
  • Nutzung, Konfiguration und Optimierung von Apache Spark auf Kubernetes
  • Einführung von modernen GitOps Praktiken für CI/CD im Migrationsprozess
PySpark Hadoop Kubernetes Docker Stackable Data Lake S3 Hashicorp Vault Apache Airflow
Python Kubernetes Docker
Köln
7 Monate
2023-07 - 2024-01

Skalierung und Deployment von KI-Anwendungen mit PySpark

Machine Learning Engineer Python PySpark MLOps
Machine Learning Engineer
  • Deployment von entwickelten PySpark Pipelines im Spark Cluster
  • Skalierung und Logging der Hyperparametersuche von ML-Pipelines mit PySpark und MLFlow - Beschleunigung der bisherigen Suche um 500%.
  • Performance- und Ressourcen Optimierung von verschiedenen Machine Learning Apps durch anpassen von Spark Konfigurationen und Datenpartitionierung
  • Einbindung von Monitoring Tools (mlflow) zur kontinuierlichen Modellüberwachung (MLOps)
mlflow
Python PySpark MLOps
6 Monate
2023-02 - 2023-07

Enwicklung von KI-Anwendungen in PySpark

Data Scientist Python Machine Learning Clustering
Data Scientist
  • Clustering von mehrdimensionalen Daten durch Ausnutzung von effizienter LLM Datenrepräsentation - Verbesserung von existierenden Clustering Lösungen um 50%
  • Entwicklung von verteilten, end-to-end Machine Learning Pipelines in PySpark, zur Anomalieerkennung und Datensatzverknüpfung - Ermöglichen von manueller Überprüfung von Anomalien durch Fachabteilungen.
  • Verwendung von Approximate Nearest Neighbor Algorithmen (ANN) zur effizienten Indizierung von Daten
PySpark Hadoop Data Lake
Python Machine Learning Clustering
9 Monate
2021-01 - 2021-09

Datenanalyse

Data Analyst Python R SQL
Data Analyst
  • Entwickeln von baumbasierten Klassifizierungsmodellen zur Erkennung von Anomalien in Ladestationen für Elektrofahrzeuge, wodurch datengesteuerte Validierungsregeln eingeführt wurden.
  • Implementieren mehrerer web-scraper, wodurch mehr als 100k neue Ladestationen zur Datenbank hinzufügt wurden.
sklearn postman MS SQL Server
Python R SQL
Utrecht, Niederlande

Aus- und Weiterbildung

Aus- und Weiterbildung

2 Jahre 7 Monate
2020-02 - 2022-08

Master of Science: Artificial Intelligence

Master of Science, GPA: 8.22/10.0, cum laude, Utrecht University
Master of Science, GPA: 8.22/10.0, cum laude
Utrecht University
  • Deep Learning, NLP, Reinforcement Learning, Causal Inference, Bayesian Statistics
  • Thesis: auf Anfrage
3 Jahre 1 Monat
2016-10 - 2019-10

Bachelor of Science: Psychologie in IT

Bachelor of Science, GPA: 1.8/4.0, Technische Universität Darmstadt
Bachelor of Science, GPA: 1.8/4.0
Technische Universität Darmstadt
  • Statistik, Machine Learning, Software Engineering
  • Thesis: Solving Bongard Problems Using Artificial Neural Networks

Position

Position

  • Data Scientist
  • AI Engineer
  • Machine Learning Engineer

Kompetenzen

Kompetenzen

Top-Skills

Python SQL Machine Learning Deep Learning NLP LLM Computer Vision PyTorch TensorFlow Apache Spark Databricks Pandas MLOps Kubernetes Docker CI/CD Git Mlflow Java Beratung Scrum AWS s3 Apache Airflow

Schwerpunkte

NLP
Experte
Deep Learning
Experte
Kubernetes
Experte

Produkte / Standards / Erfahrungen / Methoden

Agile Softwareentwicklung
Experte
Scrum
Experte

Technische Skills

Machine Learning, Deep Learning, Clustering, Time Series Forecasting, GenAI, LLM, Computer Vision, PyTorch, PySpark, SparkML, Databricks, scikit-learn, XGBoost, Pandas, MLOps, Mlflow, Airflow, K8s, Docker, Ray, Statistics, A/B Testing, Bayesian Statistics, Causal Inference, Visualization, CI/CD, Git


Soft Skills

Beratung, Kommunikation, Pr¨asentation vor Stakeholdern, SCRUM

Programmiersprachen

Python
SQL
Java
C++
R

Vertrauen Sie auf GULP

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.