Guy Tsang - portfolio

À propos de moi...

Data Scientist de formation, je suis investi, curieux et aime toujours aller plus loin. Conscient de l'évolution rapide des techniques et des outils de nos jours, je cherche constamment à apprendre et réaliser des projets dans mon temps libre.

Suite à l'obtention de mon Master, je suis à la recherche d'un poste en CDI dans le domaine de la Data Science. Disponible ASAP et partout en France.

Cette page personnelle a pour but de présenter mon parcours, mes expériences et mes projets principaux que j'ai pu réaliser jusqu'à présent. N'hésitez pas à me contacter à l'adresse qui se trouve en toute fin de cette page.
Bonne visite !

Compétences

Programmation

R

Expérimenté

Python

Avancé

MySQL, HiveQL

Avancé

SAS

Autonome

HTML

Autonome

CSS

Autonome

Outils

Excel

Avancé

EViews

Autonome

Microsoft Azure VM

Autonome

Git

Autonome

Tableau

Initié

Statistica

Initié

Autre

LaTeX

Expérimenté

Word

Avancé

Powerpoint

Autonome

Git

Autonome

Langues

Français

Langue principale

Anglais

Niveau autonome

Hakka

Langue maternelle

Certifications

HTML, CSS | Responsive Web Design

freeCodeCamp ~300hrs coursework

04/05/2021

Certificat

Programme

SAS | Certified Base Programmer

Score : 83%

29/05/2019

Certificat

Programme

Anglais

795/990

19/03/2018

Anglais

Certifié B2

29/05/2017

Formation

Master 2 - Mathématiques Appliquées, Statistique 2019 - 2020

Parcours Prédictions et Prévisions Économiques
Université de Rennes 1 - Rennes
Mention Très bien - Major de la promotion

Approfondissement des méthodes ensemblistes de Machine Learning. Élargissement des connaissances vers la modélisation à partir de données spatiales, de séries temporelles, du traitement naturel du language ou d'images.

Master 1 - Mathématiques Appliquées, Statistique 2018 - 2019

Université de Rennes 1 - Rennes
Mention Très Bien - Major de la promotion

La formation est orientée vers le Machine Learning en passant par la visualisation des données, la sélection des variables, les différentes méthodes d'apprentissage sur les données et la comparaison des modèles.

Licence - Économie 2015 - 2018

Université de Bourgogne - Dijon
Mention Bien - Major de la promotion

Cette licence a permis d'acquérir un regard critique sur l'Économie et les chiffres en général. De plus, les connaissances assimilées me permettent de voir les mécanismes derrière les comportements des agents économiques.

Baccalauréat - Scientifique, spécialité Mathématiques Juin 2015

Lycée Félix Éboué - Guyane Française
Mention Très Bien

Expérience Professionnelle

Orange France2020 - 6 mois

Stage | Data Scientist | Modélisation prédictive des orages

Prédiction d'orages dans un but d'envoi de SMS préventifs vers les clients concernés à partir de techniques de Machine Learning.
Prévision nowcasting de trajectoire d'orages afin d'affiner l'envoi des SMS préventifs et de prévenir les unités d'intervention.
Classification thématique de commentaires clients afin d'identifier les problèmes récurrents rencontrés par les clients (NLP).

Centre de Recherche en Économie et Management2019 - 2 mois

Stage | Data Analyst | Élaboration d'un dashboard R Shiny

Dans le cadre d'une étude économique sur la pauvreté énergétique en Europe, les données de l'enquête EU-SILC d'Eurostat doivent être exploitées. Les données étant de nature spatio-temporelle et touchant à divers domaines du cadre de vie des européens, l'outil de visualisation doit faciliter la visualisation de celles-ci.

L'outil est construit à partir de R Shiny et codé de façon à pouvoir être entretenu sans obstacle à l'avenir.

Application en ligne

Code source

SAVE Handicap - Université de Rennes 1 2019 - 11 heures

Tutorat en programmation R et MySQL de niveau Master 1 MAS

Compétences acquises : rigueur, pédagogie, patience, ...

Cours particuliers 2018 - 25 heures

Soutien en Statistiques Descriptives de niveau Licence 1 en Économie
Soutien en Informatique de niveau Bachelor 1 en École de Commerce

Compétences acquises : rigueur, pédagogie, patience, ...

Job d'été - Commerce Étés 2015 - 2019

Caissier, gestion de dépôt, employé de rayon

Compétences acquises : relation client, organisation, polyvalence, ...

Projets

Rakuten France Data Challenge

Affiner la capacité à individualiser les tarifs de contrats auto afin de faire payer à chaque assuré son juste prix.

Data Challenge, NLP, CV

Classification multimodale de produits du site Rakuten France à partir de données textuelles (désignations et descriptions des produits) et des images des produits.

Utilisation de techniques Deep Learning de NLP et de Computer Vision dans le but de classer chaque produit parmi 27 catégories.

Position : 8/64

Challenge

Modèles de survie appliqués aux télécoms

Compréhension des facteurs clés influençant le risque de dysfonctionnement lié à l'ouverture d'une nouvelle ligne pour un opérateur téléphonique.

Modèles de survie

Utilisation des approches non paramétriques, semi-paramétriques et paramétriques.

Application à partir de données réelles (anonymisées) sous SAS.

Rapport d'analyse

Tarification des contrats d'assurance automobile

Affiner la capacité à individualiser les tarifs de contrats auto afin de faire payer à chaque assuré son juste prix.

Machine Learning

Recours à des techniques de re-échantillonnage et critères de performance adaptés aux classes déséquilibrées. Utilisation approfondie des méthodes de boosting et rédaction d'un article scientifique présentant les méthodes utilisées.

Github
Article scientifique
Support de Présentation

Data Challenge IAPau

Participation au Data Challenge IAPau organisé par LumenAI.

Data Challenge

Chaque équipe doit apporter une solution à des problématiques entreprises en faisant appel au Machine Learning le temps d'un weekend.

Site web d'IAPau

MyAnimeList interactive dashboard

Dashboard traitant la base de données du site MyAnimeList, qui est l'équivalent du site IMDb mais pour les animés et films d'animation.

R Flexdashboard

Flexdashboard est un outil sur R qui permet de construire une interface (dashboard) qui peut être totalement interactive sans avoir besoin d'une session R qui tourne. Le dashboard peut alors être consulté sur un appareil sans R et sans internet.

Dashboard en ligne
Github
Aperçu

Visualisation des données EU-SILC (Eurostat)

Les données étant de nature spatio-temporelles et touchant à divers domaines du cadre de vie des européens, l'outil doit en faciliter la visualisation.

R Shiny

L'application comprend une partie cartographique afin d'étudier l'évolution des indicateurs dans leurs dimensions spatiale et temporelle. Une seconde partie de l'outil correspond à des graphiques permettant d'étudier la corrélation entre variables ou entre régions de l'Europe.

Application en ligne
Github
Aperçu

Football Tracking Dashboard

Tableau de bord sur les joueurs et clubs de football. Détails et comparaisons sur les caractéristiques, transferts, réseaux, etc.

R Shiny

On peut y retrouver les statistiques détaillées des joueurs, avec la possibilité de les comparer. L'application sert également à visualiser le réseau des transferts (d'un club, d'une saison ou d'un joueur en particulier).

Les données proviennent du site soFIFA.

Application en ligne
Aperçu

Bank marketing

Identification des clients les plus susceptibles d'accepter de faire un dépôt.

Machine Learning

Phase d'exploration des données pour en tirer des intuitions, décupler l'information et sélectionner des variables pertinentes. Utilisation de modèles logistiques, arbres et ensemblistes. Optimisation des hyperparamètres.

Github
Notebook
Aperçu

Portfolio en ligne

Ce site web constitue également un projet qui me tenait à coeur pour mettre en avant mes compétences et projets liés à la Data Science.

Web

Ce portfolio sera entretenu dans le temps pour entrer et évoluer dans le monde professionnel.

Le modèle esthétique de cette page internet est repris de ce répertoire github puis a été adapté et enrichi selon mes besoins.

Github

Big Five Personality Test

Exploration des données d'un test sur les cinq traits de personnalité (OCEAN).

EDA

Étude des traits de personnalité des réponses au questionnaire (50 questions) sous différents angles.

Les données sont issues d'un test en ligne (lien).

Notebook

Quantification de l'inégalité salariale H/F

Détermination de l'influence des différences entre les deux groupes sur l'écart de salaire et quantification du résidu inexpliqué.

Économétrie

La méthode de décomposition Oaxaca-Blinder, ici utilisée, permet de quantifier l'écart moyen de salaires pour des groupes homogènes (ayant les mêmes caractéristiques individuelles et occupant les mêmes postes au travail).

Github
Rapport d'analyse

Contact

Si mon profil vous intéresse, n'hésitez pas à me contacter par email : tsangguy@gmail.com !
Je serai ravi de m'entretenir avec vous pour parler davantage de moi, de vous ou bien pour échanger autour de la Data Science.

Dernière mise à jour : 04 Avril 2021