Aller au contenu principal

Connecteur de Source de Fichier Plat

Le connecteur de source Fichier Plat dans DataSync vous permet de récupérer des données à partir de fichiers texte structurés tels que CSV et TXT pour un chargement ou une synchronisation dans votre entrepôt de données. Pour les grands fichiers, vous pouvez ajuster le scanning des lignes ou remplacer la détection automatique en utilisant un fichier Schema.ini personnalisé. Vous pouvez également connecter des ressources CSV locales, réseau ou hébergées dans le cloud en définissant le paramètre URL et toutes les propriétés d'authentification requises.

Après avoir créé toutes les connexions sources requises, configurez votre source de destination pour compléter la configuration de la connexion.

Créer une connexion source dans DataSync

  1. Connectez-vous à DataSync.
  2. À partir de l'écran d'accueil, sélectionnez Connections.
  3. À côté de Source Connections, cliquez sur New.
  4. Sélectionnez Fichier Plat.
  5. Dans le panneau Connection Properties, entrez les propriétés de connexion.
  6. (Optionnel) Dans le panneau Additional Connection Properties, sélectionnez Add property et entrez les paramètres pour chaque propriété.
  7. Dans le panneau Advanced Settings, configurez les paramètres, y compris le Tracking Type et d'autres valeurs selon vos besoins.
  8. Cliquez sur Save.

Paramètres

Propriétés de connexion

ParamètreDescription
DescriptionNom unique pour la connexion. Exemple : Fichier Plat
URLEmplacement du fichier source ou du dossier. Prend en charge les chemins locaux ou réseau et peut pointer vers un seul fichier CSV ou un dossier contenant plusieurs CSV.
Exemples : C:\Data\SalesData.csv ou \\Serveur\Partage\Data
Include TypesTypes de fichiers à inclure : CSV, TXT, ou les deux.
DelimiterFormat utilisé pour l'analyse : Virgule, Tabulation, ou Personnalisé.
Custom DelimiterCaractère utilisé lorsque le délimiteur est défini sur Personnalisé. Exemple : ;
Quote CharacterCaractère utilisé pour citer les valeurs dans le fichier.
Top Rows to SkipNombre de lignes à ignorer en haut du fichier.
Exclude file extensionSuppression de l'extension de fichier des noms de table lors de l'extraction.
First row contains headerParamètre de la ligne d'en-tête où la première ligne est considérée comme les en-têtes de colonne.
Include subdirectoriesInclusion de fichiers et de schema.ini des dossiers imbriqués.
Use row numbersAjout d'une colonne RowNumber comme clé lors de la mise à jour ou de la suppression de fichiers CSV.
Verbosity
  • 1 – Journal des requêtes, des comptes de lignes, début/fin d'exécution, erreurs.
  • 2 – Inclut le niveau 1 plus les requêtes de cache, les en-têtes HTTP.
  • 3 – Inclut le niveau 2 plus les corps de requête/réponse.
  • 4 – Inclut le niveau 3 plus la communication au niveau du transport.
  • 5 – Inclut le niveau 4 plus toutes les commandes d'interface.
Enable PoolingOption de pool de connexions pour la performance.
Pool idle timeoutTemps d'inactivité maximal pour les connexions avant de les retourner dans le pool, en secondes.
Max Pool SizeNombre maximal de connexions autorisées dans le pool.
Pool wait timeTemps d'attente maximal pour l'attribution de connexion avant qu'une erreur ne soit lancée, en secondes.

Propriétés de connexion supplémentaires

Propriétés supplémentaires de chaîne de connexion non spécifiées dans le panneau Connection Properties. Pour chaque propriété ajoutée, vous pouvez choisir Visible ou Encrypted. En sélectionnant Encrypted, la valeur est cachée de l'interface et stockée de manière chiffrée dans l'arrière-plan, comme lors de la définition de mots de passe. Les propriétés typiques sont énumérées ci-dessous.

PropriétéValeur
CharsetEncodage des caractères pour le fichier source lorsqu'il est encodé en ANSI. Aucun paramètre n'est nécessaire pour les fichiers encodés en UTF‑8.
Exemple : windows-1252
CultureFormat régional déterminant les séparateurs décimaux et de milliers. Doit correspondre entre les fichiers source/destination et la configuration de DataSync.
Exemples : fr-FR pour des virgules ou en-US pour des points.
RowScanDepthNombre de lignes analysées pour déterminer les types de données des colonnes de la table. Par défaut : 100.
Exemples :

  • 5000 pour analyser plus de lignes pour plus de précision.
  • 0 analyse tout le fichier.
AggregateFilesTous les fichiers combinés depuis le répertoire URI en une seule table appelée AggregatedFiles. Le schéma par défaut provient du premier fichier, sauf si MetadataDiscoveryURI est défini.
Exemple : agrégant plusieurs CSV d'inventaire de produits.
IncludeFilesListe séparée par des virgules des extensions de fichiers autorisées. Par défaut : CSV,TXT,TAB. Prend en charge NOEXT pour les fichiers sans extensions et les archives (ZIP, TAR, GZ). Peut également filtrer par masques de fichier et attributs de date/heure.
Exemples :
IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" ou
IncludeFiles=2020*.csv,TXT
ExcludeFilesListe séparée par des virgules des extensions de fichiers exclues. Prend en charge les filtres de date/heure similaires à IncludeFiles.
Exemple : ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'"
InsertModeMode pour l'insertion dans les fichiers CSV :

  • FilePerBatch – Crée un nouveau CSV par lot (obligatoire pour NEC Cloud).
  • SingleFile – Insère toutes les données dans un seul fichier, uniquement pour les chemins locaux/réseaux.
CreateBatchFolderOption pour créer un dossier lorsque le InsertMode est défini sur FilePerBatch. Par défaut : true.
BatchNamingConventionFormat de nommage pour les fichiers de lot :

  • Timestamp_BatchNumberyyyyMMddhhmmssSSS_batchNumber.
  • TableName_BatchNumberTableName_batchNumber.csv (par défaut).

Paramètres avancés

Les paramètres avancés contrôlent comment le connecteur Fichier Plat suit les changements, gère la configuration régionale et horaire, et traite les lots de données lors de l'extraction. Ces options permettent un ajustement fin pour la performance et la précision, et doivent être configurées selon votre environnement système et vos exigences opérationnelles.

ParamètreDescription
Tracking TypeMéthode pour suivre les changements : Aucun ou Date.
RegionParamètre de région pour le connecteur, si requis par votre configuration.
Time ZoneFuseau horaire correspondant au serveur d'application Fichier Plat.
Time OffsetDécalage de rafraîchissement en secondes pour compenser les problèmes de synchronisation dans la sélection des enregistrements. La valeur minimale est 0 ; la valeur maximale est 3600 secondes.
Batch SizeQuantité d'enregistrements traités dans chaque lot lors de l'extraction. Des tailles de lot plus grandes augmentent l'utilisation de la mémoire mais peuvent améliorer la performance jusqu'à un certain point. La valeur par défaut est 2000 et le maximum ne doit pas dépasser 10000 enregistrements. Ajustez selon votre vitesse réseau et la performance de votre disque ; dans la plupart des cas, la valeur par défaut (2000) fonctionne le mieux.

Exemple