Connecteur de Source de Fichier Plat
Le connecteur de source Fichier Plat dans DataSync vous permet de récupérer des données à partir de fichiers texte structurés tels que CSV et TXT pour un chargement ou une synchronisation dans votre entrepôt de données. Pour les grands fichiers, vous pouvez ajuster le scanning des lignes ou remplacer la détection automatique en utilisant un fichier Schema.ini personnalisé. Vous pouvez également connecter des ressources CSV locales, réseau ou hébergées dans le cloud en définissant le paramètre URL et toutes les propriétés d'authentification requises.
Après avoir créé toutes les connexions sources requises, configurez votre source de destination pour compléter la configuration de la connexion.
Créer une connexion source dans DataSync
- Connectez-vous à DataSync.
- À partir de l'écran d'accueil, sélectionnez Connections.
- À côté de Source Connections, cliquez sur New.
- Sélectionnez Fichier Plat.
- Dans le panneau Connection Properties, entrez les propriétés de connexion.
- (Optionnel) Dans le panneau Additional Connection Properties, sélectionnez Add property et entrez les paramètres pour chaque propriété.
- Dans le panneau Advanced Settings, configurez les paramètres, y compris le Tracking Type et d'autres valeurs selon vos besoins.
- Cliquez sur Save.
Paramètres
Propriétés de connexion
| Paramètre | Description |
|---|---|
| Description | Nom unique pour la connexion. Exemple : Fichier Plat |
| URL | Emplacement du fichier source ou du dossier. Prend en charge les chemins locaux ou réseau et peut pointer vers un seul fichier CSV ou un dossier contenant plusieurs CSV. Exemples : C:\Data\SalesData.csv ou \\Serveur\Partage\Data |
| Include Types | Types de fichiers à inclure : CSV, TXT, ou les deux. |
| Delimiter | Format utilisé pour l'analyse : Virgule, Tabulation, ou Personnalisé. |
| Custom Delimiter | Caractère utilisé lorsque le délimiteur est défini sur Personnalisé. Exemple : ; |
| Quote Character | Caractère utilisé pour citer les valeurs dans le fichier. |
| Top Rows to Skip | Nombre de lignes à ignorer en haut du fichier. |
| Exclude file extension | Suppression de l'extension de fichier des noms de table lors de l'extraction. |
| First row contains header | Paramètre de la ligne d'en-tête où la première ligne est considérée comme les en-têtes de colonne. |
| Include subdirectories | Inclusion de fichiers et de schema.ini des dossiers imbriqués. |
| Use row numbers | Ajout d'une colonne RowNumber comme cl é lors de la mise à jour ou de la suppression de fichiers CSV. |
| Verbosity |
|
| Enable Pooling | Option de pool de connexions pour la performance. |
| Pool idle timeout | Temps d'inactivité maximal pour les connexions avant de les retourner dans le pool, en secondes. |
| Max Pool Size | Nombre maximal de connexions autorisées dans le pool. |
| Pool wait time | Temps d'attente maximal pour l'attribution de connexion avant qu'une erreur ne soit lancée, en secondes. |
Propriétés de connexion supplémentaires
Propriétés supplémentaires de chaîne de connexion non spécifiées dans le panneau Connection Properties. Pour chaque propriété ajoutée, vous pouvez choisir Visible ou Encrypted. En sélectionnant Encrypted, la valeur est cachée de l'interface et stockée de manière chiffrée dans l'arrière-plan, comme lors de la définition de mots de passe. Les propriétés typiques sont énumérées ci-dessous.
| Propriété | Valeur |
|---|---|
Charset | Encodage des caractères pour le fichier source lorsqu'il est encodé en ANSI. Aucun paramètre n'est nécessaire pour les fichiers encodés en UTF‑8. Exemple : windows-1252 |
Culture | Format régional déterminant les séparateurs décimaux et de milliers. Doit correspondre entre les fichiers source/destination et la configuration de DataSync. Exemples : fr-FR pour des virgules ou en-US pour des points. |
RowScanDepth | Nombre de lignes analysées pour déterminer les types de données des colonnes de la table. Par défaut : 100. Exemples :
|
AggregateFiles | Tous les fichiers combinés depuis le répertoire URI en une seule table appelée AggregatedFiles. Le schéma par défaut provient du premier fichier, sauf si MetadataDiscoveryURI est défini.Exemple : agrégant plusieurs CSV d'inventaire de produits. |
IncludeFiles | Liste séparée par des virgules des extensions de fichiers autorisées. Par défaut : CSV,TXT,TAB. Prend en charge NOEXT pour les fichiers sans extensions et les archives (ZIP, TAR, GZ). Peut également filtrer par masques de fichier et attributs de date/heure. Exemples : IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" ou IncludeFiles=2020*.csv,TXT |
ExcludeFiles | Liste séparée par des virgules des extensions de fichiers exclues. Prend en charge les filtres de date/heure similaires à IncludeFiles. Exemple : ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" |
InsertMode | Mode pour l'insertion dans les fichiers CSV :
|
CreateBatchFolder | Option pour créer un dossier lorsque le InsertMode est défini sur FilePerBatch. Par défaut : true. |
BatchNamingConvention | Format de nommage pour les fichiers de lot :
|
Paramètres avancés
Les paramètres avancés contrôlent comment le connecteur Fichier Plat suit les changements, gère la configuration régionale et horaire, et traite les lots de données lors de l'extraction. Ces options permettent un ajustement fin pour la performance et la précision, et doivent être configurées selon votre environnement système et vos exigences opérationnelles.
| Paramètre | Description |
|---|---|
| Tracking Type | Méthode pour suivre les changements : Aucun ou Date. |
| Region | Paramètre de région pour le connecteur, si requis par votre configuration. |
| Time Zone | Fuseau horaire correspondant au serveur d'application Fichier Plat. |
| Time Offset | Décalage de rafraîchissement en secondes pour compenser les problèmes de synchronisation dans la sélection des enregistrements. La valeur minimale est 0 ; la valeur maximale est 3600 secondes. |
| Batch Size | Quantité d'enregistrements traités dans chaque lot lors de l'extraction. Des tailles de lot plus grandes augmentent l'utilisation de la mémoire mais peuvent améliorer la performance jusqu'à un certain point. La valeur par défaut est 2000 et le maximum ne doit pas dépasser 10000 enregistrements. Ajustez selon votre vitesse réseau et la performance de votre disque ; dans la plupart des cas, la valeur par défaut (2000) fonctionne le mieux. |