# Exemples sur l'utilisation de pandas pour l'extraction et l'exportation de données

Voici une série d'exemple de comment exploiter les Pandas. Les Pandas sont de gentilles petites créatures poilus vivant en chine... Mais ce n'est pas probablement la raison de votre lecture. ;)

Le *package* ***pandas*** de python permet de manipuler des données comme des matrices mais dans une plus grande mesure que les matrices comme tel. Il faut comprendre que ***numpy*** a une panoplie d'utilisation, mais il a certaine limite que ***pandas*** vient régler, dont la possibilité d'une plus grande utilisation de la mémoire.

***Pandas*** permets d'avoir des entêtes comme une base de donnée aurait, ce que ***numpy*** n'a pas.

J'assume que le lecteur a une certaine base de connaissance en python.

L'information spécifique est disponible ici : https://pandas.pydata.org/pandas-docs/stable/reference/io.html



Commençons par importer le package :

In [1]:
import pandas as pd

# Importation
## Importation d'un *CSV*
Commençons par l'importation d'un *CSV* (fichier plat) car c'est l'un des plus fréquent.

In [15]:
csv = pd.read_csv("test.csv", sep="\t")

La fonction **head()** permet d'avoir un apperçu de la représentation de ce qui a été chargé en mémoire sous pandas. Il y aura l'entête et les 5 premières lignes du *dataset*. Dans mon exemple, je n'ai que 4 lignes de données.

Voici le contenu du fichier *test.csv* :
```
texte	colonneA	colonneB
test1	A1	B1
test2	A2	B2
test3	A3	B3
test4	A4	B4

```
Comme on peut le voir, j'ai mis comme séparateur des tabulations, d'où le ***\t***. j'aurais très bien pu prendre des ***;*** comme dans la plupart des *CSV*, mais je voulais en faire un exemple où je pouvais choisir le type de séparateur.

In [16]:
csv.head()

Unnamed: 0,texte,colonneA,colonneB
0,test1,A1,B1
1,test2,A2,B2
2,test3,A3,B3
3,test4,A4,B4


## Importation d'un json

Maintenant, nous pouvons faire l'importation à partir d'un fichier *json*. Voici le contenu du fichier :

```
{
 "texte":
         {
          "0":"test1",
          "1":"test2",
          "2":"test3",
          "3":"test4"
         },
 "colonneA":
            {
             "0":"A1",
             "1":"A2",
             "2":"A3",
             "3":"A4"
            },
 "colonneB":
            {
             "0":"B1",
             "1":"B2",
             "2":"B3",
             "3":"B4"
            }
}
```

Cependant, je dois avouer que j'ai triché. En effet, je me suis servi de *pandas* pour générer ce fichier *json* à partir du fichier *CSV*. Voici comment faire :

In [None]:
csv.to_json("test.json")

In [3]:
json = pd.read_json("test.json")
json.head()

Unnamed: 0,texte,colonneA,colonneB
0,test1,A1,B1
1,test2,A2,B2
2,test3,A3,B3
3,test4,A4,B4


## Importation d'un HTML
Maintenant, nous pouvons faire l'importation à partir d'un fichier *html*. Voici le contenu du fichier :
```
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>texte</th>
      <th>colonneA</th>
      <th>colonneB</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>test1</td>
      <td>A1</td>
      <td>B1</td>
    </tr>
    <tr>
      <th>1</th>
      <td>test2</td>
      <td>A2</td>
      <td>B2</td>
    </tr>
    <tr>
      <th>2</th>
      <td>test3</td>
      <td>A3</td>
      <td>B3</td>
    </tr>
    <tr>
      <th>3</th>
      <td>test4</td>
      <td>A4</td>
      <td>B4</td>
    </tr>
  </tbody>
</table>
```

Encore une fois, j'ai triché. ;)

In [None]:
csv.to_html("test.html")

In [17]:
html = pd.read_html("test.html")
html.head()

AttributeError: 'list' object has no attribute 'head'

Comme on peut le voir, cette fois, le *head()* ne fonctionne pas. Il semblerait que ceux qui maintiennent le code ont préférer le garder comme une liste. Pour pallier à ce problème, il suffit de transformer la liste en *panda.DataFrame*.

L'autre particularité est que *read_html* retourne une liste de *DataFrame*. Dans mon cas, je n'ai qu'un seul *DataFrame*, c'est pourquoi je prends *html[0]*.

In [19]:
print(html)

[   Unnamed: 0  texte colonneA colonneB
0           0  test1       A1       B1
1           1  test2       A2       B2
2           2  test3       A3       B3
3           3  test4       A4       B4]


In [23]:
htmldf = pd.DataFrame(html[0], columns=["unamed", "texte", "colonneA", "colonneB"])
htmldf.head()

Unnamed: 0,unamed,texte,colonneA,colonneB
0,,test1,A1,B1
1,,test2,A2,B2
2,,test3,A3,B3
3,,test4,A4,B4


La seconde particularité, c'est que le code *html* contient une colonne *unamed*, nous pouvons retirer cette colonne.

In [26]:
htmldf = htmldf.drop(columns="unamed")
htmldf.head()

Unnamed: 0,texte,colonneA,colonneB
0,test1,A1,B1
1,test2,A2,B2
2,test3,A3,B3
3,test4,A4,B4


## Importation d'un Excel

Je pense que vous commencez à me connaître...

In [None]:
csv.to_excel("test.xlsx")

In [27]:
excel = pd.read_excel("test.xlsx")
excel.head()

Unnamed: 0.1,Unnamed: 0,texte,colonneA,colonneB
0,0,test1,A1,B1
1,1,test2,A2,B2
2,2,test3,A3,B3
3,3,test4,A4,B4


## XML to DataFrame

In [1]:
# TODO

## String to DataFrame

https://stackoverflow.com/questions/22604564/create-pandas-dataframe-from-a-string

In [2]:
# TODO

## Importation à partir d'une BD SQL avec l'identifiant de connexion encrypté

C'est bien beau, mais nous sommes toujours à partir d'un fichier. C'est bien pour des petits projets, mais pour de plus grand projet avec des bases de données, ce devrait être plus difficile? Pas vraiment. Mais avant de commencer, je pourrais faire le code avec les paramètre de connexions, je souhaiterais soulever le point sur la sécurité de ces informations. faisons un petit détour pour voir ceci. Si ceci ne vous intéresse pas, vous pouvez passer à la prochaine section.

L'information pour voir comment faire l'encryption est disponible ici :
https://www.mssqltips.com/sqlservertip/5173/encrypting-passwords-for-use-with-python-and-sql-server/

In [6]:
from cryptography.fernet import Fernet 

J'ai généré la clé une fois puis je l'ai enregistré dans un fichier :

In [13]:
#banana_key = Fernet.generate_key()
#with open('../security/banana_ms_sql_key.bin', 'wb') as file_object:  file_object.write(banana_key)
#print(banana_key)

Il faut comprendre qu'une fois que la clé est enregistrée, il ne faut pas la regénérer car ne serions plus capable décoder l'information qui est encrypté.

Puisque la clé est déjà enregistré dans un fichier, nous pouvons l'utiliser pour décoder les informations nécessaire pour la connexion à la BD.

In [7]:
with open('../security/banana_ms_sql_key.bin', 'rb') as file_object:
    for line in file_object:
        banana_key = line
cipher_suite = Fernet(banana_key)

In [8]:
with open('../security/banana_ms_sql_info.bin', 'rb') as file_object:
    for line in file_object:
        encryptedinfo = line

In [9]:
uncipher_text = (cipher_suite.decrypt(encryptedinfo))
plain_text_encrypted_dbindo = bytes(uncipher_text).decode("utf-8")

Maintenant que nous avons l'information désencrypté, nous pouvons l'utiliser! Pas tout à fait. Il s'agit d'une chaine de caractère au plus simple. À moins de faire du traitement, ce qui peut être fastidieux, il est difficile d'y extraire l'information directement. Mais je l'en encodé sous forme de dictionnaire. En utilisant *ast*, je peux transformer la chaine en un dictionnaire :

In [10]:
import ast
dbinformation = ast.literal_eval(plain_text_encrypted_dbindo)

Avant d'ouvrir la conexion, si c'est la première fois, il vous faut OBDC

https://docs.microsoft.com/en-us/sql/connect/odbc/linux-mac/installing-the-microsoft-odbc-driver-for-sql-server?view=sql-server-ver15#ubuntu17

https://docs.microsoft.com/en-us/sql/connect/python/pyodbc/step-1-configure-development-environment-for-pyodbc-python-development?view=sql-server-ver15

In [11]:
import pyodbc

driver = "/opt/microsoft/msodbcsql17/lib64/libmsodbcsql-17.6.so.1.1"
server = dbinformation["data source"]
database = dbinformation["initial catalog"]
uid = dbinformation["user id"]
password = dbinformation["password"]

cnxn_str = (f"Driver={driver};Server={server};Database={database};UID={uid};PWD={password};")

conn = pyodbc.connect(cnxn_str)

### Importation à partir d'une BD SQL

In [12]:
sql_query = pd.read_sql_query('SELECT  * FROM  INFORMATION_SCHEMA.TABLES;',conn)
print(sql_query)
print(type(sql_query))

   TABLE_CATALOG TABLE_SCHEMA               TABLE_NAME  TABLE_TYPE
0         Banana          dbo                 RssItems  BASE TABLE
1         Banana          dbo                ViewItems        VIEW
2         Banana          dbo               ViewItems2        VIEW
3         Banana          dbo  RssItemsCorrespondances  BASE TABLE
4         Banana          dbo            RssCategories  BASE TABLE
5         Banana          dbo                 KeyWords  BASE TABLE
6         Banana          dbo               Categories  BASE TABLE
7         Banana          dbo                   Medias  BASE TABLE
8         Banana          dbo          ItemsCategories  BASE TABLE
9         Banana          dbo            ItemsKeyWords  BASE TABLE
10        Banana          dbo                 RssFeeds  BASE TABLE
11        Banana          dbo                  RssUrls  BASE TABLE
<class 'pandas.core.frame.DataFrame'>
