# DataFrames feature 


## Creation d'un dataframe avec pandas

Nous allons commencer par créer un dataframe `product_data` définie à partir des données 
```python
product_data = {
    'product a': [13, 20, 0, 10], 
    'project b': [10, 30, 17, 20],
    'project c': [6, 9, 10, 0]
}```


In [None]:
# Importer la bibliothèque pandas avec l'alias pd
import pandas as pd

In [None]:
# données sous la forme de dictionnaire

product_data = {
    'product a': [13, 20, 0, 10], 
    'project b': [10, 30, 17, 20],
    'project c': [6, 9, 10, 0]
}

In [None]:
product_data

### Transformation du dictionnair en data frame


In [None]:
purchase_data = pd.DataFrame(product_data)

In [None]:
purchase_data.head()

### Ajouter l'index

In [None]:

purchase_data = pd.DataFrame(product_data, 
                             index=['Ronny', 'Bobby', 'Ricky', 'Mike'])

In [None]:
purchase_data.head()

### Opérations sur les dataframes

* Filtrage

In [None]:
purchase_data.loc['Ricky'] >0

In [None]:
# d'une manière équivalente 
purchase_data.iloc[2] >0

In [None]:
purchase_data.iloc[0] >10

In [None]:
purchase_data.iloc[:,0]

In [None]:
purchase_data.iloc[0]

### Dataframe à partir d'un fichier csv

In [None]:
df = pd.read_csv('../data/sources/purshases.csv', index_col=0)

df


Excuter la cellule précédente en enlevant ```index_col=0```

### DataFrame à partir d'un fichier json

In [None]:
df = pd.read_json('../data/sources/purshases.json')

df

In [None]:
DF=df.transpose()
DF

In [None]:
df.transpose().to_json('../data/sources/purshases_t.json')

### Base de donné à partir d'un dataframe

> Nous allons créer un fichier de base de donnée à partir du data frame **DF**

'<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>apples</th>      <th>oranges</th>    </tr>  </thead>  <tbody>    <tr>      <th>David</th>      <td>1</td>      <td>2</td>    </tr>    <tr>      <th>June</th>      <td>3</td>      <td>0</td>    </tr>    <tr>      <th>Lilly</th>      <td>0</td>      <td>7</td>    </tr>    <tr>      <th>Robert</th>      <td>2</td>      <td>3</td>    </tr>  </tbody></table>'


#### Création du contexte

In [None]:
import sqlite3
connection = sqlite3.connect('db.sqlite')
cursor = connection.cursor()
cursor.execute('Create Table if not exists purshases (id Text, apples Integer, oranges Integer)')
connection.commit()


#### Ingestion du dataframe Df dans la base de donnée

In [None]:
DF.to_sql('purshases', connection, if_exists='replace', index = True)
connection.close()

In [None]:
con2=sqlite3.connect('db.sqlite')

In [None]:
df2 = pd.read_sql_query("SELECT * FROM purshases", con2)

df2

##### Remarques 

* Pour l'installation des bibliothèques utilisé dans ce notebook :
    * ``` !pip install pysqlite3 ```
    * ``` !pip install <nom du package> ```

### Importer une database en dataframe

In [None]:
con = sqlite3.connect("../data/sources/customer_sales.db")

* Explorer les tablesde la base de donnée 

In [None]:
cursor = con.cursor()
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
print(cursor.fetchall())

In [None]:
df = pd.read_sql_query("SELECT * FROM tbl_products", con)

df

In [None]:
df = df.set_index('Product_ID')

df

* Pour enrejistrer un dataframe en format ```csv```

In [None]:
df.to_csv('new_purchases.csv')

## From CSV to DataFrame

- Dans cette partie nous allons:
    * Explorer le fichier CSV **`IMDB-Movie-Data.csv`**
    * Voir l'utilité des méthodes `.head()` , `tail()`,`.info()`, `.shape`, `.append()`, ...
    * Appliquer quelques transformations au dataframe
    * Calculer quelques informations statistiques
 
 
 Essayer de décrire l'utilité de chaque opération et transformation :



In [None]:
movies_df = pd.read_csv("../data/sources/IMDB-Movie-Data.txt", index_col="Title")

In [None]:
movies_df.head()

In [None]:
movies_df.tail(2)

In [None]:
movies_df.info()

In [None]:
movies_df.shape

In [None]:
temp_df = movies_df.append(movies_df)

temp_df.shape

In [None]:
temp_df = temp_df.drop_duplicates()

temp_df.shape

In [None]:
temp_df.drop_duplicates(inplace=True)

In [None]:
temp_df = movies_df.append(movies_df)  # make a new copy

temp_df.drop_duplicates(inplace=True, keep=False)

temp_df.shape

In [None]:
movies_df.columns

In [None]:
movies_df.rename(columns={
        'Runtime (Minutes)': 'Runtime', 
        'Revenue (Millions)': 'Revenue_millions'
    }, inplace=True)


movies_df.columns

In [None]:
movies_df.columns = ['Rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime', 
                     'rating', 'votes', 'revenue_millions', 'metascore']


movies_df.columns

In [None]:
movies_df.columns = [col.lower() for col in movies_df]

movies_df.columns

In [None]:
movies_df.isnull()

In [None]:
movies_df.isnull().sum()

In [None]:
movies_df.dropna()

In [None]:
movies_df.dropna(axis=1)

In [None]:
revenue = movies_df['revenue_millions']

In [None]:
revenue.head()

In [None]:
revenue_mean = revenue.mean()

revenue_mean

In [None]:
revenue.fillna(revenue_mean, inplace=True)

In [None]:
movies_df.isnull().sum()

In [None]:
movies_df.describe()

In [None]:
movies_df.sort_values(by='rank')

In [None]:
movies_df.sort_index(1)

In [None]:
#https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/