In [2]:
import numpy as np # algèbre linéaire
import pandas as pd # procès de données, CSV file I/O (e.g. pd.read_csv)

# plotly
# import plotly.plotly as py
from plotly.offline import init_notebook_mode, iplot, plot
import plotly as py
init_notebook_mode(connected=True)
import plotly.graph_objs as go

# librairie word cloud
from wordcloud import WordCloud

# librairie matplotlib
import matplotlib.pyplot as plt

# Permet d'afficher les données disponibles dans le répertoire data
import os
print(os.listdir("/Users/dines/OneDrive/Documents/coursAnneLaure/data")) 

# Chargement des données qui seront utilisées.
timesData = pd.read_csv("/Users/dines/OneDrive/Documents/coursAnneLaure/data/timesData.csv")

# information about timesData
timesData.info()

['timesData.csv']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2603 entries, 0 to 2602
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   world_rank              2603 non-null   object 
 1   university_name         2603 non-null   object 
 2   country                 2603 non-null   object 
 3   teaching                2603 non-null   float64
 4   international           2603 non-null   object 
 5   research                2603 non-null   float64
 6   citations               2603 non-null   float64
 7   income                  2603 non-null   object 
 8   total_score             2603 non-null   object 
 9   num_students            2544 non-null   object 
 10  student_staff_ratio     2544 non-null   float64
 11  international_students  2536 non-null   object 
 12  female_male_ratio       2370 non-null   object 
 13  year                    2603 non-null   int64  
dtypes: float64(4), int64(1

In [3]:
"""
Quels sont les pays dans lesquels le score universitaire pour le transfert technologique (revenu de l'industrie) se démarque ? 
Utiliser un ou plusieurs graphique pour justifier votre réponse.
"""
# préparation des données

# selectioner les 100 premières lignes des 2 colonnes
df = timesData.loc[:100,["income", "country"]]
# changer le type de colonne de objet à float et changer les "-" en "NaN"
df.income = [float(each.replace('-', 'NaN')) for each in df.income]
# supprimer les lignes qui contiennent des "NaN"  
df = df.dropna().head(100)
# faire un group by car il y a plusieurs valeurs par pays(plusieurs universités), calculer la moyenne des income par pays
df = df.groupby('country').mean()
# trier le dataframe par rapport à la colonne income par ordre décroissant
df = df.sort_values(by='income', ascending = False)

df.index
df.income
print(df)

fig = {
  "data": [
    {
      "values": df.income,
      "labels": df.index,
      "domain": {"x": [0, .5]},
      "name": "Pays",
      #"hoverinfo":"label",#+percent+name",
      "hole": .3,
      "type": "pie"
    },],
  "layout": {
        "title":"Score universitaire pour le revenu de l'industrie (transfert de connaissances) pour chaque Pays",
        "annotations": [
            { "font": { "size": 17},
              "showarrow": False,
              "text": "Pays",
                "x": 0.20,
                "y": 1.07
            },
        ]
    }
}
iplot(fig)



                              income
country                             
South Korea               100.000000
China                      75.566667
Japan                      67.100000
Australia                  62.075000
United States of America   61.290909
Hong Kong                  60.300000
Sweden                     53.250000
United Kingdom             44.978571
Canada                     42.600000
Switzerland                42.533333
Singapore                  40.500000
Germany                    37.066667
Republic of Ireland        31.600000
France                     28.400000


In [4]:
# Création du premier trace 
trace1 = go.Bar(
                x = df.index,
                y = df.income,
                name = "country",
                marker = dict(color = 'rgba(255, 174, 255, 0.5)',
                             line = dict(color ='rgb(0,0,0)',width =1.5)),
                text = df.index)

data = [trace1]
layout = go.Layout(barmode = "group")
fig = go.Figure(data = data, layout = layout)
iplot(fig)

In [5]:
# Création de la trame 1
trace1 = go.Scatter(
                    x = df.index,
                    y = df.income,
                    mode = "lines+markers",
                    name = "country",
                    marker = dict(color = 'rgba(16, 112, 2, 0.8)'),
                    text = df.index)

data = [trace1]
layout = dict(title = "Score universitaire pour le revenu de l'industrie (transfert de connaissances) par Pays",
              xaxis = dict(title = 'Rang Mondial',ticklen = 5,zeroline= False)
             )
fig = dict(data = data, layout = layout)
iplot(fig)

In [9]:
"""
Existe-t-il une corrélation entre le score universitaire pour le transfert technologique (revenu de l'industrie) 
et le score universitaire des perspectives internationales ?
Utiliser un ou plusieurs graphique pour justifier votre réponse.
"""
df = timesData[["year","country", "income", "international"]]

df.income = [float(each.replace('-', 'NaN')) for each in df.income]
df.international = [float(each.replace('-', 'NaN')) for each in df.international]
df = df.dropna()

df2011 = df[df.year==2011]
df2011=df2011.groupby('country').mean()

df2012 = df[df.year==2012]
df2012=df2012.groupby('country').mean()

df2013 = df[df.year==2013]
df2013=df2013.groupby('country').mean()

df2014 = df[df.year==2014]
df2014=df2014.groupby('country').mean()

df2015 = df[df.year==2015]
df2015=df2015.groupby('country').mean()

df2016 = df[df.year==2016]
df2016=df2016.groupby('country').mean()

df1=pd.concat([df2011,df2012,df2013,df2014,df2015,df2016])


# import figure factory
import plotly.figure_factory as ff
# prepare data

df1['index']= np.arange(1, len(df1)+1) # ajout d'une colonne index pour avoir la nuance des couleurs à droite du graphe 
# scatter matrix
fig = ff.create_scatterplotmatrix(df1, diag='box',index = 'index',colormap='Portland',colormap_type='cat',height=700, width=700)
iplot(fig)

In [10]:
import plotly.express as px
#df = px.data.iris()
fig = px.scatter(df1, x="income", y="international", color="year")
fig.show()


In [13]:
import plotly.express as px
#df = px.data.tips()
fig = px.scatter(df1, x="income", y="international", color="year", facet_col="year",
           color_continuous_scale=px.colors.sequential.Viridis)#, render_mode="webgl")
fig.show()