<a href="https://colab.research.google.com/github/lipug/datascience/blob/main/PY002_NFE204_Pandas_structureDonnees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Apprendre à connaître les structures de données de Pandas



Alors qu'un DataFrame fournit des fonctions qui peuvent sembler assez intuitives, les concepts sous-jacents sont un peu plus difficiles à comprendre. Pour cette raison, vous allez mettre de côté le vaste NBA DataFrame et créer des objets Pandas plus petits à partir de zéro.

## Comprendre les objets de série
La structure de données la plus élémentaire de Python est la liste, qui est également un bon point de départ pour apprendre à connaître les objets `pandas.Series`. Créez un nouvel objet Series basé sur une liste:

In [None]:
revenues = pd.Series([5555, 7000, 1980])
revenues

0    5555
1    7000
2    1980
dtype: int64

Vous avez utilisé la liste [5555, 7000, 1980] pour créer un objet Série appelé revenus. Un objet Series encapsule deux composants:

* Une séquence de valeurs
* Une séquence d'identifiants, qui est l'index

Vous pouvez accéder à ces composants avec .values et .index, respectivement:

In [None]:
print(revenues.index,revenues.values)

RangeIndex(start=0, stop=3, step=1) [5555 7000 1980]


In [None]:
type(revenues.values)

numpy.ndarray

Alors que Pandas s'appuie sur NumPy, une différence significative réside dans leur indexation. Tout comme un tableau NumPy, une série Pandas possède également un index entier défini implicitement. Cet index implicite indique la position de l'élément dans la série.

Cependant, une série peut également avoir un type d'index arbitraire. Vous pouvez considérer cet index explicite comme des étiquettes pour une ligne spécifique:

In [None]:
city_revenues = pd.Series(
    [4200, 8000, 6500],
    index=["Amsterdam", "Toronto", "Tokyo"]
)
print(city_revenues.index,city_revenues.values)

Index(['Amsterdam', 'Toronto', 'Tokyo'], dtype='object') [4200 8000 6500]


En fait un mode de référencement par clé:valeur

In [None]:
city_revenues

Amsterdam    4200
Toronto      8000
Tokyo        6500
dtype: int64

On peu utiliser les dictionnaire de Python pour initialiser une Serie

In [None]:
city_employee_count = pd.Series({"Amsterdam": 5, "Tokyo": 8})
city_employee_count

Amsterdam    5
Tokyo        8
dtype: int64

Les clés du dictionnaire deviennent l'index et les valeurs du dictionnaire sont les valeurs Series.

Tout comme les dictionnaires, Series prend également en charge .keys () et le mot-clé in:

In [None]:
print(city_employee_count.keys(),city_employee_count.values,city_employee_count.index)

Index(['Amsterdam', 'Tokyo'], dtype='object') [5 8] Index(['Amsterdam', 'Tokyo'], dtype='object')


# Comprendre les objets DataFrame
Bien qu'une série soit une structure de données assez puissante, elle a ses limites. Par exemple, vous ne pouvez stocker qu'un seul attribut par clé. Comme vous l’avez vu avec l’ensemble de données nba, qui comprend 23 colonnes, la bibliothèque Pandas Python a plus à offrir avec son DataFrame. Cette structure de données est une séquence d'objets Series qui partagent le même index.

Si vous avez suivi les exemples de séries, vous devriez déjà avoir deux objets de série avec des villes comme clés:

* city_revenues
* city_employee_count


Vous pouvez combiner ces objets dans un DataFrame en fournissant un dictionnaire dans le constructeur. Les clés du dictionnaire deviendront les noms de colonne et les valeurs doivent contenir les objets Series:

In [None]:
print('revenues', city_revenues,'employé', city_employee_count, sep='\n----\n')

revenues
----
Amsterdam    4200
Toronto      8000
Tokyo        6500
dtype: int64
----
employé
----
Amsterdam    5
Tokyo        8
dtype: int64


In [None]:
city_data = pd.DataFrame({
    "revenue": city_revenues,
    "employee_count": city_employee_count
})
city_data

Unnamed: 0,revenue,employee_count
Amsterdam,4200,5.0
Tokyo,6500,8.0
Toronto,8000,


Reamarque ce qui se passe pour Torento

In [None]:
city_data.index

Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object')

In [None]:
city_data.values

array([[4.2e+03, 5.0e+00],
       [6.5e+03, 8.0e+00],
       [8.0e+03,     nan]])

On peut également désigner les 2 dimensions d'un DataFrame comme des axes:

In [None]:
print(city_data.axes)
print(city_data.axes[0],city_data.axes[1])

[Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object'), Index(['revenue', 'employee_count'], dtype='object')]
Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object') Index(['revenue', 'employee_count'], dtype='object')


Un DataFrame est également une structure de données de type dictionnaire, il prend donc également en charge .keys () et le mot clé in. Cependant, pour un DataFrame, ceux-ci ne sont pas liés à l'index, mais aux colonnes:

In [None]:
city_data.keys()

Index(['revenue', 'employee_count'], dtype='object')

### Revenons à notre exemple nba

In [None]:
nba = pd.read_csv('https://github.com/fivethirtyeight/data/raw/master/nba-elo/nbaallelo.csv')
type(nba)

pandas.core.frame.DataFrame

In [None]:
nba.index

RangeIndex(start=0, stop=126314, step=1)

In [None]:
nba.axes

[RangeIndex(start=0, stop=126314, step=1),
 Index(['gameorder', 'game_id', 'lg_id', '_iscopy', 'year_id', 'date_game',
        'seasongame', 'is_playoffs', 'team_id', 'fran_id', 'pts', 'elo_i',
        'elo_n', 'win_equiv', 'opp_id', 'opp_fran', 'opp_pts', 'opp_elo_i',
        'opp_elo_n', 'game_location', 'game_result', 'forecast', 'notes'],
       dtype='object')]

In [None]:
nba.keys()

Index(['gameorder', 'game_id', 'lg_id', '_iscopy', 'year_id', 'date_game',
       'seasongame', 'is_playoffs', 'team_id', 'fran_id', 'pts', 'elo_i',
       'elo_n', 'win_equiv', 'opp_id', 'opp_fran', 'opp_pts', 'opp_elo_i',
       'opp_elo_n', 'game_location', 'game_result', 'forecast', 'notes'],
      dtype='object')

Lorsque vous utilisez ces méthodes pour répondre à des questions sur votre ensemble de données, assurez-vous de garder à l'esprit si vous travaillez avec une série ou un DataFrame afin que votre interprétation soit précise.

## Accès aux éléments de la série
Dans la section ci-dessus, vous avez créé une série Pandas basée sur une liste Python et comparé les deux structures de données. Vous avez vu comment un objet Series est similaire à des listes et des dictionnaires de plusieurs manières. Une autre similitude est que vous pouvez également utiliser l'opérateur d'indexation ([]) pour Series.

Vous apprendrez également à utiliser deux méthodes d'accès spécifiques à Pandas:

* .loc
* .iloc

Vous verrez que ces méthodes d'accès aux données peuvent être beaucoup plus lisibles que l'opérateur d'indexation.

### Utilisation de l'opérateur d'indexation
Rappelez-vous qu'une série a deux indices:

1. Un index positionnel ou implicite, qui est toujours un RangeIndex
2. Une étiquette ou un index explicite, qui peut contenir tous les objets hachables

Ensuite, revisitez l'objet city_revenues:

In [None]:
city_revenues

Amsterdam    4200
Toronto      8000
Tokyo        6500
dtype: int64

In [None]:
city_revenues['Amsterdam']

4200

In [None]:
city_revenues[0]

4200

In [None]:
# Vous pouvez également utiliser des indices et des tranches négatifs, comme vous le feriez pour une liste:
city_revenues[-1]

6500

In [None]:
city_revenues[1:]

Toronto    8000
Tokyo      6500
dtype: int64

In [None]:
city_revenues["Toronto":]
