# Pandas

Pandas è una libreria per gestire dataset espressi in diversi formati convertendoli in Pandas dataframe.

Sito ufficiale https://pandas.pydata.org

In [1]:
import pandas as pd

## Creiamo un dizionario e trasformiamolo in un Pandas dataframe

Puoi aggiungerne altre per esercizio:
https://en.wikipedia.org/wiki/List_of_government_space_agencies

In [2]:
# Da dizionario a dataframe
spazio_dict = {'agency_code': ['ASI', 'ESA', 'NASA', 'ROSCOSMOS', 'ISRO', 'ISA', 'JAXA'],
          'agency_name': ['Agenzia Spaziale Italiana', 
                          'European Space Agency',
                          'National Aeronautics and Space Administration', 
                          'Russian Federal Space Agency',
                          'Indian Space Research Organisation',
                          'Israeli Space Agency', 'Japan Aerospace Exploration Agency'], 
          'country': ['Italy', 'Europe', 'United States', 'Russia', 'India', 'Israel', 'Japan'],
          'year_founded': [1988, 1975, 1958, 1992, 1969, 1983, 2003]}

I Pandas datarfame sono strutture dati 2D indicizzati sia sulle colonne che sulle righe.  

Chiameremo le colonne **variabili** e le righe **osservazioni**.

In [3]:
spazio_df = pd.DataFrame(spazio_dict)
spazio_df

Unnamed: 0,agency_code,agency_name,country,year_founded
0,ASI,Agenzia Spaziale Italiana,Italy,1988
1,ESA,European Space Agency,Europe,1975
2,NASA,National Aeronautics and Space Administration,United States,1958
3,ROSCOSMOS,Russian Federal Space Agency,Russia,1992
4,ISRO,Indian Space Research Organisation,India,1969
5,ISA,Israeli Space Agency,Israel,1983
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003


## Esplorazione del nostro dataset

In [4]:
spazio_df.head(2) # mostra i primi due valori, di default (senza alcun argomento) ne mostra 5

Unnamed: 0,agency_code,agency_name,country,year_founded
0,ASI,Agenzia Spaziale Italiana,Italy,1988
1,ESA,European Space Agency,Europe,1975


In [5]:
spazio_df.tail(3) # mostra gli ultimi 3 valori, di default (senza alcun argomento) ne mostra 5

Unnamed: 0,agency_code,agency_name,country,year_founded
4,ISRO,Indian Space Research Organisation,India,1969
5,ISA,Israeli Space Agency,Israel,1983
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003


In [6]:
spazio_df.shape # mostra il numero di osservazioni e variabili

(7, 4)

In [7]:
spazio_df.columns # mostra i nomi delle colonne

Index(['agency_code', 'agency_name', 'country', 'year_founded'], dtype='object')

In [8]:
spazio_df.index # mostra l'index delle variabli

RangeIndex(start=0, stop=7, step=1)

In [9]:
spazio_df.info() # mostra il tipo delle variabili

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
agency_code     7 non-null object
agency_name     7 non-null object
country         7 non-null object
year_founded    7 non-null int64
dtypes: int64(1), object(3)
memory usage: 304.0+ bytes


In [10]:
spazio_df.describe() # riporta analisi statistiche per variabili numeriche

Unnamed: 0,year_founded
count,7.0
mean,1981.142857
std,15.09336
min,1958.0
25%,1972.0
50%,1983.0
75%,1990.0
max,2003.0


## Selezionare colonne e parte del dataframe

In [11]:
spazio_df['year_founded'] # selezioniamo una variabile, una colonna

0    1988
1    1975
2    1958
3    1992
4    1969
5    1983
6    2003
Name: year_founded, dtype: int64

In [12]:
spazio_df[spazio_df.year_founded > 1960] # aggiungiamo una condizione alla selezione

Unnamed: 0,agency_code,agency_name,country,year_founded
0,ASI,Agenzia Spaziale Italiana,Italy,1988
1,ESA,European Space Agency,Europe,1975
3,ROSCOSMOS,Russian Federal Space Agency,Russia,1992
4,ISRO,Indian Space Research Organisation,India,1969
5,ISA,Israeli Space Agency,Israel,1983
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003


In [13]:
asi = spazio_df[spazio_df['agency_code'] == 'ASI'] # salviamo un nuovo dataframe dalla selezione
asi

Unnamed: 0,agency_code,agency_name,country,year_founded
0,ASI,Agenzia Spaziale Italiana,Italy,1988


In [14]:
type(asi)

pandas.core.frame.DataFrame

Usiamo **.loc[ ]** per selezionare i nomi, e **.iloc[ ]** per selezionare tramite l'index.

In [15]:
spazio_df.loc[:,'agency_code']

0          ASI
1          ESA
2         NASA
3    ROSCOSMOS
4         ISRO
5          ISA
6         JAXA
Name: agency_code, dtype: object

In [16]:
spazio_df.loc[1:,:]

Unnamed: 0,agency_code,agency_name,country,year_founded
1,ESA,European Space Agency,Europe,1975
2,NASA,National Aeronautics and Space Administration,United States,1958
3,ROSCOSMOS,Russian Federal Space Agency,Russia,1992
4,ISRO,Indian Space Research Organisation,India,1969
5,ISA,Israeli Space Agency,Israel,1983
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003


In [17]:
spazio_df.iloc[:2,1:]

Unnamed: 0,agency_name,country,year_founded
0,Agenzia Spaziale Italiana,Italy,1988
1,European Space Agency,Europe,1975


## Creare una nuova colonna a partire da un'altra

Applichiamo una funzione lambda per crearci i nuovi valori usando **.apply( )**

In [18]:
spazio_df['years'] = spazio_df['year_founded'].apply(lambda year: 2018 - year)
spazio_df

Unnamed: 0,agency_code,agency_name,country,year_founded,years
0,ASI,Agenzia Spaziale Italiana,Italy,1988,30
1,ESA,European Space Agency,Europe,1975,43
2,NASA,National Aeronautics and Space Administration,United States,1958,60
3,ROSCOSMOS,Russian Federal Space Agency,Russia,1992,26
4,ISRO,Indian Space Research Organisation,India,1969,49
5,ISA,Israeli Space Agency,Israel,1983,35
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003,15


## Riordinare il dataset partendo da una colonna

In [19]:
spazio_df.sort_values('years') # Richiamiamo il nome della variabile su cui vogliamo riordinare

Unnamed: 0,agency_code,agency_name,country,year_founded,years
6,JAXA,Japan Aerospace Exploration Agency,Japan,2003,15
3,ROSCOSMOS,Russian Federal Space Agency,Russia,1992,26
0,ASI,Agenzia Spaziale Italiana,Italy,1988,30
5,ISA,Israeli Space Agency,Israel,1983,35
1,ESA,European Space Agency,Europe,1975,43
4,ISRO,Indian Space Research Organisation,India,1969,49
2,NASA,National Aeronautics and Space Administration,United States,1958,60
