# Capitolo 8 Pandas
## Manipolare dati strutturati

## 2 Introduzione e tipi di dati

In [None]:
import pandas as pd

In [None]:
matematici = pd.DataFrame(
    {"Nome": ["Alan Turing", "John von Neumann", 
                                          "Marvin Lee Minsky", "John Horton Conway"],
     "Anno di nascita": [1912, 1903, 1927, 1937],
     "Anno di morte": [1954, 1957, 2016, 2020]
    }
)

In [None]:
matematici

In [None]:
matematici.dtypes

In [None]:
matematici["Nome"]

In [None]:
matematici.info()

In [None]:
matematici.columns

## 3 Leggere e osservare i dati

In [None]:
pinguini = pd.read_csv("./penguins_size.csv")
pinguini.head()

In [None]:
pinguini.dtypes

In [None]:
pinguini.info()

In [None]:
pinguini.describe()

In [None]:
pinguini["species"].describe()

In [None]:
pinguini_ripuliti = pinguini.dropna()
pinguini_ripuliti.info()

In [None]:
pinguini.dropna(inplace=True)
pinguini.info()

In [None]:
pinguini.to_excel("./pinguini.xlsx", sheet_name="pinguini")

## 4 Selezionare ed elaborare i dati

In [None]:
asteroidi_comete=pd.read_json("./neowise.json")
asteroidi_comete.head()

In [None]:
asteroidi_comete.info()

In [None]:
asteroidi_comete_ridotto = asteroidi_comete[["designation","discovery_date",
                                             "h_mag","period_yr"]]
asteroidi_comete_ridotto.head()

In [None]:
asteroidi_comete_ridotto[asteroidi_comete_ridotto["period_yr"]<1.0]

In [None]:
asteroidi_comete_ridotto[(asteroidi_comete_ridotto["period_yr"]<1.0) &
                         (asteroidi_comete_ridotto["discovery_date"]>"2014-01-01")]

In [None]:
asteroidi_comete["period_day"] = asteroidi_comete_ridotto["period_yr"]*365
asteroidi_comete.head()

In [None]:
asteroidi_comete_rinominato=asteroidi_comete.rename(
                                    columns={"designation":"nome",
                                             "discovery_date":"data_scoperta",
                                             "period_yr":"periodo_anni",
                                             "orbit_class":"classe_orbitale",
                                             "period_day":"periodo_giorni"})
asteroidi_comete_rinominato.head()

In [None]:
asteroidi_comete_rinominato["pha"].replace("Y","SI",inplace=True)
asteroidi_comete_rinominato["pha"].replace("N","NO",inplace=True)
asteroidi_comete_rinominato.head()

In [None]:
asteroidi_comete_rinominato["periodo_anni"].values

## 5 Aggregare i dati

In [None]:
pinguini = pd.read_excel("./pinguini.xlsx", index_col=0)
pinguini.head()

In [None]:
print(f'Massimo: {pinguini["body_mass_g"].max()}')
print(f'Minimo: {pinguini["body_mass_g"].min()}')
print(f'Media: {pinguini["body_mass_g"].mean()}')
print(f'Deviazione standard: {pinguini["body_mass_g"].std()}')
print(f'Mediana: {pinguini["body_mass_g"].median()}')

In [None]:
pinguini["species"].unique()

In [None]:
pinguini[["sex","body_mass_g"]].groupby("sex").mean()

In [None]:
pinguini[["species","sex","body_mass_g"]].groupby(["sex","species"]).mean()

In [None]:
pinguini[["sex","species"]].value_counts()

In [None]:
pinguini[["island","species"]].value_counts()

## 6 Rappresentare i dati

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
marziani = pd.read_csv("./marziani.csv")
marziani.head()

In [None]:
pesoRobby = marziani[marziani["specie"]=="Robby"]["peso"].values
pesoMusk = marziani[marziani["specie"]=="Simmy"]["peso"].values
larghezzaRobby = marziani[marziani["specie"]=="Robby"]["larghezza"].values
larghezzaSimmy = marziani[marziani["specie"]=="Simmy"]["larghezza"].values

fig, ax = plt.subplots(figsize=(8,8))
ax.scatter(pesoRobby, larghezzaRobby, c="r", label="Robby")
ax.scatter(pesoMusk, larghezzaSimmy, c="g", label="Simmy")
ax.set_xlabel("peso",fontsize=16)
ax.set_ylabel("larghezza",fontsize=16)
ax.tick_params(axis='x', labelsize=16)
ax.tick_params(axis='y', labelsize=16)
ax.set_title("Le caratteristiche degli esserini marziani", fontsize=20)
ax.grid(True)
ax.legend(fontsize=16)
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(8,8))
marziani[marziani["specie"]=="Robby"].plot.scatter(x="peso",y="larghezza",
                                                  c="r", label="Robby", ax = ax)
marziani[marziani["specie"]=="Simmy"].plot.scatter(x="peso",y="larghezza",
                                                  c="g", label="Simmy", ax = ax)
ax.set_xlabel("peso",fontsize=16)
ax.set_ylabel("larghezza",fontsize=16)
ax.tick_params(axis='x', labelsize=16)
ax.tick_params(axis='y', labelsize=16)
ax.set_title("Le caratteristiche degli esserini Marziani", fontsize=20)
ax.grid(True)
ax.legend(fontsize=16)
plt.show()