# Pandas Library

*Cosa serve pandas?* manipolare dataset potenzialmente anche molto grandi. Una specie di excel ma più potente

In [2]:
import pandas as pd
import numpy as np
import os

### Creare un DataFrame 
Il dataframe è uno degli oggetti principali di pandas e si può creare a partire da liste di python, dictionary o da array generati con numpy


In [42]:
larici_nomi = np.array([
    "Larice1",
    "Larice2",
    "Larice3",
    "Larice4",
    "Larice5",
    "Larice6",
    "Larice7",
    "Larice8",
    "Larice9",
    "Larice10",
    "Larice11",
    "Larice12",
    "Larice13",
    "Larice14",
    "Larice15",
])

esposizione = np.array([
    "Sud",
    "Est",
    "Ovest",
    "Sud",
    "Est",
    "Est",
    "Ovest",
    "Est",
    "Est",
    "Nord",
    "Ovest",
    "Nord",
    "Nord",
    "Ovest",
    "Nord"
])

altezza = np.array(
[
    12,
    14,
    16,
    11,
    15,
    17,
    16,
    15,
    16,
    14,
    15,
    13,
    14,
    12,
    14,
])
data = np.column_stack([esposizione, altezza])
print(data)
larici_df = pd.DataFrame(data, index=larici_nomi)
larici_df

[['Sud' '12']
 ['Est' '14']
 ['Ovest' '16']
 ['Sud' '11']
 ['Est' '15']
 ['Est' '17']
 ['Ovest' '16']
 ['Est' '15']
 ['Est' '16']
 ['Nord' '14']
 ['Ovest' '15']
 ['Nord' '13']
 ['Nord' '14']
 ['Ovest' '12']
 ['Nord' '14']]


Unnamed: 0,0,1
Larice1,Sud,12
Larice2,Est,14
Larice3,Ovest,16
Larice4,Sud,11
Larice5,Est,15
Larice6,Est,17
Larice7,Ovest,16
Larice8,Est,15
Larice9,Est,16
Larice10,Nord,14


**Alternativamente si poteva usare il dictionary** in questo modo possiamo già indicare i nomi dei campi

In [33]:
larici_df1 = pd.DataFrame({
    "Nome": larici_nomi,
    "Esposizione": esposizione,
    "Altezza": altezza
})
larici_df1

Unnamed: 0,Nome,Esposizione,Altezza
0,Larice1,Sud,12
1,Larice2,Est,14
2,Larice3,Ovest,16
3,Larice4,Sud,11
4,Larice5,Est,15
5,Larice6,Est,17
6,Larice7,Ovest,16
7,Larice8,Est,15
8,Larice9,Est,16
9,Larice10,Nord,14


**N.B.** la differenza tra il primo e il secondo, nel primo ho indicato l'indice, nel secondo esempio no.

### Creiamo un dataframe 

Usando i seguenti dati 

In [14]:
# Array per i nomi degli studenti
nomi_studenti = np.array([
    "Mario ",
    "Giulia ",
    "Luca ",
    "Anna ",
    "Marco ",
    "Chiara ",
    "Simone ",
    "Laura ",
    "Alessio ",
    "Elena ",
    "Federico ",
    "Valentina ",
    "Giovanni ",
    "Francesca ",
    "Roberto ",
    "Elisa ",
    "Davide ",
    "Martina ",
    "Stefano ",
    "Caterina "
])

# Array per i titoli di laurea
titoli_laurea = np.array([
    "Laurea in Economia",
    "Laurea in Ingegneria",
    "Laurea in Matematica",
    "Laurea in Lettere",
    "Laurea in Giurisprudenza",
    "Laurea in Psicologia",
    "Laurea in Scienze Politiche",
    "Laurea in Architettura",
    "Laurea in Medicina",
    "Laurea in Chimica",
    "Laurea in Fisica",
    "Laurea in Filosofia",
    "Laurea in Lettere",
    "Laurea in Storia",
    "Laurea in Informatica",
    "Laurea in Biologia",
    "Laurea in Scienze Motorie",
    "Laurea in Scienze della Comunicazione",
    "Laurea in Agraria",
    "Laurea in Scienze dell'Educazione"
])

# Array per i voti di laurea
voti_laurea = np.random.randint(60, 110, size=len(nomi_studenti)) 

print(voti_laurea, titoli_laurea, nomi_studenti)

# organizzare gli array in un dataframe

[ 80  60  86  81  93  91  72  66  64 102  76  99  69  77  79  92  68  77
 101  62] ['Laurea in Economia' 'Laurea in Ingegneria' 'Laurea in Matematica'
 'Laurea in Lettere' 'Laurea in Giurisprudenza' 'Laurea in Psicologia'
 'Laurea in Scienze Politiche' 'Laurea in Architettura'
 'Laurea in Medicina' 'Laurea in Chimica' 'Laurea in Fisica'
 'Laurea in Filosofia' 'Laurea in Lettere' 'Laurea in Storia'
 'Laurea in Informatica' 'Laurea in Biologia' 'Laurea in Scienze Motorie'
 'Laurea in Scienze della Comunicazione' 'Laurea in Agraria'
 "Laurea in Scienze dell'Educazione"] ['Mario ' 'Giulia ' 'Luca ' 'Anna ' 'Marco ' 'Chiara ' 'Simone ' 'Laura '
 'Alessio ' 'Elena ' 'Federico ' 'Valentina ' 'Giovanni ' 'Francesca '
 'Roberto ' 'Elisa ' 'Davide ' 'Martina ' 'Stefano ' 'Caterina ']


### Importazione DataFrame

Un dataframe si può importare da varie sorgenti. Di solito, nella pratica si importano file in formato csv o fogli di calcolo (formato .xls o .xlsx).

Per fare questo si utilizzano i metodi `pd.read_excel()` e `pd.read_csv()` ai quali si passa il nome o il percorso del file che ci interessa

**Attenzione** L'importazione di excel può dare errori in quanto i file excel a volte contengono elementi che non possono essere riconosciuti da pandas, a volte con le librerie `openpyxl` e `xlrd` il problema si risolve (quindi bisogna installarle con `pip install openpyxl xlrd`) altre volte bisogna aprire il file e modificare il suo contenuto o magari salvare in csv.


In [18]:
eta_dipendenti = pd.read_excel('https://github.com/pg-88/IFOA_ML_AI/raw/main/Risorse/Dipendenti_eta.xlsx')
print(eta_dipendenti.head(3))
larici_excel = pd.read_excel('https://github.com/pg-88/IFOA_ML_AI/raw/main/Risorse/Larici-analisiDati.xlsx')
larici_excel

    Dipendente    Età 
0             1     28
1             2     42
2             3     35


Unnamed: 0,Larice#,Circonferenza(cm),Altezza(m),Età(anni),Esposizione
0,Larice1,85,12,40,Sud
1,Larice2,92,14,45,Est
2,Larice3,105,16,50,Ovest
3,Larice4,80,11,38,Sud
4,Larice5,88,15,48,Est
5,Larice6,98,17,53,Est
6,Larice7,90,16,49,Ovest
7,Larice8,100,15,46,Est
8,Larice9,93,16,51,Est
9,Larice10,86,14,43,Nord


In [4]:
# https://github.com/pg-88/IFOA_ML_AI/raw/main/Risorse/dataset/titanic3.xls
titanic_df = pd.read_csv("https://raw.githubusercontent.com/pg-88/IFOA_ML_AI/main/Risorse/dataset/titanic3.csv")
titanic_df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,09167,1,2,113781,1515500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,1515500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,1515500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,1515500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,145,1,0,2665,144542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,144542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,265,0,0,2656,72250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,72250,,C,,,


## Primo sguardo ai dati 
Ci sono diversi metodi che permettono di capire la struttura e il contenuto di un DataFrame in Pandas. Ecco alcuni dei metodi più comuni:

`head()`: Questo metodo restituisce le prime n righe del DataFrame. Di default, restituisce le prime 5 righe, ma è possibile specificare un numero diverso di righe passando un argomento a head(n).

`tail()`: Questo metodo restituisce le ultime n righe del DataFrame. Di default, restituisce le ultime 5 righe, ma è possibile specificare un numero diverso di righe passando un argomento a tail(n).

`info()`: Questo metodo fornisce informazioni concise sul DataFrame, inclusi il numero di righe e colonne, i nomi delle colonne, il tipo di dati di ciascuna colonna e il numero di valori non nulli.

`describe()`: Questo metodo fornisce statistiche descrittive per le colonne numeriche del DataFrame, come conteggio, media, deviazione standard, valore minimo, quartili e valore massimo.


**Esistono anche diversi attributi che ci aiutano a capire com'è fatto il dataframe**

`shape`: Questo attributo restituisce una tupla che rappresenta le dimensioni del DataFrame, cioè il numero di righe e colonne.

`columns`: Questo attributo restituisce una lista dei nomi delle colonne del DataFrame.

`index`: Questo attributo restituisce una lista dei nomi degli indici del DataFrame.

In [21]:
# proviamo i metodi e gli attributi sul dataframe larice_df1



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Nome         15 non-null     object
 1   Esposizione  15 non-null     object
 2   Altezza      15 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 488.0+ bytes


RangeIndex(start=0, stop=15, step=1)

## Indice 
Quando non viene assegnato, l'indice è un range di numeri interi assegnato automaticamente da pandas, un po come le righe di excel.

In ogni caso è possibile assegnarlo utilizzando un campo del dataframe, con il metodo `set_index(<nome_campo>, drop=<True o False>)` il parametro drop di default è True e serve a decidere se eliminare il campo dal dataframe e usarlo solo come indice o mantenerlo nel dataframe.

Oppure andando direttamente ad assegnare il valore all'attributo `index`

In [36]:
# assegnamo un indice a larici_df1


## Colonne 
Per le colonne possiamo assegnare all'attributo `columns`, ad esempio per rinominare solo un campo possiamo ricavare i nomi attuali con il `df.columns` e assegnarli a una variabile, cambiare il valore dell'array all'indice che ci interessa e riassegnare l'array modificato a `df.columns`



In [37]:
# Proviamo a cambiare il nome del campo esposizione con "Versante


### Rename
Il metodo rename() in Pandas consente di rinominare gli indici di riga, gli indici di colonna o entrambi, all'interno di un DataFrame. Può essere utilizzato per rinominare singoli elementi, tutti gli elementi o una selezione di elementi specifici utilizzando dizionari di mapping.

- Rinominare gli indici di riga: puoi utilizzare il parametro index per rinominare gli indici di riga. Puoi specificare un dizionario che mappa gli indici di riga correnti ai nuovi nomi degli indici di riga.
- Rinominare le colonne: Utilizzando il parametro columns, puoi rinominare le colonne del DataFrame. Puoi specificare un dizionario che mappa i nomi delle colonne correnti ai nuovi nomi delle colonne.

Se imposti inplace=True, la modifica verrà eseguita direttamente sul DataFrame senza la necessità di assegnare l'output a un nuovo DataFrame. Se inplace=False (valore predefinito), verrà restituito un nuovo DataFrame con gli indici o le colonne rinominate senza modificare l'originale.

In [44]:
# esempio 

print(larici_df) # non ha nomi colonne

# proviamo ad aggiungerli

larici_df.rename(columns={0: "Esposizione", 1:"Altezza"})#, inplace=True)
# larici_df


              0   1
Larice1     Sud  12
Larice2     Est  14
Larice3   Ovest  16
Larice4     Sud  11
Larice5     Est  15
Larice6     Est  17
Larice7   Ovest  16
Larice8     Est  15
Larice9     Est  16
Larice10   Nord  14
Larice11  Ovest  15
Larice12   Nord  13
Larice13   Nord  14
Larice14  Ovest  12
Larice15   Nord  14


Unnamed: 0,Esposizione,Altezza
Larice1,Sud,12
Larice2,Est,14
Larice3,Ovest,16
Larice4,Sud,11
Larice5,Est,15
Larice6,Est,17
Larice7,Ovest,16
Larice8,Est,15
Larice9,Est,16
Larice10,Nord,14


## DataFrame - Series

I data frame sono fatti di serie. Per estrapolare una serie da un dataframe si può selezionare una sola colonna. 


In [None]:
# estrapolo la serie "Voti" dal dataframe 

## Creare e manipolare pd.Series
Da un dataframe estrapoliamo un campo particolare che ci serve:


In [56]:
# creiamo un DataFrame dal file oil.csv,
oil = pd.read_csv("https://frenzy86.s3.eu-west-2.amazonaws.com/python/data/retail/oil.csv")
oil

Unnamed: 0,date,dcoilwtico
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.20
...,...,...
1213,2017-08-25,47.65
1214,2017-08-28,46.40
1215,2017-08-29,46.46
1216,2017-08-30,45.96


In [65]:
# estrapoliamo la serie
oil.dcoilwtico 
# oppure con 
oil_serie = oil['dcoilwtico']
oil_serie


0         NaN
1       93.14
2       92.97
3       93.12
4       93.20
        ...  
1213    47.65
1214    46.40
1215    46.46
1216    45.96
1217    47.26
Name: dcoilwtico, Length: 1218, dtype: float64

In [102]:
# si possono anche creare a partire da un array
arr_da_df = np.array(oil['dcoilwtico'])
oil_serie = pd.Series() # si possono anche assegnare il nome e un indice alla Serie
oil_serie

date
2013-01-02    93.14
2013-01-03    92.97
2013-01-04    93.12
2013-01-07    93.20
2013-01-08    93.21
              ...  
2017-08-25    47.65
2017-08-28    46.40
2017-08-29    46.46
2017-08-30    45.96
2017-08-31    47.26
Length: 1175, dtype: float64

serie **diverso** da array

analizziamo la serie

In [25]:
# print(oil_serie.values) # np array 
# print(oil_serie.index) # indici della serie
# oil_array = 
# oil_array.mean() # su un'array non possiamo fare la media se ci sono valori NaN

### Eliminare NaN

NaN è un valore considerato numerico e sta per "not a number". Possiamo eliminare i valori di questo tipo col metodo `dropna()`

In [75]:
# oil_array = oil_serie.dropna()
# calcolare la media


### Tipo di dato

Metodo `dtype()` consente di capire il tipo di dato della nostra serie


In [100]:
# oil_series.dtype



dtype('float64')

Con `astype()` possiamo provare a cambiare il tipo di dato (cast)

In [23]:
# trasformiamo il tipo di dato in int


## Accedere ai valori

Per poter selezionare i valori di una serie utilizziamo `iloc[]` che localizza i valori in funzione dell'indice

In [None]:
# selezionare i primi 10 elementi della serie oil_series

# selezionare gli ultimi 10 valori

# selezionare i valori dal quinto al ventesimo e calcolarne la media, moda e mediana


Oltre ad `iloc` esiste anche `loc` che recupera i valori in funzione del nome dell'etichetta dell'indice


In [108]:
# selezionare i valori del 2015



53.19

il metodo `value_counts()` conta le volte in cui si presentano i valori in una serie, sono le frequenze assolute

### Ordinare i valori

Il metodo `sort_values()` mette in ordine i valori, mentre `sort_index()` mette in ordine per indice, si possono passare gli argomenti `inplace`(True o False) e `ascending`(True o False)


In [None]:
# ordinare per data crescente i 15 valori più alti della serie


## Filtrare i valori

Possiamo creare degli array booleani facendo operazioni booleane, questo array poi può servire per estrapolare dati dalla serie iniziale

In [113]:
# valori maggiori di 60 


## Altre funzioni
Si possono calcolare, massimo, prodotti, somme...

Altri metodi utili sono 

`serie.fillna(serie.median())` che permette di inserire, in questo caso il valore della mediana ogni volta che trova NaN

## DataFrame
Vediamo le funzionalità principali dei dataframe

In [115]:
path = "https://frenzy86.s3.eu-west-2.amazonaws.com/python/data/retail/transactions.csv"

transactions = pd.read_csv(path)
transactions.dtypes

date            object
store_nbr        int64
transactions     int64
dtype: object

**loc** e **iloc** possono prendere più parametri 

In [126]:
# recuperare le prime 5 righe 

# recuperare dalle prime 5 righe solo le date


In [None]:
# fare la somma delle transazioni 

## Drop 

Alle volte è necessario eliminare parti di dataframe, si usa il metodo `drop()`

In [125]:
# eliminare la prima riga 
# transactions.drop() ## i parametri sono label e axis per selezionare i pezzi e indicare se righe (axis 0 ) o colonne (axis 1)
# eliminare la colonna 'date'

### Eliminare duplicati 
il metodo `drop_duplicates()` elimina i valori che si ripetono, bisogna passare `subset` che indica il nome della colonna su cui intervenire e `keep` che indica se tenere la prima occorenza del valore o l'ultima

In [None]:
transactions.drop_duplicates() # eliminare duplicati su "store_nbr"

## Sorting 
Essendoci più campi il sortin si complica e posso indicare più campi da ordinare nello stesso dataframe

In [127]:
# ordinare per data crescente e per transazioni decrescenti 
transactions

Unnamed: 0,date,store_nbr,transactions
0,2013-01-01,25,770
1,2013-01-02,1,2111
2,2013-01-02,2,2358
3,2013-01-02,3,3487
4,2013-01-02,4,1922
...,...,...,...
83483,2017-08-15,50,2804
83484,2017-08-15,51,1573
83485,2017-08-15,52,2255
83486,2017-08-15,53,932


## Creare nuove colonne

Possiamo compiere operazioni sulle serie e assegnarle al dataframe per creare nuovi campi calcolati

Unnamed: 0,date,store_nbr,transactions,percentuale
0,2013-01-01,25,770,0.000544
1,2013-01-02,1,2111,0.001492
2,2013-01-02,2,2358,0.001667
3,2013-01-02,3,3487,0.002465
4,2013-01-02,4,1922,0.001359
...,...,...,...,...
83483,2017-08-15,50,2804,0.001982
83484,2017-08-15,51,1573,0.001112
83485,2017-08-15,52,2255,0.001594
83486,2017-08-15,53,932,0.000659


## group by
Raggruppa i dati in funzione di un dato campo 


In [139]:
titanic_df.groupby('sex').mean()
titanic_df

  titanic_df.groupby('sex').mean()


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,09167,1,2,113781,1515500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,1515500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,1515500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,1515500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,145,1,0,2665,144542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,144542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,265,0,0,2656,72250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,72250,,C,,,


aggregazione 

In [141]:
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
        'Città': ['Roma', 'Milano', 'Napoli', 'Roma', 'Milano', 'Napoli'],
        'Vendite': [100, 200, 150, 120, 250, 180],
        'Profitto': [20, 30, 25, 22, 35, 28]}

df = pd.DataFrame(data)
print(df)

      Nome   Città  Vendite  Profitto
0    Alice    Roma      100        20
1      Bob  Milano      200        30
2  Charlie  Napoli      150        25
3    Alice    Roma      120        22
4      Bob  Milano      250        35
5  Charlie  Napoli      180        28


In [142]:
# Raggruppiamo i dati per nome e calcoliamo la somma delle vendite e la media del profitto
result = df.groupby('Nome').agg({'Vendite': 'sum', 'Profitto': 'mean'})

print(result)

         Vendite  Profitto
Nome                      
Alice        220      21.0
Bob          450      32.5
Charlie      330      26.5


In [140]:
titanic_df.pivot_table(index="name")

  titanic_df.pivot_table(index="name")


Unnamed: 0_level_0,body,parch,pclass,sibsp,survived
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"Abbing, Mr. Anthony",,0,3,0,0.0
"Abbott, Master. Eugene Joseph",,2,3,0,0.0
"Abbott, Mr. Rossmore Edward",190.0,1,3,1,0.0
"Abbott, Mrs. Stanton (Rosa Hunt)",,1,3,1,1.0
"Abelseth, Miss. Karen Marie",,0,3,0,1.0
...,...,...,...,...,...
"del Carlo, Mrs. Sebastiano (Argenia Genovesi)",,0,2,1,1.0
"van Billiard, Master. James William",,1,3,1,0.0
"van Billiard, Master. Walter John",1.0,1,3,1,0.0
"van Billiard, Mr. Austin Blyler",255.0,2,3,0,0.0


In [33]:
titanic_df["sex"].astype('category')
serie_eta = pd.Series(titanic_df['age']).str.replace(',', '.').astype('float')
serie_eta_int = serie_eta.round(0)
serie_eta_int.dropna().astype('int')
titanic_df["eta_int"] = serie_eta_int
titanic_df['eta_int'].value_counts().sort_index().iloc[-20:]

53.0     4
54.0    10
55.0     8
56.0     5
57.0     5
58.0     6
59.0     3
60.0     8
61.0     5
62.0     5
63.0     4
64.0     5
65.0     3
66.0     1
67.0     1
70.0     3
71.0     2
74.0     1
76.0     1
80.0     1
Name: eta_int, dtype: int64

In [43]:
titanic_df['eta_range'] = pd.cut(titanic_df['eta_int'], bins=[0, 10, 20, 30, 40, 50, 60, 100])
titanic_df[['age','sex','pclass', 'eta_range']]


Unnamed: 0,age,sex,pclass,eta_range
0,29,female,1,"(20.0, 30.0]"
1,09167,male,1,"(0.0, 10.0]"
2,2,female,1,"(0.0, 10.0]"
3,30,male,1,"(20.0, 30.0]"
4,25,female,1,"(20.0, 30.0]"
...,...,...,...,...
1304,145,female,3,"(10.0, 20.0]"
1305,,female,3,
1306,265,male,3,"(20.0, 30.0]"
1307,27,male,3,"(20.0, 30.0]"


In [45]:
titanic_df.info()
titanic_df.replace()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   pclass     1309 non-null   int64   
 1   survived   1309 non-null   int64   
 2   name       1309 non-null   object  
 3   sex        1309 non-null   object  
 4   age        1046 non-null   object  
 5   sibsp      1309 non-null   int64   
 6   parch      1309 non-null   int64   
 7   ticket     1309 non-null   object  
 8   fare       1308 non-null   object  
 9   cabin      295 non-null    object  
 10  embarked   1307 non-null   object  
 11  boat       486 non-null    object  
 12  body       121 non-null    float64 
 13  home.dest  745 non-null    object  
 14  eta_int    1046 non-null   float64 
 15  eta_range  1043 non-null   category
dtypes: category(1), float64(2), int64(4), object(9)
memory usage: 155.2+ KB


0       211,3375
1       151,5500
2       151,5500
3       151,5500
4       151,5500
          ...   
1304     14,4542
1305     14,4542
1306      7,2250
1307      7,2250
1308      7,8750
Name: fare, Length: 1309, dtype: object