# Introducción a pandas

**Pandas es una librería de python que nos va permitir manipular de manera práctica y rápida tablas de datos extensas.**

**Basicamente cuando tabajemos con pandas nos vamos a encontrar con dos estructuras
de datos que son las *Series* y los *Dataframe*.**

In [1]:
# Importamos las librerias que vamos a usar
import numpy as np
import pandas as pd

### ***Series***

In [2]:
series = pd.Series([9508202,20309019,20058967,9374785,16272994,18399452])
series

0     9508202
1    20309019
2    20058967
3     9374785
4    16272994
5    18399452
dtype: int64

**En principio la serie se parace a las listas. Pero veamos que tiene un tipo de dato asociado que en este caso es ``dtype: int64``, al igual que lo tendría un array de numpy.**

**Una característica importante es que podemos ponerle un nombre a esta serie:**

In [3]:
series.name = 'GalaxyID'
series

0     9508202
1    20309019
2    20058967
3     9374785
4    16272994
5    18399452
Name: GalaxyID, dtype: int64

También podemos acceder a los valores de series en forma de array mediane ``.to_numpy()`` o ``.values`` 

In [4]:
series.values

array([ 9508202, 20309019, 20058967,  9374785, 16272994, 18399452])

In [5]:
series[0]

9508202

In [6]:
series[4]

16272994

**Otra diferencia fundamental con las listas es las series se puede cambiar el índice
de cada fila.**

In [7]:
series.index = ['Jose','Juan','Alexia','Pablo','Leon','Esmeralda']
series

Jose          9508202
Juan         20309019
Alexia       20058967
Pablo         9374785
Leon         16272994
Esmeralda    18399452
Name: GalaxyID, dtype: int64

In [8]:
series['Juan']

20309019

**Aunque si queremos recuperar la idea de posición en un array o lista siempre
podemos usar:**

In [9]:
series.iloc[0]

9508202

**``.iloc[n]`` nos devuelve el valor en la posición n de la serie.
También vamos a poder acceder a multiples valores.**

In [10]:
series.iloc[[0,1]]

Jose     9508202
Juan    20309019
Name: GalaxyID, dtype: int64

### ***Dataframe***

**Un dataframe es una tabla con columnas y filas indexadas, de forma tal que podemos acceder fácilmente a filas mediante el índice. También podemos unir, separar o filtrar dataframes trabajando sobre el índice.**

**Una forma de construir dataframes es a partir de diccionarios, de forma tal que asignamos una lista a cada llave, que representa una columna del dataframe:**

In [11]:
data = {'GalaxyID':[ 9498012, 9508202, 9512113, 9517736],
        'Stars_Mass':[ 1.53870811e+11, 7.60409948e+10, 1.34512755e+11, 2.23299686e+10],
        'Sf_metalicity':[ np.nan, 9.07982414, 9.24627389, 9.05002809],
        'Lm_snap2':[ 1., 1., np.nan, np.nan]}

In [12]:
# Con el diccionario creado armamos el dataframe
df = pd.DataFrame(data,index=['Jose','Juan','Alexia','Esmeralda'])
df

Unnamed: 0,GalaxyID,Stars_Mass,Sf_metalicity,Lm_snap2
Jose,9498012,153870800000.0,,1.0
Juan,9508202,76040990000.0,9.079824,1.0
Alexia,9512113,134512800000.0,9.246274,
Esmeralda,9517736,22329970000.0,9.050028,


In [13]:
print('Lista de índices: ',list(df.index))
print('Lista de columnas:',list(df.columns))

Lista de índices:  ['Jose', 'Juan', 'Alexia', 'Esmeralda']
Lista de columnas: ['GalaxyID', 'Stars_Mass', 'Sf_metalicity', 'Lm_snap2']


**Algunas funciones que pueden ser útiles:**

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Jose to Esmeralda
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   GalaxyID       4 non-null      int64  
 1   Stars_Mass     4 non-null      float64
 2   Sf_metalicity  3 non-null      float64
 3   Lm_snap2       2 non-null      float64
dtypes: float64(3), int64(1)
memory usage: 160.0+ bytes


In [16]:
df.size

16

In [17]:
df.describe()

Unnamed: 0,GalaxyID,Stars_Mass,Sf_metalicity,Lm_snap2
count,4.0,4.0,3.0,2.0
mean,9509016.0,96688630000.0,9.125375,1.0
std,8314.253,59598660000.0,0.105756,0.0
min,9498012.0,22329970000.0,9.050028,1.0
25%,9505654.0,62613240000.0,9.064926,1.0
50%,9510158.0,105276900000.0,9.079824,1.0
75%,9513519.0,139352300000.0,9.163049,1.0
max,9517736.0,153870800000.0,9.246274,1.0


In [18]:
df.shape

(4, 4)

In [19]:
df.dtypes

GalaxyID           int64
Stars_Mass       float64
Sf_metalicity    float64
Lm_snap2         float64
dtype: object

**Podemos usar ``.loc[]`` y ``.iloc[]`` para seleccionar filas según su índice y su posición secuencial respectivamente:** 

In [20]:
df.loc['Jose':'Esmeralda'] # Diferencia en el ecorrido del indice

Unnamed: 0,GalaxyID,Stars_Mass,Sf_metalicity,Lm_snap2
Jose,9498012,153870800000.0,,1.0
Juan,9508202,76040990000.0,9.079824,1.0
Alexia,9512113,134512800000.0,9.246274,
Esmeralda,9517736,22329970000.0,9.050028,


In [21]:
df.iloc[0:4]

Unnamed: 0,GalaxyID,Stars_Mass,Sf_metalicity,Lm_snap2
Jose,9498012,153870800000.0,,1.0
Juan,9508202,76040990000.0,9.079824,1.0
Alexia,9512113,134512800000.0,9.246274,
Esmeralda,9517736,22329970000.0,9.050028,


**Ponerle nombres propios a las galaxias parece un poco exagerado, lo maś natural es que el índice sea, por ej, el GalaxyID:**

In [24]:
df.set_index('GalaxyID',inplace= True)

In [25]:
df

Unnamed: 0_level_0,Stars_Mass,Sf_metalicity,Lm_snap2
GalaxyID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9498012,153870800000.0,,1.0
9508202,76040990000.0,9.079824,1.0
9512113,134512800000.0,9.246274,
9517736,22329970000.0,9.050028,


In [26]:
df.loc[9512113]

Stars_Mass       1.345128e+11
Sf_metalicity    9.246274e+00
Lm_snap2                  NaN
Name: 9512113, dtype: float64

**Y también podemos hecer iteraciones sobre varias filas y columnas:**

In [27]:
df.loc[[9498012,9512113],['Sf_metalicity']]

Unnamed: 0_level_0,Sf_metalicity
GalaxyID,Unnamed: 1_level_1
9498012,
9512113,9.246274


**Lo mismo para la función ``.iloc[]``**

In [28]:
df.iloc[[0,2],0:3]

Unnamed: 0_level_0,Stars_Mass,Sf_metalicity,Lm_snap2
GalaxyID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9498012,153870800000.0,,1.0
9512113,134512800000.0,9.246274,


**También podemos seleccionar una cierta columna de un dataframe, que es del tipo series:**

In [30]:
df['Stars_Mass']

GalaxyID
9498012    1.538708e+11
9508202    7.604099e+10
9512113    1.345128e+11
9517736    2.232997e+10
Name: Stars_Mass, dtype: float64

In [None]:
type(df[])

Una ventaja del dataframe son los métodos que tiene para la limpieza de datos. Esto es útil si por ejemplo queremos descartar filas o columnas duplicadas o con datos faltantes. Supongamos que tenemos un dataframe en el cual faltan algunos datos (identificados con "nan") y algunas de las filas están duplicadas.

In [None]:
pd.options.display.max_rows = 20 
pd.options.display.max_columns = 50