## ¿Qué es Pandas?

* Pandas es una librería que se extiende de NumPy utilizada para la manipulación y análisis de datos
* Ofrece estructuras de datos más complejas pero a la vez más eficientes para almacenar y operar sobre datos, usualmente heterogéneos (parecidos a los arreglos estructurales de NumPy)
* Las estructuras de datos más importantes que ofrece son: 
 * $\textbf{DataFrames}$
 * $\textbf{Series}$

## Importando Pandas 

* Para importar Pandas simplemente hacemos:

In [3]:
import pandas as pd
import numpy as np

* Jupyter Notebook nos ofrece la posibilidad de ver la documentación del paquete de la siguiente forma

In [4]:
#pd?

## DataFrames en Pandas

* Los DataFrames son una estructura de datos en dos dimensiones con columnas de datos de tipos potencialmente diferentes
* Si no se especifíca, los índices parten del $0$ al $n-1$ dato
* En palabras simples, es básicamente la representación de un archivo Excel pero en Python

## Cómo crear DataFrames

* Hay muchas formas de crear un Dataframe en Pandas, una forma simple de realizarlo es con un diccionario y listas nativas de Python

In [5]:
datos = { 
     'nombre' : ["Pepe", "María", "Luis", "Juan", "Ernesto","Fernando", "Gonzalo"],
     'edad' : [20,23,25, 25, 19, 21, 24],
     'universidad': ["USM", "PUC", "PUC", "UCH", "USACH", "USM", "UDP"]
} #diccionario con nuestros datos

df = pd.DataFrame(datos) #usamos pd.Dataframe() para crear el dataframe (df)
df

Unnamed: 0,nombre,edad,universidad
0,Pepe,20,USM
1,María,23,PUC
2,Luis,25,PUC
3,Juan,25,UCH
4,Ernesto,19,USACH
5,Fernando,21,USM
6,Gonzalo,24,UDP


## Utilidades de los DataFrames

* Podemos ver los tipos de datos de las columnas de la siguiente forma:

In [6]:
df.dtypes

nombre         object
edad            int64
universidad    object
dtype: object

* Por lo general, nuestros dataframes tendrán cientos y miles de datos. Con $head()$ y $tail()$ podemos ver una cantidad específica de filas

In [7]:
print(df.head()) #si no se pasa parámetro, muestra por defecto las primeras 5 filas
print("---------------------------------")
print(df.tail()) #si no se pasa parámetro, muestra por defecto las últimas 5 filas
print("---------------------------------")
print(df.head(3)) #muestra las 3 primeras filas
print("---------------------------------")
print(df.tail(2)) #muestra las 2 útlimas filas

    nombre  edad universidad
0     Pepe    20         USM
1    María    23         PUC
2     Luis    25         PUC
3     Juan    25         UCH
4  Ernesto    19       USACH
---------------------------------
     nombre  edad universidad
2      Luis    25         PUC
3      Juan    25         UCH
4   Ernesto    19       USACH
5  Fernando    21         USM
6   Gonzalo    24         UDP
---------------------------------
  nombre  edad universidad
0   Pepe    20         USM
1  María    23         PUC
2   Luis    25         PUC
---------------------------------
     nombre  edad universidad
5  Fernando    21         USM
6   Gonzalo    24         UDP


* También se pueden obtener el nombre de las columnas y los índices:

In [8]:
print(df.index) #del 0 al 6
print(df.columns) #nombres de las columnas

RangeIndex(start=0, stop=7, step=1)
Index(['nombre', 'edad', 'universidad'], dtype='object')


* Si queremos un resumen estadístico de manera rápida de nuestro dataframe, podemos utilizar el método $describe()$:

In [9]:
df.describe() #muestra resumenes estadísticos de todas las columnas numéricas, en este caso la columna edad

Unnamed: 0,edad
count,7.0
mean,22.428571
std,2.43975
min,19.0
25%,20.5
50%,23.0
75%,24.5
max,25.0


## Series en Pandas

* En general, el trabajo con datos que se realiza en los dataframes es en base a las columnas de éstos, y las columnas en los dataframes son las $Series$
* Por ejemplo, en nuestro caso anterior, tenemos un DataFrame compuesto de 3 Series, $\textbf{nombre, edad, universidad}$

In [10]:
#Podemos obtener los valores de cada columna de nuestro DataFrame, mostrándose como un arreglo de NumPy
print(df['nombre'].values)
print(df['edad'].values)
print(df['universidad'].values)

['Pepe' 'María' 'Luis' 'Juan' 'Ernesto' 'Fernando' 'Gonzalo']
[20 23 25 25 19 21 24]
['USM' 'PUC' 'PUC' 'UCH' 'USACH' 'USM' 'UDP']


* Podemos crear una Series de Pandas a partir de una lista nativa de Python:

In [11]:
ramos = pd.Series(['Programación','Programación','Cálculo II','Cálculo II','Cálculo II','EDO','Física General III'])
ramos

0          Programación
1          Programación
2            Cálculo II
3            Cálculo II
4            Cálculo II
5                   EDO
6    Física General III
dtype: object

* Podemos acceder a los elementos individuales de la Series, de manera como si accediésemos a los índices de una lista o arreglo

In [12]:
print(ramos[0]) #muestra el primer elemento 
print("---------------------------------")
print(ramos[0:3]) #muestra del índice 0 al 3, sin incluir el 4to elemento
print("---------------------------------")
print(ramos[::2])
print("---------------------------------") #muestra saltándose de 2 en 2

Programación
---------------------------------
0    Programación
1    Programación
2      Cálculo II
dtype: object
---------------------------------
0          Programación
2            Cálculo II
4            Cálculo II
6    Física General III
dtype: object
---------------------------------


* Si queremos, podemos agregar una Series a un DataFrame de la siguiente forma:

In [13]:
df['ramo'] = ramos #añadimos nueva columna etiquetada como 'ramo' y la igualamos a la variable ramos, que es una Series
df

Unnamed: 0,nombre,edad,universidad,ramo
0,Pepe,20,USM,Programación
1,María,23,PUC,Programación
2,Luis,25,PUC,Cálculo II
3,Juan,25,UCH,Cálculo II
4,Ernesto,19,USACH,Cálculo II
5,Fernando,21,USM,EDO
6,Gonzalo,24,UDP,Física General III


## Acceso a las Series

* Las Series (columnas de un DataFrame) de Pandas son muy flexibles en cuánto a su acceso, principalmente debido a que los índices se pueden comportar como números (así como si fuese un arreglo de NumPy) tanto como strings (así como si fuese un diccionario de Python)
* Utilizaremos el DataFrame anterior y crearemos otro nuevo para demostrar la flexibilidad de las Series:

In [14]:
nombres_paises = ['Chile','Colombia','Inglaterra','Brasil','México','Argentina']
capitales = ['Santiago','Bogotá','Londres','Brasilia','Ciudad de México','Buenos Aires']
habitantes = [19107000,50372424,66796807,212822000,126014024,45376763]
superficie = [756102,1141748,243610,8515767,1964375,2780400]
df_2 = pd.DataFrame({'capital': capitales, # es posible crear el df con un diccionario, en donde las llaves son 
                     'habitantes': habitantes, # los nombres de las columnas, y los valores son los datos de éstas
                     'superficie (km^2)': superficie}, 
                   index = nombres_paises) # creamos un dataframe, compuesto de las listas creadas
                                           # notemos que explicitamos el índice a ser usado

In [15]:
df

Unnamed: 0,nombre,edad,universidad,ramo
0,Pepe,20,USM,Programación
1,María,23,PUC,Programación
2,Luis,25,PUC,Cálculo II
3,Juan,25,UCH,Cálculo II
4,Ernesto,19,USACH,Cálculo II
5,Fernando,21,USM,EDO
6,Gonzalo,24,UDP,Física General III


In [16]:
df_2

Unnamed: 0,capital,habitantes,superficie (km^2)
Chile,Santiago,19107000,756102
Colombia,Bogotá,50372424,1141748
Inglaterra,Londres,66796807,243610
Brasil,Brasilia,212822000,8515767
México,Ciudad de México,126014024,1964375
Argentina,Buenos Aires,45376763,2780400


* Notemos que df tiene índices en base a la posición (como si fuese un arreglo o lista), mientras que df_2 tiene como índice a los paises

## .loc y .iloc

In [18]:
df_2.iloc[0]

capital              Santiago
habitantes           19107000
superficie (km^2)      756102
Name: Chile, dtype: object