# Introducción a Pandas

Plan:
1. Estructuras en Pandas
2. Selección de datos
3. Agrupamiento de datos
4. Reestructuración/reordenamiento de datos (Tidy data)

# 1.  Estructuras en Pandas

1. Series
2. Dataframes
3. Índices

# 1.1 Series

In [1]:
import pandas as pd

<center>
    <img src="https://www.w3resource.com/w3r_images/pandas-series-add-image-1.svg" style="width: 50%;"/>
</center>

In [42]:
# Declaración de series, índice asignado por defecto
s1 = pd.Series([12,-4,7,9])
type(s1)

pandas.core.series.Series

In [43]:
type(s1.index)

pandas.core.indexes.range.RangeIndex

In [44]:
s1

0    12
1    -4
2     7
3     9
dtype: int64

In [45]:
# Creación especificando índice
s2 = pd.Series([12,-4,7,9], index=['a','b','c','d'])
s2

a    12
b    -4
c     7
d     9
dtype: int64

In [46]:
type(s2.index)

pandas.core.indexes.base.Index

In [47]:
# Operadores sobre una serie
s = pd.Series([1,2,3,4])
s / 2

0    0.5
1    1.0
2    1.5
3    2.0
dtype: float64

In [48]:
# Pertenencia a un conjunto
s = pd.Series([1,2,3,4])
s.isin([0,3])

0    False
1    False
2     True
3    False
dtype: bool

In [49]:
mydict = {'red': 2000, 'blue': 1000, 'yellow': 500,'orange': 1000}
s = pd.Series(mydict)
s, type(s.index)

(red       2000
 blue      1000
 yellow     500
 orange    1000
 dtype: int64,
 pandas.core.indexes.base.Index)

In [50]:
# Contar valores únicos
s = pd.Series([1,2,3,2,3,2,32,2,2,3,2])
s.value_counts()

2     6
3     3
32    1
1     1
dtype: int64

# 1.2 Dataframes

<center>
<img src="https://i2.wp.com/www.emilkhatib.es/wp-content/uploads/2015/11/DataFrameES.png"/>
</center>

In [51]:
# Creación a partir de diccionario
data = {
    'color' : ['blue','green','yellow','red','white'],
    'object' : ['ball','pen','pencil','paper','mug'],
    'price' : [1.2,1.0,0.6,0.9,1.7] 
}
df = pd.DataFrame(data)
df.head(5)

Unnamed: 0,color,object,price
0,blue,ball,1.2
1,green,pen,1.0
2,yellow,pencil,0.6
3,red,paper,0.9
4,white,mug,1.7


In [52]:
# Crear sólo algunas columnas
df2 = pd.DataFrame(data, columns=['object','price'])
df2

Unnamed: 0,object,price
0,ball,1.2
1,pen,1.0
2,pencil,0.6
3,paper,0.9
4,mug,1.7


In [55]:
# Desde array de Numpy
import numpy as np
df3 = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['red','blue','yellow','white'],
                   columns=['ball','pen','pencil','paper']
                  )
df3

Unnamed: 0,ball,pen,pencil,paper
red,0,1,2,3
blue,4,5,6,7
yellow,8,9,10,11
white,12,13,14,15


In [56]:
# Selección de valores (columnas)
df3.columns

Index(['ball', 'pen', 'pencil', 'paper'], dtype='object')

In [57]:
# Selección de valores (índice)
df3.index

Index(['red', 'blue', 'yellow', 'white'], dtype='object')

In [58]:
# Selección de valores (datos)
df3.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [60]:
# Selección de valores (series)
df3['ball']

red        0
blue       4
yellow     8
white     12
Name: ball, dtype: int32

In [61]:
df3[['ball','pen']]

Unnamed: 0,ball,pen
red,0,1
blue,4,5
yellow,8,9
white,12,13


In [62]:
# Agregar una columna
# Importante! tamaño de la serie a agregar
df3["scissor"] = np.random.randn(len(df3))
df3

Unnamed: 0,ball,pen,pencil,paper,scissor
red,0,1,2,3,0.558059
blue,4,5,6,7,-0.34574
yellow,8,9,10,11,1.375991
white,12,13,14,15,1.068948


# 1.3 Índices

- El indexado es fundamental en Pandas y es lo que hace que el acceso a los datos sea rápido.
- Se implementan en Numpy como un arreglo inmutable (no pueden ser modificados) y contiene objetos que se pueden consultar por hash.
- Dos tipos de índices:
    - Verticales (filas)
    - Horizontales (columnas)

## Tipos de índices

- Index: genérico, es el que utilizan las columnas).
- RangeIndex: (por defecto para las filas).
- Int64Index 
- Float64Index
- IntervalIndex
- CategoricalIndex
- DateTimeIndex
- PeriodIndex
- TimedeltaIndex
- MultiIndex

In [66]:
# Custom index. 
periodic_table=pd.DataFrame({'Element':['Hydrogen','Helium','Lithium',
'Beryllium','Boron'],'Symbols':['H','He','Li','Be','B']})
periodic_table.set_index(['Symbols'])
#periodic_table

Unnamed: 0_level_0,Element
Symbols,Unnamed: 1_level_1
H,Hydrogen
He,Helium
Li,Lithium
Be,Beryllium
B,Boron


In [67]:
# Efecto de los índices en la búsqueda
periodic_table=pd.DataFrame({
    'Atomic Number':[1,2,3,4,5],
    'Element': ['Hydrogen','Helium','Lithium','Beryllium','Boron'],
    'Symbol':['H','He','Li','Be','B']
})

%timeit periodic_table[periodic_table['Atomic Number']==2]

505 µs ± 23 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [68]:
periodic_table

Unnamed: 0,Atomic Number,Element,Symbol
0,1,Hydrogen,H
1,2,Helium,He
2,3,Lithium,Li
3,4,Beryllium,Be
4,5,Boron,B


In [69]:
new_periodic_table=periodic_table.set_index(['Atomic Number'])
%timeit new_periodic_table.loc[2]

99.1 µs ± 4.64 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [70]:
new_periodic_table

Unnamed: 0_level_0,Element,Symbol
Atomic Number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Hydrogen,H
2,Helium,He
3,Lithium,Li
4,Beryllium,Be
5,Boron,B


# 2. Selección de datos

- loc, iloc

## loc, iloc

- En lo posible, utilizar estos métodos.
- *loc* permite acceder a los datos utilizando etiquetas, de manera similar a como se seleccionan los datos en diccionarios.
- *iloc* permite acceder utilizando un entero representando la posición del elemento, de manera similar a como se seleccionan elemetnos de una lista o array.

In [71]:
# loc, iloc
df=pd.DataFrame({
    'Atomic Number':[1,2,3,4,5],
    'Element': ['Hydrogen','Helium','Lithium','Beryllium','Boron'],
    'Symbol':['H','He','Li','Be','B']
})
 

In [72]:
new_periodic_table.loc[:,['Symbol']]

Unnamed: 0_level_0,Symbol
Atomic Number,Unnamed: 1_level_1
1,H
2,He
3,Li
4,Be
5,B


# 3. Agrupamiento y agregación

- Agregación es el proceso de resumir un grupo de valores en un valor único.
- [Metodología Split-Apply-Combine" propuesta por el estadista Hadley Wicham de tres pasos](https://www.jstatsoft.org/article/view/v040i01/v40i01.pdf):

1. Particionar los datos en grupos pequeños que sean manejables e independientes. Esto se hace en Pandas con *groupby()*.
2. Aplicar funciones a cada uno de estos grupos. Algunos ejemplos: mínimos, máximas, mediana, promedio, suma, desvío estándar, varianza, tamaño. Cada una de estas funciones de agregación calcula el valor para el grupo completo. Nota: también se pueden definir funciones de agregación propias.
3. Combinar los resultados aplicando funciones a cada grupo en un objeto final.

In [75]:
df = pd.read_csv('../ejercicios/datos/subset-covid-data.csv')
df.describe()

Unnamed: 0,day,month,year,cases,deaths,population
count,206.0,206.0,206.0,206.0,206.0,202.0
mean,12.024272,3.985437,2020.0,395.247573,29.713592,37317160.0
std,0.424141,0.20902,0.0,2160.176439,159.533131,141377600.0
min,11.0,1.0,2020.0,0.0,0.0,1000.0
25%,12.0,4.0,2020.0,0.0,0.0,1278222.0
50%,12.0,4.0,2020.0,11.5,0.0,7042862.0
75%,12.0,4.0,2020.0,88.75,3.0,26000840.0
max,18.0,4.0,2020.0,28391.0,1831.0,1392730000.0


In [77]:
# otra forma: df.groupby('continent')['cases','deaths'].agg(np.sum)
df.groupby('continent')[['cases','deaths']].sum()

Unnamed: 0_level_0,cases,deaths
continent,Unnamed: 1_level_1,Unnamed: 2_level_1
Africa,714,52
America,33519,2111
Asia,12979,383
Europe,34141,3571
Oceania,68,4
Other,0,0


In [78]:
grouped_continents = df.groupby('continent')[['cases','deaths']]
type(grouped_continents)

pandas.core.groupby.generic.DataFrameGroupBy

In [82]:
grouped_continents.groups.keys()

dict_keys(['Africa', 'America', 'Asia', 'Europe', 'Oceania', 'Other'])

In [84]:
# Datos de un grupo
grouped_continents.get_group('Oceania').head(5)

Unnamed: 0,cases,deaths
10,51,3
67,0,0
70,0,0
80,3,1
136,0,0


In [85]:
##### Todos los continentes cuyo promedio de muertes sea mayor o igual a 40
grouped_continents=df.groupby('continent')
grouped_continents.filter(lambda x:x['deaths'].mean()>=40).head(5)

Unnamed: 0,country,continent,date,day,month,year,cases,deaths,country_code,population
1,Albania,Europe,2020-04-12,12,4,2020,17,0,ALB,2866376.0
3,Andorra,Europe,2020-04-12,12,4,2020,21,2,AND,77006.0
5,Anguilla,America,2020-04-12,12,4,2020,0,0,,
6,Antigua_and_Barbuda,America,2020-04-12,12,4,2020,0,0,ATG,96286.0
7,Argentina,America,2020-04-12,12,4,2020,162,7,ARG,44494502.0


In [86]:
# transform aplica una función a cada valor del grupo. 
# Devuelve un objeto con el mismo número de filas que el original
grouped_continents['population'].transform(lambda x:x/1000000).head(5)

0    37.172386
1     2.866376
2    42.228429
3     0.077006
4    30.809762
Name: population, dtype: float64

In [87]:
# apply() aplica una función a cada grupo de un objeto groupby. 
# La diferencia es que es más flexible en cuanto a la forma del objeto devuelto 
# (no necesariamente tiene que tener la misma cantidad de 
grouped_continents.apply(lambda x:x.isna().sum())

Unnamed: 0_level_0,country,continent,date,day,month,year,cases,deaths,country_code,population
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Africa,0,0,0,0,0,0,0,0,0,1
America,0,0,0,0,0,0,0,0,3,3
Asia,0,0,0,0,0,0,0,0,0,0
Europe,0,0,0,0,0,0,0,0,0,0
Oceania,0,0,0,0,0,0,0,0,0,0
Other,0,0,0,0,0,0,0,0,1,0


# 4. Reestructuración/reordenamiento de datos (Tidy data)

- *Tidy data* es un término empleado por primera vez por Hadley Wickham. 
- De acuerdo a su publicación [Tidy Data](http://vita.had.co.nz/papers/tidy-data.pdf) para que los datos estén "ordenados"
    - Las columnas deben corresponder a variables en los datos, y cada variable debe corresponder a una única columna.
    - Las filas sólo pueden contener observaciones, no variables.
    - Cada estructura o tabla sólo puede contener una unidad observacional.
    
**Importante**: no confundir con "limpieza" de datos (data cleansing), que se ocupa de tratar valores faltantes, información redundante, o conversión de tipos.
Columns correspond to variables in the data, and each variable

In [88]:
# Ilustraremos algunas operaciones de conversión con el siguiente dataset
grades=pd.DataFrame(
    {'Biology':[90,87,45],'Chemistry':[46,56,87],'Mathematics':[95,74,45],'Physics':[75,65,33]},
    index=['Andrew','Sarah','Jason'])
grades

Unnamed: 0,Biology,Chemistry,Mathematics,Physics
Andrew,90,46,95,75
Sarah,87,56,74,65
Jason,45,87,45,33


#### Stack / Melt (wide-to-long)

In [89]:
# stack
grades_stacked=grades.stack()
grades_stacked

Andrew  Biology        90
        Chemistry      46
        Mathematics    95
        Physics        75
Sarah   Biology        87
        Chemistry      56
        Mathematics    74
        Physics        65
Jason   Biology        45
        Chemistry      87
        Mathematics    45
        Physics        33
dtype: int64

In [90]:
# El tipo devuelto es series con un MultiIndex
type(grades_stacked),type(grades_stacked.index)

(pandas.core.series.Series, pandas.core.indexes.multi.MultiIndex)

In [91]:
# Para convertir a Dataframe, 
# De la doc: This is useful when the index needs to be treated as a column, or
# when the index is meaningless and needs to be reset to the default
# before another operation.
grades_stacked.reset_index()

Unnamed: 0,level_0,level_1,0
0,Andrew,Biology,90
1,Andrew,Chemistry,46
2,Andrew,Mathematics,95
3,Andrew,Physics,75
4,Sarah,Biology,87
5,Sarah,Chemistry,56
6,Sarah,Mathematics,74
7,Sarah,Physics,65
8,Jason,Biology,45
9,Jason,Chemistry,87


In [92]:
# renaming
grades_stacked.rename_axis(['student_name','subject']).reset_index(name='marks')

Unnamed: 0,student_name,subject,marks
0,Andrew,Biology,90
1,Andrew,Chemistry,46
2,Andrew,Mathematics,95
3,Andrew,Physics,75
4,Sarah,Biology,87
5,Sarah,Chemistry,56
6,Sarah,Mathematics,74
7,Sarah,Physics,65
8,Jason,Biology,45
9,Jason,Chemistry,87


In [93]:
# Inversa
grades_stacked.unstack()

Unnamed: 0,Biology,Chemistry,Mathematics,Physics
Andrew,90,46,95,75
Sarah,87,56,74,65
Jason,45,87,45,33


### Pivot (long to wide)

In [94]:
grades=pd.DataFrame({
    'Student_Name':['Andrew','Sarah','Jason'],
    'Biology':[90,87,45],
    'Chemistry':[46,56,87],
    'Mathematics':[95,74,45],'Physics':[75,65,33]})
grades

Unnamed: 0,Student_Name,Biology,Chemistry,Mathematics,Physics
0,Andrew,90,46,95,75
1,Sarah,87,56,74,65
2,Jason,45,87,45,33


In [95]:
grades_melted=grades.melt(
    id_vars='Student_Name',value_vars=['Biology','Chemistry','Physics','Mathematics'],
    var_name='Subject',value_name='Marks')
grades_melted

Unnamed: 0,Student_Name,Subject,Marks
0,Andrew,Biology,90
1,Sarah,Biology,87
2,Jason,Biology,45
3,Andrew,Chemistry,46
4,Sarah,Chemistry,56
5,Jason,Chemistry,87
6,Andrew,Physics,75
7,Sarah,Physics,65
8,Jason,Physics,33
9,Andrew,Mathematics,95


In [96]:
#Converting back to wide format with the pivot method
grades_melted.pivot(index='Student_Name',columns='Subject',values='Marks')

Subject,Biology,Chemistry,Mathematics,Physics
Student_Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Andrew,90,46,95,75
Jason,45,87,45,33
Sarah,87,56,74,65


# Referencias

- [Pandas User Guide (Sitio oficial)](https://pandas.pydata.org/docs/user_guide/)
- A Python Data Analyst's Toolkit