
<img src="img/viu_logo.png" width="200">

## 01MIAR - Estructuras de datos, +Pandas

![logo](img/python_logo.png)

*Ivan Fuertes / Franklin Alvarez*

In [None]:
import pandas as pd
import numpy as np

In [None]:
pd.__version__

# Operaciones en pandas

In [None]:
rand_matrix = np.random.randint(6,size=(4,6))
frame = pd.DataFrame(rand_matrix , columns=list('ABCDEF'))
display(frame)

In [None]:
# Pandas utiliza numpy por debajo. Podemos acceder a un nparray equivalente a través de values
print(frame.values)
print(type(frame.values))

#### Búsqueda

In [None]:
# El operador in busca en columnas (DataFrame como dic, busca en claves)
'E' in frame

In [None]:
# Puedes buscar valores en el dataframe que pertenezcan a una lista con el método isin
lista = [2, 3]
search_mask = frame.isin(lista)

display(search_mask) # --> mask de respuesta (valores que son 3 o 2)
display(frame[search_mask])

In [None]:
# Contar el número de ocurrencias
# Por columnas
print(search_mask.sum())
print()

# Por filas
print(search_mask.sum(axis=1))
print()

# En total
print("Se han encontrado {} ocurrencias".format(search_mask.sum().sum()))
# print("Se han encontrado {} ocurrencias".format(search_mask.values.sum()))

#### Ordenación

In [None]:
from random import shuffle

rand_matrix = np.random.randint(20,size=(5,4))

indices = list(range(5))
indx_col = list('ABCD')

shuffle(indices) # mezcla indices
shuffle(indx_col) # mezcla indices

frame = pd.DataFrame(rand_matrix , columns=indx_col, index=indices)
display(frame)

In [None]:
# ordenar por índice
frame.sort_index(ascending=True, inplace=True)
display(frame)

In [None]:
#ordenar por columna
frame.sort_index(axis=1, ascending=False, inplace=True)
display(frame)

In [None]:
# ordenar filas por valor en columna
frame.sort_values(by='A', ascending=True, inplace=True)
display(frame)

In [None]:
# ordenar columnas por valor en fila
frame.sort_values(by=1, axis=1, ascending=True, inplace=True)
display(frame)

In [None]:
# Imprimir, uno a uno, los valores de la columna 'C' de mayor a menor
for x in frame.sort_values(by='C', ascending=False)['C']:
    print(x)

#### Ranking
- Construir un ranking de valores

In [None]:
display(frame)

In [None]:
display(frame.rank())
# display(frame.rank(axis=1))
# display(frame.rank(method='max', axis=1))

# Operaciones

Operaciones matemáticas entre objetos

In [None]:
matrixA = np.random.randint(100,size=(4,4))
matrixB = np.random.randint(100,size=(4,4))
frameA = pd.DataFrame(matrixA)
frameB = pd.DataFrame(matrixB)
display(frameA)
display(frameB)

In [None]:
# a través de métodos u operadores
display(frameA + frameB == frameA.add(frameB))
display(frameA + frameB)

In [None]:
display(frameB - frameA == frameB.sub(frameA))
display(frameB - frameA)

In [None]:
# si los frames no son iguales, valor por defecto NaN
frameC = pd.DataFrame(np.random.randint(100,size=(3,3)))
display(frameA)
display(frameC)
display(frameC + frameA)

In [None]:
# se puede especificar el valor por defecto con el argumento fill_value
display(frameA.add(frameC, fill_value=0))

Operadores aritméticos solo válidos en elementos aceptables

In [None]:
frameD = pd.DataFrame({0: ['a','b'],1:['d','f']})
display(frameD)
frameA - frameD

Operaciones entre Series y DataFrames

In [None]:
rand_matrix = np.random.randint(10, size=(3, 4))
df = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(df)

In [None]:
primera_fila = df.iloc[0]
primera_fila.name = "Primera fila"
print(primera_fila)
print()

# uso común, averiguar la diferencia entre una fila y el resto
display(df - primera_fila)
# display(df.sub(primera_fila, axis=1))

In [None]:
# # Por columnas cómo se restaría
primera_columna = df['A']
primera_columna.name = "Primera columna"
print(primera_columna)
print()

display(df.sub(primera_columna, axis=0))

pandas se basa en NumPy, np operadores binarios y unarios son aceptables 

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

Si queremos aplicar una función a cada columna (o fila) utilizamos `apply`

In [None]:
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)

In [None]:
def max_min(x):
    return x.max() - x.min()

serie = pd.Series()
serie.name = "Diferencia max min"
for col in frame:
    serie[col] = max_min(frame[col])
    
print(serie)
print()

serie2 = frame.apply(max_min) # diferencia por columna
serie2.name = "Diferencia max min usando apply"
print(serie2)

In [None]:
# Las funciones lambda están pensadas para estos casos
serie3 = frame.apply(lambda x : x.max() - x.min()) # diferencia por columna
serie3.name = "Diferencia max min usando apply y función lambda"
print(serie3) 

In [None]:
# El método apply también puede aplicarse por filas definiendo el eje de iteración
serie4 = frame.apply(lambda x : x.max() - x.min(), axis=1)
serie4.name = "Diferencia max min usando apply, función lambda y por filas"
print(serie4)

# Estadística descriptiva
- Análisis preliminar de los datos
- Para Series y DataFrame

| Operación | Descripción |
|:----------|:------------|
| count | Número de valores no NaN |
| describe | Conjunto de estadísticas sumarias|
| min, max | Valores mínimo y máximo |
| argmin, argmax | Índices posicionales del valor mínimo y máximo |
| idxmin, idxmax | Índices semánticos del valor mínimo y máximo |
| sum | Suma de los elementos |
| mean | Media de los elementos |
| median | Mediana de los elementos |
| mad | Desviación absoluta media del valor medio |
| var | Varianza de los elementos |
| std | Desviación estándar de los elementos |
| cumsum | Suma acumulada de los elementos |
| diff | Diferencia aritmética de los elementos |

In [None]:
diccionario = { "nombre" : ["Marisa","Laura","Manuel", "Carlos"], "edad" : [34,34,11, 30], 
               "puntos" : [98,12,68,np.nan], "genero": ["F", "F", "M", "M"] }
frame = pd.DataFrame(diccionario)
display(frame)
print("Número de elementos no NaN:")
print(frame.count())    # datos generales de elementos
print()
print("Estadística de elementos numéricos:")
display(frame.describe()) # datos generales de elementos

In [None]:
# Podemos acceder a estos valores
edad_media = frame.describe()['edad']['mean']
print(edad_media)

In [None]:
# operadores básicos
print(frame.sum())
print()
print("Ignorando datos no numéricos")
print(frame.sum(numeric_only=True))

In [None]:
frame.mean(numeric_only=True)

In [None]:
frame.cumsum()

In [None]:
frame.count(axis=1)

In [None]:
print(frame['edad'].std())

In [None]:
frame['edad'].idxmax()

In [None]:
frame['puntos'].idxmin()

In [None]:
# frame con las filas con los valores maximos de una columna
print(frame['puntos'].max())

mask = frame['puntos'] == frame['puntos'].max()
display(frame[mask])

In [None]:
frame["ranking"] = frame["puntos"].rank(method='max', ascending=False)  
display(frame)

## Agregaciones

Las agregaciones son operaciones que realizamos sobre *categorías*.

Ejemplo, la columna `genero` sólo puede tener un número finito de valores (masculino "M" o femenino "F"), por lo que podemos deducir que es una columna categórica.

In [None]:
# El método groupby() se encarga de dividir los datos por categorías según la columna que se indique.
display(frame)
datos_por_genero = frame.groupby('genero')
print(datos_por_genero) # Es un elemento no realizado esperando por una función de agregación

In [None]:
# En este caso, la función de agregación es count(), que se aplicará a cada categoría
count_por_genero = datos_por_genero.count()
display(count_por_genero)

# # Otras funciones de agregación
# display(datos_por_genero.mean(numeric_only=True))
# display(datos_por_genero.max())

In [None]:
# podemos incluso obtener distintos estadísticos con el método aggregate
display(datos_por_genero[['edad', 'puntos']].aggregate(['min', 'mean', 'max']))

In [None]:
# El método filter te permite hacer operaciones sobre los grupos y descartar aquellos que no cumplan una condición determinada
frame2 = datos_por_genero.filter(lambda x : x['edad'].mean() > 30)
display(frame2)

In [None]:
# Sin utilizar lambda sería:
def media(x):
    # display(x) # x será un dataframe
    return x["edad"].mean() > 30

frame3 = datos_por_genero.filter(media)
display(frame3)

In [None]:
# No hay categorías Nan, el groupby los descarta por defecto
df = frame.groupby('puntos').count()
display(df)

## Correlaciones

pandas incluye métodos para analizar correlaciones
- Relación matemática entre dos variables (-1 negativamente relacionadas, 1 positivamente relacionadas, 0 sin relación)
- obj.corr(obj2) --> medida de correlación entre los datos de ambos objetos

### Ejemplo Fuel efficiency
- https://archive.ics.uci.edu/ml/datasets/Auto+MPG
- Objetivo:
  - Determinar las correlación del milleage per gallons (mpg) de los coches respecto a otras especificaciones técnicas

In [None]:
import pandas as pd
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

mpg_data = pd.read_csv(path, sep='\\s+', header=None,
            names = ['mpg', 'cilindros', 'desplazamiento','potencia',
            'peso', 'aceleracion', 'año', 'origen', 'nombre'],
            na_values='?', engine='c')

In [None]:
display(mpg_data.sample(5))
mpg_data.info()

In [None]:
display(mpg_data.describe(include='all'))

### Correlaciones entre valores

In [None]:
mpg_data['mpg'].corr(mpg_data['peso']) # + mpg = - peso

In [None]:
mpg_data['peso'].corr(mpg_data['aceleracion']) # + peso = - aceleracion

### Correlaciones entre todos los valores

In [None]:
mpg_data.corr(numeric_only=True)

In [None]:
#año y origen no parecen correlacionables
#eliminar columnas de la correlacion
corr_data = mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True)
display(corr_data)

In [None]:
# representación gráfica matplotlib
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# representación gráfica
corr_data.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1, vmin=-1, vmax=1)

In [None]:
# correlación más negativa
corr_data.corr(numeric_only=True).idxmin()

In [None]:
# correlación más positiva
corr_data.corr(numeric_only=True).idxmax()  #consigo misma....

In [None]:
# tabla similar con las correlaciones más positivas (evitar parejas del mismo valor)
positive_corr = corr_data.corr(numeric_only=True)
np.fill_diagonal(positive_corr.values, np.nan)

# Ya no tenemos la diagonal igual a 1
display(positive_corr)
positive_corr.idxmax()

In [None]:
positive_corr.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1, vmin=-1, vmax=1)

In [None]:
mpg_corr = positive_corr['mpg'].drop('mpg')
mpg_corr.name = "Correlaciones del mpg respecto a las otras característica"
print(mpg_corr)

## Ejercicios

- Ejercicios para practicar Pandas: https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles.ipynb
- Soluciones en: https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles-with-solutions.ipynb