# Pandas
 
__Contenido__

* [Series](#series)
* [DataFrames](#dataframes)
* [CSV & JSON](#archivos-csv-y-json) 


Pandas está enfocada a la manipulación y análisis de datos.

- Al estar construido sobre NumPy es veloz.
- Requiere poco código para manipular los datos.
- Soporta múltiples formatos de archivos.
- Ordena los datos en una alienación inteligente.

Se pueden manejar **grandes cantidades de datos**, hacer analítica y generar dashboards.

## Series

Las `Series` son secuencias ordenadas de unidimensionales que pueden contener diferentes tipos de valores. En esto se parecen a las listas. De hecho podemos crear `Series` usando listas.

In [None]:
import pandas as pd
import numpy as np

In [None]:
students = pd.Series(['Robert', 'Charly', 'George', 'Leo'], index=[1, 7, 10, 30])
students

In [None]:
students = pd.Series(['Robert', 'Charly', 'George', 'Leo'])
students

podemos incluso crear Series usando diccionarios:

In [None]:
dict = {1:'Robert', 7:'Charly', 10:'George', 30:'Leo'}
pd.Series(dict)

Se puede crear una serie de pandas desde una lista, un diccionario o incluso un formato json.

In [None]:
students[7]

In [None]:
students[0:3]

### Ejercicio 1. Series

1.  Crear una Serie a partir de los nombres contenidos en cada una de las variables: `ejecutivo_`. Existe una variable `sueldos` que aun no ha sido asignada, tu reto consiste en asignar a la variable `sueldos` la información de dichos empleados.
2. Una vez definidos los sueldos crea una Serie de manera que el el bloque de código que imprime los datos funcione.

In [None]:
ejecutivo_1 = 'Marco P.'
ejecutivo_2 = 'Jenny'
ejecutivo_3 = 'Britney Baby'
ejecutivo_4 = 'Pepe Guardabosques'
ejecutivo_5 = 'Lombardo El Destructor'

sueldos = []

In [None]:
# Crear la Serie
sueldos = 

In [None]:
print('== Sueldos de los principales ejecutivos de EyePoker Inc. ==\n')

print(f'{("Ejecutivo"):25} | {("Sueldo")}')
print('----------------------------------------')
print(f'{ejecutivo_1:25} | ${(sueldos.loc[ejecutivo_1])} MXN')
print(f'{ejecutivo_2:25} | ${(sueldos.loc[ejecutivo_2])} MXN')
print(f'{ejecutivo_3:25} | ${(sueldos.loc[ejecutivo_3])} MXN')
print(f'{ejecutivo_4:25} | ${(sueldos.loc[ejecutivo_4])} MXN')
print(f'{ejecutivo_5:25} | ${(sueldos.loc[ejecutivo_5])} MXN')

## DataFrames

Los `DataFrames` son entonces estructuras de datos bidimensionales. Hay innumerables formas de crear `DataFrames`. Una forma simple es a apartir de un diccionario de listas.

In [None]:
dict = {'Jugador' : ['Navas', 'Mbappe', 'Neymar', 'Messi'] , 
'Altura' : [183.0, 170.0, 170.0, 165.0], 
'Goles': [2, 200, 200, 200]}

In [None]:
df_players = pd.DataFrame(dict, index=[1, 7, 10, 30])
df_players

In [None]:
df_players.columns

In [None]:
df_players.index

### Ejercicio 2. DataFrames

A partir de los siguientes datos e índices que les corresponde, crear un `DataFrame` utilizando la variable `datos_producto` e `indice`:

In [None]:
datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

In [None]:
df_productos =

In [None]:
df_productos

## Archivos CSV y JSON

In [None]:
df_books = pd.read_csv('bestsellers-with-categories.csv', sep=',', header=0)

In [None]:
df_books

In [None]:
df_books.columns

Lectura de un archivo JSON

In [None]:
df_hardware = pd.read_json('hpcharactersdataraw.json', typ='Series')

In [None]:
df_hardware

In [None]:
import json

f = open('hpcharactersdataraw.json', 'r')
json_data = json.load(f)
f.close()

df = pd.DataFrame.from_dict(json_data)


In [None]:
df

## Indexación: loc & iloc

Los método avanzados de indexación son utiles al momento de explorar y procesar datos.

In [None]:
df_books[0:4]

In [None]:
df_books['Name']

In [None]:
df_books[['Name', 'Author', 'Year']]

In [None]:
df_books.loc[:]

In [None]:
df_books.loc[0:4]

In [None]:
df_books.loc[0:4, ['Name', 'Author']]

In [None]:
df_books.loc[:, ['Reviews']] * -1

In [None]:
df_books.loc[:, ['Author']] == 'JJ Smith'

In [None]:
df_books.iloc[:]

In [None]:
df_books.iloc[:, 0:3]

In [None]:
df_books.iloc[1, 3] * -1

In [None]:
df_books.iloc[:2, 2:]

### Ejercicio 3. Indexación

Retomar el ejercicio 2. Ahora, indexa tu DataFrame para obtener los subconjuntos requeridos. Los productos en existencia tienen un orden específico en la base de datos. El orden correcto es el que está definido en `datos_productos`. Eso significa que el "Pokemaster" tiene el índice `1` y es el primer producto; y el "El AyMeDuele" tiene el ìndice `7` y es el último producto.

Realiza las indexaciones debajo. Recuerda ordenar tus DataFrames en el orden en el que los menciona el Analista:

In [None]:
# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Stevie Wonder"
pm_sw =

# Quiero un DataFrame que contenga desde el producto #4 hasta el último
p4_final =

# Quiero un DataFrame que contenga los productos "El AyMeDuele", "Lazarillo de Tormes" y "Needle"
amd_lt_n =

# Quiero un DataFrame que contenga desde el primer producto hasta el producto #5
primer_p5 =

# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Lazarillo de Tormes", pero sólo con las columnas "nombre", "precio" y "peso"
pm_lt_pp =

# Quiero un DataFrame que contenga todos los productos pero con sólo las columnas 'nombre', 'precio' y 'capacidad de destrucción retinal'
t_pcdr =

# Quiero un DataFrame que contenga desde el producto #3 hasta el #6, pero sólo las columnas 'nombre', 'precio' y 'disponible'
p3_p6_pd =

## Agregar o eliminar datos con Pandas

In [None]:
df_books.head(2)

In [None]:
# drop columns
df_books.drop('Genre', axis =1).head(2)

In [None]:
df_books.drop('Genre', axis= 1, inplace=True)
# inplace borra la columna no solo en la salida, si no en el df

In [None]:
df_books.head()

In [None]:
df_books = df_books.drop('Year', axis=1)
# Otra forma de asegurarnos que drop afecte al df 

In [None]:
df_books.head(2)

In [None]:
del df_books['Price']
# Es una función de python y no de pandas

In [None]:
# Para borrar filas
df_books.drop(0, axis=0).head(2)

In [None]:
df_books.drop([0,1,2], axis=0).head(2)

In [None]:
df_books.drop(range(0,10), axis=0).head(2)

In [None]:
# Agregar columnas
df_books.head(2)

In [None]:
df_books['New_column'] = np.nan

In [None]:
df_books

In [None]:
data = np.arange(0, df_books.shape[0])
df_books['Range'] = data

In [None]:
df_books

In [None]:
# Agregar filas
df_books_new =pd.concat([df_books, df_books], ignore_index=True)
df_books_new.reset_index()

df_books_new

### Ejercicio 4. Manipulación de columnas



In [None]:
datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

Tareas a realizar: creación de una nueva columna, la asignación de nuevos datos a una columna y la eliminación de un par de columnas. Crea un DataFrame usando datos_productos e indice, realiza sus pedidos y envíalos para su verificación:

In [None]:
df_productos = 

In [None]:
# Agrega por favor una nueva columna a `df_productos_mas_columna_nueva` con el nombre de columna "nivel de dolor"
columna_nueva = [4, 7, 6, 8, 9, 7, 3]
df_productos_mas_columna_nueva = df_productos.copy()

# Cambia por favor el `DataFrame` `df_productos_descuento` cambiando la columna `precio` por la información contenida en `precios_descuento`
precios_descuento = [8000, 4000, 2000, 500, 14000, 10000, 15000]
df_productos_descuento = df_productos.copy()

# Elimina por favor las columnas "precio" y "peso" de `df_productos` y asigna el resultado a `df_productos_sin_precio_ni_peso`
df_productos_sin_precio_ni_peso =

## Manejo de datos nulos

In [None]:
dict ={'col1': [1, 2, 3, np.nan],
 'col2': [4, np.nan, 6, 7],
 'col3': ['a', 'b', 'c', None]}

df = pd.DataFrame(dict)
df

In [None]:
df.isnull()

In [None]:
df.isnull()*1

In [None]:
df.fillna('Missing')

In [None]:
df.fillna(df.mean())

In [None]:
df.interpolate()

### Limpieza de NaNs por filas



In [None]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [None]:
df

Para limpiar las filas que tengan mínimo 1 valor `NaN`, se utiliza `dropna(axis=0, how='any')`:

In [None]:
df.dropna(axis=0, how='any')

Con `axis=0` se elimina por filas. Con `how='any'` se elimina cualquier fila que tenga mínimo un `NaN`.

Si se desea eliminar sólo las filas donde todos los valores sean NaN, podemos usar axis='all':

In [None]:
df.dropna(axis=0, how='all')

### Limpieza de NaNs por columnas

In [None]:
df['descuento'] = np.nan
df

Al igual que por filas, eliminar `NaNs` por columna también se puede realizar utilizando `any` y `all`. La única diferencia es que se utiliza `axis=1` para eliminar por columnas:

In [None]:
df.dropna(axis=1, how='any')

In [None]:
df_dropped = df.dropna(axis=1, how='all')

In [None]:
df_dropped

### Llenado de NaNs con valores 

Una estrategia común es llenar los valores NaN con algún valor, pare evitar eliminar datos.

Por ejemplo, considerando el dataset:

In [None]:
df

Primero eliminar filas y columnas donde todos los valores sean NaN:

In [None]:
df_no_nans = df.dropna(axis=0, how='all')
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Ahora, suponer que se asume que si hay un valor NaN en "productos_vendidos" es porque no ha sido vendido aún. En ese caso se puede rellenar el `NaN` usando `fillna`:

In [None]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)
df_no_nans

Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan `NaNs`:

In [None]:
df_no_nans.dropna(axis=0)

### Ejercicio: Identificación y limpieza de NaNs

In [None]:
datos = {
    'precio': [12000, 5500, np.nan, 4800, 8900, np.nan, 1280, 1040, 23100, np.nan, 15000, 13400, np.nan],
    'cantidad_en_stock': [34, 54, np.nan, 78, 56, np.nan, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, np.nan, 9, 15, np.nan, 103, np.nan, np.nan, 23, 10, 62, 59],
    'descuentos': [np.nan] * 13
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"])


In [None]:
df

Realizar los siguientes pasos para limpiar tu dataset:

1. Hacer un conteo de cuántos `NaNs` hay en cada fila y en cada columna
2. Elimina las filas y columnas donde todos los valores sean `NaN`.
3. Dado que la columna `cantidad_vendidos` no es tan importante, cambiar los `NaNs` que haya en esa columna por 0.
4. Dado que la columna `precio` es muy importante, eliminar las filas restantes que tengan algún `NaN` en dicha columna.

Realizar todas tus transformaciones usando el `DataFrame` `df_copy`.

In [None]:
df_copy = df.copy()

## Realiza aquí tus transformaciones
##

In [None]:
df_copy

## Filtrado por condiciones

In [None]:
df_books = pd.read_csv('bestsellers-with-categories.csv', sep=',', header=0)
df_books.head()

In [None]:
df_books['Year'] > 2016

In [None]:
gt_2016 = df_books['Year'] > 2016
df_books[gt_2016]

In [None]:
df_books[df_books['Year'] > 2016]

In [None]:
genre_fiction = df_books['Genre'] == 'Fiction'

In [None]:
df_books[genre_fiction & gt_2016]

In [None]:
df_books[~gt_2016]

## Funciones principales de Pandas

In [None]:
df_books.info

In [None]:
df_books.info()

In [None]:
# solo de los atributos numéricos
df_books.describe()

In [None]:
df_books.tail()

In [None]:
# Identificar que tanta memoria utiliza el dataframe, es conveniente iterarlo. o paralelizarlo
df_books.memory_usage(deep=True)

In [None]:
df_books['Author'].value_counts()

In [None]:
df_books.iloc[0]

In [None]:
# deprecated
df_books = df_books.append(df_books.iloc[0])

In [None]:
df_books = pd.concat([df_books, df_books.iloc[0:1]], ignore_index=True)
df_books.reset_index()

In [None]:
df_books.tail()

In [None]:
df_books.drop_duplicates(keep='last')

In [None]:
df_books.sort_values('Year', ascending=True)

## Groupby

In [None]:
df_books.groupby('Author').count()

In [None]:
df_books.groupby('Author').min()


In [None]:
df_books.groupby('Author').max()


In [None]:
df_books.groupby('Author').mean()


In [None]:
df_books[['Author', 'User Rating', 'Reviews']].groupby('Author').mean()

In [None]:
df_books.groupby('Author').sum()

In [None]:
df_books.groupby('Author').sum().loc['William Davis']

In [None]:
df_books.groupby('Author').sum().reset_index()

In [None]:
df_books.groupby('Author').agg(['min', 'max'])

In [None]:
df_books.groupby('Author').agg({'Reviews' : ['min', 'max'], 'User Rating' : 'sum'})

In [None]:
df_books.groupby(['Author', 'Year']).count()

## Combinación de DataFrames

## Merge y Concat

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
 'B': ['B4', 'B5', 'B6', 'B7'],
 'C': ['C4', 'C5', 'C6', 'C7'],
 'D': ['D4', 'D5', 'D6', 'D7']})

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], ignore_index=True)

In [None]:
pd.concat([df1, df2], axis=1)

## Merge

In [None]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq.merge(der, on='key')

In [None]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key2': ['k0', 'k1', 'k2', 'k3'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq.merge(der, on='key')

In [None]:
izq.merge(der, left_on='key', right_on='key2')

In [None]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key2': ['k0', 'k1', 'k2', 'np.nan'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq.merge(der, left_on='key', right_on='key2')

In [None]:
izq.merge(der, left_on='key', right_on='key2', how='left')

In [None]:
izq.merge(der, left_on='key', right_on='key2', how='right')

In [None]:
izq.merge(der, left_on='key', right_on='key2', how='inner')

## Join

In [None]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2']}, 
index=['k0', 'k1', 'k2'])

der = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
'D': ['D0', 'D1', 'D2']},
index= ['k0', 'k2', 'k3'])


In [None]:
izq.join(der)

In [None]:
izq.join(der, how='inner')

In [None]:
izq.join(der, how='outer')

## Pivot y Melt

...


## Apply

In [None]:
def two_times(value):
    return value * 2

In [None]:
df_books.head()

In [None]:
df_books['User Rating'].apply(two_times)

In [None]:
# Mucho más eficiente que utilizar un for
df_books['Rating_2'] = df_books['User Rating'].apply(two_times)

In [None]:
df_books.head()

In [None]:
df_books['Rating_2'] = df_books['User Rating'].apply(lambda x : x * 3)
df_books.head()

In [None]:
df_books['Rating_2'] = df_books.apply(lambda x : x['User Rating'] * 2 if x['Genre'] == 'Fiction' else x['User Rating'], axis=1)
df_books.head()