# Manipulación de datos con Pandas

## <font color='orange'>**¿Para qué nos sirve Pandas?**</font>

Para poder manipular grandes sets de datos numéricos, tablas y series de tiempo. Trabajar con múltiples formatos de archivos de datos como csv o xls. Crear DataFrames que podremos manipular y analizar sin preocuparnos por el performance de nuestras aplicaciones, todo esto muy fácil y rápido. Además, **Pandas es la librería de software libre para manipulación de datos con Python más usada en Análisis y Ciencia de Datos**.


In [None]:
import pandas as pd

## <font color='blue'>**Estructuras de datos en pandas: Series**</font>

Las **series** son estructuras unidimensionales que contenienen un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (*index* en inglés):

In [None]:
ventas = pd.Series([15, 12, 21, 38], index = ["Ene", "Feb", "Mar", "Abr"])
ventas

Mediante la función `type` podemos ver el tipo del objeto:

In [None]:
type(ventas)

Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento o su etiqueta (si la tiene):

In [None]:
ventas[0]

El tipo de la serie, accesible a través del atributo `dtype`, coincide con el tipo de los datos que contiene:

In [None]:
ventas.dtype

Tanto a los índices como a sus respectivos valores se accede a través de `index` y `values`:

In [None]:
ventas.index

In [None]:
ventas.values

Mediante el atributo `shape` se puede observar la estructura de la Serie:

In [None]:
ventas.shape

## <font color='blue'>**Estructuras de datos en pandas: Dataframes**</font>

Los **dataframes** son estructuras tabulares de datos orientadas a columnas, 
con etiquetas tanto en filas como en columnas:

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    },
    index = ["Ene", "Feb", "Mar", "Abr"]
    )
ventas

In [None]:
type(ventas)

In [None]:
ventas['Entradas']

In [None]:
type(ventas['Entradas'])

In [None]:
ventas.dtypes

In [None]:
ventas.shape

## <font color='blue'>**Visión general de los datos**</font>

El método `info()` genera una vista con información referente a las características del DataFrame. 
El método `describe` genera una DataFrame con estadísticas básicas del conjunto de datos.

In [None]:
ventas.info()
ventas.describe()

## <font>**Seleccionando, ordenando, asignando y filtrando datos**</font> 

<img src="https://github.com/ivanmontenegrogomez/CursoPython/blob/main/manipulacion.jpg?raw=true"></img>

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

### Slicing:
Hace referencia a la operación por medio de la cual se extraen elementos de un objeto de Python, tal como una lista, un string, una Serie, un DataFrame, etc.

- Obtener las 5 primeras filas del DataFrame
- Obtener el sub DataFrame que contenga únicamente las columnas $A$ y $C$
- Obtener los datos desde la fila $b$ a la $d$
- Obtener todos los datos a partir de la fila $e$
- Obtener el sub DataFrame que contenga únicamente las columnas $B$ y $C$ para las últimas 3 filas

In [None]:
# Escribe tu código aquí

### Selección de datos mediante métodos `loc` e `iloc` :
El método `loc` se utiliza en los DataFrames para seleccionar los elementos en base a la etiqueta del índice, mientras que el método `iloc` se utiliza para seleccionar los elementos en base a su ubicación.
 
- Seleccionar el primer elemento de la columna $A$
- Seleccionar la tercera fila del DataFrame
- Seleccionar las columnas $B$ y $C$ del DataFrame
- Seleccionar el sub DataFrame compuesto por las filas $c$ y $e$ y las columnas $A$ y $C$

In [1]:
# Escribe tu código aquí

### Filtros booleanos:
Otro método especialmente útil para la selección es el uso de listas de booleanos. En este caso la lista de booleanos debe tener la misma longitud que la cantidad de filas del DataDrame.

In [None]:
capitals = pd.DataFrame(
    [
    ["Berlín",3.664,"Europa"],
    ["Roma",2.873,"Europa"],
    ["Madrid",3.233,"Europa"],
    ["Santiago",6.269,"América"],
    ["Pekín",21.893,"Asia"]
    ], 
    index = ["Alemania", "Italia", "España", "Chile", "China"],
    columns=['Capital', 'Población (en millones)', 'Continente'])
capitals

In [None]:
mask = [False, False, True, True, True]

In [None]:
capitals[mask]

In [None]:
capitals['Capital'] == 'Madrid'

In [None]:
capitals[capitals['Capital'] == 'Madrid']

In [None]:
capitals[capitals['Población (en millones)'] < 3.000]

### Utilizando los métodos vistos:

- Seleccionar la población de Roma
- Seleccionar el sub DataFrame correspondiente a Italia
- Seleccionar la capital de España
- Seleccionar todas las capitales que tengan un población mayor a 3.000.000 de habitantes
- Seleccionar todas las capitales que tengan un población mayor a 3.000.000 de habitantes pero menor a 7.000.000 de habitantes
- Seleccionar el sub DataFrame con las capitales europeas
- Seleccionar el sub DataFrame con los datos de China
- Seleccionar el sub DataFrame sólo con las capitales y continentes
- Seleccionar el sub DataFrame con las capitales y continentes sólo de los países no europeos
- Seleccionar el sub DataFrame sólo de los países no europeos

In [None]:
capitals = pd.DataFrame(
    [
    ["Berlín",3.664,"Europa"],
    ["Roma",2.873,"Europa"],
    ["Madrid",3.233,"Europa"],
    ["Santiago",6.269,"América"],
    ["Pekín",21.893,"Asia"]
    ], 
    index = ["Alemania", "Italia", "España", "Chile", "China"],
    columns=['Capital', 'Población (en millones)', 'Continente'])
capitals

In [2]:
# Escribe tu código aquí

### Edición de DataFrames:
Como se ha visto existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar o eliminar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos `loc` o `iloc`, en función de que queramos usar sus etiquetas o índices. También es posible eliminar valores usando el método `drop`.


In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

- Cambiar el elemento de la fila $b$ y columna $C$ por -1
- Cambiar todos los elementos de la columna $A$ por -2
- Cambiar los elementos de las filas $c$, $d$ y $e$ por -3
- Cambiar los elementos de la columna $C$ y filas $c$, $d$ y $e$ por -4
- Cambiar los elementos de la última fila por 10, 20 y 30 respectivamente
- Crear un nueva columna $D$ que contenga únicamente -5
- Eliminar la columna $A$
- Eliminar las filas $a$ y $d$
- Aumentar en 1 los valores de la fila $f$
- Disminuir en 10 los valores de la columna $B$
- Multiplicar por 2 los valores de las filas $b$ y $c$
- Dividir por 3 los valores de la columna $C$

In [3]:
# Escribe tu código aquí

### Ordenación de DataFrames:
Otras herramientas útiles son aquellas que permiten ordenar las estructuras de datos de pandas. Para ello se dispone de los métodos `sort_index` y `sort_values` para ordenación por índice y valores respectivamente.

In [None]:
capitals = pd.DataFrame(
    [
    ["Berlín",3.664,"Europa"],
    ["Roma",2.873,"Europa"],
    ["Madrid",3.233,"Europa"],
    ["Santiago",6.269,"América"],
    ["Pekín",21.893,"Asia"]
    ], 
    index = ["Alemania", "Italia", "España", "Chile", "China"],
    columns=['Capital', 'Población (en millones)', 'Continente'])
capitals

Al método `sort_index` se le puede indicar el eje sobre el cual se quiere realizar la ordenación. Este método por si solo no modifica la estructura del DataFrame, para lograr aquello se debe indicar la sentencia `inplace = True`. Por otra parte, la ordenación la realiza, por defecto, de manera ascendente, para cambiar este orden se debe especificar mediante la sentencia `ascending = False`.

In [None]:
capitals.sort_index()

Es posible ordenar por columnas, pero para ello se debe indicar el eje mediante la sentencia `axis = 1`.

In [None]:
capitals.sort_index(axis = 1)

In [None]:
capitals.sort_index(inplace = True)
capitals

In [None]:
capitals.sort_index(ascending = False)
capitals

Para ordenar respecto de los valores de una o más columnas se utilza el método `sort_values`.

In [None]:
capitals.sort_values(by = 'Población (en millones)')

In [None]:
capitals.sort_values(by = 'Población (en millones)', ascending = False)

In [None]:
capitals.sort_values(by = ['Continente','Población (en millones)'])

## Limpieza de datos

<img src="https://github.com/ivanmontenegrogomez/CursoPython/blob/main/limpieza.jpg?raw=true"></img>

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/athletes.csv')
df

In [None]:
df.info()

Para la detección de datos numéricos faltantes o NaN (Not a Number), se puede hace uso de los metodos `isnull()` y `any()`. La sentencia `isnull().any()` retorna un booleano que indica si una columna tiene algún dato faltante (NaN). Para identificar las filas con datos faltantes, se debe específicar el eje con la sentencia `axis = 1`.

In [None]:
df.isnull().any()

In [None]:
df.isnull().any(axis=1)

In [None]:
df[df.isnull().any(axis=1)]

Dependiendo del contexto del problema, se podría desear completar los datos faltantes en lugar de eliminarlos. Para ello se hace uso del método `fillna()` indicando el valor o método con el cual se desea completar los datos faltantes.

In [None]:
df.mean()

In [None]:
df['weight'].fillna(df['weight'].mean(), inplace = True)

In [None]:
df.isnull().any()

In [None]:
df['height'].fillna(df['height'].mean(), inplace = True)

In [None]:
df.isnull().any()

Ahora si en lugar de completar los datos faltantes bajo algún método, se quisiera sólo eliminarlos, se debe hacer uso del método `dropna`. Este método no modifica el DataFrame, para ello es necesario indicar la sentencia `inplace = True`.

In [None]:
df

In [None]:
df.isnull().any()

In [None]:
df.dropna(inplace = True)

In [None]:
df.isnull().any()

In [None]:
df

In [None]:
df.dropna(subset=['weight']).isnull().any()

Por defecto el método `dropna` elminará una columna o fila si algún valor es NaN. En caso que queramos eliminar una fila o columna cuando todos sus elementos son NaN se debe incluir la sentencia `how = all`.

In [None]:
df

In [None]:
df.isnull().any()

In [None]:
df.dropna(how = 'all')

Para saber si todos los elementos de una fila o columna son NaN, se puede utilizar los métodos `isnull()` y `all()`. 

In [None]:
df.isnull().all()

### Outliers

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/athletes.csv')
df

In [None]:
df.info()

In [None]:
df.dropna(inplace = True)
df.isnull().any()

In [None]:
df

Evaluar la existencia de datos atípicos para la variable $\textit{height}$

In [None]:
from matplotlib import pyplot as plt

df.boxplot(column='height', figsize=(16,9))
plt.show()

Obtener el DataFrame que no contiene outliers en la variable $\textit{height}$, considerando que los límites del boxplot están definidos sobre la **regla 1.5 IQR**, se puede determinar de la siguiente manera:

In [None]:
q1 = df['height'].quantile(.25)
q3 = df['height'].quantile(.75)
iqr = q3 - q1
pmin = q1 - 1.5 * iqr
pmax = q3 + 1.5 * iqr

heigths_no_outliers = df[(df['height'] >= pmin) & (df['height'] <= pmax)]
heigths_no_outliers

In [None]:
heigths_no_outliers.boxplot(column='height', figsize=(16,9))
plt.show()

El análisis anterior puede ser muy general considerando que las estaturas varían en función de la disciplina deportiva. Un análisis más completo consistiría en analizar los outliers dentro de cada deporte.

In [None]:
df.boxplot(column='height', by='sport', rot=45, figsize=(16,9))
plt.show()

## <font color='blue'>**Actividad: Manejo de outliers con Base de Datos Atletas**</font>

Analizando el boxplot anterior, considere los dos deportes que mayor cantidad de outliers poseen (bajo la regla **1.5IQR**)  y construya para cada deporte:
1. Un DataFrame sin valores atípicos
2. Un DataFrame conformado por los valores atípicos
3. Un Boxplot para los datos originales
4. Un Boxplot para los datos sin valores atípicos

In [4]:
# Escribe tu código aquí

### Duplicados

Para conocer la existencia de duplicados se puede hacer uso de los métodos `duplicated()` y `any()`.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/athletes.csv')
df

In [None]:
df.duplicated()

In [None]:
df.duplicated().any()

In [None]:
df[df.duplicated()] 

Para eliminar los duplicados se puede utilizar el método `drop_duplicates()`. Sin embargo este método no modifica el DataFrame, para ello se debe utilizar la sentencia `inplace = True`.

In [None]:
df.drop_duplicates()

In [None]:
df.duplicated().any()

In [None]:
df.drop_duplicates(inplace = True)
df.duplicated().any()

### Manejo de índices

Por defecto Pandas nos entrega una indexación en caso que no se la indiquemos. En este caso al poseer una variable que tiene las características de índice ($\textit id $), podríamos defirla como tal. La asignación de índices se realiza mediante el método `set_index()`. Sin embargo este método no modifica el DataFrame, para ello se debe utilizar la sentencia `inplace = True`.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/athletes.csv')
df

In [None]:
df.set_index('id')

In [None]:
df

In [None]:
df.set_index('id', inplace = True)
df

Con el método `reset_index()` se elimina la asignación de índice realizada. En caso que se quisiera eliminar el antiguo índice, se debe incorporar la sentencia `drop = True`.

In [None]:
df.reset_index()

In [None]:
df.reset_index(drop = True)

In [None]:
df.dropna(inplace = True)

El método `reset_index()` se utiliza para redefinir índices sobre DataFrames que han sido modificados, y que por tanto la secuencia de índices se ha visto interrumpida.

In [None]:
df[240:260]

## Agrupaciones y tablas dinámicas

<img src="https://github.com/ivanmontenegrogomez/CursoPython/blob/main/transforma.jpg?raw=true"></img>

Una tabla dinámica (pivot_table) es una tabla que agrupa datos procedentes de otra tabla o base de datos de mayor tamaño. Es de mucha utilidad en el análisis de datos y en especial se usa como herramienta de big data.

Los parámetros del método pivot_table son:
- `index`: eje vertical
- `columns`: eje horizontal
- `values`: valores que toma la variable
- `aggfunc`: función a aplicar a los valores

df.pivot_table(index = "índice", columns = "columnas", values = "valores", aggfunc = "función")

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/athletes.csv')
df

- Obtener la cantidad de medallas (gold, silver, bronze) por país
- Obtener la cantidad de medallas (gold, silver, bronze) por sexo
- Obtener la cantidad total de medallas por país
- Obtener la cantidad total de medallas (ordenadas de mayor a menor) por deporte
- Obtener la estatura y peso promedio por deporte
- Obtener la estatura y peso promedio por sexo dentro de cada deporte

In [5]:
# Escribe tu código aquí

## <font color='blue'>**Actividad: Análisis de datos con Base de Datos Titanic**</font>

Para este problema utilizaremos la base de datos "_titanic_". Para cargarla debes usar los siguientes comandos:

In [None]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Considere sólo las siguientes variables: _survived_, _pclass_, _sex_, _age_, _fare_ y _embarked_.

1. Eliminar del DataFrame las columnas con las que no se trabajará.
2. Reemplazar los valores faltantes para la columna edad por el valor promedio de la muestra.
3. Eliminar cualquier otra fila en la que falten datos
4. Generar una tabla que muestre las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (C=Cherbourg, Q=Queenstown, S=Southampton) y género.
5. Generar una tabla que muestre la tasa de supervivencia agrupada por sexo y clase del pasajero.
6. Generar una tabla que muestre la cantidad de personas agrupadas por sexo y clase del pasajero.
7. Generar una tabla que muestre la cantidad de supervivientes agrupada por sexo y clase del pasajero.

¿Qué indican estas tablas sobre la importancia del sexo o el lugar de embarque o clase de las personas para influir en su tasa de supervivencia?

In [6]:
# Escribe tu código aquí