# Introducción rápida a Pandas

## Intro a Pandas

Pandas proporciona la capacidad de trabajar de manera eficiente con **tablas de datos**. Este tipo de objeto es habitual en estadística, aprendizaje automático y ciencia de datos en general. 

En este notebook sólo vamos a ver una pocas operaciones que nos serán útiles para trabajar con conjuntos de datos, pero es recomendable usar la documentación.

https://pandas.pydata.org/

In [2]:
import numpy as np
import pandas as pd

### Creación de dataframes a partir de ficheros de datos

Existen utilidades para cargar dataframes a partir de ficheros csv, excel, etc. por ejemplo [pandas.read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) o [pandas.read_excel()](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html).

Podemos usarlas para cargar datos de forma más ágil.

In [3]:
df_csv = pd.read_csv('mpg.csv', index_col = 0)
df_csv

FileNotFoundError: [Errno 2] No such file or directory: 'mpg.csv'

In [None]:
modelos = df_csv.model
#comprobamos si hay algún valor nulo en la columna de modelos
modelos.isnull().sum()

### Creación de dataframes a partir de diccionarios

Un _dataframe_ representa una tabla bidimensional de datos. Los datos están organizados por filas y columnas. Cada columna tiene un nombre y cada fila una etiqueta. La secuencia de etiquetas es el índice de la tabla.

In [None]:
# Creación a partir de un diccionario
cars = {'Brand': ['Honda Civic','Toyota Corolla','Ford Focus','Audi A4'],
        'Price': [22000,25000,27000,35000]}

# Si no se especifican las columnas se usan todas
df = pd.DataFrame(cars, columns=['Brand', 'Price'])
df

In [None]:
# En este caso el índice son las etiquetas 0, 1, 2, 3
df.index

In [None]:
# También podemos acceder a las columnas
df.columns

In [None]:
# También podemos crear un dataframe a partir de arrays o listas
datos = [['Audi', 'A1', 19120], 
         ['Audi', 'A3', 25740], 
         ['Audi', 'A4', 38160], 
         ['Audi', 'A5', 40800], 
         ['BMW', 'Serie 1', 28800], 
         ['BMW', 'Serie 2', 30520], 
         ['BMW', 'Serie 2 Active Tourer', 25630], 
         ['BMW', 'Serie 3', 39965], 
         ['Citroen', 'C1', 10790], 
         ['Citroen', 'C3 Aircross', 13690], 
         ['Citroen', 'C3', 10990], 
         ['Citroen', 'C-Elysée', 12290], 
         ['Citroen', 'C4 Cactus', 14090], 
         ['Citroen', 'C4 SpaceTourer', 20490], 
         ['Opel', 'Corsa', 10900], 
         ['Opel', 'Astra', 18550], 
         ['Opel', 'Insignia', 25208], 
         ['Opel', 'Crossland X', 16950], 
         ['Opel', 'Grandland X', 23600], 
         ['SEAT', 'Mii', 9990], 
         ['SEAT', 'Ibiza', 10990], 
         ['SEAT', 'León', 16400], 
         ['SEAT', 'Alhambra', 27650], 
         ['SEAT', 'Ateca', 18990], 
         ['SEAT', 'Arona', 14500], 
         ['SEAT', 'Tarraco', 26700]]

df = pd.DataFrame(data=datos, columns=['Brand', 'Model', 'Price']) 
df

In [None]:
# Tamaño del dataframe (filas, columnas)
df.shape

In [None]:
# Podemos acceder al array de datos en cualquier momento
df.values

### Exploración del data frame

Una vez cargados los datos en un dataframe es conveniente echar un vistazo al data frame. 

Esto es especialmente cierto cuando cargamos los datos de un archivo porque el proceso de carga ha podido dar errores que han pasado inadvertidos: cargar mal alguna columna o valor concreto, cargar las filas descabaladas o sin el nombre de las columnas, que haya problemas en la últimas filas...


In [None]:
# Mostrar las primeras filas
df.head()

In [None]:
# Mostrar las últimas 2 filas
df.tail(2)

In [None]:
# Reordenar los datos
df.sort_values(by='Model')

Es importante saber que las mayoría de las operaciones de los dataframes no alteran el dataframe original, devuelven un nuevo dataframe. Eso no quiere decir que los datos de dupliquen en memoria. Los datos se almacenan una única vez pero se indexan de distintas formas. Un dataframe es una _vista_ de una tabla de datos. 

In [None]:
df2 = df.sort_values(by='Price')
df2.head(10)

In [None]:
df.head(10)

### Selección

In [None]:
# Seleccionar una columna particular
# Las columnas de un Dataframe se representan mediante un tipo de datos llamado Serie que
# contiene el índice y la columna de datos
df['Price']

In [None]:
# Seleccionar un conjunto de filas
df[0:5]

In [None]:
# Seleccionar una parte del dataframe
# La operación loc nos permite seleccionar las etiquetas de filas y columnas que deseamos
df.loc[0:5, ['Model', 'Price']]

In [None]:
# Recordemos que estas operaciones no modifican el dataframe original, 
# devuelven otro dataframe que es una vista
df2 = df.loc[0:5, ['Model', 'Price']]
df2

In [None]:
df.head(10)

In [None]:
# Seleccionar todas las filas y sólo dos columnas
df.loc[:, ['Brand', 'Model']]

La operacion .loc permite seleccionar trozos del dataframe original a partir de las etiquetas de las filas y las columnas. Existe otra operación .iloc que permite seleccionar trozos del datframe original a partir de las posiciones de las filas y columnas.

In [None]:
df.iloc[0:5, 0:2]

Es muy interesante la opción de seleccionar ciertas filas en base a una máscara de booleanos

In [None]:
# máscaras de booleanos
df['Price'] < 20000

In [None]:
# Seleccionar las filas que cumplen la condición
df2 = df[df['Price'] < 20000]
df2

In [None]:
# Contar valores distintos de una columna
df['Brand'].value_counts()

### Problemas con las vistas de los data frames: Forzando la copia

Como hemos mencionado, cuando tomamos una selección o *slice* de un data frame no se hace un data frame nuevo, sino una vista del original. Esto que sucede también en numpy, es más problemático en el caso de los data frames de Pandas ya que el comportamiento, si bien es predecible, tiene una casuística amplia que lo hace menos intuitivo. Puedes leer más sobre el tema [aquí](https://www.practicaldatascience.org/html/views_and_copies_in_pandas.html).

Ante esto, podemos optar por una forma de proceder sencilla que nos ahorrará problemas:
- Si lo que quieres es simplemente ver el contenido de la selección de forma inmediata, usa una vista mediante selección o slice.
- Si tienes como objetivo modificar la vista, para no tener que saber cuándo se propagan los cambios al data frame original y cuándo no, lo mejor es que fuerces la copia como se muestra a continuación

In [None]:
# Haciendo una copia de una selección
mi_copia = df.iloc[1:3,].copy()
mi_copia

### Añadir y eliminar columnas

In [None]:
# Añadir una nueva columna en función de otra
df['Price_K'] = df['Price'] / 1000
df.head()

In [None]:
# Eliminar una columna
# axis=1 para eliminar columnas y axis=0 para eliminar filas
# Recuerda que la operación no modifica el dataframe original si no hacemos la asignación
df = df.drop(['Price_K'], axis=1)
df.head()

### Modificar valores

In [None]:
# Crear una nueva columna
df['Type'] = 'Cheap'
df

In [None]:
# Podemos modificar sólo ciertos elementos
df.loc[df['Price'] > 20000, 'Type'] = 'Expensive'
df

In [None]:
df = df.drop(['Type'], axis=1)
df.head()

### Descripción estadística de los datos

Es posible realizar una descripción estadística de los datos usando funciones del data frame. Aunque no son muy avanzadas pueden ser muy informativas.

In [None]:
# Descriptores estadísticos de los datos
# Dependiendo de si son cuantitativos o cualitativos aparecen distintos descriptores
df.describe(include='all')

Los estadísticos que se muestran son.
- Para todas las columnas
    - `count`: Son los valores válidos observados (incluyendo repeticiones)
- Para las columnas con valores cualitativos (eg. strings) y timestamps, entre otros
    - `unique`: Valores únicos observados (es decir, sin repetición)
    - `top`: Valor más repetido 
    - `freq`: Frecuencia del valor más repetido
- Para las columnas con valores numéricos
    - `mean`: Media aritmética
    - `std`: Desviación típica
    - `min`: Valor mínimo observado
    - `25%`: Percentil del 25% (o primer cuartil), es decir, el valor que deja a su izquierda el 25% de los datos
    - `50%`: Percentil del 50% (o segundo cuartil, o mediana), es decir, el valor que deja a su izquierda el 50% de los datos
    - `75%`: Percentil del 75% (o tercer cuartil), es decir, el valor que deja a su izquierda el 25% de los datos
    - `max`: Valor máximo observado

Podemos presentar la tabla anterior de forma más legible. Concretamente: 
- Mostrar la transpuesta de la tabla anterior
- Evitar los antiestéticos `NaN` mostrando dos tablas: una para las variables categóricas y otra para las numéricas

In [None]:
# Para seleccionar las variables numéricas no hay que indicar nada
df.describe().transpose()

In [None]:
# Las variables categóricas requieren una selección por el tipo de variable
df.describe(include=['object']).transpose()


#### Descripción de los datos agrupados 

Puede ser muy interesante obtener los estadísitcos descriptivos pero para los valores concretos de una variable de especial interés para nosotros (por ejemplo, la variable objetivo en un problema de clasificación).

Veamos cómo hacerlo en nuestra tabla de juguete.



In [None]:
# Veamos cómo queda para las variable numérica
df.groupby('Brand').describe()

Podemos sacar una tabla de contingencia que analice los valores de dos variables categóricas de forma cruzada.

En el caso de nuestro ejemplo no aporta mucha información adicional, más allá de sacar qué modelos existen para una determinada marca.

In [None]:
pd.crosstab(df['Brand'], df['Model'], rownames=['Marca'], colnames=['Modelo'])

### Visualización de la tabla de datos

In [None]:
# Para que los gráficos nos aparezcan en los notebooks
%matplotlib inline

In [None]:
# Diagrama de barras mostrando cuántas veces aparece cada marca
df['Brand'].hist()

En general, los gráficos de tarta son peores de los de barra porque a las personas nos cuesta mucho más comparar ángulos que longitudes. No obstante, también podemos calcularlos.

In [None]:
# Cuántas veces aparece cada marca como tarta
df['Brand'].value_counts().plot.pie()

In [None]:
# Precio medio por marca
df.groupby('Brand').mean('Price').plot()

El gráfico anterior no es una buena representación ya que comunica una continuidad u orden entre las marcas de coche. 

Es más adecuado usar un gráfico de barras donde se comunica mejor que no existe una ordenación de las marcas.

In [None]:
# Precio medio por marca como gráfica de barras
df.groupby('Brand').mean('Price').plot.bar()

Además, podemos mostrar el histograma de una variable numérica de nuestro conjunto de datos

In [None]:
df.hist('Price')

Podemos comparar el histograma de precios para las distintas marcas de coche.

In [None]:
df.hist('Price', by='Brand')

Sin embargo, la representación no es muy clara. No solamente por el solapamiento, sino porque cada gráfico tiene su propio rango de valores para el eje X y el eje Y, lo cual dificulta mucho la comparación de los mismos.


In [None]:
df.groupby(["Brand"])["Price"].plot(kind="density")

Aunque desde Pandas podemos hacer muchas cosas, también podemos usar librerías especializadas como [Seaborn](https://seaborn.pydata.org/). 

In [None]:
import seaborn as sns

# Con la opción de 'kde' mostramos la estimación de la densidad subyacente, es decir, el histograma alisado
sns.displot(df['Price'], kde=True)

In [None]:
# Como es difícil ver más de dos histogramas superpuestos, mostraremos solamente la estimación kernel de la densidad
sns.displot(df, x="Price", hue="Brand", kind='kde')

También es posible hacer representaciones más [sofisticadas](https://datavizpyr.com/ridgeline-plot-in-python-with-seaborn/) y [elegantes](https://seaborn.pydata.org/examples/kde_ridgeplot), aunque requieren más trabajo.