# Análisis de Datos con Pandas en Python
__Autor__: Gabriel Burgos S.

__En este _jupyter notebook_ se encuentran resumidos las funcionalidades de pandas de manera concisa para poder ser revisado, estudiado y revisitado según se necesite.__

[*] ___Nota__: Este es un repaso muy resumido. Para un aprendizaje más integral recomiendo complementar este material con ejercicio y estudio personal más extensivo y en mayor profundidad._
- _Para más información, se recomienda encarecidamente visitar la [guía de usuario oficial de Pandas](https://pandas.pydata.org/docs/user_guide/index.html)._

## Contenidos:
- __Capítulo 1 - Comenzando con Pandas:__
	- 1.1- Instalación e Importación
	- 1.2- Objetos Fundamentales de Pandas
		- A) Series de Pandas
		- B) DataFrames de Pandas
	- 1.3- Lectura y Escritura de Archivos de Datos
- __Capítulo 2 - Analizando Datos con Pandas:__
	- 2.1- Selección y Filtrado de Datos
	- 2.2- Estadísticas Básicas
	- 2.3- Data Descriptiva
	- 2.4- Agregación de Datos
- __Capítulo 3 - Manipulando datos con Pandas:__
	- 3.1- Manipulación Básica
	- 3.2- Manejo de Datos Nulos
	- 3.3- Manipulación Filtrada
	- 3.4- Funciones Complejas sobre Datos
		- A) Funciones Lambda
		- B) Funciones Generales
		- C) Mapeo
- __Capítulo 4 - Uniendo DataFrames:__
	- 4.1- Concatenación
	- 4.2- Fusión
- __Capítulo 5 - Tidy Data:__
	- 5.1- Función Melt
	- 5.2- Función Pivot

## __Capítulo 1 - Comenzando con Pandas__

### __1.1- Instalación e Importación__

__Instalación de la biblioteca base:__
```{python}
   !pip install pandas
```

$\rightarrow$ _Para trabajar con excel se deben instalar dos bibliotecas extras: openpyxl y xlrd:_
```{python}
   !pip install pandas openpyxl xlrd
```

__Importando la biblioteca:__

In [2]:
# BASE
import pandas as pd

### __1.2- Objetos Fundamentales de Pandas__

#### __A) Series de Pandas__

Las **Series** son una estructura de datos unidimensional, similar a una columna en una hoja de cálculo o una lista en Python.

In [3]:
data = pd.Series(['a','b','c','d']) # Serie predeterminada
data

0    a
1    b
2    c
3    d
dtype: object

In [4]:
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']) # serie con indices determinados
data

a    1
b    2
c    3
d    4
dtype: int64

#### __B) DataFrames en Pandas__

Un **DataFrame** es una tabla bidimensional que contiene filas y columnas.

In [None]:
# Crear un DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]} # Se construyen generalmente utilizando diccionarios
df = pd.DataFrame(data)
df

Este es la base para el manejo de datos con pandas.

### __1.3- Lectura y Escritura de Archivos de Datos__

En _pandas_ se puede importar y exportar datos a archivos capaces de contener datos tabulares.

#### __A) CSVs__

Los archivos `csv` son archivos de texto que almacenan datos tabulares, representando las filas por cada fila de texto y las columnas separando los datos por comas.

Estos son útiles para trabajar con datos de manera rápida y eficiente, pues son mucho más ligeros que otro tipo de estructuras de tabla (como los .xslx)

__i. Lectura un archivo csv__

In [None]:
# Leer un archivo CSV
df = pd.read_csv('archivo.csv')

- Parámetros de utilidad: 
    - ```sep=;```: Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'```: Indicar si existe una columna indice (por defecto se crea una)
    - ```header=None```: Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]```: Especificar columnas de entrada
    - ```nrows=1000```: Especificar cantidad de filas de entrada
    - ```na_values=['NA','--',...]```: Especifica valores que se interpretarán como nulos

__ii. Creando un archivo csv__

In [None]:
# Escribir un archivo CSV
df.to_csv('output.csv')

- Parámetros de utilidad: 
    - ```sep=;```: Para cambiar el separador
    - ```index=True```: Para indicar si exportar los índices
    - ```header=True```: Para indicar si exportar los nombres de columna
    - ```columns=[col1, col2, ...]```: Especificar columnas de salida
    - ```na_rep='NA'```: Especificar representación para valores nulos
    - ```float_format='2.f'```: Especifica formato para los decimales

#### __B) XLSXs__

Para trabajar con archivos compatibles con _Microsoft Excel_.

__i. Lectura un archivo xlsx__

In [None]:
# Leer un archivo Excel
df = pd.read_excel('output.xlsx', index_col='Unnamed: 0', sheet_name=0)
df

- Parámetros de utilidad: 
    - ```sep=;``` : Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'``` : Indicar si existe una columna indice (por defecto se crea una)
    - ```header=2``` : Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]``` : Especificar columnas de entrada (en caso de excel puede utilizarse según las columnas de excel, por ejemplo 'A:D')
    - ```nrows=1000``` : Especificar cantidad de filas de entrada
    - ```sheet_name='hoja1'``` : Especifica la hoja a leerse (Puede indicarse por nombre, por índice o una lista d ehojas)
    - ```skiprows=2``` : Indica una cantidad de filas para saltar (Si es que no contienen info útil)

__ii. Creando un archivo xlsx__

In [None]:
# Excribir un archivo xlsx
df.to_excel('output.xlsx')

- Parámetros de utilidad: 
    - ```index=True``` : Para indicar si exportar los índices
    - ```columns=[col1, col2, ...]``` : Especificar columnas de salida
    - ```sheet_name='hoja1'``` : Especifica nombre de la hoja donde se alojarán los datos

## __Capítulo 2 - Analizando datos con Pandas__

La utilidad máxima de _pandas_ es poder trabajar grandes cantidades de datos de manera simple. A continuación se muestran algunas de las utilidades que se pueden lograr utilizando esta biblioteca.

### __2.1- Selección y Filtrado de Datos__

Seleccionar columnas y filtrar datos es una de las tareas más comunes.

In [None]:
datitos = df
datitos

In [None]:
# Seleccionar una columna
datitos['col2']

In [None]:
# Filtrar filas
df[df['col2'] == 5]

In [None]:
# Seleccionar fila
df.iloc[0]

### __2.2- Estadísticas Básicas__

Para obtener una descripción estadística de una o más variables

In [None]:
df

In [None]:
# Media de una columna
df['col1'].mean()

In [None]:
df['col1'].std()

In [None]:
df['col1'].max()

In [None]:
df.max()

### __2.3- Data Descriptiva__

Se pueden obtener resúmenes predefinidos para describir el DataFrame.

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info() # Destacado

In [None]:
df.describe() # Destacado 2

### __2.4- Agregación de Datos__

In [None]:
df = pd.DataFrame({'Estudiante': ['Ana', 'Luis', 'María'],
                   'Calificación': [85, 78, 92],
                   'Año': [2019, 2019, 2020],
                   }
                   )
df

In [None]:
# Agrupar por columna y calcular la media
df.groupby('Año').agg({'Calificación':'mean'}) # otros métodos: max,  min, std, sum, count, etc.

## __Capítulo 3 - Manipulando datos con Pandas__

### __3.1- Manipulación Básica__

In [None]:
# Agregar una nueva columna
df['new_col'] = df['Calificación'] * 2
df

In [None]:
# Eliminar una columna
df.drop('new_col', axis=1, inplace=True)
df

In [None]:
df['Calificación'].sort_values(ascending=False)
df

In [None]:
df.drop(index=2)  # Eliminar fila - Este no sobreescribe la tabla original

### __3.2- Manejo de Datos Nulos__

Manejar datos nulos es parte fundamental para la comprensión adecuada de los datos.

In [None]:
# Detectar valores nulos
df.isnull()

In [None]:
# Rellenar valores nulos
df.fillna(0)

In [None]:
# Quitar valores nulos
df.dropna()

### __3.3- Manipulación Filtrada__

In [None]:
df.loc[df["Calificación"] > 80, "Calificación"] = 100
df

### __3.4- Funciones Complejas sobre Datos__

Algunas veces querremos manejar los datos con funciones más complejas que una simple operatoria, como por ejemplo, para cálcular proporciones, transformar unidades, etc.

#### __A) Funciones Lambda__

In [None]:
df

In [None]:
df['Calificación'].apply(lambda x: x*2) # Crea solo la serie y no sobreescribe

In [None]:
df['Calificación x 2'] = df['Calificación'].apply(lambda x: x*2)
df

In [None]:
df['Calificación x 2'].apply(lambda x: x*10 if x>180 else x)

In [None]:
df.apply(lambda fila: fila['Calificación'] + fila['Calificación x 2'], axis=1)

#### __B) Funciones Generales__

In [None]:
def factorial(n):
    factorial = n
    for i in range(1,n):
        factorial *= i
    return factorial

factorial(4)

In [None]:
pd.Series([1,2,3,4]).apply(factorial)

#### __C) Mapeo__

Es posible 're-mappear' datos de manera sencilla utilizando diccionarios que indican la transformación esperada.

In [None]:
mapeo = {1:'a',2:'z',3:'c'}

In [None]:
pd.Series([1,2,3,4]).map(mapeo)

In [None]:
df = pd.DataFrame(pd.Series([1,2,3,4]))
df

In [None]:
df['col_str'] = df[0].map(mapeo)
df

## __Capítulo 4 - Uniendo DataFrames__

#### __4.1- Concatenación__

La concatenación refiere a la acción de insertar los datos bruzcamente sobre, bajo o al lado de una tabla desde otra.

In [None]:
# data de ejemplo 1
df1 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo'],'Ingreso':[1200,300,1500,600]})
df1

In [None]:
# data de ejemplo 2
df2 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo','Patricio'],'Ciudad':['San Pedro','Concepción','Concepción','Talcahuano','San Pedro']})
df2

In [None]:
pd.concat([df1, df2]) # pone uno sobbajore el otro y no agrega datos si la columna no existe

In [None]:
pd.concat([df1, df2], axis=1) # Al cambiar el eje, agrega de manera bruzca una tabla al lado de la otra

#### __4.2- Fusión__

El ``merge` es una fusión compleja y más intelgente que une las tablas a partir de cierta(s) columna(s) en común y por algún método de unión.

In [None]:
# Unir DataFrames por una columna
df_merged = pd.merge(df1, df2, on='Nombre', how='inner') # tiene parametros: on='columna' y how='inner' | 'outer' | 'left' | 'right' | 'cross'
df_merged # Los une en un mismo dataframe

## __Capítulo 5 - Tidy Data__

En este formato, los datos siguen tres principios clave:
1. **Cada variable se almacena en una columna**: Cada atributo o característica de los datos es una columna diferente. Por ejemplo, si estás trabajando con un conjunto de datos sobre ventas, podrías tener columnas como "Producto", "Fecha", "Cantidad", "Precio", etc.
2. **Cada observación está en una fila**: Cada fila representa una única observación o entrada. Por ejemplo, una fila podría representar una transacción o una venta específica de un producto en un día determinado.
3. **Cada tipo de unidad de observación tiene su propio archivo o tabla**: Si tienes múltiples tipos de datos relacionados (como datos de clientes y datos de ventas), cada tipo de entidad se almacena en su propio conjunto de datos. Por ejemplo, podrías tener una tabla para clientes y otra para ventas.

Veamos un ejemplo:

In [None]:
data = {
    'Estudiante': ['Ana', 'Luis', 'María'],
    'Matemáticas_2021': [85, 78, 92],
    'Historia_2021': [88, 74, 85],
    'Ciencias_2021': [90, 80, 88],
    'Matemáticas_2022': [89, 82, 95],
    'Historia_2022': [90, 77, 91],
    'Ciencias_2022': [92, 84, 94],
}

df_no_tidy = pd.DataFrame(data)
df_no_tidy

- Estos datos no cumplen con las condiciones de un formato tidy, por lo que para un mejor manejo deberá ser modificada la tabla.

### __5.1- Función Melt__

La función `melt` permite traspasar una tabla de formato desordenado a uno _tidy_ de manera sencilla indicando cuáles son la variable de observación, como se llamará la nueva variable y qué valor se medirá.

In [None]:
# Reordenandolo: MELT
df_tidy = df_no_tidy.melt(id_vars=['Estudiante'], var_name='Asignatura', value_name='nota')
df_tidy

In [None]:
# más bonito 
df_tidy2 = df_tidy.copy()
df_tidy2[['Asignatura', 'Año']] = df_tidy['Asignatura'].str.split('_', expand=True) # parametro expand permite dividirse en columnas
df_tidy2 = df_tidy2[['Estudiante','Año','Asignatura','nota']] # Nuevo órden
df_tidy2 = df_tidy2.rename(columns={'nota': 'Nota'}) # Nuevo nombre
df_tidy2

### __5.2- Función Pivot__

Función contraria al `melt`.

In [None]:
# Proceso contrario: PIVOT
df_no_tidy = df_tidy.pivot(index='Estudiante',columns=['Asignatura'],values='nota').reset_index()
df_no_tidy