# Análisis de Datos con Pandas en Python
__Autor__: Gabriel Burgos S.

__En este _jupyter notebook_ se encuentran resumidos las funcionalidades de pandas de manera concisa para poder ser revisado, estudiado y revisitado según se necesite.__

[*] ___Nota__: Este es un repaso muy resumido. Para un aprendizaje más integral recomiendo complementar este material con ejercicio y estudio personal más extensivo y en mayor profundidad._
- _Para más información, se recomienda encarecidamente visitar la [guía de usuario oficial de Pandas](https://pandas.pydata.org/docs/user_guide/index.html)._

## Contenidos:
- __Capítulo 1 - Comenzando con Pandas:__
	- 1.1- Instalación e Importación
	- 1.2- Objetos Fundamentales de Pandas
		- A) Series de Pandas
		- B) DataFrames de Pandas
	- 1.3- Lectura y Escritura de Archivos de Datos
- __Capítulo 2 - Analizando Datos con Pandas:__
	- 2.1- Selección y Filtrado de Datos
	- 2.2- Estadísticas Básicas
	- 2.3- Data Descriptiva
	- 2.4- Agregación de Datos
- __Capítulo 3 - Manipulando datos con Pandas:__
	- 3.1- Manipulación Básica
	- 3.2- Manejo de Datos Nulos
	- 3.3- Manipulación Filtrada
	- 3.4- Funciones Complejas sobre Datos
		- A) Funciones Lambda
		- B) Funciones Generales
		- C) Mapeo
- __Capítulo 4 - Uniendo DataFrames:__
	- 4.1- Concatenación
	- 4.2- Fusión
- __Capítulo 5 - Tidy Data:__
	- 5.1- Función Melt
	- 5.2- Función Pivot

## __Capítulo 1 - Comenzando con Pandas__

### __1.1- Instalación e Importación__

__Instalación de la biblioteca base:__
```{python}
   !pip install pandas
```

$\rightarrow$ _Para trabajar con excel se deben instalar dos bibliotecas extras: openpyxl y xlrd:_
```{python}
   !pip install pandas openpyxl xlrd
```

__Importando la biblioteca:__

In [34]:
# BASE
import pandas as pd

### __1.2- Objetos Fundamentales de Pandas__

#### __A) Series de Pandas__

Las **Series** son una estructura de datos unidimensional, similar a una columna en una hoja de cálculo o una lista en Python.

In [35]:
data = pd.Series(['a','b','c','d']) # Serie predeterminada
data

0    a
1    b
2    c
3    d
dtype: object

In [36]:
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']) # serie con indices determinados
data

a    1
b    2
c    3
d    4
dtype: int64

#### __B) DataFrames en Pandas__

Un **DataFrame** es una tabla bidimensional que contiene filas y columnas.

In [37]:
# Crear un DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]} # Se construyen generalmente utilizando diccionarios
df = pd.DataFrame(data)
df

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


Este es la base para el manejo de datos con pandas.

### __1.3- Lectura y Escritura de Archivos de Datos__

En _pandas_ se puede importar y exportar datos a archivos capaces de contener datos tabulares.

#### __A) CSVs__

Los archivos `csv` son archivos de texto que almacenan datos tabulares, representando las filas por cada fila de texto y las columnas separando los datos por comas.

Estos son útiles para trabajar con datos de manera rápida y eficiente, pues son mucho más ligeros que otro tipo de estructuras de tabla (como los .xslx)

__i. Lectura un archivo csv__

In [None]:
# Leer un archivo CSV
df = pd.read_csv('archivo.csv')

- Parámetros de utilidad: 
    - ```sep=;```: Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'```: Indicar si existe una columna indice (por defecto se crea una)
    - ```header=None```: Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]```: Especificar columnas de entrada
    - ```nrows=1000```: Especificar cantidad de filas de entrada
    - ```na_values=['NA','--',...]```: Especifica valores que se interpretarán como nulos

__ii. Creando un archivo csv__

In [None]:
# Escribir un archivo CSV
df.to_csv('output.csv')

- Parámetros de utilidad: 
    - ```sep=;```: Para cambiar el separador
    - ```index=True```: Para indicar si exportar los índices
    - ```header=True```: Para indicar si exportar los nombres de columna
    - ```columns=[col1, col2, ...]```: Especificar columnas de salida
    - ```na_rep='NA'```: Especificar representación para valores nulos
    - ```float_format='2.f'```: Especifica formato para los decimales

#### __B) XLSXs__

Para trabajar con archivos compatibles con _Microsoft Excel_.

__i. Lectura un archivo xlsx__

In [None]:
# Leer un archivo Excel
df = pd.read_excel('output.xlsx', index_col='Unnamed: 0', sheet_name=0)
df

- Parámetros de utilidad: 
    - ```sep=;``` : Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'``` : Indicar si existe una columna indice (por defecto se crea una)
    - ```header=2``` : Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]``` : Especificar columnas de entrada (en caso de excel puede utilizarse según las columnas de excel, por ejemplo 'A:D')
    - ```nrows=1000``` : Especificar cantidad de filas de entrada
    - ```sheet_name='hoja1'``` : Especifica la hoja a leerse (Puede indicarse por nombre, por índice o una lista d ehojas)
    - ```skiprows=2``` : Indica una cantidad de filas para saltar (Si es que no contienen info útil)

__ii. Creando un archivo xlsx__

In [None]:
# Excribir un archivo xlsx
df.to_excel('output.xlsx')

- Parámetros de utilidad: 
    - ```index=True``` : Para indicar si exportar los índices
    - ```columns=[col1, col2, ...]``` : Especificar columnas de salida
    - ```sheet_name='hoja1'``` : Especifica nombre de la hoja donde se alojarán los datos

## __Capítulo 2 - Analizando datos con Pandas__

La utilidad máxima de _pandas_ es poder trabajar grandes cantidades de datos de manera simple. A continuación se muestran algunas de las utilidades que se pueden lograr utilizando esta biblioteca.

### __2.1- Selección y Filtrado de Datos__

Seleccionar columnas y filtrar datos es una de las tareas más comunes.

In [38]:
datitos = df
datitos

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [39]:
# Seleccionar una columna
datitos['col2']

0    4
1    5
2    6
Name: col2, dtype: int64

In [40]:
# Filtrar filas
df[df['col2'] == 5]

Unnamed: 0,col1,col2
1,2,5


In [80]:
# Seleccionar fila
df.iloc[0]

Estudiante       Ana
Calificación      85
Año             2019
Name: 0, dtype: object

### __2.2- Estadísticas Básicas__

Para obtener una descripción estadística de una o más variables

In [41]:
df

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [42]:
# Media de una columna
df['col1'].mean()

np.float64(2.0)

In [43]:
df['col1'].std()

np.float64(1.0)

In [44]:
df['col1'].max()

np.int64(3)

In [45]:
df.max()

col1    3
col2    6
dtype: int64

### __2.3- Data Descriptiva__

Se pueden obtener resúmenes predefinidos para describir el DataFrame.

In [46]:
df.columns

Index(['col1', 'col2'], dtype='object')

In [47]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [48]:
df.shape

(3, 2)

In [49]:
df.head()

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [50]:
df.tail()

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [51]:
df.info() # Destacado

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   col1    3 non-null      int64
 1   col2    3 non-null      int64
dtypes: int64(2)
memory usage: 180.0 bytes


In [52]:
df.describe() # Destacado 2

Unnamed: 0,col1,col2
count,3.0,3.0
mean,2.0,5.0
std,1.0,1.0
min,1.0,4.0
25%,1.5,4.5
50%,2.0,5.0
75%,2.5,5.5
max,3.0,6.0


### __2.4- Agregación de Datos__

In [97]:
df = pd.DataFrame({'Estudiante': ['Ana', 'Luis', 'María'],
                   'Calificación': [85, 78, 92],
                   'Año': [2019, 2019, 2020],
                   }
                   )
df

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019
2,María,92,2020


In [98]:
# Agrupar por columna y calcular la media
df.groupby('Año').agg({'Calificación':'mean'}) # otros métodos: max,  min, std, sum, count, etc.

Unnamed: 0_level_0,Calificación
Año,Unnamed: 1_level_1
2019,81.5
2020,92.0


## __Capítulo 3 - Manipulando datos con Pandas__

### __3.1- Manipulación Básica__

In [99]:
# Agregar una nueva columna
df['new_col'] = df['Calificación'] * 2
df

Unnamed: 0,Estudiante,Calificación,Año,new_col
0,Ana,85,2019,170
1,Luis,78,2019,156
2,María,92,2020,184


In [100]:
# Eliminar una columna
df.drop('new_col', axis=1, inplace=True)
df

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019
2,María,92,2020


In [101]:
df['Calificación'].sort_values(ascending=False)
df

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019
2,María,92,2020


In [102]:
df.drop(index=2)  # Eliminar fila - Este no sobreescribe la tabla original

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019


### __3.2- Manejo de Datos Nulos__

Manejar datos nulos es parte fundamental para la comprensión adecuada de los datos.

In [103]:
# Detectar valores nulos
df.isnull()

Unnamed: 0,Estudiante,Calificación,Año
0,False,False,False
1,False,False,False
2,False,False,False


In [104]:
# Rellenar valores nulos
df.fillna(0)

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019
2,María,92,2020


In [105]:
# Quitar valores nulos
df.dropna()

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,85,2019
1,Luis,78,2019
2,María,92,2020


### __3.3- Manipulación Filtrada__

In [106]:
df.loc[df["Calificación"] > 80, "Calificación"] = 100
df

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,100,2019
1,Luis,78,2019
2,María,100,2020


### __3.4- Funciones Complejas sobre Datos__

Algunas veces querremos manejar los datos con funciones más complejas que una simple operatoria, como por ejemplo, para cálcular proporciones, transformar unidades, etc.

#### __A) Funciones Lambda__

In [82]:
df

Unnamed: 0,Estudiante,Calificación,Año
0,Ana,100,2019
1,Luis,78,2019
2,María,100,2020


In [None]:
df['Calificación'].apply(lambda x: x*2) # Crea solo la serie y no sobreescribe

0    200
1    156
2    200
Name: Calificación, dtype: int64

In [108]:
df['Calificación x 2'] = df['Calificación'].apply(lambda x: x*2)
df

Unnamed: 0,Estudiante,Calificación,Año,Calificación x 2
0,Ana,100,2019,200
1,Luis,78,2019,156
2,María,100,2020,200


In [109]:
df['Calificación x 2'].apply(lambda x: x*10 if x>180 else x)

0    2000
1     156
2    2000
Name: Calificación x 2, dtype: int64

In [111]:
df.apply(lambda fila: fila['Calificación'] + fila['Calificación x 2'], axis=1)

0    300
1    234
2    300
dtype: int64

#### __B) Funciones Generales__

In [113]:
def factorial(n):
    factorial = n
    for i in range(1,n):
        factorial *= i
    return factorial

factorial(4)

24

In [117]:
pd.Series([1,2,3,4]).apply(factorial)

0     1
1     2
2     6
3    24
dtype: int64

#### __C) Mapeo__

Es posible 're-mappear' datos de manera sencilla utilizando diccionarios que indican la transformación esperada.

In [118]:
mapeo = {1:'a',2:'z',3:'c'}

In [120]:
pd.Series([1,2,3,4]).map(mapeo)

0      a
1      z
2      c
3    NaN
dtype: object

In [122]:
df = pd.DataFrame(pd.Series([1,2,3,4]))
df

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [124]:
df['col_str'] = df[0].map(mapeo)
df

Unnamed: 0,0,col_str
0,1,a
1,2,z
2,3,c
3,4,


## __Capítulo 4 - Uniendo DataFrames__

#### __4.1- Concatenación__

La concatenación refiere a la acción de insertar los datos bruzcamente sobre, bajo o al lado de una tabla desde otra.

In [131]:
# data de ejemplo 1
df1 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo'],'Ingreso':[1200,300,1500,600]})
df1

Unnamed: 0,Nombre,Ingreso
0,Alonso,1200
1,Esteban,300
2,Pablo,1500
3,Rodrigo,600


In [132]:
# data de ejemplo 2
df2 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo','Patricio'],'Ciudad':['San Pedro','Concepción','Concepción','Talcahuano','San Pedro']})
df2

Unnamed: 0,Nombre,Ciudad
0,Alonso,San Pedro
1,Esteban,Concepción
2,Pablo,Concepción
3,Rodrigo,Talcahuano
4,Patricio,San Pedro


In [138]:
pd.concat([df1, df2]) # pone uno sobbajore el otro y no agrega datos si la columna no existe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200.0,
1,Esteban,300.0,
2,Pablo,1500.0,
3,Rodrigo,600.0,
0,Alonso,,San Pedro
1,Esteban,,Concepción
2,Pablo,,Concepción
3,Rodrigo,,Talcahuano
4,Patricio,,San Pedro


In [139]:
pd.concat([df1, df2], axis=1) # Al cambiar el eje, agrega de manera bruzca una tabla al lado de la otra

Unnamed: 0,Nombre,Ingreso,Nombre.1,Ciudad
0,Alonso,1200.0,Alonso,San Pedro
1,Esteban,300.0,Esteban,Concepción
2,Pablo,1500.0,Pablo,Concepción
3,Rodrigo,600.0,Rodrigo,Talcahuano
4,,,Patricio,San Pedro


#### __4.2- Fusión__

El ``merge` es una fusión compleja y más intelgente que une las tablas a partir de cierta(s) columna(s) en común y por algún método de unión.

In [140]:
# Unir DataFrames por una columna
df_merged = pd.merge(df1, df2, on='Nombre', how='inner') # tiene parametros: on='columna' y how='inner' | 'outer' | 'left' | 'right' | 'cross'
df_merged # Los une en un mismo dataframe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200,San Pedro
1,Esteban,300,Concepción
2,Pablo,1500,Concepción
3,Rodrigo,600,Talcahuano


## __Capítulo 5 - Tidy Data__

En este formato, los datos siguen tres principios clave:
1. **Cada variable se almacena en una columna**: Cada atributo o característica de los datos es una columna diferente. Por ejemplo, si estás trabajando con un conjunto de datos sobre ventas, podrías tener columnas como "Producto", "Fecha", "Cantidad", "Precio", etc.
2. **Cada observación está en una fila**: Cada fila representa una única observación o entrada. Por ejemplo, una fila podría representar una transacción o una venta específica de un producto en un día determinado.
3. **Cada tipo de unidad de observación tiene su propio archivo o tabla**: Si tienes múltiples tipos de datos relacionados (como datos de clientes y datos de ventas), cada tipo de entidad se almacena en su propio conjunto de datos. Por ejemplo, podrías tener una tabla para clientes y otra para ventas.

Veamos un ejemplo:

In [141]:
data = {
    'Estudiante': ['Ana', 'Luis', 'María'],
    'Matemáticas_2021': [85, 78, 92],
    'Historia_2021': [88, 74, 85],
    'Ciencias_2021': [90, 80, 88],
    'Matemáticas_2022': [89, 82, 95],
    'Historia_2022': [90, 77, 91],
    'Ciencias_2022': [92, 84, 94],
}

df_no_tidy = pd.DataFrame(data)
df_no_tidy

Unnamed: 0,Estudiante,Matemáticas_2021,Historia_2021,Ciencias_2021,Matemáticas_2022,Historia_2022,Ciencias_2022
0,Ana,85,88,90,89,90,92
1,Luis,78,74,80,82,77,84
2,María,92,85,88,95,91,94


- Estos datos no cumplen con las condiciones de un formato tidy, por lo que para un mejor manejo deberá ser modificada la tabla.

### __5.1- Función Melt__

La función `melt` permite traspasar una tabla de formato desordenado a uno _tidy_ de manera sencilla indicando cuáles son la variable de observación, como se llamará la nueva variable y qué valor se medirá.

In [145]:
# Reordenandolo: MELT
df_tidy = df_no_tidy.melt(id_vars=['Estudiante'], var_name='Asignatura', value_name='nota')
df_tidy

Unnamed: 0,Estudiante,Asignatura,nota
0,Ana,Matemáticas_2021,85
1,Luis,Matemáticas_2021,78
2,María,Matemáticas_2021,92
3,Ana,Historia_2021,88
4,Luis,Historia_2021,74
5,María,Historia_2021,85
6,Ana,Ciencias_2021,90
7,Luis,Ciencias_2021,80
8,María,Ciencias_2021,88
9,Ana,Matemáticas_2022,89


In [152]:
# más bonito 
df_tidy2 = df_tidy.copy()
df_tidy2[['Asignatura', 'Año']] = df_tidy['Asignatura'].str.split('_', expand=True) # parametro expand permite dividirse en columnas
df_tidy2 = df_tidy2[['Estudiante','Año','Asignatura','nota']] # Nuevo órden
df_tidy2 = df_tidy2.rename(columns={'nota': 'Nota'}) # Nuevo nombre
df_tidy2

Unnamed: 0,Estudiante,Año,Asignatura,Nota
0,Ana,2021,Matemáticas,85
1,Luis,2021,Matemáticas,78
2,María,2021,Matemáticas,92
3,Ana,2021,Historia,88
4,Luis,2021,Historia,74
5,María,2021,Historia,85
6,Ana,2021,Ciencias,90
7,Luis,2021,Ciencias,80
8,María,2021,Ciencias,88
9,Ana,2022,Matemáticas,89


### __5.2- Función Pivot__

Función contraria al `melt`.

In [157]:
# Proceso contrario: PIVOT
df_no_tidy = df_tidy.pivot(index='Estudiante',columns=['Asignatura'],values='nota').reset_index()
df_no_tidy

Asignatura,Estudiante,Ciencias_2021,Ciencias_2022,Historia_2021,Historia_2022,Matemáticas_2021,Matemáticas_2022
0,Ana,90,92,88,90,85,89
1,Luis,80,84,74,77,78,82
2,María,88,94,85,91,92,95
