<a href="https://colab.research.google.com/github/sergioGarcia91/Introductorio-Python-3/blob/main/Python_04a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Python 04a: Pandas

> *Ser tan rápidos como el más lento,\
y ser tan lentos como el más rápido.*

**Autor:** Sergio Andrés García Arias  
**Versión 01:** Diciembre 2023

# Introducción
`Pandas` se destaca como una biblioteca fundamental en Python diseñada para simplificar la manipulación y análisis de datos. En términos sencillos, es la versión de Excel en Python. Sus estructuras de datos principales son los objetos `DataFrame` y `Series`.

- [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html): Es una estructura tabular bidimensional que facilita la manipulación de datos y se puede equiparar a lo que conocemos con una tabla de datos.
- [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html): Es una estructura unidimensional que puede contener cualquier tipo de datos y se puede considerarse semejante a tener una sola fila o columna.

El uso de `Pandas` permite realizar diversas operaciones, entre ellas:

- Manipulación, limpieza y transformación de datos.
- Indexación y selección de información específica.
- Concatenación o unión de múltiples conjuntos de datos (tablas).
- Trabajo con datos en formato de fecha y series temporales.

En la [documentación de Pandas](https://pandas.pydata.org/pandas-docs/stable/), se encuentran [tutoriales](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html) y [guías para el usuario](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html). Además, en la web, se dispone de una amplia variedad de información, desde los conceptos fundamentales hasta estrategias avanzadas de manipulación de datos en Python.

# Inicio

In [None]:
import pandas as pd
import numpy as np

# Series

In [None]:
# Una de las maneras más fáciles de crear una series
# es usando una lista

lista_01 = [10, 20, 30, 40, 50] # int
lista_02 = ['Uno', 'Dos', 'Tres', 'Cuatro', 'Cinco'] # str
lista_03 = [1.1, 'a', 'b', False , 5] # mezcla de tipos de datos
lista_04 = [0.5, 1, 1.5, 2, 2.5] # float
lista_05 = [True, True, False, True, True] # bool

serie_01 = pd.Series(lista_01)
serie_02 = pd.Series(lista_02)
serie_03 = pd.Series(lista_03)
serie_04 = pd.Series(lista_04)
serie_05 = pd.Series(lista_05)

print(serie_01)
print(serie_02)
print(serie_03)
print(serie_04)
print(serie_05)
# object se puede considerar como un tipo de dato general, mezcla de datos o de texto

0    10
1    20
2    30
3    40
4    50
dtype: int64
0       Uno
1       Dos
2      Tres
3    Cuatro
4     Cinco
dtype: object
0      1.1
1        a
2        b
3    False
4        5
dtype: object
0    0.5
1    1.0
2    1.5
3    2.0
4    2.5
dtype: float64
0     True
1     True
2    False
3     True
4     True
dtype: bool


Pandas infiere el tipo de dato al crear Series y DataFrames, pero es fundamental comprender cómo se ha identificado el tipo de dato para evitar posibles problemas en el análisis y manipulación de los datos.

Se puede ajustar manualmente los tipos de datos utilizando funciones como `astype()` para convertir una Serie o columna a un tipo de dato específico.

Ejemplo:
```python
# Convertir la Serie a tipo entero
serie_03 = serie_03.astype(float)
```

Puedes encontrar más información sobre el método `astype`  para las `series` en la documentación oficial de Pandas.
[astype - Documentación de Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html)


In [None]:
# Como se puede notar, las Series regresan con un número a su izquierda,
# este número es su índice o indicativo de la posición,
# por lo que nos ayuda visualmente

print(serie_01) # la serie_01 original
print(serie_01[2]) # el elemento en la posición 2 =  30

0    10
1    20
2    30
3    40
4    50
dtype: int64
30


In [None]:
# con .info() obtenemos algo de información
serie_01.info()

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 168.0 bytes


In [None]:
# con .describe() estadísticos de datos numéricos
serie_01.describe()

count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64

In [None]:
print(serie_02)

0       Uno
1       Dos
2      Tres
3    Cuatro
4     Cinco
dtype: object


In [None]:
serie_02.info()

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype 
--------------  ----- 
5 non-null      object
dtypes: object(1)
memory usage: 168.0+ bytes


In [None]:
serie_02.describe()

count       5
unique      5
top       Uno
freq        1
dtype: object

In [None]:
# se pueden hacer operaciones entre series
serie_01 * serie_04

0      5.0
1     20.0
2     45.0
3     80.0
4    125.0
dtype: float64

In [None]:
# Filtrar
filtro  = serie_01 >= 30
print(serie_01)
print(filtro)
print(serie_01[ filtro ])

0    10
1    20
2    30
3    40
4    50
dtype: int64
0    False
1    False
2     True
3     True
4     True
dtype: bool
2    30
3    40
4    50
dtype: int64


# DataFrame

In [None]:
# Para crear un DataFrame vamos a usar nuestras listas ya creadas
# y las uniremos en un diccionario
diccionario_listas = {
    'Lista 1': lista_01,
    'Lista 2': lista_02,
    'Lista 3': lista_03,
    'Lista 4': lista_04,
    'Lista 5': lista_05,
}

print(diccionario_listas)
# Las llaves son los nombres respectivos de las listas
# y el valor es la respectiva lista y sus elementos

{'Lista 1': [10, 20, 30, 40, 50], 'Lista 2': ['Uno', 'Dos', 'Tres', 'Cuatro', 'Cinco'], 'Lista 3': [1.1, 'a', 'b', False, 5], 'Lista 4': [0.5, 1, 1.5, 2, 2.5], 'Lista 5': [True, True, False, True, True]}


Con el diccionario ya creado, para generar el DataFrame se puede hacer utilizando la función `pandas.DataFrame.from_dict`. Puedes consultar la [documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_dict.html) para obtener más detalles sobre esta función. Es común utilizar el nombre de variable `df` para referirse a un DataFrame.

In [None]:
df_diccionario = pd.DataFrame.from_dict(diccionario_listas)
df_diccionario # Ya es una DataFrame o Tabla

Unnamed: 0,Lista 1,Lista 2,Lista 3,Lista 4,Lista 5
0,10,Uno,1.1,0.5,True
1,20,Dos,a,1.0,True
2,30,Tres,b,1.5,False
3,40,Cuatro,False,2.0,True
4,50,Cinco,5,2.5,True


Se puede utilizar la función `pandas.concat` para combinar varias series en un DataFrame. Por lo que podemos utilizar las previamente generadas.

```python
# DataFrame creado desde series
# usando pandas.concat
df_series = pd.concat([serie_01, serie_02, serie_03, serie_04, serie_05])

# Mostrar el DataFrame resultante
print(df_series)
```


In [None]:
# Las series que queremos unir ingresan como una lista a la función
df_series = pd.concat([serie_01, serie_02, serie_03, serie_04, serie_05])

print(df_series)

0        10
1        20
2        30
3        40
4        50
0       Uno
1       Dos
2      Tres
3    Cuatro
4     Cinco
0       1.1
1         a
2         b
3     False
4         5
0       0.5
1       1.0
2       1.5
3       2.0
4       2.5
0      True
1      True
2     False
3      True
4      True
dtype: object


La salida no coincide con lo esperado, una tabla. La función `pandas.concat` tiene un parámetro llamado `axis`. Este parámetro determina la dirección de la unión o concatenación:

- `axis=0` se refiere la concatenación a lo largo de los índices o filas.
- `axis=1` se refiere a la concatenación a lo largo de las columnas.

Por defecto, el parámetro `axis` está establecido en `0`, lo que significa que la unión se realiza aumentando las filas. La función `pandas.concat` ofrece otros parámetros que se pueden revisar y modificar según las necesidades específicas. Puede encontrar más información en la [documentación oficial de pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html).

In [None]:
df_series = pd.concat([serie_01, serie_02, serie_03, serie_04, serie_05],
                      axis= 1)

print(df_series) # Ya parece mas a una tabla

    0       1      2    3      4
0  10     Uno    1.1  0.5   True
1  20     Dos      a  1.0   True
2  30    Tres      b  1.5  False
3  40  Cuatro  False  2.0   True
4  50   Cinco      5  2.5   True


In [None]:
print(df_diccionario)
print('\n')
print(df_series)

   Lista 1 Lista 2 Lista 3  Lista 4  Lista 5
0       10     Uno     1.1      0.5     True
1       20     Dos       a      1.0     True
2       30    Tres       b      1.5    False
3       40  Cuatro   False      2.0     True
4       50   Cinco       5      2.5     True


    0       1      2    3      4
0  10     Uno    1.1  0.5   True
1  20     Dos      a  1.0   True
2  30    Tres      b  1.5  False
3  40  Cuatro  False  2.0   True
4  50   Cinco      5  2.5   True


In [None]:
# Para modificar el nombre de las columnas podemos
# reasignar el atributo .columns
df_series.columns = ['Columna 1', 'Texto', 'Float', 'Col. 3', 'Col 4']
print(df_series.columns)
df_series

Index(['Columna 1', 'Texto', 'Float', 'Col. 3', 'Col 4'], dtype='object')


Unnamed: 0,Columna 1,Texto,Float,Col. 3,Col 4
0,10,Uno,1.1,0.5,True
1,20,Dos,a,1.0,True
2,30,Tres,b,1.5,False
3,40,Cuatro,False,2.0,True
4,50,Cinco,5,2.5,True


In [None]:
# Para modificar numeración de los índices podemos
# reasignar el atributo .index
df_series.index = np.arange(10, 15, 1)
print(df_series.index)
df_series

Int64Index([10, 11, 12, 13, 14], dtype='int64')


Unnamed: 0,Columna 1,Texto,Float,Col. 3,Col 4
10,10,Uno,1.1,0.5,True
11,20,Dos,a,1.0,True
12,30,Tres,b,1.5,False
13,40,Cuatro,False,2.0,True
14,50,Cinco,5,2.5,True


También es posible utilizar el método `.reset_index()` volver a ajustar los índices después de realizar operaciones en un DataFrame. Te recomiendo revisar la [documentación oficial de `.reset_index()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html) para obtener ejemplos y detalles sobre sus parámetros.

In [None]:
print('Antes de .reset_index()')
print(df_series)
df_series.reset_index(inplace=True, # Para que reemplace los valores en el mismo DataFrame
                      drop=True) # Para que no guarde y cree una columna con los indices anteriores
print('Despues de .reset_index()')
print(df_series)

Antes de .reset_index()
    Columna 1   Texto  Float  Col. 3  Col 4
10         10     Uno    1.1     0.5   True
11         20     Dos      a     1.0   True
12         30    Tres      b     1.5  False
13         40  Cuatro  False     2.0   True
14         50   Cinco      5     2.5   True
Despues de .reset_index()
   Columna 1   Texto  Float  Col. 3  Col 4
0         10     Uno    1.1     0.5   True
1         20     Dos      a     1.0   True
2         30    Tres      b     1.5  False
3         40  Cuatro  False     2.0   True
4         50   Cinco      5     2.5   True


In [None]:
# Modifiquemos la columna Lista 01 de df_diccionario
print('Antes de modificar:')
print(df_diccionario)
df_diccionario['Lista 1'] = df_diccionario['Lista 1'] /3 #sobre escribimos en la misma columna

print('Despues de modificar:')
print(df_diccionario)

Antes de modificar:
   Lista 1 Lista 2 Lista 3  Lista 4  Lista 5
0       10     Uno     1.1      0.5     True
1       20     Dos       a      1.0     True
2       30    Tres       b      1.5    False
3       40  Cuatro   False      2.0     True
4       50   Cinco       5      2.5     True
Despues de modificar:
     Lista 1 Lista 2 Lista 3  Lista 4  Lista 5
0   3.333333     Uno     1.1      0.5     True
1   6.666667     Dos       a      1.0     True
2  10.000000    Tres       b      1.5    False
3  13.333333  Cuatro   False      2.0     True
4  16.666667   Cinco       5      2.5     True


In [None]:
# Redondeemos para que solo tenga 2 decimales
df_diccionario['Lista 1'] = np.round(df_diccionario['Lista 1'], 2)
df_diccionario

Unnamed: 0,Lista 1,Lista 2,Lista 3,Lista 4,Lista 5
0,3.33,Uno,1.1,0.5,True
1,6.67,Dos,a,1.0,True
2,10.0,Tres,b,1.5,False
3,13.33,Cuatro,False,2.0,True
4,16.67,Cinco,5,2.5,True


In [None]:
# Unamos los 2 df
df_unido = pd.concat([df_series, df_diccionario])
df_unido

Unnamed: 0,Columna 1,Texto,Float,Col. 3,Col 4,Lista 1,Lista 2,Lista 3,Lista 4,Lista 5
0,10.0,Uno,1.1,0.5,True,,,,,
1,20.0,Dos,a,1.0,True,,,,,
2,30.0,Tres,b,1.5,False,,,,,
3,40.0,Cuatro,False,2.0,True,,,,,
4,50.0,Cinco,5,2.5,True,,,,,
0,,,,,,3.33,Uno,1.1,0.5,True
1,,,,,,6.67,Dos,a,1.0,True
2,,,,,,10.0,Tres,b,1.5,False
3,,,,,,13.33,Cuatro,False,2.0,True
4,,,,,,16.67,Cinco,5,2.5,True


In [None]:
# Como difieren las columnas no se unió adecuadamente
# vamos a hacer que sean iguales
df_diccionario.columns = df_series.columns

df_unido = pd.concat([df_series, df_diccionario])
# volvemos a ajustar los indices
df_unido.reset_index(inplace=True, drop=True)
df_unido

Unnamed: 0,Columna 1,Texto,Float,Col. 3,Col 4
0,10.0,Uno,1.1,0.5,True
1,20.0,Dos,a,1.0,True
2,30.0,Tres,b,1.5,False
3,40.0,Cuatro,False,2.0,True
4,50.0,Cinco,5,2.5,True
5,3.33,Uno,1.1,0.5,True
6,6.67,Dos,a,1.0,True
7,10.0,Tres,b,1.5,False
8,13.33,Cuatro,False,2.0,True
9,16.67,Cinco,5,2.5,True


In [None]:
# Para crear una nueva columna
# solo debemos especificar el nombre de la columna
# y proceder a llenarla, en este caso con una división
df_unido['Columna 1 / Col 3'] = df_unido['Columna 1'] / df_unido['Col. 3']
df_unido

Unnamed: 0,Columna 1,Texto,Float,Col. 3,Col 4,Columna 1 / Col 3
0,10.0,Uno,1.1,0.5,True,20.0
1,20.0,Dos,a,1.0,True,20.0
2,30.0,Tres,b,1.5,False,20.0
3,40.0,Cuatro,False,2.0,True,20.0
4,50.0,Cinco,5,2.5,True,20.0
5,3.33,Uno,1.1,0.5,True,6.66
6,6.67,Dos,a,1.0,True,6.67
7,10.0,Tres,b,1.5,False,6.666667
8,13.33,Cuatro,False,2.0,True,6.665
9,16.67,Cinco,5,2.5,True,6.668


In [None]:
# También se pueden generar copias de los df
# Para ello usamos el metodo .copy()

print('Df original:')
print(df_unido)

print('\n')
print('Df copiado:')
# Para esta copia solo voy a tomar tres de las cinco columnas
# Para selesccionar multiples columnas solo es ingresarlas como una lista
df_unido_copia = df_unido[['Columna 1', 'Texto', 'Col 4']].copy()
print(df_unido_copia)

Df original:
   Columna 1   Texto  Float  Col. 3  Col 4  Columna 1 / Col 3
0      10.00     Uno    1.1     0.5   True          20.000000
1      20.00     Dos      a     1.0   True          20.000000
2      30.00    Tres      b     1.5  False          20.000000
3      40.00  Cuatro  False     2.0   True          20.000000
4      50.00   Cinco      5     2.5   True          20.000000
5       3.33     Uno    1.1     0.5   True           6.660000
6       6.67     Dos      a     1.0   True           6.670000
7      10.00    Tres      b     1.5  False           6.666667
8      13.33  Cuatro  False     2.0   True           6.665000
9      16.67   Cinco      5     2.5   True           6.668000


Df copiado:
   Columna 1   Texto  Col 4
0      10.00     Uno   True
1      20.00     Dos   True
2      30.00    Tres  False
3      40.00  Cuatro   True
4      50.00   Cinco   True
5       3.33     Uno   True
6       6.67     Dos   True
7      10.00    Tres  False
8      13.33  Cuatro   True
9      16.6

In [None]:
# En df_unido_copia esta una columna de Bool
# por lo que tambien la podemos usar para filtrar
df_unido_copia[ df_unido_copia['Col 4'] ]

Unnamed: 0,Columna 1,Texto,Col 4
0,10.0,Uno,True
1,20.0,Dos,True
3,40.0,Cuatro,True
4,50.0,Cinco,True
5,3.33,Uno,True
6,6.67,Dos,True
8,13.33,Cuatro,True
9,16.67,Cinco,True


In [None]:
# Pero si solo quiere las 2 primeras columnas
df_unido_copia[['Columna 1', 'Texto']][ df_unido_copia['Col 4'] ]

Unnamed: 0,Columna 1,Texto
0,10.0,Uno
1,20.0,Dos
3,40.0,Cuatro
4,50.0,Cinco
5,3.33,Uno
6,6.67,Dos
8,13.33,Cuatro
9,16.67,Cinco


In [None]:
# Los DataFrame tambien puede hacer uso de .info()
df_unido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Columna 1          10 non-null     float64
 1   Texto              10 non-null     object 
 2   Float              10 non-null     object 
 3   Col. 3             10 non-null     float64
 4   Col 4              10 non-null     bool   
 5   Columna 1 / Col 3  10 non-null     float64
dtypes: bool(1), float64(3), object(2)
memory usage: 538.0+ bytes


In [None]:
df_unido.describe()

Unnamed: 0,Columna 1,Col. 3,Columna 1 / Col 3
count,10.0,10.0,10.0
mean,20.0,1.5,13.332967
std,15.315771,0.745356,7.027671
min,3.33,0.5,6.66
25%,10.0,1.0,6.667
50%,15.0,1.5,13.335
75%,27.5,2.0,20.0
max,50.0,2.5,20.0


Hasta ahora, hemos explorado la creación de `Series` y `DataFrames`, así como algunas de sus características fundamentales. Sin embargo, Pandas cuenta con mas herramientas para diversas operaciones y manipulaciones de datos.

- [`pd.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html): Leer datos desde un archivo CSV.
- [`pd.read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html): Leer datos desde un archivo Excel.
- [`df.head()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html): Mostrar las primeras filas del DataFrame.
- [`df.info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html): Obtener información sobre el DataFrame.
- [`df.describe()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html): Obtener estadísticas descriptivas.
- [`df.shape`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html): Obtener la forma del DataFrame (número de filas y columnas).

- [`df.drop()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html): Eliminar filas o columnas.
- [`df.rename()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html): Cambiar nombres de columnas.
- [`df.sort_values()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html): Ordenar los datos.
- [`df.groupby()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html): Agrupar datos por una columna.
- [`df.mean()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html), [`df.median()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.median.html): Calcular la media y la mediana.
- [`df.sum()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html), [`df.max()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.max.html), [`df.min()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.min.html): Calcular suma, máximo y mínimo.
- [`df.isnull()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html), [`df.notnull()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notnull.html): Verificar valores nulos.
- [`df.dropna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html): Eliminar filas con valores nulos.
- [`df.fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html): Rellenar valores nulos con un valor específico.
- [`pd.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html): Concatenar DataFrames.
- [`df.merge()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html): Fusionar DataFrames basados en una columna.
- [`df.plot()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html): Crear  gráficos directamente desde el DataFrame.
- [`df.hist()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html), [`df.boxplot()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.boxplot.html): Histogramas y boxplots.
- [`pd.to_datetime()`](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html): Convertir a tipo de dato datetime.
- [`df.resample()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html): Re-muestrear datos de series temporales.


# Fin