[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/sensioai/blog/blob/master/019_pandas/pandas.ipynb)

# Pandas

La librería `Pandas` proporciona estructuras de datos y herramientas de análisis de datos fáciles de usar y optimizadas. De la misma forma que en `Numpy` el objeto principal era el `ndarray` (en este [post](https://sensioai.com/blog/007_numpy) puedes aprender sobre `Numpy`) el objeto principal en `Pandas` es el `DataFrame`, que puede considerarse como una tabla alojada en memoria (como una hoja de cálculo de Excel, con nombres de columna y etiquetas de fila). Muchas funciones disponibles en Excel están disponibles mediante programación, como crear tablas dinámicas, calcular columnas basadas en otras columnas, hacer gráficos, etc. `Pandas` se construye por encima de `Numpy`, por lo que podremos aprovechar mucha de la funcionalidad y nomenclatura ya conocemos. La principal diferencia es que con `Pandas` vamos a poder trabajar con datos heterogéneos, mientras que en `Numpy` necesitamos que nuestras estructuras de datos sean siempre del mismo tipo para poder llevar a cabo operaciones. Para poder empezar a trabajar con `Pandas` simplemente tenemos que importarlo como cualquier otra librería.


In [None]:
import pandas as pd

> 💡Es común importar `Pandas` con el nombre `pd`. Recuerda que si no tienes instalada la librería puedes hacerlo con `pip install pandas` o bien `conda install pandas` si instalaste `Python` con `Anaconda`.

## El objeto `Serie`

Si bien el objeto principal en `Pandas` hemos dicho que es el `DataFrame`, un `DataFrame` está formado por una colección de `Series`. Es por esto que empezamos explicando este objeto básico. Una `Serie` es un objeto unidimensional similar a una lista o un `array` que contiene una secuencia de valores del mismo tipo. Cada elemento en la `Serie` tiene también una etiqueta asociada, llamada `índice`. Podemos crear una `Serie` de la siguiente manera.

In [3]:
import pandas as pd

s = pd.Series(["Stelli", "Fede"])

s_str = s.astype('str')

print(s_str)

print(type(s_str))


0    Stelli
1      Fede
dtype: object
<class 'pandas.core.series.Series'>


In [None]:
import pandas as pd
import re

# Crear una serie con datos sucios
s = pd.Series(["Matt!", "Fede?", "123ABC", "$%&Juan", "Pepito^"])

# Definir una función para limpiar los datos con expresiones regulares
def limpiar_datos(texto):
    # Utilizar re.sub para eliminar caracteres no deseados
    return re.sub(r'[^a-zA-Z ]', '', texto)

# Aplicar la función a cada elemento de la serie utilizando str.replace
s_limpia = s.str.replace(r'[^a-zA-Z ]', '')

# Otra forma: Utilizar la función limpiar_datos con map
# s_limpia = s.map(limpiar_datos)

# Imprimir la serie original y la serie limpia
print("Serie original:")
print(s)

print("\nSerie limpia:")
print(s_limpia)

Serie original:
0      Matt!
1      Fede?
2     123ABC
3    $%&Juan
4    Pepito^
dtype: object

Serie limpia:
0      Matt
1      Fede
2       ABC
3      Juan
4    Pepito
dtype: object


  s_limpia = s.str.replace(r'[^a-zA-Z ]', '')


Puedes ver la lista con todos los valores (columna de la derecha) y sus índices correspondientes (columna de la izquierda). Al no haber definido índices, `Pandas` asigna por defecto la posición de cada valor en la secuencia. Podemos asignar etiquetas al crear una `Serie` de la siguiente manera

In [None]:
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])
s2

alice       68
bob         83
charles    112
darwin      68
dtype: int64

### Indexado

Esto nos permite indexar los valores de la `Serie` utilizando su índice de manera similar a cuando utilizamos un `dict` de `Python`.

In [None]:
s2['alice']

68

Aunque podemos seguir indexando valores directamente por su posición en la secuencia

In [None]:
s2[0]

68

Podemos utilizar una nomenclatura alternativa para explicitar de qué manera estamos accediendo a los valores en una `Serie`, que también podremos usar en un `DataFrame`.

In [None]:
# acceder por etiqueta

s2.loc['alice']

# import fuzzy wuzzy

68

En el contexto de la biblioteca pandas en Python, las funciones loc y iloc se utilizan para acceder y seleccionar datos en un DataFrame. Ambas funciones son utilizadas para indexar y realizar selecciones, pero tienen algunas diferencias clave en la forma en que especifican los índices.

loc (etiqueta):

Se utiliza para acceder a un grupo de filas y columnas por etiqueta o una matriz booleana.
La sintaxis general es df.loc[fila_etiqueta, columna_etiqueta].
Permite seleccionar datos utilizando etiquetas de fila y columna.

In [None]:
#etiqueta es el lugar entre las filas y las columnas que yp noombra en index 0

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}, index=['col1', 'col2', 'col3'])

# Seleccionar un valor usando etiquetas de fila y columna
valor = df.loc['col2', 'C'] #[columna, fila]
print(valor)

8


iloc (posición):

Se utiliza para acceder a un grupo de filas y columnas por posición entera.
La sintaxis general es df.iloc[fila_posición, columna_posición].
Permite seleccionar datos utilizando índices enteros.

In [None]:
#posición es el lugar entre las filas y las columnas que empieza en coordenadas 0

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Seleccionar un valor usando índices enteros de fila y columna
valor = df.iloc[1, 1] #[columna, fila]
print(valor)

5


Como puedes ver una `Serie` es muy similar a un `dict`, de hecho la manera más común de inicializar objetos en `Pandas` es a partir de `dict`s.

In [None]:
data = {"alice": 68, "bob": 83, "colin": 86, "darwin": 68}
s3 = pd.Series(data)
s3

alice     68
bob       83
colin     86
darwin    68
dtype: int64

### Operaciones

Podemos operar con `Series` como si de `arrays` de `Numpy` se tratase, y muchas funciones de `Numpy` aceptan `Series` como argumentos.

In [None]:
s3 + 2

alice     70
bob       85
colin     88
darwin    70
dtype: int64

In [None]:
s3 * 2

alice     136
bob       166
colin     172
darwin    136
dtype: int64

En Python, el "slicing" se refiere a la técnica de seleccionar un subconjunto de elementos de una secuencia, como una lista, una cadena (string) o una tupla. El slicing se realiza utilizando el operador de dos puntos (:) dentro de corchetes ([]). La sintaxis general es la siguiente:

secuencia[inicio:fin:paso]
inicio: Índice de inicio del subconjunto.
fin: Índice de fin del subconjunto (no inclusivo).
paso: Incremento entre los índices (opcional).
Un ejemplo simple de slicing sería:



Y también, del mismo modo, utilizar todas las reglas de indexación que aprendimos para `Numpy`, como por ejemplo el `slicing` y el `masking`.

In [None]:
lista = [1, 2, 3, 4, 5]
sublista = lista[1:4]  # Selecciona elementos desde el índice 1 hasta el índice 3
print(sublista)  # Resultado: [2, 3, 4]

[2, 3, 4]


el "masking" (enmascaramiento) se refiere al uso de una máscara booleana para seleccionar elementos específicos de una secuencia. La máscara es una lista o arreglo de valores booleanos que tiene la misma longitud que la secuencia original. Cuando se aplica la máscara, solo los elementos que corresponden a True en la máscara se seleccionan. Un ejemplo sería:

In [None]:
lista = [1, 2, 3, 4, 5]
mascara = [True, False, True, False, True]
resultado = [elemento for elemento, seleccionado in zip(lista, mascara) # Función zip en cada iteración, combina elementos correspondientes de las listas proporcionadas y genera una tupla con esos elementos.
if seleccionado]
print(resultado) # Resultado: [1, 3, 5]

[1, 3, 5]


In [None]:
# escoger los dos últimos elementos

s3[-2:]

colin     86
darwin    68
dtype: int64

In [None]:
# filtrado

s3[s3 > 80]

bob      83
colin    86
dtype: int64

También podemos llevar a cabo operaciones entre `Series`, en estos casos `Pandas` alineará de manera automática los diferentes objetos para hacer coincidir las mismas etiquetas. El resultado será la unión de las diferentes `Series`, introduciendo el valor `NaN` (not a number) para aquellas etiquetas que no estén presente en todos los objetos involucrados.

In [None]:
s2 = pd.Series({"alice": 68, "bob": 83, "colin": 86, "darwin": 68})
s3 = pd.Series({"alice": 68, "bob": 83, "charles": 86, "darwin": 68})

s2 + s3

alice      136.0
bob        166.0
charles      NaN
colin        NaN
darwin     136.0
dtype: float64

## El objeto `DataFrame`

Puedes ver un `DataFrame` como una hoja de cálculo, con valores en celdas, nombres de columna y etiquetas de índice para cada fila. Permite definir expresiones para calcular columnas basadas en otras columnas, crear tablas dinámicas, agrupar filas, dibujar gráficos, etc. Ahora que conocemos el objeto `Serie`, también podemos ver un DataFrames como diccionarios de `Series`.

In [None]:
data = {
    "weight": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "birthyear": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"], name="year"),
    "children": pd.Series([0, 3], index=["charles", "bob"]),
    "hobby": pd.Series(["Biking", "Dancing"], index=["alice", "bob"]),
}

df = pd.DataFrame(data)

df

Unnamed: 0,weight,birthyear,children,hobby
alice,68,1985,,Biking
bob,83,1984,3.0,Dancing
charles,112,1992,0.0,


Como puedes ver las diferentes `Series` han sido alineadas automáticamente, añadiendo valores `NaN` en aquellas entradas no presentes en una `Serie` determinada pero que sí aparecen en otras. Estos valores se conocen como *missing values*, y más adelante hablamos de diferente funcionalidad que `Pandas` nos ofrece para tratarlos, ya que nuestros modelos de `Machine Learning` no son capaces de trabajar con este tipo de valores. Igual que hemos visto anteriormente, la forma más común de crear un `DataFrame` es a partir de un `dict`.

In [None]:
df = pd.DataFrame({
    "birthyear": {"alice":1985, "bob": 1984, "charles": 1992},
    "hobby": {"alice":"Biking", "bob": "Dancing"},
    "weight": {"alice":68, "bob": 83, "charles": 112},
    "children": {"bob": 3, "charles": 0}
})

df

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


Es posible tener estructuras de datos de más de dos dimensiones, para ello tenemos que proveer a `Pandas` de índices de alto nivel

In [None]:
df2 = pd.DataFrame(
  {
    ("public", "birthyear"):
        {("Paris","alice"):1985, ("Paris","bob"): 1984, ("London","charles"): 1992},
    ("public", "hobby"):
        {("Paris","alice"):"Biking", ("Paris","bob"): "Dancing"},
    ("private", "weight"):
        {("Paris","alice"):68, ("Paris","bob"): 83, ("London","charles"): 112},
    ("private", "children"):
        {("Paris", "alice"):np.nan, ("Paris","bob"): 3, ("London","charles"): 0}
  }
)

df2

Unnamed: 0_level_0,Unnamed: 1_level_0,public,public,private,private
Unnamed: 0_level_1,Unnamed: 1_level_1,birthyear,hobby,weight,children
Paris,alice,1985,Biking,68,
Paris,bob,1984,Dancing,83,3.0
London,charles,1992,,112,0.0


### Indexado

Podemos acceder a los valores de cualquier columna mediante su nombre.

In [None]:
df["weight"]

alice       68
bob         83
charles    112
Name: weight, dtype: int64

Como puedes ver el resultado es una `Serie` con los valores y las etiquetas de todos los elementos de la columna. Podemos acceder a varias columnas a la vez mediante una lista de nombres

In [None]:
df[["weight", "birthyear"]]

Unnamed: 0,weight,birthyear
alice,68,1985
bob,83,1984
charles,112,1992


En este caso el resultado es un nuevo `DataFrame` que contiene sólo las columnas seleccionadas. Para acceder a los valores por filas, utilizamos la misma nomenclatura utilizada para indexar `Series`.

In [None]:
# indexamos con la etiqueta

df.loc["alice"]

birthyear      1985
hobby        Biking
weight           68
children        NaN
Name: alice, dtype: object

In [None]:
# indexamos con la posición

df.iloc[0]

birthyear      1985
hobby        Biking
weight           68
children        NaN
Name: alice, dtype: object

### Crear y eliminar columnas

Podemos crear nuevas columnas de la siguiente manera

In [None]:
df["height"] = pd.Series({"alice": 167, "bob": 180})

df

Unnamed: 0,birthyear,hobby,weight,children,height
alice,1985,Biking,68,,167.0
bob,1984,Dancing,83,3.0,180.0
charles,1992,,112,0.0,


Del mismo modo, así es como eliminaríamos una columna

In [None]:
del df["height"]

df

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


Por defecto, las nuevas columnas se añaden en la última posición. Podemos insertar la columna en una posición determinada con la función `insert`.

In [None]:
# añade la nueva columna en la posición 2

df.insert(2, "height", pd.Series({"alice": 167, "bob": 180}))

df

Unnamed: 0,birthyear,hobby,height,weight,children
alice,1985,Biking,167.0,68,
bob,1984,Dancing,180.0,83,3.0
charles,1992,,,112,0.0


También podemos crear nuevas columnas a partir de otras de manera sencilla

In [None]:
df["w2h_ratio"] = df["weight"] / df["height"]

df

Unnamed: 0,birthyear,hobby,height,weight,children,w2h_ratio
alice,1985,Biking,167.0,68,,0.407186
bob,1984,Dancing,180.0,83,3.0,0.461111
charles,1992,,,112,0.0,


### Operaciones

Del mismo modo que con las `Serie`s, podemos llevar a cabo operaciones con `DataFrame`s. En este caso tendremos que tener en cuenta que las operaciones estén definidas para todos los diferentes tipos de datos almacenados en el objeto.

np.exp(df) calculará la exponencial de cada elemento en el DataFrame df. La función exponencial es comúnmente utilizada en aplicaciones como la modelización matemática, estadísticas y ciencias en general.

Ten en cuenta que, para que este código funcione correctamente, es necesario que todos los elementos del DataFrame sean valores numéricos, ya que la función np.exp está diseñada para operar con datos numéricos.

In [None]:
import numpy as np
import pandas as pd
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Aplicar la función exponencial a cada elemento del DataFrame
df_exp = np.exp(df)

# Imprimir el resultado
print(df_exp)

           A           B            C
0   2.718282   54.598150  1096.633158
1   7.389056  148.413159  2980.957987
2  20.085537  403.428793  8103.083928


## Resumen

En este post hemos introducido la librería para el análisis de datos `Pandas`. Este módulo, construido encima de `Numpy`, nos permite trabajar con datos tabulares gracias al objeto `DataFrame`. Este objeto nos permite llevar a cabo las operaciones básicas para el análisis de datos de manera eficiente y con una sintaxis sencilla. En los próximos posts aprenderemos funcionalidad más avanzada como por ejemplo ordenar, filtrar y seleccionar elementos, guardar y cargar datos de archivos, tratar *missing values* y trabajar con datos especiales de tipo categórico así como datos temporales.

**funciones comunes para pandas**

info y describe:

df.info(): Proporciona información sobre el DataFrame, incluyendo tipos de datos y valores nulos.
df.describe(): Calcula estadísticas descriptivas para columnas numéricas.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Alice', 'Bob', 'Charlie'],
        'Edad': [25, 30, 22],
        'Puntuacion': [85, 92, 88]}
df = pd.DataFrame(data)

# Mostrar información del DataFrame
print("Información del DataFrame:")
df.info()

# Calcular estadísticas descriptivas para columnas numéricas
print("\nEstadísticas descriptivas:")
print(df.describe())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nombre      3 non-null      object
 1   Edad        3 non-null      int64 
 2   Puntuacion  3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 200.0+ bytes

Estadísticas descriptivas:
            Edad  Puntuacion
count   3.000000    3.000000
mean   25.666667   88.333333
std     4.041452    3.511885
min    22.000000   85.000000
25%    23.500000   86.500000
50%    25.000000   88.000000
75%    27.500000   90.000000
max    30.000000   92.000000


Filtrado de filas:

df[df['columna'] > valor]: Filtra filas basándose en una condición.
df.query('columna > valor'): Otra forma de filtrar filas mediante una consulta.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Alice', 'Bob', 'Charlie'],
        'Edad': [25, 30, 22],
        'Puntuacion': [85, 92, 88]}
df = pd.DataFrame(data)

# Filtrar filas basado en una condición usando corchetes
filtro_corchetes = df[df['Edad'] > 25]
print("Filtrado usando corchetes:")
print(filtro_corchetes)

# Filtrar filas mediante una consulta usando query
filtro_query = df.query('Edad > 25')
print("\nFiltrado usando query:")
print(filtro_query)

Filtrado usando corchetes:
  Nombre  Edad  Puntuacion
1    Bob    30          92

Filtrado usando query:
  Nombre  Edad  Puntuacion
1    Bob    30          92


groupby:

df.groupby('columna'): Agrupa el DataFrame por valores únicos en una columna.
grouped_df['columna'].agg(['mean', 'count']): Calcula estadísticas agregadas para grupos.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Grupo': ['A', 'B', 'A', 'B', 'A', 'A'],
        'Valor1': [10, 15, 20, 25, 30, 35],
        'Valor2': [100, 150, 200, 250, 300, 350]}
df = pd.DataFrame(data)

# Agrupar por la columna 'Grupo' y calcular la media de cada grupo
grupo_resultado = df.groupby('Grupo').mean()

# Mostrar el resultado
print("DataFrame original:")
print(df)
print("\nAgrupado por 'Grupo' con media calculada:")
print(grupo_resultado)

DataFrame original:
  Grupo  Valor1  Valor2
0     A      10     100
1     B      15     150
2     A      20     200
3     B      25     250
4     A      30     300
5     A      35     350

Agrupado por 'Grupo' con media calculada:
       Valor1  Valor2
Grupo                
A       23.75   237.5
B       20.00   200.0


Manejo de valores nulos:

df.dropna(): Elimina filas con valores nulos.
df.fillna(valor): Rellena valores nulos con un valor específico.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo con valores nulos
data = {'Nombre': ['Alice', 'Bob', None, 'Charlie'],
        'Edad': [25, None, 22, 30],
        'Puntuacion': [85, 92, 88, None]}
df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

# Eliminar filas con valores nulos
df_sin_nulos = df.dropna()

# Mostrar el DataFrame después de eliminar filas con valores nulos
print("\nDataFrame después de eliminar filas con valores nulos:")
print(df_sin_nulos)

DataFrame original:
    Nombre  Edad  Puntuacion
0    Alice  25.0        85.0
1      Bob   NaN        92.0
2     None  22.0        88.0
3  Charlie  30.0         NaN

DataFrame después de eliminar filas con valores nulos:
  Nombre  Edad  Puntuacion
0  Alice  25.0        85.0



Eliminar los valores nulos de un DataFrame utilizando dropna() puede tener varios propósitos dependiendo del análisis de datos que estés realizando. Algunas razones comunes para eliminar valores nulos incluyen:

Mejora de la calidad de los datos: En algunos casos, la presencia de valores nulos puede afectar la calidad de tus análisis. Eliminar filas con valores nulos puede ser beneficioso para trabajar con conjuntos de datos más limpios y confiables.

Preparación para ciertos cálculos o gráficos: Algunas funciones de análisis de datos o bibliotecas de visualización pueden no manejar bien los valores nulos. Al eliminarlos, te aseguras de que los cálculos y gráficos que realizas se ejecuten sin problemas.

Requisitos de modelos de machine learning: Algunos algoritmos de machine learning no pueden manejar valores nulos y pueden arrojar errores si se encuentran con ellos. En esos casos, es necesario preprocesar los datos y eliminar o imputar los valores nulos antes de entrenar el modelo.

Enfoque en datos completos: Si estás interesado en analizar patrones o tendencias en un conjunto de datos y prefieres trabajar solo con datos completos, puedes eliminar las filas con valores nulos.

Es importante tener en cuenta que eliminar valores nulos puede afectar la cantidad de datos disponibles para el análisis, y debes considerar si esta acción es apropiada en función del contexto y los objetivos de tu análisis. Además, en algunos casos, puede ser más adecuado imputar valores nulos en lugar de eliminarlos, dependiendo de la naturaleza de tus datos y de la tarea que estés realizando. La imputación implica reemplazar los valores nulos por algún valor calculado o estimado.

Ordenación:

df.sort_values(by='columna', ascending=False): Ordena el DataFrame por una columna específica.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
        'Edad': [25, 30, 22, 28],
        'Puntuacion': [85, 92, 88, 90]}
df = pd.DataFrame(data)

# Ordenar por la columna 'Edad' de forma ascendente
df_ordenado_edad_asc = df.sort_values(by='Edad')
print("Ordenado por 'Edad' de forma ascendente:")
print(df_ordenado_edad_asc)

# Ordenar por la columna 'Edad' de forma descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nOrdenado por 'Edad' de forma descendente:")
print(df_ordenado_edad_desc)

# Ordenar por múltiples columnas
df_ordenado_multiple = df.sort_values(by=['Edad', 'Puntuacion'], ascending=[True, False])
print("\nOrdenado por 'Edad' de forma ascendente y 'Puntuacion' de forma descendente:")
print(df_ordenado_multiple)

Ordenado por 'Edad' de forma ascendente:
    Nombre  Edad  Puntuacion
2  Charlie    22          88
0    Alice    25          85
3    David    28          90
1      Bob    30          92

Ordenado por 'Edad' de forma descendente:
    Nombre  Edad  Puntuacion
1      Bob    30          92
3    David    28          90
0    Alice    25          85
2  Charlie    22          88

Ordenado por 'Edad' de forma ascendente y 'Puntuacion' de forma descendente:
    Nombre  Edad  Puntuacion
2  Charlie    22          88
0    Alice    25          85
3    David    28          90
1      Bob    30          92


pivot_table:

pd.pivot_table(df, values='valor', index='fila', columns='columna'): Crea una tabla pivote.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Ciudad': ['A', 'B', 'A', 'B', 'A', 'A'],
        'Mes': ['Enero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero'],
        'Ventas': [100, 150, 200, 250, 300, 350]}
df = pd.DataFrame(data)

# Crear una tabla pivote
tabla_pivote = pd.pivot_table(df, values='Ventas', index='Ciudad', columns='Mes', aggfunc='sum')

# Mostrar el resultado
print("DataFrame original:")
print(df)
print("\nTabla pivote:")
print(tabla_pivote)

DataFrame original:
  Ciudad      Mes  Ventas
0      A    Enero     100
1      B  Febrero     150
2      A    Enero     200
3      B  Febrero     250
4      A    Enero     300
5      A  Febrero     350

Tabla pivote:
Mes     Enero  Febrero
Ciudad                
A       600.0    350.0
B         NaN    400.0



Una tabla pivote es una herramienta que te permite reorganizar, resumir y analizar datos en un formato más estructurado y fácil de entender. Algunas de las funciones y ventajas clave de una tabla pivote son las siguientes:

Resumen de datos: Una tabla pivote proporciona una vista resumida de los datos, permitiéndote analizar rápidamente tendencias, patrones y relaciones en grandes conjuntos de datos.

Reorganización de datos: Puedes cambiar la disposición de los datos, transformando filas en columnas y viceversa, para obtener una perspectiva diferente de los mismos datos.

Agregación y cálculos: Puedes aplicar funciones de agregación (como suma, promedio, máximo, mínimo, etc.) a los datos para resumir la información y obtener métricas clave.

Agrupación de datos: Las tablas pivote te permiten agrupar datos por una o más columnas, proporcionando una visión segmentada de los datos que facilita la comparación entre grupos.

Análisis exploratorio de datos: Facilita la exploración y el análisis inicial de datos, ayudándote a comprender mejor la distribución de los valores y las relaciones entre las variables.

Presentación de informes: Las tablas pivote son útiles para la presentación de informes y la visualización de datos en informes y dashboards.

Manejo de datos categóricos: Las tablas pivote son especialmente útiles cuando se tienen datos categóricos (como categorías, fechas, nombres de productos, etc.) que se pueden organizar en filas y columnas.

Interactividad y dinamismo: En algunas herramientas y entornos, las tablas pivote pueden ser interactivas, permitiéndote ajustar dinámicamente la disposición y los cálculos para explorar datos de manera más flexible.

En resumen, una tabla pivote es una herramienta versátil para el análisis de datos que facilita la comprensión y la interpretación de la información en conjuntos de datos complejos. Su utilidad radica en su capacidad para resumir, organizar y presentar datos de una manera significativa y fácil de entender.

In [None]:
import pandas as pd
from io import StringIO

# Datos de ejemplo en formato CSV
datos_csv = """
Producto,Categoria,Ventas,Mes
Producto_A,Categoria_1,500,Enero
Producto_B,Categoria_2,1200,Enero
Producto_C,Categoria_1,800,Enero
Producto_D,Categoria_3,400,Enero
Producto_E,Categoria_1,300,Enero
Producto_F,Categoria_2,900,Enero
Producto_G,Categoria_3,700,Enero
Producto_H,Categoria_1,100,Enero
Producto_A,Categoria_2,300,Febrero
Producto_B,Categoria_1,1000,Febrero
Producto_C,Categoria_2,700,Febrero
Producto_D,Categoria_3,600,Febrero
Producto_E,Categoria_1,200,Febrero
Producto_F,Categoria_2,800,Febrero
Producto_G,Categoria_3,500,Febrero
Producto_H,Categoria_1,50,Febrero
Producto_A,Categoria_1,600,Marzo
Producto_B,Categoria_2,900,Marzo
Producto_C,Categoria_1,1100,Marzo
Producto_D,Categoria_3,800,Marzo
Producto_E,Categoria_1,250,Marzo
Producto_F,Categoria_2,1000,Marzo
Producto_G,Categoria_3,400,Marzo
Producto_H,Categoria_1,25,Marzo
"""

# Crear un DataFrame a partir de los datos CSV simulados
df = pd.read_csv(StringIO(datos_csv))

# Mostrar el DataFrame
print(df)

      Producto    Categoria  Ventas      Mes
0   Producto_A  Categoria_1     500    Enero
1   Producto_B  Categoria_2    1200    Enero
2   Producto_C  Categoria_1     800    Enero
3   Producto_D  Categoria_3     400    Enero
4   Producto_E  Categoria_1     300    Enero
5   Producto_F  Categoria_2     900    Enero
6   Producto_G  Categoria_3     700    Enero
7   Producto_H  Categoria_1     100    Enero
8   Producto_A  Categoria_2     300  Febrero
9   Producto_B  Categoria_1    1000  Febrero
10  Producto_C  Categoria_2     700  Febrero
11  Producto_D  Categoria_3     600  Febrero
12  Producto_E  Categoria_1     200  Febrero
13  Producto_F  Categoria_2     800  Febrero
14  Producto_G  Categoria_3     500  Febrero
15  Producto_H  Categoria_1      50  Febrero
16  Producto_A  Categoria_1     600    Marzo
17  Producto_B  Categoria_2     900    Marzo
18  Producto_C  Categoria_1    1100    Marzo
19  Producto_D  Categoria_3     800    Marzo
20  Producto_E  Categoria_1     250    Marzo
21  Produc

In [None]:
primeras_filas = df.head()
print("Primeras filas del DataFrame:")
print(primeras_filas)

Primeras filas del DataFrame:
     Producto    Categoria  Ventas    Mes
0  Producto_A  Categoria_1     500  Enero
1  Producto_B  Categoria_2    1200  Enero
2  Producto_C  Categoria_1     800  Enero
3  Producto_D  Categoria_3     400  Enero
4  Producto_E  Categoria_1     300  Enero


In [None]:
productos_enero_mayor_500 = df[(df['Mes'] == 'Enero') & (df['Ventas'] > 500)]
print("\nProductos con ventas mayores a 500 en enero:")
print(productos_enero_mayor_500)


Productos con ventas mayores a 500 en enero:
     Producto    Categoria  Ventas    Mes
1  Producto_B  Categoria_2    1200  Enero
2  Producto_C  Categoria_1     800  Enero
5  Producto_F  Categoria_2     900  Enero
6  Producto_G  Categoria_3     700  Enero


In [None]:
ventas_por_mes = df.groupby('Mes')['Ventas'].sum()
print("\nVentas totales por mes:")
print(ventas_por_mes)


Ventas totales por mes:
Mes
Enero      4900
Febrero    4150
Marzo      5075
Name: Ventas, dtype: int64


In [None]:
tabla_pivote_ventas = pd.pivot_table(df, values='Ventas', index='Categoria', columns='Mes', aggfunc='sum', fill_value=0)
print("\nTabla Pivote de Ventas por Categoría y Mes:")
print(tabla_pivote_ventas)


Tabla Pivote de Ventas por Categoría y Mes:
Mes          Enero  Febrero  Marzo
Categoria                         
Categoria_1   1700     1250   1975
Categoria_2   2100     1800   1900
Categoria_3   1100     1100   1200


In [None]:
productos_ordenados_febrero = df[df['Mes'] == 'Febrero'].sort_values(by='Ventas', ascending=False)
print("\nProductos ordenados por ventas en febrero de forma descendente:")
print(productos_ordenados_febrero)


Productos ordenados por ventas en febrero de forma descendente:
      Producto    Categoria  Ventas      Mes
9   Producto_B  Categoria_1    1000  Febrero
13  Producto_F  Categoria_2     800  Febrero
10  Producto_C  Categoria_2     700  Febrero
11  Producto_D  Categoria_3     600  Febrero
14  Producto_G  Categoria_3     500  Febrero
8   Producto_A  Categoria_2     300  Febrero
12  Producto_E  Categoria_1     200  Febrero
15  Producto_H  Categoria_1      50  Febrero


merge y concat:

pd.merge(df1, df2, on='clave'): Realiza una fusión de DataFrames basada en una clave.
pd.concat([df1, df2]): Concatena DataFrames a lo largo de un eje.

In [None]:
import pandas as pd

# DataFrames de ejemplo
df1 = pd.DataFrame({'clave': ['A', 'B', 'C'],
                    'valor_df1': [1, 2, 3]})

df2 = pd.DataFrame({'clave': ['A', 'B', 'D'],
                    'valor_df2': ['X', 'Y', 'Z']})

# Fusionar DataFrames en función de la clave
resultado_merge = pd.merge(df1, df2, on='clave', how='inner')

# Mostrar el resultado de la fusión
print("DataFrame 1:")
print(df1)

print("\nDataFrame 2:")
print(df2)

print("\nResultado de la fusión:")
print(resultado_merge)

DataFrame 1:
  clave  valor_df1
0     A          1
1     B          2
2     C          3

DataFrame 2:
  clave valor_df2
0     A         X
1     B         Y
2     D         Z

Resultado de la fusión:
  clave  valor_df1 valor_df2
0     A          1         X
1     B          2         Y


In [None]:
import pandas as pd

# DataFrames de ejemplo
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2'],
                    'clave': ['K0', 'K1', 'K2']})

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2'],
                    'clave': ['K0', 'K1', 'K3']})

# Concatenar DataFrames a lo largo del eje 0 (filas)
resultado_concat = pd.concat([df1, df2], axis=0, ignore_index=True)

# Mostrar el resultado de la concatenación
print("DataFrame 1:")
print(df1)

print("\nDataFrame 2:")
print(df2)

print("\nResultado de la concatenación:")
print(resultado_concat)

DataFrame 1:
    A   B clave
0  A0  B0    K0
1  A1  B1    K1
2  A2  B2    K2

DataFrame 2:
    C   D clave
0  C0  D0    K0
1  C1  D1    K1
2  C2  D2    K3

Resultado de la concatenación:
     A    B clave    C    D
0   A0   B0    K0  NaN  NaN
1   A1   B1    K1  NaN  NaN
2   A2   B2    K2  NaN  NaN
3  NaN  NaN    K0   C0   D0
4  NaN  NaN    K1   C1   D1
5  NaN  NaN    K3   C2   D2


merge y concat son dos funciones en Pandas que se utilizan para combinar DataFrames, pero se utilizan en situaciones ligeramente diferentes y tienen propósitos distintos.

merge:
Fusión basada en columnas clave: merge se utiliza principalmente para fusionar DataFrames basándose en valores comunes de una o más columnas clave. Puedes especificar columnas clave utilizando el parámetro on o las columnas izquierda y derecha utilizando left_on y right_on.

Tipos de fusiones: Puedes realizar diferentes tipos de fusiones, como interna (how='inner'), externa izquierda (how='left'), externa derecha (how='right'), y externa completa (how='outer').

Flexibilidad en las operaciones: Permite realizar operaciones más avanzadas de fusión, como fusiones múltiples y fusiones basadas en índices.
# Ejemplo de merge
pd.merge(df1, df2, on='clave', how='inner')

concat:
Concatenación de DataFrames: concat se utiliza para concatenar DataFrames a lo largo de un eje específico, ya sea a lo largo de las filas (axis=0) o a lo largo de las columnas (axis=1).

No hay fusión de datos: No hay ninguna fusión real de datos basada en valores comunes. Simplemente se apilan los DataFrames, y las filas o columnas se combinan en función del eje de concatenación.

Índices y columnas: Puedes manejar índices y columnas de diferentes maneras, como ignorar índices (ignore_index), mantener los índices originales y crear índices jerárquicos (keys).

# Ejemplo de concat
pd.concat([df1, df2], axis=0, ignore_index=True)
Resumen:
Usa merge cuando necesites combinar DataFrames en función de valores de columnas específicas (fusión basada en claves).
Usa concat cuando simplemente necesites concatenar DataFrames a lo largo de un eje (filas o columnas) sin considerar valores específicos en las columnas.