# Actividad 06: Python: estructuras de datos con Pandas y manejo de archivos

Tomado de: https://aprendeconalf.es/docencia/python/manual/pandas/

Primeramente, hay que instalar pandas:

In [1]:
%pip install pandas # Pandas ya instala por defecto a Numpy

Note: you may need to restart the kernel to use updated packages.


## Series

In [2]:
# Importar la biblioteca pandas
import pandas as pd

In [3]:
# Crear una serie a partir de una lista
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')

# Imprimir la serie
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


In [4]:
# Crear una serie a partir de un diccionario
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})

# Imprimir la serie
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [5]:
# Crear una serie
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])

# Imprimir el tamaño de la serie
print(s.size)

# Imprimir los índices de la serie
print(s.index)

# Imprimir el tipo de datos de la serie
print(s.dtype)


10
RangeIndex(start=0, stop=10, step=1)
int64


In [6]:
# Acceso a los elementos de una serie

# Crear una serie a partir de un diccionario
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})

# Acceder a un rango de elementos de la serie por posición
print(s[1:3])

# Acceder a un elemento de la serie por etiqueta
print(s['Economía'])

# Acceder a varios elementos de la serie por etiqueta
print(s[['Programación', 'Matemáticas']])

Economía        4.5
Programación    8.5
dtype: float64
4.5
Programación    8.5
Matemáticas     6.0
dtype: float64


In [7]:
# Resumen descriptivo de una serie
# Crear una serie
s = pd.Series([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])

# Contar los elementos de la serie
print(s.count())

# Sumar todos los elementos de la serie
print(s.sum())

# Calcular la suma acumulada de los elementos de la serie
print(s.cumsum())

# Contar la frecuencia de cada valor en la serie
print(s.value_counts())

# Calcular la frecuencia relativa de cada valor en la serie
print(s.value_counts(normalize=True))

# Encontrar el valor mínimo en la serie
print(s.min())

# Encontrar el valor máximo en la serie
print(s.max())

# Calcular el promedio de la serie
print(s.mean())

# Calcular la desviación estándar de la serie
print(s.std())

# Generar un resumen estadístico de la serie
print(s.describe())


10
20
0     1
1     2
2     3
3     4
4     6
5     8
6    10
7    13
8    16
9    20
dtype: int64
1    4
2    3
3    2
4    1
Name: count, dtype: int64
1    0.4
2    0.3
3    0.2
4    0.1
Name: proportion, dtype: float64
1
4
2.0
1.0540925533894598
count    10.000000
mean      2.000000
std       1.054093
min       1.000000
25%       1.000000
50%       2.000000
75%       2.750000
max       4.000000
dtype: float64


In [8]:
# Aplicar operaciones a una serie
# Crear una serie numérica
s = pd.Series([1, 2, 3, 4])

# Multiplicar todos los elementos de la serie por 2
print(s * 2)

# Obtener el resto de la división de todos los elementos de la serie por 2
print(s % 2)

# Crear una serie de cadenas
s = pd.Series(['a', 'b', 'c'])

# Repetir cada elemento de la serie 5 veces
print(s * 5)


0    2
1    4
2    6
3    8
dtype: int64
0    1
1    0
2    1
3    0
dtype: int64
0    aaaaa
1    bbbbb
2    ccccc
dtype: object


In [9]:
# Aplicar funciones a una serie
# Importar la biblioteca pandas
from math import log

# Crear una serie numérica
s = pd.Series([1, 2, 3, 4])

# Aplicar la función logaritmo natural a todos los elementos de la serie
print(s.apply(log))

# Crear una serie de cadenas
s = pd.Series(['a', 'b', 'c'])

# Aplicar la función str.upper a todos los elementos de la serie
print(s.apply(str.upper))


0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64
0    A
1    B
2    C
dtype: object


In [10]:
# Filtrado de una serie
# Crear una serie con nombres de asignaturas y calificaciones
s = pd.Series({'Matemáticas': 6.0, 'Economía': 4.5, 'Programación': 8.5})

# Filtrar la serie para obtener los elementos con calificación mayor a 5
print(s[s > 5])


Matemáticas     6.0
Programación    8.5
dtype: float64


In [11]:
# Ordenar una serie
# Crear una serie con nombres de asignaturas y calificaciones

s = pd.Series({'Matemáticas': 6.0, 'Economía': 4.5, 'Programación': 8.5})

# Ordenar la serie por los valores en orden ascendente
print(s.sort_values())

# Ordenar la serie por los índices en orden descendente
print(s.sort_index(ascending=False))


Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64
Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64


In [12]:
# Eliminar los dados desconocidos en una serie
# Importar la biblioteca pandas y numpy
import numpy as np

# Crear una serie con valores nulos
s = pd.Series(['a', 'b', None, 'c', np.nan, 'd'])

# Imprimir la serie original con valores nulos
print(s)

# Eliminar los valores nulos de la serie
s_dropna = s.dropna()

# Imprimir la serie sin valores nulos
print(s_dropna)


0       a
1       b
2    None
3       c
4     NaN
5       d
dtype: object
0    a
1    b
3    c
5    d
dtype: object


## Dataframes

In [13]:
# Creación de un DataFrame a partir de un diccionario de listas

# Crear un diccionario de listas con los datos
datos = {'nombre': ['María', 'Luis', 'Carmen', 'Antonio'],
         'edad': [18, 22, 20, 21],
         'grado': ['Economía', 'Medicina', 'Arquitectura', 'Economía'],
         'correo': ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']}

# Crear un DataFrame a partir del diccionario de listas
df = pd.DataFrame(datos)

# Imprimir el DataFrame
print(df)


    nombre  edad         grado             correo
0    María    18      Economía    maria@gmail.com
1     Luis    22      Medicina      luis@yahoo.es
2   Carmen    20  Arquitectura   carmen@gmail.com
3  Antonio    21      Economía  antonio@gmail.com


In [14]:
# Creación de un DataFrame a partir de una lista de listas

# Crear una lista de listas con los datos
datos = [['María', 18], ['Luis', 22], ['Carmen', 20]]

# Crear un DataFrame a partir de la lista de listas
df = pd.DataFrame(datos, columns=['Nombre', 'Edad'])

# Imprimir el DataFrame
print(df)


   Nombre  Edad
0   María    18
1    Luis    22
2  Carmen    20


In [15]:
# Creación de un DataFrame a partir de una lista de diccionarios

# Crear una lista de diccionarios con los datos
datos = [{'Nombre': 'María', 'Edad': 18},
         {'Nombre': 'Luis', 'Edad': 22},
         {'Nombre': 'Carmen'}]

# Crear un DataFrame a partir de la lista de diccionarios
df = pd.DataFrame(datos)

# Imprimir el DataFrame
print(df)


   Nombre  Edad
0   María  18.0
1    Luis  22.0
2  Carmen   NaN


In [16]:
# Creación de un DataFrame a partir de un array
# Importar la biblioteca pandas
import numpy as np

# Crear una matriz NumPy de números aleatorios
datos = np.random.randn(4, 3)

# Crear un DataFrame a partir de la matriz NumPy
df = pd.DataFrame(datos, columns=['a', 'b', 'c'])

# Imprimir el DataFrame
print(df)


          a         b         c
0  0.069583  0.699723 -0.114578
1 -1.257263  0.616699 -1.133311
2  0.237865 -0.251722  0.095743
3  0.573014 -0.315069 -0.091183


In [17]:
# Creación de un DataFrame a partir de un archivo CSV o Excel
# Leer el archivo CSV o Excel y crear un DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv", sep=";", decimal=",")

# Imprimir las primeras filas del DataFrame
print(df.head())

# Si diera problemas, ejecutar en la consola:
# /Applications/Python\ 3.11/Install\ Certificates.command

             nombre,edad,sexo,peso,altura,colesterol
0  José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1                Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2             Javier García Sánchez,24,H,,1.81,191.0
3            Carmen López Pinzón,35,M,65.0,1.7,200.0
4          Marisa López Collado,46,M,51.0,1.58,148.0


In [18]:
# Metadatos de un dataframe

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv", sep=";", decimal=",")

# Imprimir información general del DataFrame
print(df.info())

# Obtener la forma (número de filas y columnas) del DataFrame
print(df.shape)

# Obtener el tamaño total del DataFrame (número de elementos)
print(df.size)

# Obtener los nombres de las columnas del DataFrame
print(df.columns)

# Obtener los tipos de datos de cada columna del DataFrame
print(df.dtypes)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      14 non-null     object 
 1   edad        14 non-null     int64  
 2   sexo        14 non-null     object 
 3   peso        13 non-null     float64
 4   altura      14 non-null     float64
 5   colesterol  13 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 804.0+ bytes
None
(14, 6)
84
Index(['nombre', 'edad', 'sexo', 'peso', 'altura', 'colesterol'], dtype='object')
nombre         object
edad            int64
sexo           object
peso          float64
altura        float64
colesterol    float64
dtype: object


In [19]:
# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Imprimir el valor de la columna "colesterol" en la fila 2
print(df.loc[2, "colesterol"])

# Renombrar columnas y cambiar los índices del DataFrame
print(df.rename(columns={"nombre":"nombre y apellidos", "altura":"estatura"}, index={0:1000, 1:1001, 2:1002}))


191.0
                   nombre y apellidos  edad sexo   peso  estatura  colesterol
1000     José Luis Martínez Izquierdo    18    H   85.0      1.79       182.0
1001                   Rosa Díaz Díaz    32    M   65.0      1.73       232.0
1002            Javier García Sánchez    24    H    NaN      1.81       191.0
3                 Carmen López Pinzón    35    M   65.0      1.70       200.0
4                Marisa López Collado    46    M   51.0      1.58       148.0
5                   Antonio Ruiz Cruz    68    H   66.0      1.74       249.0
6             Antonio Fernández Ocaña    51    H   62.0      1.72       276.0
7               Pilar Martín González    22    M   60.0      1.66         NaN
8                Pedro Gálvez Tenorio    35    H   90.0      1.94       241.0
9             Santiago Reillo Manzano    46    H   75.0      1.85       280.0
10              Macarena Álvarez Luna    53    M   55.0      1.62       262.0
11         José María de la Guía Sanz    58    H   78.0   

In [20]:
# Reindexar un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Reindexar el DataFrame con índices y columnas personalizadas
print(df.reindex(index=[4, 3, 1], columns=["nombre", "tensión", "colesterol"]))


                 nombre  tensión  colesterol
4  Marisa López Collado      NaN       148.0
3   Carmen López Pinzón      NaN       200.0
1        Rosa Díaz Díaz      NaN       232.0


In [21]:
# Acceso a los elementos de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Imprimir el valor en la fila 1, columna 3 (basado en posición)
print(df.iloc[1, 3])

# Imprimir las primeras 2 columnas de la fila 1 (basado en posición)
print(df.iloc[1, :2])

65.0
nombre    Rosa Díaz Díaz
edad                  32
Name: 1, dtype: object


In [22]:
# Acceso a los elementos mediante nombres

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Imprimir el valor en la fila 2, columna "colesterol"
print(df.loc[2, "colesterol"])

# Imprimir las columnas "colesterol" y "peso" de las filas 0 a 3
print(df.loc[:3, ("colesterol", "peso")])

# Imprimir la columna "colesterol" completa
print(df["colesterol"])


191.0
   colesterol  peso
0       182.0  85.0
1       232.0  65.0
2       191.0   NaN
3       200.0  65.0
0     182.0
1     232.0
2     191.0
3     200.0
4     148.0
5     249.0
6     276.0
7       NaN
8     241.0
9     280.0
10    262.0
11    198.0
12    210.0
13    194.0
Name: colesterol, dtype: float64


In [23]:
# Añadir columnas a un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Agregar una nueva columna "diabetes" al DataFrame
df["diabetes"] = pd.Series([False, False, True, False, True])

# Imprimir el DataFrame resultante
print(df)


                             nombre  edad sexo   peso  altura  colesterol  \
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0   
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0   
2             Javier García Sánchez    24    H    NaN    1.81       191.0   
3               Carmen López Pinzón    35    M   65.0    1.70       200.0   
4              Marisa López Collado    46    M   51.0    1.58       148.0   
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0   
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0   
7             Pilar Martín González    22    M   60.0    1.66         NaN   
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0   
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0   
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0   
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0   

In [24]:
# Operaciones sobre columnas

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Realizar operaciones con las columnas "altura" y "sexo"
print(df['altura']*100)  # Multiplicar la columna "altura" por 100 y mostrar el resultado
print(df['sexo']=='M')   # Comprobar si los valores de la columna "sexo" son iguales a "M" y mostrar el resultado



0     179.0
1     173.0
2     181.0
3     170.0
4     158.0
5     174.0
6     172.0
7     166.0
8     194.0
9     185.0
10    162.0
11    187.0
12    198.0
13    177.0
Name: altura, dtype: float64
0     False
1      True
2     False
3      True
4      True
5     False
6     False
7      True
8     False
9     False
10     True
11    False
12    False
13     True
Name: sexo, dtype: bool


In [25]:
# Aplicar funciones a columnas
# Importar la biblioteca pandas
from math import log

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Aplicar la función logaritmo a la columna "altura"
print(df["altura"].apply(log))



0     0.582216
1     0.548121
2     0.593327
3     0.530628
4     0.457425
5     0.553885
6     0.542324
7     0.506818
8     0.662688
9     0.615186
10    0.482426
11    0.625938
12    0.683097
13    0.570980
Name: altura, dtype: float64


In [26]:
# Resumen descriptivo de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Realizar un resumen descriptivo del DataFrame
print(df.describe())

# Realizar un resumen descriptivo del DataFrame solo para columnas de tipo objeto
print(df.describe(include="object"))



            edad        peso     altura  colesterol
count  14.000000   13.000000  14.000000   13.000000
mean   38.214286   70.923077   1.768571  220.230769
std    15.621379   16.126901   0.115016   39.847948
min    18.000000   51.000000   1.580000  148.000000
25%    24.750000   61.000000   1.705000  194.000000
50%    35.000000   65.000000   1.755000  210.000000
75%    49.750000   78.000000   1.840000  249.000000
max    68.000000  109.000000   1.980000  280.000000
                              nombre sexo
count                             14   14
unique                            14    2
top     José Luis Martínez Izquierdo    H
freq                               1    8


In [27]:
# Eliminar columnas de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Eliminar la columna 'edad' del DataFrame y asignarla a una variable separada
edad = df.pop('edad')

# Imprimir el DataFrame resultante después de eliminar la columna
print(df)

# Imprimir la columna 'edad' que fue separada
print(edad)


                             nombre sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    M   65.0    1.73       232.0
2             Javier García Sánchez    H    NaN    1.81       191.0
3               Carmen López Pinzón    M   65.0    1.70       200.0
4              Marisa López Collado    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    H   62.0    1.72       276.0
7             Pilar Martín González    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    M   55.0    1.62       262.0
11       José María de la Guía Sanz    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    M   61.0 

In [28]:
# Agrega una nueva fila y muestra las últimas filas del DataFrame resultante.
# Cargar el archivo CSV
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Crear una nueva fila como un DataFrame
new_row = pd.DataFrame([["Carlos Rivas", 28, "H", 89.0, 1.78, 245.0]], columns=df.columns)

# Concatenar el DataFrame original con la nueva fila
df = pd.concat([df, new_row], ignore_index=True)

# Imprimir las últimas filas del DataFrame
print(df.tail())

                             nombre  edad sexo   peso  altura  colesterol
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0
14                     Carlos Rivas    28    H   89.0    1.78       245.0


In [29]:
# Eliminar filas de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Eliminar las filas con índices 1 y 3 del DataFrame
df = df.drop([1, 3])

# Imprimir el DataFrame resultante después de eliminar las filas
print(df)


                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0


In [30]:
# Filtrado de las filas de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Filtrar las filas del DataFrame donde el valor de "sexo" sea "H" y el valor de "colesterol" sea mayor a 260
filtro = (df["sexo"] == "H") & (df["colesterol"] > 260)
resultado = df[filtro]

# Imprimir el DataFrame resultante después de aplicar el filtro
print(resultado)


                    nombre  edad sexo  peso  altura  colesterol
6  Antonio Fernández Ocaña    51    H  62.0    1.72       276.0
9  Santiago Reillo Manzano    46    H  75.0    1.85       280.0


In [31]:
# Ordenar un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Ordenar el DataFrame en función de la columna "colesterol"
resultado = df.sort_values("colesterol")

# Imprimir el DataFrame resultante después de ordenarlo
print(resultado)


                             nombre  edad sexo   peso  altura  colesterol
4              Marisa López Collado    46    M   51.0    1.58       148.0
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
9           Santiago Reillo Manzano   

In [32]:
# Eliminar las filas con datos desconocidos en un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Eliminar las filas con datos desconocidos en el DataFrame
resultado = df.dropna()

# Imprimir el DataFrame resultante después de eliminar las filas
print(resultado)


                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0


In [33]:
# Agrupación de un DataFrame

# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Agrupar las filas según la columna "sexo"
grupos_sexo = df.groupby("sexo").groups

# Imprimir los grupos resultantes según la columna "sexo"
print(grupos_sexo)

# Agrupar las filas según las columnas "sexo" y "edad"
grupos_sexo_edad = df.groupby(["sexo", "edad"]).groups

# Imprimir los grupos resultantes según las columnas "sexo" y "edad"
print(grupos_sexo_edad)


{'H': [0, 2, 5, 6, 8, 9, 11, 12], 'M': [1, 3, 4, 7, 10, 13]}
{('H', 18): [0], ('H', 24): [2], ('H', 27): [12], ('H', 35): [8], ('H', 46): [9], ('H', 51): [6], ('H', 58): [11], ('H', 68): [5], ('M', 20): [13], ('M', 22): [7], ('M', 32): [1], ('M', 35): [3], ('M', 46): [4], ('M', 53): [10]}


In [34]:
# Leer el archivo CSV desde la URL especificada
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Agrupar las filas según la columna "sexo" y obtener el subconjunto del grupo "M"
grupo_m = df.groupby("sexo").get_group("M")

# Imprimir el subconjunto del grupo "M"
print(grupo_m)


                   nombre  edad sexo  peso  altura  colesterol
1          Rosa Díaz Díaz    32    M  65.0    1.73       232.0
3     Carmen López Pinzón    35    M  65.0    1.70       200.0
4    Marisa López Collado    46    M  51.0    1.58       148.0
7   Pilar Martín González    22    M  60.0    1.66         NaN
10  Macarena Álvarez Luna    53    M  55.0    1.62       262.0
13  Carolina Rubio Moreno    20    M  61.0    1.77       194.0


In [35]:
# Excluye la columna "nombre" del DataFrame, calcula la media por grupos basada en la columna "sexo" y muestra el resultado
import numpy as np

# Cargar el archivo CSV
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")

# Excluir la columna "nombre"
columnas_numericas = [col for col in df.columns if col != "nombre"]
df_numericas = df[columnas_numericas]

# Calcular la media por grupos
media_por_grupo = df_numericas.groupby("sexo").mean()

# Imprimir el resultado
print(media_por_grupo)

           edad       peso    altura  colesterol
sexo                                            
H     40.875000  80.714286  1.837500     228.375
M     34.666667  59.500000  1.676667     207.200


In [36]:
# Reestructurar un DataFrame

# Definir los datos como un diccionario
datos = {"nombre": ["María", "Luis", "Carmen"],
         "edad": [18, 22, 20],
         "Matemáticas": [8.5, 7, 3.5],
         "Economía": [8, 6.5, 5],
         "Programación": [6.5, 4, 9]}

# Crear el DataFrame a partir de los datos
df = pd.DataFrame(datos)

# Reestructurar el DataFrame utilizando la función melt()
df1 = df.melt(id_vars=["nombre", "edad"], var_name="asignatura", value_name="nota")

# Imprimir el DataFrame reestructurado
print(df1)


   nombre  edad    asignatura  nota
0   María    18   Matemáticas   8.5
1    Luis    22   Matemáticas   7.0
2  Carmen    20   Matemáticas   3.5
3   María    18      Economía   8.0
4    Luis    22      Economía   6.5
5  Carmen    20      Economía   5.0
6   María    18  Programación   6.5
7    Luis    22  Programación   4.0
8  Carmen    20  Programación   9.0


In [37]:
# Convertir un DataFrame a formato ancho

# Convertir el DataFrame a formato ancho utilizando pivot()
df_wide = df1.pivot(index="nombre", columns="asignatura", values="nota")

# Imprimir el DataFrame en formato ancho
print(df_wide)



asignatura  Economía  Matemáticas  Programación
nombre                                         
Carmen           5.0          3.5           9.0
Luis             6.5          7.0           4.0
María            8.0          8.5           6.5


## Tarea

Eres un analista de datos en una empresa de comercio electrónico y se te ha proporcionado un archivo CSV llamado “datos_ventas.csv” que contiene datos de ventas de diferentes productos. Tu objetivo es realizar análisis básicos de los datos utilizando la biblioteca Pandas:

- Cargar los datos desde el archivo CSV y almacenarlos en un DataFrame llamado ventas.
- Mostrar las primeras 5 filas del DataFrame para revisar la estructura y los tipos de datos de las columnas.
- Calcular el total de ventas realizadas en cada categoría de productos y mostrar los resultados.
- Calcular la cantidad promedio de productos vendidos por transacción y mostrar el resultado.
- Encontrar el producto más vendido y mostrar su nombre y la cantidad total vendida.
- Calcular el promedio de precios de venta para cada producto y mostrar los resultados.

### Datos sintéticos

Primero se deben generar datos sintéticos para este ejercicio por si no se tienen.

Se importan las librerías adecuadas

In [38]:
import pandas as pd
import random
from datetime import datetime, timedelta

In [39]:
# Lista de productos y categorías
productos = ["Producto A", "Producto B", "Producto C"]
categorias = ["Categoria 1", "Categoria 2"]

In [40]:
# Generar datos aleatorios
datos = []
fecha_actual = datetime.now().date()
for _ in range(100):
	producto = random.choice(productos)
	categoria = random.choice(categorias)
	fecha = fecha_actual - timedelta(days=random.randint(0, 365))
	cantidad = random.randint(1, 20)
	precio = round(random.uniform(10, 50), 2)
	datos.append([producto, categoria, fecha, cantidad, precio])

In [41]:
# Crear DataFrame y guardar en archivo CSV
df = pd.DataFrame(datos, columns=["Producto", "Categoria", "Fecha", 
"Cantidad", "Precio"])
df.to_csv("datos_ventas.csv", index=False)

### Solución de la tarea

In [42]:
import pandas as pd

# a) Cargar los datos desde el archivo CSV y almacenarlos en un DataFrame llamado ventas.
ventas = pd.read_csv("06.-datos_ventas.csv", sep=";")

# b) Mostrar las primeras 5 filas del DataFrame para revisar la estructura y los tipos de datos de las columnas.
print(ventas.head())

# c) Calcular el total de ventas realizadas en cada categoría de productos y mostrar los resultados.
total_ventas_por_categoria = ventas.groupby('categoria')['venta'].sum()
print("Total de ventas por categoría:\n", total_ventas_por_categoria)

# d) Calcular la cantidad promedio de productos vendidos por transacción y mostrar el resultado.
promedio_productos_por_transaccion = ventas['cantidad'].mean()
print("Cantidad promedio de productos vendidos por transacción:", promedio_productos_por_transaccion)

# e) Encontrar el producto más vendido y mostrar su nombre y la cantidad total vendida.
producto_mas_vendido = ventas.groupby('producto')['cantidad'].sum().idxmax()
cantidad_total_vendida = ventas.groupby('producto')['cantidad'].sum().max()
print("Producto más vendido:", producto_mas_vendido)
print("Cantidad total vendida:", cantidad_total_vendida)

# f) Calcular el promedio de precios de venta para cada producto y mostrar los resultados.
promedio_precio_venta_por_producto = ventas.groupby('producto')['precio'].mean()
print("Promedio de precios de venta por producto:\n", promedio_precio_venta_por_producto)

     producto    categoria      fecha  cantidad  precio  venta
0  Producto B  Categoria 1   5/2/2023        16   37.00    6.0
1  Producto A  Categoria 2  24/8/2022         5   30.24    7.0
2  Producto A  Categoria 2   7/5/2023         3   23.29    6.0
3  Producto C  Categoria 1   7/1/2023        13   28.30    5.0
4  Producto A  Categoria 1  31/5/2023        10   34.89    7.0
Total de ventas por categoría:
 categoria
Categoria 1    1355.0
Categoria 2    1974.0
Name: venta, dtype: float64
Cantidad promedio de productos vendidos por transacción: 9.57
Producto más vendido: Producto B
Cantidad total vendida: 371
Promedio de precios de venta por producto:
 producto
Producto A    27.840000
Producto B    29.250857
Producto C    29.892963
Name: precio, dtype: float64


In [43]:
total_ventas_por_categoria

categoria
Categoria 1    1355.0
Categoria 2    1974.0
Name: venta, dtype: float64