#  Pandas; Dataframes, lectura y exportación de archivos

## Sobre el trayecto

En este módulo, nos centraremos en el manejo y análisis de datos utilizando las librerías `Pandas` y `NumPy`.
Estas herramientas son fundamentales para la Ciencia de Datos y el análisis de datos en Python, al permitirnos analizar y manipular y transformar grandes volúmenes de datos de manera eficiente.

### Objetivos de aprendizaje

- DataFrames y estructuras de datos:
    - Aprenderás a trabajar con DataFrames, estructuras bidimensionales que facilitan el manejo de datos de manera similar a las hojas de cálculo. Exploraremos cómo crear DataFrames a partir de arreglos de NumPy y cómo asignar nombres a filas y columnas para una mejor organización de los datos.
- Lectura y exportación de archivos:
    - Descubrirás cómo Pandas puede interactuar con diferentes formatos de archivo, como CSV, Excel y SQL. Aprenderás a cargar y exportar datos en estos formatos, lo que te permitirá manejar datos de diversas fuentes y preparar tus análisis de manera eficiente.
- Funciones estadísticas y de agrupamiento:
    - Aprenderás a calcular estadísticas descriptivas, como la media y percentiles, y a utilizar la función `groupby` para realizar agrupamientos y cálculos eficientes en tus conjuntos de datos.

In [2]:
!pip install numpy pandas



## Conoce qué es transformación de Dataframes
- Definir qué es un DataFrame y su estructura en Pandas;
- Describir cómo transformar y manipular DataFrames usando Pandas;
- Aplicar comandos de Pandas para extraer y ordenar datos en DataFrames

### 1. ¿Qué es un DataFrame?

Un `Dataframe` es una estructura de datos con dos dimensiones, similar a una tabla de Excel o una hoja de cálculo, en la cuál podemos guardar distintos tipos de datos, como números, texto, fechas, etc.

#### La libreria Pandas

Pandas es una librería de Python que nos permite trabajar con DataFrames de manera eficiente. Nos proporciona herramientas para leer, escribir, manipular y analizar datos de manera sencilla y efectiva ficheros de datos en diferentes formatos, como CSV, Excel, SQL, etc.

#### La librería NumPy

NumPy es otra librería de Python que nos proporciona herramientas para trabajar con arreglos multidimensionales y realizar operaciones matemáticas de manera eficiente. Pandas utiliza NumPy para almacenar y manipular los datos en los DataFrames.
Incorpora una nueva clase objetos llamados "arrays" que permite representar colecciones de datos de un mismo tipo, y se pueden realizar operaciones matemáticas con ellos.

### 2. Creación de un DataFrame

_Ejercicio:_ Mediante el uso de las librerías NumPy y Pandas desarrolle un código en Python que sea capaz de generar el siguiente Dataframe: 
|   |   D |   E |   F |
|---|----|----|----|
| A |  1 |  2 |  3 |
| B |  4 |  5 |  6 |
| C |  7 |  8 | 9 |

In [5]:
import numpy as np # importación de la librería numpy

# Creamos el arreglo
arreglo = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arreglo

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
import pandas as pd # importación de la librería pandas

df = pd.DataFrame(arreglo)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [11]:
# Modificamos las columnas del Dataframe
df = pd.DataFrame(data=arreglo, index= ['A', 'B', 'C'], columns= ['D', 'E', 'F'])
df

Unnamed: 0,D,E,F
A,1,2,3
B,4,5,6
C,7,8,9


In [None]:
df.info() # Información de cada columna del Dataframe

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, A to C
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   D       3 non-null      int32
 1   E       3 non-null      int32
 2   F       3 non-null      int32
dtypes: int32(3)
memory usage: 60.0+ bytes


In [13]:
df.shape # Dimensión del Dataframe

(3, 3)

In [14]:
df.describe() # Cálculos estadísticos de las columnas del Dataframe

Unnamed: 0,D,E,F
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


In [18]:
df.columns # Nombres de las columnas del Dataframe

Index(['D', 'E', 'F'], dtype='object')

In [21]:
df.index # Índices/renglones/filas del Dataframe

Index(['A', 'B', 'C'], dtype='object')

In [25]:
# Adición de una nueva fila al Dataframe
df.loc['G'] = [10, 11, 12]
# Adición de una nueva columna al Dataframe
df['H'] = [17, 16, 15, 14]
df

Unnamed: 0,D,E,F,H
A,1,2,3,17
B,4,5,6,16
C,7,8,9,15
G,10,11,12,14


In [26]:
# Extracción de columnas del Dataframe
df2 = df[['E', 'H']]
df2

Unnamed: 0,E,H
A,2,17
B,5,16
C,8,15
G,11,14


In [None]:
# Extracción de filas del Dataframe
df3 = df.loc[['A', 'C']] # Extracción de filas por índice
df3

Unnamed: 0,D,E,F,H
A,1,2,3,17
C,7,8,9,15


In [None]:
# Extracción de filas del Dataframe
df4 = df.iloc[0:2] # Extrae las filas de la 0 a la 2
df4

Unnamed: 0,D,E,F,H
A,1,2,3,17
B,4,5,6,16


In [31]:
# Cambio de nombre en TODAS las columnas del Dataframe
df.columns = ['Columna1', 'Columna2', 'Columna3', 'Columna4']
df

Unnamed: 0,Columna1,Columna2,Columna3,Columna4
A,1,2,3,17
B,4,5,6,16
C,7,8,9,15
G,10,11,12,14


In [32]:
# Cambio de nombre en ALGUNAS columnas del Dataframe
df.rename(columns={'Columna1': 'ColumnaA', 'Columna2': 'ColumnaB'}, inplace=True)
df

Unnamed: 0,ColumnaA,ColumnaB,Columna3,Columna4
A,1,2,3,17
B,4,5,6,16
C,7,8,9,15
G,10,11,12,14


In [33]:
# Cambio de nombre en filas 
df.rename(index={'A': 'Renglon1', 'B': 'Renglon2'}, inplace=True)
df

Unnamed: 0,ColumnaA,ColumnaB,Columna3,Columna4
Renglon1,1,2,3,17
Renglon2,4,5,6,16
C,7,8,9,15
G,10,11,12,14


In [35]:
# Ordenamiento de Dataframes
df4 = df.sort_values("Columna4", ascending=True) # Ordenamiento ascendente
df4

Unnamed: 0,ColumnaA,ColumnaB,Columna3,Columna4
G,10,11,12,14
C,7,8,9,15
Renglon2,4,5,6,16
Renglon1,1,2,3,17


In [36]:
# Verificación de condiciones en Dataframes
df["ColumnaB"] > 5

Renglon1    False
Renglon2    False
C            True
G            True
Name: ColumnaB, dtype: bool

In [38]:
df[df["ColumnaB"] > 5]

Unnamed: 0,ColumnaA,ColumnaB,Columna3,Columna4
C,7,8,9,15
G,10,11,12,14


In [41]:
# Las condiciones se pueden combinar con operadores lógicos
condicion1 = df["ColumnaA"] > 1
condicion2 = df["ColumnaB"] < 12
df[condicion1 & condicion2] # AND de condiciones

Unnamed: 0,ColumnaA,ColumnaB,Columna3,Columna4
Renglon2,4,5,6,16
C,7,8,9,15
G,10,11,12,14


_Ejercicio:_ Mediante el uso de las librerías NumPy y Pandas desarrolle un código en Python que sea capaz de generar el siguiente Dataframe:![image.png](attachment:image.png)

In [43]:
arreglo = np.array([['Bella', 'Labrador' , 'Cafe' , 56, 24, '2013-07-01' ],
['Charlie', 'Poodle', 'Negro', 43, 24, '2016-09-16'],
['Lucy', 'Chow Chow', 'Cafe', 46, 24, '2014-08-25'],
['Cooper', 'Schnauzer', 'Gris', 49, 17, '2011-12-11'],
['Bernie', 'San Bernardo', 'Blanco', 77, 74, '2018-02-27']])
arreglo

array([['Bella', 'Labrador', 'Cafe', '56', '24', '2013-07-01'],
       ['Charlie', 'Poodle', 'Negro', '43', '24', '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Cafe', '46', '24', '2014-08-25'],
       ['Cooper', 'Schnauzer', 'Gris', '49', '17', '2011-12-11'],
       ['Bernie', 'San Bernardo', 'Blanco', '77', '74', '2018-02-27']],
      dtype='<U12')

In [44]:
df = pd.DataFrame(data=arreglo, columns=['Nombre', 'Raza', 'Color', 'Altura_cm', 'Peso_kg', 'Fecha_Nac'])
df 

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27


_Ejercicio_ (Continuación): 
- 1 Extraiga aquellos registros de los perros cuya fecha de nacimiento es anterior al 1 de Enero del 2015 
- 2 Extraiga aquellos registros de los perros cuya estatura es mayor a 50 cms. 
- 3 Agregue una nueva columna a este Dataframe que calcule el índice de masa muscular (IMM) para cada perro, el cual está dado por la fórmula: IMM = (Peso en Kgs.) / (Altura en Metros)

In [46]:
# 1) Extraer registros de perros cuya fecha de nacimiento es anterior al 1 de Enero del 2015
df['Fecha_Nac'] = pd.to_datetime(df['Fecha_Nac'])  # Convertir la columna a tipo datetime
perros_antes_2015 = df[df['Fecha_Nac'] < '2015-01-01']
print(perros_antes_2015)

   Nombre       Raza Color Altura_cm Peso_kg  Fecha_Nac        IMM
0   Bella   Labrador  Cafe        56      24 2013-07-01  42.857143
2    Lucy  Chow Chow  Cafe        46      24 2014-08-25  52.173913
3  Cooper  Schnauzer  Gris        49      17 2011-12-11  34.693878


In [None]:

# 2) Extraer registros de perros cuya estatura es mayor a 50 cms
perros_altos = df[df['Altura_cm'].astype(int) > 50]
print(perros_altos)

   Nombre          Raza   Color Altura_cm Peso_kg  Fecha_Nac        IMM
0   Bella      Labrador    Cafe        56      24 2013-07-01  42.857143
4  Bernie  San Bernardo  Blanco        77      74 2018-02-27  96.103896


In [None]:
df['Altura_cm'] = df['Altura_cm'].astype(int)
df[df['Altura_cm'] > 50] 

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac,IMM
0,Bella,Labrador,Cafe,56,24,2013-07-01,42.857143
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27,96.103896


In [None]:
# 3) Agregar una nueva columna para calcular el Índice de Masa Muscular (IMM) IMM = (Peso en Kgs.) / (Altura en Metros)^2
df['Peso_kg'] = df['Peso_kg'].astype(int) 
df['IMM'] = df['Peso_kg'] / (df['Altura_cm'] / 100) ** 2
df

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac,IMM
0,Bella,Labrador,Cafe,56,24,2013-07-01,76.530612
1,Charlie,Poodle,Negro,43,24,2016-09-16,129.799892
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25,113.42155
3,Cooper,Schnauzer,Gris,49,17,2011-12-11,70.803832
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27,124.810255


In [56]:
# Otras manipualciones de Dataframes
df2 = df[['Nombre', 'Raza', 'IMM']]
df2

Unnamed: 0,Nombre,Raza,IMM
0,Bella,Labrador,76.530612
1,Charlie,Poodle,129.799892
2,Lucy,Chow Chow,113.42155
3,Cooper,Schnauzer,70.803832
4,Bernie,San Bernardo,124.810255


In [57]:
df2 =df2.sort_values('IMM', ascending=True)
df2

Unnamed: 0,Nombre,Raza,IMM
3,Cooper,Schnauzer,70.803832
0,Bella,Labrador,76.530612
2,Lucy,Chow Chow,113.42155
4,Bernie,San Bernardo,124.810255
1,Charlie,Poodle,129.799892


### 2. Aprende sobre agregación de Dataframes

- Recordar funciones de tendencia central en dataframes con Pandas;
- Describir operaciones de agrupamiento y su aplicación en análisis de datos;
- Aplicar técnicas de agregación en tablas pivote para obtener estadísticas resumidas.

#### Punto de atención
Uso de Funciones Nativas en Pandas para Operaciones de Agregación

Cuando trabajamos con DataFrames en Pandas, es común realizar operaciones de agregación, como calcular el promedio, la suma, el mínimo o el máximo de ciertas columnas. Si bien es posible usar funciones de la biblioteca NumPy, como np.mean, np.sum, np.min y np.max, es importante destacar que Pandas ya incluye estas funciones de manera nativa. Esto significa que podemos utilizar directamente las cadenas de texto 'mean', 'sum', 'min', 'max', entre otras, sin necesidad de importar NumPy.

- Claridad y Simplicidad: Usar las funciones nativas de Pandas hace que el código sea más claro y fácil de entender. No necesitas preocuparte por la compatibilidad o el rendimiento, ya que Pandas está optimizado para trabajar con sus propias funciones.

- Evita Dependencias Innecesarias: Al utilizar funciones nativas, eliminas la necesidad de importar NumPy solo para realizar operaciones de agregación simples. Esto puede hacer que tu código sea más ligero y fácil de mantener.

- Compatibilidad: Algunas operaciones de Pandas, como pivot_table y agg, están diseñadas para trabajar directamente con las funciones nativas. Aunque puedes usar funciones de NumPy, es posible que recibas advertencias o que el comportamiento no sea el esperado

In [60]:
import numpy as np
import pandas as pd
# Arreglo previo con algunos más agregados (último dos) ...
arreglo = np.array( [ ['Bella' , 'Labrador' , 'Cafe' , 56, 24, '2013-07-01'],
['Charlie', 'Poodle', 'Negro', 43, 24, '2016-09-16'],
['Lucy', 'Chow Chow', 'Cafe', 46, 24, '2014-08-25'],
['Cooper', 'Schnauzer', 'Gris', 49, 17, '2011-12-11'],
['Bernie', 'San Bernardo', 'Blanco', 77, 74, '2018-02-27'],
['Max', 'Chow Chow', 'Blanco', 45, 28, '2019-03-27'],
['Reed', 'Schnauzer', 'Negro', 45,15, '2017-09-18']])
arreglo

array([['Bella', 'Labrador', 'Cafe', '56', '24', '2013-07-01'],
       ['Charlie', 'Poodle', 'Negro', '43', '24', '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Cafe', '46', '24', '2014-08-25'],
       ['Cooper', 'Schnauzer', 'Gris', '49', '17', '2011-12-11'],
       ['Bernie', 'San Bernardo', 'Blanco', '77', '74', '2018-02-27'],
       ['Max', 'Chow Chow', 'Blanco', '45', '28', '2019-03-27'],
       ['Reed', 'Schnauzer', 'Negro', '45', '15', '2017-09-18']],
      dtype='<U12')

In [61]:
# Seguiremos usando el dataframe de Perros
df = pd.DataFrame(data=arreglo, columns=[ 'Nombre', 'Raza', 'Color' , 'Altura_cm', 'Peso_kg', 'Fecha_Nac' ])
df['Altura_cm' ] = df['Altura_cm'].astype(int)
df['Peso_kg'] = df['Peso_kg'].astype(int)
df

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


In [62]:
# Cálculo de la media
df['Peso_kg'].mean()

29.428571428571427

In [68]:
# Cálculo de la fecha de nacimiento más antigua
df['Fecha_Nac' ].min()

'2011-12-11'

In [75]:
# Función de agregación estadística
def percentil80(columna):
    return columna.quantile(0.80)

df['Altura_cm'].agg(percentil80)


54.60000000000001

In [76]:
# Agrupación estadística en varias columnas
df[['Altura_cm', "Peso_kg"]].agg(percentil80)

Altura_cm    54.6
Peso_kg      27.2
dtype: float64

In [77]:
def percentil90(columna):
    return columna.quantile(0.90)

df['Altura_cm'].agg([percentil80, percentil90])

percentil80    54.6
percentil90    64.4
Name: Altura_cm, dtype: float64

In [78]:
df['Altura_cm' ]

0    56
1    43
2    46
3    49
4    77
5    45
6    45
Name: Altura_cm, dtype: int32

In [79]:
df['Altura_cm'].cumsum()

0     56
1     99
2    145
3    194
4    271
5    316
6    361
Name: Altura_cm, dtype: int32

In [80]:
df['Altura_cm'].cummin()

0    56
1    43
2    43
3    43
4    43
5    43
6    43
Name: Altura_cm, dtype: int32

In [81]:
df['Raza'].value_counts()

Raza
Chow Chow       2
Schnauzer       2
Labrador        1
Poodle          1
San Bernardo    1
Name: count, dtype: int64

In [82]:
df['Raza'].value_counts(normalize = True)

Raza
Chow Chow       0.285714
Schnauzer       0.285714
Labrador        0.142857
Poodle          0.142857
San Bernardo    0.142857
Name: proportion, dtype: float64

In [83]:

# Resumen por grupo
print(df[df['Color'] == 'Blanco'] ['Peso_kg'].mean( ))
print(df[df['Color'] == 'Café']['Peso_kg'].mean())
print(df[df['Color'] == 'Gris']['Peso_kg'].mean())
print(df[df['Color'] == 'Negro' ] ['Peso_kg' ].mean( ) )


51.0
nan
17.0
19.5


In [85]:

# Resumen por grupo: MEJOR OPCIÓN
df.groupby('Color') ['Peso_kg'].mean()

Color
Blanco    51.0
Cafe      24.0
Gris      17.0
Negro     19.5
Name: Peso_kg, dtype: float64

In [88]:

# Agrupación por color en base a diversas estadísticas
df.groupby('Color') ['Peso_kg'].agg([min, max, sum])

  df.groupby('Color') ['Peso_kg'].agg([min, max, sum])
  df.groupby('Color') ['Peso_kg'].agg([min, max, sum])
  df.groupby('Color') ['Peso_kg'].agg([min, max, sum])


Unnamed: 0_level_0,min,max,sum
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Blanco,28,74,102
Cafe,24,24,48
Gris,17,17,17
Negro,15,24,39


In [89]:
df.groupby(['Color', 'Raza'])['Peso_kg'].mean()

Color   Raza        
Blanco  Chow Chow       28.0
        San Bernardo    74.0
Cafe    Chow Chow       24.0
        Labrador        24.0
Gris    Schnauzer       17.0
Negro   Poodle          24.0
        Schnauzer       15.0
Name: Peso_kg, dtype: float64

In [91]:
# Uso de tablas pivote
df.pivot_table(values= "Peso_kg", index = "Color", aggfunc = [np.mean, np.median])

  df.pivot_table(values= "Peso_kg", index = "Color", aggfunc = [np.mean, np.median])
  df.pivot_table(values= "Peso_kg", index = "Color", aggfunc = [np.mean, np.median])


Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,Peso_kg,Peso_kg
Color,Unnamed: 1_level_2,Unnamed: 2_level_2
Blanco,51.0,51.0
Cafe,24.0,24.0
Gris,17.0,17.0
Negro,19.5,19.5


In [94]:
# Obtención de promedios para dos variables
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza") # Media se toma por omisión

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28.0,,,74.0,
Cafe,24.0,24.0,,,
Gris,,,,,17.0
Negro,,,24.0,,15.0


In [93]:
# Obtención de promedios para dos variables: Mejora #1
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0)

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28.0,0.0,0.0,74.0,0.0
Cafe,24.0,24.0,0.0,0.0,0.0
Gris,0.0,0.0,0.0,0.0,17.0
Negro,0.0,0.0,24.0,0.0,15.0


In [95]:
# Obtención de promedios para dos variables: Mejora #2
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.mean)

  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.mean)
  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.mean)
  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.mean)


Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28.0,0.0,0.0,74.0,0.0,51.0
Cafe,24.0,24.0,0.0,0.0,0.0,24.0
Gris,0.0,0.0,0.0,0.0,17.0,17.0
Negro,0.0,0.0,24.0,0.0,15.0,19.5
All,26.0,24.0,24.0,74.0,16.0,29.428571


In [97]:
# Obtención de medias para dos variables
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.median)

  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.median)
  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.median)
  df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.median)


Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28.0,0.0,0.0,74.0,0.0,51.0
Cafe,24.0,24.0,0.0,0.0,0.0,24.0
Gris,0.0,0.0,0.0,0.0,17.0,17.0
Negro,0.0,0.0,24.0,0.0,15.0,19.5
All,26.0,24.0,24.0,74.0,16.0,24.0


Un percentil es una medida estadística que indica el valor por debajo del cual cae un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el percentil 25 (también conocido como el primer cuartil) es el valor por debajo del cual caen el 25% de las observaciones. Los percentiles son útiles para resumir la distribución de un conjunto de datos y comprender la dispersión y la tendencia central de los mismos.



## 3. Asignación de índices

_Ejercicio:_ Considere la base de datos de mascotas caninas utilizada hasta el momento. Asigne como índices los nombres de cada perro de la siguiente manera:
![image.png](attachment:image.png)

In [101]:
# Información de columnas
df.columns 

Index(['Nombre', 'Raza', 'Color', 'Altura_cm', 'Peso_kg', 'Fecha_Nac'], dtype='object')

In [102]:
# Información de índices
df.index

RangeIndex(start=0, stop=7, step=1)

In [103]:
# Para establecer una columna como índices
df_ind = df.set_index('Nombre')
df_ind

Unnamed: 0_level_0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bella,Labrador,Cafe,56,24,2013-07-01
Charlie,Poodle,Negro,43,24,2016-09-16
Lucy,Chow Chow,Cafe,46,24,2014-08-25
Cooper,Schnauzer,Gris,49,17,2011-12-11
Bernie,San Bernardo,Blanco,77,74,2018-02-27
Max,Chow Chow,Blanco,45,28,2019-03-27
Reed,Schnauzer,Negro,45,15,2017-09-18


In [104]:
# Para deshacer la operación anterior
df_ind = df_ind.reset_index()
df_ind

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


In [105]:
df_ind = df.set_index('Nombre')
# Para remover índices  y columna con información de índices
df_ind = df_ind.reset_index(drop = True)
df_ind

Unnamed: 0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Labrador,Cafe,56,24,2013-07-01
1,Poodle,Negro,43,24,2016-09-16
2,Chow Chow,Cafe,46,24,2014-08-25
3,Schnauzer,Gris,49,17,2011-12-11
4,San Bernardo,Blanco,77,74,2018-02-27
5,Chow Chow,Blanco,45,28,2019-03-27
6,Schnauzer,Negro,45,15,2017-09-18


In [106]:
# Ventajas de usar índices
# Opción 1: Búsqueda de nombres en base original
df[df['Nombre'].isin(["Bernie", "Max"])]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27


In [107]:
# Ventajas de usar índices
# Opción 2: Búsqueda de nombres en base con índices de nombres
df_ind = df.set_index('Nombre')
df_ind.loc[["Bernie", "Max"]]

Unnamed: 0_level_0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bernie,San Bernardo,Blanco,77,74,2018-02-27
Max,Chow Chow,Blanco,45,28,2019-03-27


In [108]:
# Generación de índices jerárquicos índices múltiples (índices jerárquicos)
df_ind2 = df.set_index(['Raza', 'Color'])
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Schnauzer,Negro,Reed,45,15,2017-09-18


In [112]:
# Consulta sobre una característica específica
df_ind2.loc[['Schnauzer', 'Poodle']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18
Poodle,Negro,Charlie,43,24,2016-09-16


In [113]:
# Consulta sobre do características (con tuplas)
df_ind2.loc[ [("Schnauzer", "Gris"), ("Poodle", "Negro") ]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Schnauzer,Gris,Cooper,49,17,2011-12-11
Poodle,Negro,Charlie,43,24,2016-09-16


In [114]:
# Ordenamiento por primer índice de referencia
df_ind2.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18


In [115]:
# Ordenamiento por primer índice de referencia
df_ind2.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18


In [116]:
# Ordenamiento por más de un índice
df_ind2.sort_index(level=["Color", "Raza"], ascending = [True, False])

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Labrador,Cafe,Bella,56,24,2013-07-01
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18
Poodle,Negro,Charlie,43,24,2016-09-16


### Cortes en un DataFrame (“Slicing”) 
_Ejercicio:_ Considere la base de datos de mascotas caninas utilizada hasta el momento. Extraiga de ella los primeros 3 elementos.

In [117]:
# Extracción de los primeros 3
df[:3]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25


In [118]:
# Extracción del 2 al 4
df[2:5]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27


In [119]:
# Manera alternativa de traer todo el DF
df[:]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Cafe,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


In [121]:
# Extracción del dataframe con índices jerárquicos
df_ind2 = df.set_index(['Raza', 'Color'])
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Schnauzer,Negro,Reed,45,15,2017-09-18


In [122]:
# Error común por falta de ordenamiento
df_ind2.loc["Labrador":"Chow Chow"]

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [123]:
df_ind2 = df_ind2.sort_index(level='Raza', ascending=True)
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18


In [125]:
# Extracción correcta
df_ind2.loc["Chow Chow":"Labrador":]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Cafe,Lucy,46,24,2014-08-25
Labrador,Cafe,Bella,56,24,2013-07-01


In [126]:
# Para cortar partes de un Dataframe con índices múltiples usamos tuplas
df_ind2 .loc[('Chow Chow', 'Café'): ('Schnauzer', 'Gris')]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Labrador,Cafe,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11


In [127]:
# Corte de columnas en un DF
df_ind3 = df_ind2.loc[:, "Nombre":"Peso_kg"]
df_ind3

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,Blanco,Max,45,28
Chow Chow,Cafe,Lucy,46,24
Labrador,Cafe,Bella,56,24
Poodle,Negro,Charlie,43,24
San Bernardo,Blanco,Bernie,77,74
Schnauzer,Gris,Cooper,49,17
Schnauzer,Negro,Reed,45,15


In [129]:
# Extracción simultánea de renglones y columnas
df_ind4 = df_ind2.loc[('Chow Chow', 'Cafe'): ('Schnauzer', 'Gris'), "Nombre":"Peso_kg"]
df_ind4

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,Cafe,Lucy,46,24
Labrador,Cafe,Bella,56,24
Poodle,Negro,Charlie,43,24
San Bernardo,Blanco,Bernie,77,74
Schnauzer,Gris,Cooper,49,17


In [130]:
# Extracción simultánea de renglones y columnas 
# Opción alternativa por número de índice y columna
df_ind4.iloc[1:3, 0:1]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre
Raza,Color,Unnamed: 2_level_1
Labrador,Cafe,Bella
Poodle,Negro,Charlie


### Cortes en una tabla pivote

_Ejercicio:_
Mediante el uso de una tabla pivote sobre el DataFrame de mascotas, extraiga los registros donde la raza de la mascota es “Labrador”, “Poodle” y “San Bernardo”

In [131]:
# Cración de la tabla pivote
df_altura_por_raza_color = df.pivot_table('Altura_cm', index = 'Raza', columns = 'Color')
df_altura_por_raza_color

Color,Blanco,Cafe,Gris,Negro
Raza,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,45.0,46.0,,
Labrador,,56.0,,
Poodle,,,,43.0
San Bernardo,77.0,,,
Schnauzer,,,49.0,45.0


In [134]:
# Extracción de datos de la tabla pivote
df_altura_por_raza_color.loc['Labrador':'San Bernardo']

Color,Blanco,Cafe,Gris,Negro
Raza,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Labrador,,56.0,,
Poodle,,,,43.0
San Bernardo,77.0,,,


In [137]:
# Cálculo de promedios para TODOS los índices  (por columnas)
df_altura_por_raza_color.mean(axis= 'index')

Color
Blanco    61.0
Cafe      51.0
Gris      49.0
Negro     44.0
dtype: float64

In [138]:
# Cálculo promedios para TODAS las columnas (por renglones)
df_altura_por_raza_color.mean(axis= 'columns')

Raza
Chow Chow       45.5
Labrador        56.0
Poodle          43.0
San Bernardo    77.0
Schnauzer       47.0
dtype: float64

Hasta ahora, en este notebook se han cubierto los siguientes conceptos y funciones:

### 1. Introducción a Pandas y NumPy
- **Pandas**: Librería para manipulación y análisis de datos, especialmente con estructuras como DataFrames.
- **NumPy**: Librería para operaciones matemáticas y manejo de arreglos multidimensionales.

### 2. Creación y Manipulación de DataFrames
- **Creación de DataFrames**: A partir de arreglos de NumPy.
- **Modificación de DataFrames**:
    - Cambiar nombres de columnas y filas.
    - Agregar filas y columnas.
    - Extracción de filas y columnas.
- **Información del DataFrame**:
    - `info()`, `shape`, `describe()`, `columns`, `index`.

### 3. Operaciones Básicas con DataFrames
- **Ordenamiento**: `sort_values()`.
- **Condiciones**:
    - Filtrar datos con condiciones (`>`, `<`, `&`).
    - Uso de operadores lógicos (`and`, `or`).
- **Cálculos Estadísticos**:
    - Media (`mean()`), percentiles (`quantile()`), suma acumulativa (`cumsum()`), etc.

### 4. Índices en DataFrames
- **Asignación de Índices**: `set_index()`, `reset_index()`.
- **Índices Jerárquicos**: Uso de múltiples columnas como índices.
- **Ordenamiento por Índices**: `sort_index()`.

### 5. Tablas Pivote
- **Creación de Tablas Pivote**: `pivot_table()`.
- **Agregaciones**: Uso de funciones como `mean`, `median`, `sum`.

### 6. Slicing (Cortes) en DataFrames
- **Cortes por filas y columnas**: Uso de `loc[]` y `iloc[]`.
- **Cortes en índices jerárquicos**: Uso de tuplas para seleccionar rangos.

### 7. Ejercicios Prácticos
- Filtrar registros por condiciones específicas.
- Calcular el Índice de Masa Muscular (IMM).
- Agrupaciones y estadísticas por grupos (`groupby()`).

### 8. Buenas Prácticas
- Uso de funciones nativas de Pandas para operaciones de agregación.
- Evitar dependencias innecesarias con otras librerías como NumPy.

Estos conceptos y funciones son fundamentales para el análisis y manipulación de datos en Python.