## ***numpy***
![image.png](attachment:49e04011-0f72-4f75-a398-c0a7d308ce94.png)
- ***numpy*** (Numerical Python) es una biblioteca Python de código abierto que se utiliza en casi todos los campos de la ciencia y la ingeniería.
- Es el estándar universal para trabajar con datos numéricos en Python y es el núcleo de los ecosistemas científicos de Python.
- La biblioteca $numpy$ contiene matrices multidimensionales y estructuras de datos matriciales
- Proporciona ***ndarray***, un objeto de matriz n-dimensional homogéneo, con métodos para operar de manera eficiente en él.
- ***numpy*** se puede utilizar para realizar una amplia variedad de operaciones matemáticas en matrices.
- Agrega poderosas estructuras de datos a Python que garantizan cálculos eficientes con arreglos y matrices y proporciona una enorme biblioteca de funciones matemáticas de alto nivel que operan en estos arreglos y matrices.

## ***Arrays: Vectores y matrices***
- Se puede crear un vector o una matriz ***numpy*** de diferentes maneras. 

### ***Desde listas***

In [1]:
# Creando arreglos numpy analizando dimensiones y formas
import numpy as np   #Es usual que el alias sea np


# Creando un vector desde una lista usando la función array. Funciona igual con tuplas
a = np.array([1, 2, 3])

print("\nDatos de la matriz 'a'")
print(f"El vector: {a} ")
print(f"El tipo de objeto: {type(a)}")
print(f"Su dimensión: {a.ndim}")
print(f"Su forma: {a.shape}")  # En un vector nos da la longitud
print(f"Imprimiendo cada elemento: {a[0]} {a[1]} {a[2]}")
# Cambiando un valor del vector
a[0] = 5
print(f"El vector modificado: {a}")

print("\nDatos de la matriz 'b'")
b = np.array([[1, 2 ,3],[4, 5, 6]])  # A partir de una lista de listas
print(f"La matriz\n{b}")
print(f"El tipo: {type(b)}")
print(f"Su dimensión: {b.ndim}")
print(f"Su forma: {b.shape}, es decir {b.shape[0]} filas y {b.shape[1]} columnas")
print(f"Imprimiendo elementos: {b[0, 0]} {b[0, 1]} {b[1, 0]}")
# Cambiando un valor de la matriz
b[1, 2] = 7
print(f"La matriz modificada:\n{b}")



Datos de la matriz 'a'
El vector: [1 2 3] 
El tipo de objeto: <class 'numpy.ndarray'>
Su dimensión: 1
Su forma: (3,)
Imprimiendo cada elemento: 1 2 3
El vector modificado: [5 2 3]

Datos de la matriz 'b'
La matriz
[[1 2 3]
 [4 5 6]]
El tipo: <class 'numpy.ndarray'>
Su dimensión: 2
Su forma: (2, 3), es decir 2 filas y 3 columnas
Imprimiendo elementos: 1 2 4
La matriz modificada:
[[1 2 3]
 [4 5 7]]


In [None]:
# Ejercicio, hacer el caso anterior cambiando las listas por tuplas


### ***Accesando elementos de una matriz***

In [2]:
import numpy as np


b = np.array([[1, 2 ,3],[4, 5, 6]])
print(b[-1])
print(b[-1, 1])


[4 5 6]
5


### ***Operaciones con arreglos numpy***

In [2]:
import numpy as np


lista = [25, 12, 15, 66, 12.5, 25.5]
vector = np.array(lista)

print(f"- vector original\n{vector}\n")
print(f"- sumarle 1 a cada elemento del vector\n{vector + 1}\n")
print(f"- multiplicar por 5 cada elemento del vector\n{vector * 5}\n")
print(f"- el vector sumado a si mismo\n{vector + vector}\n")


- vector original
[25.  12.  15.  66.  12.5 25.5]

- sumarle 1 a cada elemento del vector
[26.  13.  16.  67.  13.5 26.5]

- multiplicar por 5 cada elemento del vector
[125.   60.   75.  330.   62.5 127.5]

- el vector sumado a si mismo
[ 50.  24.  30. 132.  25.  51.]



### ***Funciones de arreglos numpy***
***sum(), mean(), max(), min(), shape()***

In [None]:
import numpy as np


lista = [25, 12, 15, 66, 12.5, 25.5]
vector = np.array(lista)

print(f"- suma de los elementos: {np.sum(vector)}\n")
print(f"- promedio (media) de los elementos: {np.mean(vector)}\n")
print(f"- el valor máximo: {np.max(vector)}\n")
print(f"- el valor minimo: {np.min(vector)}\n")
matriz = vector.reshape(3, 2)
print(f"- cambiando la forma del vector a una matriz 3x2\n{matriz}")


### ***Sumando dos vectores***

In [None]:
import numpy as np


vector1 = np.array([25, 12, 15, 66, 12.5, 25.5])
print(f"- vector1\n{vector1}:")
vector2 = np.array([11, 55, 1.2, 7.4, -8, 23])
print(f"- vector2 (mismo tamaño)\n{vector2}:")
print(f"- suma de vectores vector1 y vector2 (mismo tamaño)\n{vector1 + vector2}:\n")


### ***Funciones para crear matrices***

***zeros(), ones(), full(), eye()***

In [None]:
import numpy as np


a = np.zeros([2, 2])         # Crea una matriz con los valores igual a cero
print(f"{a}\n")

b = np.ones((1, 3))          # Crea una matriz con todos los valores igual a 1
print(f"{b}\n")

c = np.full((4, 4), 7)       # Crea una matriz nxn con un valor constante
print(f"{c}\n")

d = np.eye(5)                # Crea una matriz identidad de nxn
print(f"{d}\n")


### ***Generando arreglos numpy con números aleatorios***
***random.rand(fil, col), random.randint(valini, valfin, tamaño)***

In [None]:
import numpy as np


a = np.random.rand(2, 3)  # Crea una matriz nxm con valores aleatorios entre 0 y 1
print(f"{a}\n")

b = np.random.randint(0, 21, [3, 2]) # Con enteros
print(f"{b}")


## ***Slicing***

In [None]:
# Slicing
import numpy as np


a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

# Usar slicing para extraer el sub arreglo que consta de las 2 primeras filas
# y columnas 1 y 2; b es la siguiente matriz de forma (2, 2):
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

# Una porción de una matriz es una vista de los mismos datos,
# por lo que modificarla la "vista" modificará la matriz original.

print(a[0, 1])   # Prints "2"
b[0, 0] = 77     # b[0, 0] is the same piece of data as a[0, 1]
print(b[0, 0])
print(a[0, 1])   # Prints "77"

a[0, 1] = 66
print(b[0, 0])


### ***El método nditer***

In [None]:
# El método nditer
import numpy as np


arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
print(f"Número de dimensiones {arr.ndim}")

print(f"Forma {arr.shape}")
print(f"Arreglo\n {arr}")

for x in np.nditer(arr):
    print(f"Valores del arreglo {x}")


### ***Método ndenumerate***

In [None]:
import numpy as np


arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
for idx, x in np.ndenumerate(arr):
    print(idx, x)


## ***Pandas***
![image.png](attachment:fd81570f-df45-4b8c-b4fb-af40d54e2034.png)
- La librería ***pandas*** deriva su nombre de panel data
- Es un término usado para referirse a conjuntos de datos estructurados multidimensionales)
- Proporciona estructuras de datos y funciones de alto nivel que nos permiten trabajar con datos estructurados de manera muy cómoda.
- Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.
- Los principales objetos ofrecidos por pandas son:
    - El ***dataframe***, estructura tabular bidimensional
    - La ***serie***
- Ambas basadas en el array multidimensional de ***numpy***

In [3]:
# Importando pandas
import pandas as pd  # Es usaual que el alias sea pd


### ***Estructuras de datos de Pandas***
Pandas dispone de tres estructuras de datos diferentes:

* **Series**:    Estructura de una dimensión, análogo a una columna de hoja de cálculo
* **DataFrame**: Estructura de dos dimensiones (tablas). Análogo a una hoja de cálculo
* **Panel**:     Estructura de tres dimensiones (cubos). Análogo a multiples hojas de cálculo (no se verá en el curso)

### ***La clase de objetos Series***
- Las series son estructuras unidimensionales conteniendo:
    - Un array de datos (de cualquier tipo soportado por NumPy)
    - Un array de etiquetas que van asociadas a los datos, llamado índice.
- El índice asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

### ***Ejemplo***
La siguiente serie contiene las asignaturas de un curso.
|Índice|A1|A2|A3|A4|
|:---|:---:|:---:|:---:|:---:|
|Valores|Matemáticas|Economía|Programación|Inglés|

- Las series pandas tienen la siguiente sintaxis
    - pandas.Series(data, index, dtype, name)

In [4]:
# Creando series
# index, dtype y name son opcionales
# Cuando no se pone index, se asigna por defecto 0, 1, 2...
import pandas as pd


s = pd.Series(
    ["Matemáticas", "Historia", "Economía", "Programación", "Inglés"],
    index=["A1", "A2", "A3", "A4", "A5"],
    dtype="string",
    name="Cursos",
)

print(f"Imprimiendo el DataFrame \n{s}")


Imprimiendo el DataFrame 
A1     Matemáticas
A2        Historia
A3        Economía
A4    Programación
A5          Inglés
Name: Cursos, dtype: string


In [5]:
# Otro ejemplo
import pandas as pd


ventas = pd.Series([15, 12, 21], index = ["Ene", "Feb", "Mar"])
print(ventas)
print(ventas.index)


Ene    15
Feb    12
Mar    21
dtype: int64
Index(['Ene', 'Feb', 'Mar'], dtype='object')


In [6]:
# Otro ejemplo
import pandas as pd


songs = pd.Series([145, 142, 38, 13], name="counts")
print(songs)
print(songs.index)


0    145
1    142
2     38
3     13
Name: counts, dtype: int64
RangeIndex(start=0, stop=4, step=1)


### ***Creación de una serie a partir de un diccionario***
- Sintaxis
    - Series(data=valores, index=indices)
- Devuelve un objeto de tipo Series con los valores del diccionario y las filas especificados en la lista indices.
- Si no se pasa la lista de índices se utilizan como índices las claves del diccionario.

In [7]:
# Creación desde un diccionario
import pandas as pd

s = pd.Series({"Matemáticas": 6.0, "Economía": 4.5, "Programación": 8.5})
print(s)


Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


### ***Creación de una serie a partir de un array numpy***

In [8]:
import pandas as pd
import numpy as np


arr = np.array([1, 2, 3, 4, 5])
indices = ["R1", "R2", "R3", "R4", "R5"]
s = pd.Series(arr, index=indices)
print(s)


R1    1
R2    2
R3    3
R4    4
R5    5
dtype: int32


In [9]:
import pandas as pd
import numpy as np


s = pd.Series(np.array([1, 2, 3, 4, 5]), index = ['R1', 'R2', 'R3', 'R4', 'R5'])
print(s)

s = pd.Series(np.array((1, 2, 3, 4, 5)), index = ('R1', 'R2', 'R3', 'R4', 'R5'))
print(s)


R1    1
R2    2
R3    3
R4    4
R5    5
dtype: int32
R1    1
R2    2
R3    3
R4    4
R5    5
dtype: int32


### ***Acceso a los elementos de una serie***
El acceso a los elementos de un objeto del tipo Series puede ser a través de posiciones o través de índices (nombres).

In [10]:
import pandas as pd


s = pd.Series({"Matemáticas": 6.0, "Economía": 4.5, "Programación": 8.5})
print(s)

# Con Slicing
print(s[1:])

# Con índices
a = s["Economía"]
print(a)

a = s[["Economía"]]
print(a)

print(s[["Programación", "Matemáticas"]])


Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64
Economía        4.5
Programación    8.5
dtype: float64
4.5
Economía    4.5
dtype: float64
Programación    8.5
Matemáticas     6.0
dtype: float64


### ***Otros temas***

In [11]:
import pandas as pd


ventas = pd.Series([15, 12, 21], index=["Ene", "Feb", "Mar"])
print(ventas)
print(ventas.index)
print(ventas.values)


Ene    15
Feb    12
Mar    21
dtype: int64
Index(['Ene', 'Feb', 'Mar'], dtype='object')
[15 12 21]


In [12]:
ventas.name = "Ventas 2022"
ventas.index.name = "Meses"
print(ventas)


Meses
Ene    15
Feb    12
Mar    21
Name: Ventas 2022, dtype: int64


In [13]:
print(ventas.axes)
print(ventas.shape)
print(ventas.ndim)


[Index(['Ene', 'Feb', 'Mar'], dtype='object', name='Meses')]
(3,)
1


## ***Introducción a los DataFrames***

- Los dataframes son estructuras tabulares de datos orientadas a columnas, con etiquetas o índices tanto en filas como en columnas y y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.
- Cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.
- El DataFrame de la figura contiene información sobre los alumnos de un curso. Cada fila corresponde a un alumno y cada columna a una variable.

![image.png](attachment:c745afc7-b4c6-40cb-95c6-b15e8bf2cef5.png)

### ***Sintaxis para la creación de un DataFrame***
- pandas.DataFrame(data, index , columns , dtype)
- Donde:
    - data: los datos toman varias formas como ndarray, series, map, listas, dict, constantes y también otro DataFrame
    - index: Para las etiquetas de fila que se van a utilizar en el DataFramee. Es opcional, se númera desde 0 si no se pasa ningún índice
    - columns: Para las etiquetas de columnaes, es opcional, se númera desde 0 si no se pasa ningún índice de columna
    - dtype: Tipo de datos de cada columa.

### ***Creación de un DataFrame a partir de un diccionario***
- Cuando se crea un **DataFrame** a partir de un diccionario
- Los valores que son listas, serán los datos de las columnas
- Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0.
- Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario.
- Si no se pasa la lista de tipos, se infiere.

In [1]:
# Esto se utiliza para que al desplegar el DataFrame, no se divida
# en dos líneas muy rápidamente
import pandas as pd


pd.set_option('display.expand_frame_repr', False)


In [4]:
# Primer ejemplo
import pandas as pd


datos = {
    "nombre": ["María", "Luis", "Carmen", "Antonio"],
    "edad": [18, 22, 20, 21],
    "grado": ["Economía", "Medicina", "Arquitectura", "Economía"],
    "correo": [
        "maria@gmail.com",
        "luis@yahoo.es",
        "carmen@gmail.com",
        "antonio@gmail.com",
    ],
}
df = pd.DataFrame(datos, index=["Alumno 1", "Alumno 2", "Alumno 3", "Alumno 4"])
print(df)


           nombre  edad         grado             correo
Alumno 1    María    18      Economía    maria@gmail.com
Alumno 2     Luis    22      Medicina      luis@yahoo.es
Alumno 3   Carmen    20  Arquitectura   carmen@gmail.com
Alumno 4  Antonio    21      Economía  antonio@gmail.com


### ***Creación de un DataFrame a partir de una lista de listas***

In [7]:
import pandas as pd


df = pd.DataFrame(
    [["María", 18], ["Luis", 22], ["Carmen", 20], ["Alberto1",19]],
    columns=["Nombre", "Edad"],
    index=["Alumno 1", "Alumno 2", "Alumno 3", "Alumno 4"]
)
print(df)


            Nombre  Edad
Alumno 1     María    18
Alumno 2      Luis    22
Alumno 3    Carmen    20
Alumno 4  Alberto1    19


### ***Creación de un DataFrame a partir de un array numpy***

In [1]:
import numpy as np
import pandas as pd


df = pd.DataFrame(np.random.rand(4, 3), columns=["a", "b", "c"])
print(df)


          a         b         c
0  0.346862  0.061218  0.693165
1  0.857214  0.228026  0.424303
2  0.754326  0.820323  0.353298
3  0.191750  0.971021  0.546328


## ***Creación de un DataFrame a partir de un fichero CSV o Excel***
- ***Sintaxis para leer un archivo CSV***
    - read_csv(fichero.csv, sep=separador, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal, encoding=valor)
    - Solo el primer parámetro es obligatorio
- ***Sintaxis para leer un archivo Excel***
    - read_excel(fichero.xlsx, sheet_name=hoja, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal)
    - Solo el primer parámetro es obligatorio

In [None]:
# Si va a trabajar en Google Colab debe hacer esto primero para leer un archivo en alguna
# carpeta de Google Drive. Esto se hace una vez, pero cada vez que ingresa al Google colab
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

# Luego, si por ejemplo tiene una carpeta Arpd donde se encuentra el archivo
# colesteroles.csv, para leerlo debe escribir (ver siguiente celda)


In [None]:
import pandas as pd


# Importación del fichero datos-colesteroles.csv
df = pd.read_csv('/content/gdrive/MyDrive/ArPd/colesteroles.csv',
                 sep=';', decimal=',')
print(df.head())
# Pruebelo en Google Colab


### ***Leyendo CSV y Excel***

In [4]:
import pandas as pd


df = pd.read_csv("colesteroles.csv", sep=";", decimal=",")
print(f"\n{df.head()}")
print(f"\n{df.tail()}")
print(f"\n{df}")



                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    32    M  65.0    1.73       232.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0
3           Carmen López Pinzón    35    M  65.0    1.70       200.0
4          Marisa López Collado    46    M  51.0    1.58       148.0

                             nombre  edad sexo   peso  altura  colesterol
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0

                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79    

In [6]:
import pandas as pd


df = pd.read_excel("colesteroles.xlsx", sheet_name="Colesterol",decimal=",")
print(f"\n{df.head()}")
print(f"\n{df.tail()}")
print(f"\n{df}")



                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    32    M  65.0    1.73       232.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0
3           Carmen López Pinzón    35    M  65.0    1.70       200.0
4          Marisa López Collado    46    M  51.0    1.58       148.0

                             nombre  edad sexo   peso  altura  colesterol
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0

                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79    

### ***Añadiendo columnas y filas a un Dataframe y escribir en CSV***
Usando ***concat()***

In [8]:
# Leyendo datos de un archivo CSV y # Añadiendo filas
import numpy as np
import pandas as pd


# Importación del fichero datos-colesteroles.csv
colesterol_csv = pd.read_csv("colesteroles.csv", sep=";", decimal=",")

# Crea un dataframe con la misma forma del anterior
# Vamos a utilizar columns.values para obtener el nombre de las columnas
columnas = colesterol_csv.columns.values
nueva_fila = pd.DataFrame(
    np.array([["Carlos Rivas", 28, "H", 89.0, 1.78, 245.0]]), columns=columnas
)

colesterol_csv = pd.concat([colesterol_csv, nueva_fila], ignore_index=True)

print(f"{colesterol_csv.tail()}")


                             nombre edad sexo   peso altura colesterol
10            Macarena Álvarez Luna   53    M   55.0   1.62      262.0
11       José María de la Guía Sanz   58    H   78.0   1.87      198.0
12  Miguel Angel Cuadrado Gutiérrez   27    H  109.0   1.98      210.0
13            Carolina Rubio Moreno   20    M   61.0   1.77      194.0
14                     Carlos Rivas   28    H   89.0   1.78      245.0

                             nombre edad sexo   peso altura colesterol  \
10            Macarena Álvarez Luna   53    M   55.0   1.62      262.0   
11       José María de la Guía Sanz   58    H   78.0   1.87      198.0   
12  Miguel Angel Cuadrado Gutiérrez   27    H  109.0   1.98      210.0   
13            Carolina Rubio Moreno   20    M   61.0   1.77      194.0   
14                     Carlos Rivas   28    H   89.0   1.78      245.0   

   diabetes  
10       Si  
11       No  
12       Si  
13       No  
14      NaN  

                             nombre  edad s

### ***Añadiendo columnas y filas a un Dataframe y escribir en Excel***

In [10]:
import numpy as np
import pandas as pd

colesterol_csv = pd.read_csv("colesteroles.csv", sep=";", decimal=",")
columnas = colesterol_csv.columns.values
print(columnas)

nueva_fila = pd.DataFrame(
    np.array([["Carlos Rivas", 28, "H", 89.0, 1.78, 245.0]]), columns=columnas
)
print(nueva_fila)

['nombre' 'edad' 'sexo' 'peso' 'altura' 'colesterol']
         nombre edad sexo  peso altura colesterol
0  Carlos Rivas   28    H  89.0   1.78      245.0


In [12]:
import numpy as np
import pandas as pd

# Importación del fichero datos-colesteroles.xlsx
colesterol_xlsx = pd.read_excel("colesteroles.xlsx", sheet_name="Colesterol")

# Crea un data frame con la misma forma del anterior
columnas = colesterol_xlsx.columns.values
nueva_fila = pd.DataFrame(
    np.array([["Carlos Rivas", 28, "H", 89.0, 1.78, 245.0]]), columns=columnas
)

colesterol_xlsx = pd.concat([colesterol_xlsx, nueva_fila], ignore_index=True)

print(f"{colesterol_xlsx.tail()}")

# Añade columna
colesterol_xlsx["diabetes"] = pd.Series(
    ["No", "No", "Si", "No", "Si", "No", "Si", "No", "Si", "No", "Si", "No", "Si", "No"]
)

colesterol_xlsx.to_excel(
    "colesteroles1.xlsx", sheet_name="Colesterol", index=False
)

# Probamos leyendo nuevamente el archivo colesteroles.xlsx
colesterol_xlsx1 = pd.read_excel("colesteroles1.xlsx", sheet_name="Colesterol")

print(f"\n{colesterol_xlsx1.tail()}")


                             nombre edad sexo   peso altura colesterol
10            Macarena Álvarez Luna   53    M   55.0   1,62      262.0
11       José María de la Guía Sanz   58    H   78.0   1,87      198.0
12  Miguel Angel Cuadrado Gutiérrez   27    H  109.0   1,98      210.0
13            Carolina Rubio Moreno   20    M   61.0   1,77      194.0
14                     Carlos Rivas   28    H   89.0   1.78      245.0

                             nombre  edad sexo   peso altura  colesterol  \
10            Macarena Álvarez Luna    53    M   55.0   1,62       262.0   
11       José María de la Guía Sanz    58    H   78.0   1,87       198.0   
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0   1,98       210.0   
13            Carolina Rubio Moreno    20    M   61.0   1,77       194.0   
14                     Carlos Rivas    28    H   89.0   1.78       245.0   

   diabetes  
10       Si  
11       No  
12       Si  
13       No  
14      NaN  


In [11]:
import numpy as np
import pandas as pd

# Importación del fichero datos-colesteroles.xlsx
colesterol_xlsx = pd.read_excel("colesteroles.xlsx", sheet_name="Colesterol")

# Crea un data frame con la misma forma del anterior
columnas = colesterol_xlsx.columns.values
nueva_fila = pd.DataFrame(
    np.array([["Carlos Rivas", 28, "H", 89.0, 1.78, 245.0]]), columns=columnas
)

colesterol_xlsx = pd.concat([colesterol_xlsx, nueva_fila], ignore_index=True)

print(f"{colesterol_xlsx.tail()}")

                             nombre edad sexo   peso altura colesterol
10            Macarena Álvarez Luna   53    M   55.0   1,62      262.0
11       José María de la Guía Sanz   58    H   78.0   1,87      198.0
12  Miguel Angel Cuadrado Gutiérrez   27    H  109.0   1,98      210.0
13            Carolina Rubio Moreno   20    M   61.0   1,77      194.0
14                     Carlos Rivas   28    H   89.0   1.78      245.0


### ***Localizar valores de un DataFrame***

### ***loc***

In [15]:
# Usando loc
import numpy as np
import pandas as pd


df = pd.DataFrame(
    np.arange(18).reshape([6, 3]),
    index=["a", "b", "c", "d", "e", "f"],
    columns=["A", "B", "C"],
)
print(df)

    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17


In [17]:
print(f"DataFrame completo\n{df}\n")

# Una sóla etiqueta
s1 = df.loc["c"]
print(
    f"Con una sóla etiqueta, se obtiene una serie pandas\n"
    f"donde los nombres de las columnas son las etiquetas de las filas\n{s1}\n"
)


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Con una sóla etiqueta, se obtiene una serie pandas
donde los nombres de las columnas son las etiquetas de las filas
A    6
B    7
C    8
Name: c, dtype: int32



In [18]:
print(f"DataFrame completo\n{df}\n")
# Con una lista de a
df_01 = df.loc[["c", "a", "e"]]
print(f"Con una lista de etiquetas, se obtien un DataFrame\n{df_01}\n")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Con una lista de etiquetas, se obtien un DataFrame
    A   B   C
c   6   7   8
a   0   1   2
e  12  13  14



In [20]:
print(f"DataFrame completo\n{df}\n")
# Observar este detalle
df_02 = df.loc[["c"]]
print(f"Con ['c'] obtenemos un dataFrame\n{df_02}\n")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Con ['c'] obtenemos un dataFrame
   A  B  C
c  6  7  8



In [19]:
print(f"DataFrame completo\n{df}\n")
# Con rangos que incluyen ambos extremos
df_03 = df.loc["b":"d"]
print(f"Con rangos que incluyen ambos extremos, obtenemos un DataFrame\n{df_03}")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Con rangos que incluyen ambos extremos, obtenemos un DataFrame
   A   B   C
b  3   4   5
c  6   7   8
d  9  10  11


In [21]:
print(f"DataFrame completo\n{df}\n")
# Se puede obtener un valor puntual, indicando fila y columna
valor = df.loc["a", "C"]
print(
    f"Se puede obtener un valor puntual, indicando fila y columna\n"
    f"fila 'a', columna 'C': {valor}"
)


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Se puede obtener un valor puntual, indicando fila y columna
fila 'a', columna 'C': 2


In [22]:
print(f"DataFrame completo\n{df}\n")
# Todos los elementos de una columna, genera una serie
s2 = df.loc[:, "A"]
print(f"Todos los elementos de una columna, genera una serie\n{s2}")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Todos los elementos de una columna, genera una serie
a     0
b     3
c     6
d     9
e    12
f    15
Name: A, dtype: int32


In [23]:
print(f"DataFrame completo\n{df}\n")
# Se puede crear una serie de filas y una columna específica
s3 = df.loc[["e", "c"], "B"]
print(f"Se puede crear una serie de filas y una columna específica\n{s3}")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

Se puede crear una serie de filas y una columna específica
e    13
c     7
Name: B, dtype: int32


In [24]:
print(f"DataFrame completo\n{df}\n")
# Se puede añadir una fila, si la etiqueta de la fila no existe
df.loc["g"] = (18, 19, 20)
print(f"DataFrame con nueva fila\n{df}")


DataFrame completo
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17

DataFrame con nueva fila
    A   B   C
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17
g  18  19  20


## ***Filtrar DataFrame***

In [7]:
import pandas as pd


df = pd.read_excel('colesteroles.xlsx', sheet_name="Colesterol")
print(df.head())


                         nombre  edad sexo  peso altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0   1,79       182.0
1                Rosa Díaz Díaz    32    M  65.0   1,73       232.0
2         Javier García Sánchez    24    H   NaN   1,81       191.0
3           Carmen López Pinzón    35    M  65.0    1,7       200.0
4          Marisa López Collado    46    M  51.0   1,58       148.0


In [8]:
# Imprime con ordenamiento
print(df.sort_values(["sexo", "colesterol"], ascending=[True, False]))


                             nombre  edad sexo   peso altura  colesterol
9           Santiago Reillo Manzano    46    H   75.0   1,85       280.0
6           Antonio Fernández Ocaña    51    H   62.0   1,72       276.0
5                 Antonio Ruiz Cruz    68    H   66.0   1,74       249.0
8              Pedro Gálvez Tenorio    35    H   90.0   1,94       241.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0   1,98       210.0
11       José María de la Guía Sanz    58    H   78.0   1,87       198.0
2             Javier García Sánchez    24    H    NaN   1,81       191.0
0      José Luis Martínez Izquierdo    18    H   85.0   1,79       182.0
10            Macarena Álvarez Luna    53    M   55.0   1,62       262.0
1                    Rosa Díaz Díaz    32    M   65.0   1,73       232.0
3               Carmen López Pinzón    35    M   65.0    1,7       200.0
13            Carolina Rubio Moreno    20    M   61.0   1,77       194.0
4              Marisa López Collado    46    M   51

In [9]:
# Se puede crear otro DataFrame
df1 = df.sort_values(['colesterol'], ascending=[ False])
print(df1)


                             nombre  edad sexo   peso altura  colesterol
9           Santiago Reillo Manzano    46    H   75.0   1,85       280.0
6           Antonio Fernández Ocaña    51    H   62.0   1,72       276.0
10            Macarena Álvarez Luna    53    M   55.0   1,62       262.0
5                 Antonio Ruiz Cruz    68    H   66.0   1,74       249.0
8              Pedro Gálvez Tenorio    35    H   90.0   1,94       241.0
1                    Rosa Díaz Díaz    32    M   65.0   1,73       232.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0   1,98       210.0
3               Carmen López Pinzón    35    M   65.0    1,7       200.0
11       José María de la Guía Sanz    58    H   78.0   1,87       198.0
13            Carolina Rubio Moreno    20    M   61.0   1,77       194.0
2             Javier García Sánchez    24    H    NaN   1,81       191.0
0      José Luis Martínez Izquierdo    18    H   85.0   1,79       182.0
4              Marisa López Collado    46    M   51

In [10]:
# Con ignore_index=True, vuelve a numerar los índices
df2 = df.sort_values(['sexo','colesterol'], ascending=[True, False], 
                     ignore_index=True)
print(df2)


                             nombre  edad sexo   peso altura  colesterol
0           Santiago Reillo Manzano    46    H   75.0   1,85       280.0
1           Antonio Fernández Ocaña    51    H   62.0   1,72       276.0
2                 Antonio Ruiz Cruz    68    H   66.0   1,74       249.0
3              Pedro Gálvez Tenorio    35    H   90.0   1,94       241.0
4   Miguel Angel Cuadrado Gutiérrez    27    H  109.0   1,98       210.0
5        José María de la Guía Sanz    58    H   78.0   1,87       198.0
6             Javier García Sánchez    24    H    NaN   1,81       191.0
7      José Luis Martínez Izquierdo    18    H   85.0   1,79       182.0
8             Macarena Álvarez Luna    53    M   55.0   1,62       262.0
9                    Rosa Díaz Díaz    32    M   65.0   1,73       232.0
10              Carmen López Pinzón    35    M   65.0    1,7       200.0
11            Carolina Rubio Moreno    20    M   61.0   1,77       194.0
12             Marisa López Collado    46    M   51

In [11]:
# Otros acciones que se pueden ejecutar con los DataFrame
import pandas as pd


gapminder = pd.read_csv('gapminder.csv', sep=';')
print(gapminder.head(10))


FileNotFoundError: [Errno 2] No such file or directory: 'gapminder.csv'

In [12]:
# Obteniendo información del DataFrame
print(type(df))
print(gapminder.shape)
print(gapminder.columns)
print(gapminder.dtypes)
print(gapminder.info())


<class 'pandas.core.frame.DataFrame'>


NameError: name 'gapminder' is not defined

## ***Actualizando DataFrame con "loc"***

In [5]:
# Adiciona filas usando loc
import numpy as np
import pandas as pd


lista_de_frutas = np.array([["Orange", 34, "Yes"]])
columnas = ["Name", "Price", "Stock"]

# Creamos un data frame
frutas = pd.DataFrame(lista_de_frutas, columns=columnas)
print(f"{frutas}\n")

print(frutas.shape)
# Adicionar nuevas filas
print(f"Número de filas {frutas.shape[0]}")
frutas.loc[frutas.shape[0]] = ("Mango", 4, "No")
print(f"{frutas}\n")

print(f"Número de filas {frutas.shape[0]}")
frutas.loc[frutas.shape[0]] = ("Apple", 14, "Yes")
print(f"{frutas}\n")


     Name Price Stock
0  Orange    34   Yes

(1, 3)
Número de filas 1
     Name Price Stock
0  Orange    34   Yes
1   Mango     4    No

Número de filas 2
     Name Price Stock
0  Orange    34   Yes
1   Mango     4    No
2   Apple    14   Yes

