# `Pandas`

Pandas es una biblioteca de Python ampliamente utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos eficientes y flexibles, así como herramientas para el procesamiento de datos. Con Pandas, puedes importar, limpiar, transformar y analizar datos de manera sencilla y eficiente.

La estructura de datos principal en Pandas es el `DataFrame`, que es una tabla bidimensional que puede contener datos heterogéneos. Puedes pensar en un *DataFrame* como una hoja de cálculo o una base de datos donde cada columna representa una variable y cada fila representa una observación.

Pandas ofrece numerosas funcionalidades para realizar tareas comunes de análisis de datos, como la manipulación de columnas y filas, filtrado de datos, agregación, cálculos estadísticos, fusión y concatenación de DataFrames, entre otros.

## Características

Las principales características de esta librería son:

* Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.

* Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.

* Permite acceder a los datos mediante índices o nombres para filas y columnas.

* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.

* Permite trabajar con series temporales.

* Realiza todas estas operaciones de manera muy eficiente.

## Tipos de datos de Pandas


Pandas dispone de tres estructuras de datos diferentes:

* **Series:** Estructura de una dimensión.
  
* **DataFrame:** Estructura de dos dimensiones (tablas).
  
* **Panel:** Estructura de tres dimensiones (cubos).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

## Series

Son estructuras similares a los arrays de una dimensión. Son **homogéneas**, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es **inmutable**, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

In [20]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8], name = 'Mi serie')
print(s)

s1 = s.copy()
s1[1]=10
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
Name: Mi serie, dtype: float64
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
Name: Mi serie, dtype: float64


**Observación:** `np.nan` se refiere a la representación de un valor `NaN` (`Not a Number`) en la biblioteca NumPy. NaN es un valor especial utilizado para indicar datos faltantes o no válidos en arreglos numéricos.

NaN se utiliza comúnmente en cálculos y operaciones donde puede haber valores faltantes o datos no válidos. En lugar de simplemente dejar un espacio en blanco o usar un valor predeterminado para indicar la ausencia de datos, NaN proporciona una forma estándar de representar estos valores faltantes.

La clase Series en Pandas acepta varios argumentos adicionales aparte de los datos y el índice. Aquí tienes una lista de algunos argumentos comunes que se pueden utilizar al crear una Serie o al llamar a métodos de una Serie:

<center>
<table>
  <tr>
    <th>Argumento</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>name</td>
    <td>Asigna un nombre a la Serie.</td>
    <td>pd.Series(data, name="Ventas")</td>
  </tr>
  <tr>
    <td>dtype</td>
    <td>Especifica el tipo de datos de la Serie.</td>
    <td>pd.Series(data, dtype=np.float64)</td>
  </tr>
  <tr>
    <td>copy</td>
    <td>Realiza una copia de los datos.</td>
    <td>serie.copy()</td>
  </tr>
  <!-- <tr>
    <td>fastpath</td>
    <td>Habilita el código de camino rápido para la construcción de la Serie.</td>
    <td>pd.Series(data, fastpath=True)</td>
  </tr>
  <tr>
    <td>verify_integrity</td>
    <td>Verifica la integridad de los datos al crear la Serie.</td>
    <td>pd.Series(data, verify_integrity=True)</td>
  </tr> -->
</table>

</center>

## Creación de una serie a partir de una lista

`Series(data=lista, index=indices, dtype=tipo)`: Devuelve un objeto de tipo Series con los datos de la lista lista, las filas especificados en la lista indices y el tipo de datos indicado en tipo. Si no se pasa la lista de índices se utilizan como índices los enteros del 0 al , done  es el tamaño de la serie. Si no se pasa el tipo de dato se infiere.

In [21]:
import pandas as pd
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


In [25]:
import pandas as pd

lista = [10, 20, 30, 40, 50]

serie = pd.Series(lista)

etiquetas = ['a', 'b', 'c', 'd', 'e']

serie = pd.Series(lista, index=etiquetas)
print(serie)

a    10
b    20
c    30
d    40
e    50
dtype: int64


## Creación de una serie a partir de un diccionario

`Series(data=diccionario, index=indices)`: Devuelve un objeto de tipo Series con los valores del diccionario diccionario y las filas especificados en la lista indices. Si no se pasa la lista de índices se utilizan como índices las claves del diccionario.

In [28]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [32]:
s.size
print(s.index)
s.dtype

Index(['Matemáticas', 'Economía', 'Programación'], dtype='object')


dtype('float64')

## Atributos de una serie

Existen varias propiedades o métodos para ver las características de una serie.

* `s.size` : Devuelve el número de elementos de la serie s.

* `s.index` : Devuelve una lista con los nombres de las filas del DataFrame s.

* `s.dtype` : Devuelve el tipo de datos de los elementos de la serie s.

## Acceso a los elementos de una serie

### Acceso por posición


Se realiza de forma similar a como se accede a los elementos de un array.

* `s[i]` : Devuelve el elemento que ocupa la posición i+1 en la serie s.
s[posiciones]: Devuelve otra serie con los elementos que ocupan las posiciones de la lista posiciones.

### Acceso por índice


* `s[nombre]` : Devuelve el elemento con el nombre nombre en el índice.
* s[nombres] : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista nombres en el índice.


In [35]:
s[['Matemáticas','Programación']]

Matemáticas     6.0
Programación    8.5
dtype: float64

<center>
<table>
  <tr>
    <th>Función/Método</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>head(n)</td>
    <td>Devuelve las primeras n filas de la Serie.</td>
    <td>serie.head(5)</td>
  </tr>
  <tr>
    <td>tail(n)</td>
    <td>Devuelve las últimas n filas de la Serie.</td>
    <td>serie.tail(3)</td>
  </tr>
  <tr>
    <td>describe()</td>
    <td>Calcula estadísticas descriptivas como la media, mediana, desviación estándar, etc.</td>
    <td>serie.describe()</td>
  </tr>
  <tr>
    <td>unique()</td>
    <td>Devuelve los valores únicos presentes en la Serie.</td>
    <td>serie.unique()</td>
  </tr>
  <tr>
    <td>value_counts()</td>
    <td>Cuenta la frecuencia de cada valor único en la Serie.</td>
    <td>serie.value_counts()</td>
  </tr>
  <tr>
    <td>sort_values()</td>
    <td>Ordena la Serie en función de sus valores.</td>
    <td>serie.sort_values()</td>
  </tr>
  <tr>
    <td>sort_index()</td>
    <td>Ordena la Serie en función de sus índices.</td>
    <td>serie.sort_index()</td>
  </tr>
  <tr>
    <td>apply(func)</td>
    <td>Aplica una función dada a cada elemento de la Serie.</td>
    <td>serie.apply(lambda x: x * 2)</td>
  </tr>
  <tr>
    <td>map(mapping)</td>
    <td>Reemplaza los valores de la Serie según un mapeo dado.</td>
    <td>serie.map({'A': 1, 'B': 2, 'C': 3})</td>
  </tr>
  <tr>
    <td>fillna(value)</td>
    <td>Rellena los valores faltantes en la Serie con un valor específico.</td>
    <td>serie.fillna(0)</td>
  </tr>
  <tr>
    <td>dropna()</td>
    <td>Elimina los valores faltantes de la Serie.</td>
    <td>serie.dropna()</td>
  </tr>
  <tr>
    <td>astype(dtype)</td>
    <td>Convierte el tipo de datos de la Serie a uno específico.</td>
    <td>serie.astype('float64')</td>
  </tr>
  <tr>
    <td>sum()</td>
    <td>Calcula la suma de todos los elementos en la Serie.</td>
    <td>serie.sum()</td>
  </tr>
  <tr>
    <td>mean()</td>
    <td>Calcula la media de los elementos en la Serie.</td>
    <td>serie.mean()</td>
  </tr>
  <tr>
    <td>median()</td>
    <td>Calcula la mediana de los elementos en la Serie.</td>
    <td>serie.median()</td>
  </tr>
  <tr>
    <td>min()</td>
    <td>Encuentra el valor mínimo en la Serie.</td>
    <td>serie.min()</td>
  </tr>
  <tr>
    <td>max()</td>
    <td>Encuentra el valor máximo en la Serie.</td>
    <td>serie.max()</td>
  </tr>
</table>

</center>

## Aplicar operaciones a una serie 

Los operadores binarios (`+`, `*`, `/`, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.

In [None]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])
s * 2

In [None]:
s = pd.Series([1, 2, 3, 4])
s % 2

In [None]:
s = pd.Series(['a', 'b', 'c'])
s * 5

## Función `any`

In [None]:
import pandas as pd
import numpy as np

# Crear una Serie con valores incluyendo NaN
serie = pd.Series([1, 2, np.nan, 4, 5])

# Verificar si al menos un valor faltante está presente en la Serie
resultado = serie.isna().any()
print(resultado)
# Salida: True


In [None]:
import pandas as pd


serie = pd.Series([10, 20, 30, 40, 50])


resultado = (serie > 30).any()
print(resultado)





## Aplicar funciones a una serie

También es posible aplicar una función a cada elemento de la serie mediante el siguiente método:

`s.apply(f)` : Devuelve una serie con el resultado de aplicar la función f a cada uno de los elementos de la serie s.


In [None]:
import pandas as pd
import numpy as np
from math import log

s = pd.Series([np.pi, 2*np.pi, 3*np.pi, 4*np.pi])
s.apply(np.sin)

In [None]:
s = pd.Series(['a', 'b', 'c'])
s.apply(str.upper)

## Filtrar una serie

Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza el siguiente método:

`s[condicion]` : Devuelve una serie con los elementos de la serie s que se corresponden con el valor True de la lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que la serie.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s[s > 5])

## Ordenar una serie

Para ordenar una serie se utilizan los siguientes métodos:

* `s.sort_values(ascending=booleano)` : Devuelve la serie que resulta de ordenar los valores la serie s. Si argumento del parámetro ascending es True el orden es creciente y si es False decreciente.

* `df.sort_index(ascending=booleano)` : Devuelve la serie que resulta de ordenar el índice de la serie s. Si el argumento del parámetro ascending es True el orden es creciente y si es False decreciente.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s.sort_values())

In [None]:
print(s.sort_index(ascending = False))

## Eliminar los dados desconocidos en una serie 

Los datos desconocidos representan en Pandas por `NaN` y los nulos por `None`. Tanto unos como otros suelen ser un problema a la hora de realizar algunos análisis de datos, por lo que es habitual eliminarlos. Para eliminarlos de una serie se utiliza el siguiente método:

`s.dropna()` : Elimina los datos desconocidos o nulos de la serie s.

In [None]:
import pandas as pd
import numpy as np
s = pd.Series(['a', 'b', None, 'c', np.NaN,  'd'])

In [None]:
s.dropna()

## Dataframe

In [None]:
import pandas as pd

pd.DataFrame({'A': [1, 2, 3]})

## Dataframe

In [None]:
import pandas as pd

datos = {'Nombre': ['Juan', 'María', 'Pedro', 'Luis'],
         'Edad': [25, 30, 35, 40],
         'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']}


df = pd.DataFrame(datos)


print(df)
