![Libreria de Pandas](https://aprendeconalf.es/docencia/python/manual/img/pandas-logo.png)

Pandas es una libreria de Python especializada en el manejo y análisis de estructuras de datos.

Las principales características de esta librería son:
* Define nuevas estructuras de datos basadas en la información que ingresemos, también podemos usar los arrays de la librería NumPy añadiendo funcionalidades.
* Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
* Permite acceder a los datos mediante índices o nombres para filas y columnas.
* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
* Permite trabajar con series temporales.
* Realiza todas estas operaciones de manera muy eficiente.

## Instalación de librerías base

1. INSTALAR:

```
-> pip install pandas
```

### TIPOS DE DATOS EN PANDAS

Pandas dispone de tres estructuras de datos diferentes:
* Series: Estructura de una dimensión.
* DataFrame: Estructura de dos dimensiones (tablas).
* Panel: Estructura de tres dimensiones (cubos).

![Tipos de Datos en Pandas](https://camo.qiitausercontent.com/5a1924b47a5200f0618fddda44db1f357201d5ef/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e61702d6e6f727468656173742d312e616d617a6f6e6177732e636f6d2f302f3131373437392f32623061326364342d636131392d633665342d313364342d3664323133636432306539642e706e67)


### SERIES

Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido. Dispone de un índice que asocia un nombre a cada elemento de la serie, a través de la cuál se accede al elemento.

* Creación de series.

   Creación de una serie a partir de una lista
   ***Series(data=lista, index=indices, dtype=tipo)***

* Creación de una serie a partir de un diccionario.

   ***Series(data=diccionario, index=indices):*** Devuelve un objeto de tipo Series con los valores del diccionario y las filas especificados en la lista indices.

Ejemplo. La siguiente serie contiene las asignaturas de un curso.




In [8]:
import pandas as pd
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


Ejemplo. La siguiente serie contiene las asignaturas de un curso y las notas.

In [9]:
import pandas as pd
s2 = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s2)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


### Atributos de una serie
Existen varias propiedades o métodos para ver las características de una serie.

* ```s.size``` : Devuelve el número de elementos de la serie s.

* ```s.index``` : Devuelve una lista con los nombres de las filas del DataFrame s.

* ```s.dtype``` : Devuelve el tipo de datos de los elementos de la serie s.

In [10]:
import pandas as pd
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])
s.size

10

In [11]:
s.index


RangeIndex(start=0, stop=10, step=1)

In [12]:
s.dtype

dtype('int64')

## Acceso a los elementos de una serie
El acceso a los elementos de un objeto del tipo Series puede ser a través de posiciones o través de índices (nombres).

### Acceso por posición
Se realiza de forma similar a como se accede a los elementos de un array.

* ```s[i]``` : Devuelve el elemento que ocupa la posición ```i+1``` en la serie ```s```.
* ```s[posiciones]```: Devuelve otra serie con los elementos que ocupan las posiciones de la lista ```posiciones```.
### Acceso por índice
* ```s[nombre]``` : Devuelve el elemento con el nombre ```nombre``` en el índice.
* ```s[nombres]``` : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista ```nombres``` en el índice.

In [30]:
s2[0:3]

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64

In [14]:
s2['Economía']

np.float64(4.5)

In [15]:
s2[['Programación', 'Matemáticas']]

Programación    8.5
Matemáticas     6.0
dtype: float64

### Resumen descriptivo de una serie
Las siguientes funciones permiten resumir varios aspectos de una serie:

* ```s.count()``` : Devuelve el número de elementos que no son nulos ni ```NaN``` en la serie ```s```.
* ```s.sum()``` : Devuelve la suma de los datos de la serie ```s``` cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena ```str```.
* ```s.cumsum()``` : Devuelve una serie con la suma acumulada de los datos de la serie ```s``` cuando los datos son de un tipo numérico.
* ```s.value_counts()``` : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie ```s```.
* ```s.min()``` : Devuelve el menor de los datos de la serie ```s```.
* ```s.max()``` : Devuelve el mayor de los datos de la serie ```s```.
* ```s.mean()``` : Devuelve la media de los datos de la serie ```s``` cuando los datos son de un tipo numérico.
* ```s.var()``` : Devuelve la varianza de los datos de la serie ```s``` cuando los datos son de un tipo numérico.
* ```s.std()``` : Devuelve la desviación típica de los datos de la serie ```s``` cuando los datos son de un tipo numérico.
* ```s.describe()```: Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.

In [17]:
s = pd.Series([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
s.count()

np.int64(10)

In [18]:
s.sum()

np.int64(20)

In [19]:
s.cumsum()

0     1
1     2
2     3
3     4
4     6
5     8
6    10
7    13
8    16
9    20
dtype: int64

In [20]:
s.value_counts()

1    4
2    3
3    2
4    1
Name: count, dtype: int64

In [21]:
s.min()

np.int64(1)

In [22]:
s.max()

np.int64(4)

In [23]:
s.mean()

np.float64(2.0)

In [24]:
print(s.var())

1.1111111111111112


In [25]:
s.describe()

count    10.000000
mean      2.000000
std       1.054093
min       1.000000
25%       1.000000
50%       2.000000
75%       2.750000
max       4.000000
dtype: float64

### Aplicar operaciones a una serie
Los operadores binarios (```+```, ```*```, ```/```, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.

In [26]:
s = pd.Series([1, 2, 3, 4])
print(s*2)
print(s%2)

0    2
1    4
2    6
3    8
dtype: int64
0    1
1    0
2    1
3    0
dtype: int64


In [27]:
s = pd.Series(['a', 'b', 'c'])
s*5

0    aaaaa
1    bbbbb
2    ccccc
dtype: object

In [28]:
s3=pd.Series({'Algoritmos':4.6,'Bases de Datos':3.5,'POO I':4.5,'Redes':2.5})
print('========= Filtros ========')
print(s3)

Algoritmos        4.6
Bases de Datos    3.5
POO I             4.5
Redes             2.5
dtype: float64


In [29]:
print('=========================ORDENAMIENTO================================')
print(">> Orden Valores ")
print(s3.sort_values(ascending=False))
print('-----------------------------------------------')
print(">> Orden index ")
print(s3.sort_index(ascending=True))

>> Orden Valores 
Algoritmos        4.6
POO I             4.5
Bases de Datos    3.5
Redes             2.5
dtype: float64
-----------------------------------------------
>> Orden index 
Algoritmos        4.6
Bases de Datos    3.5
POO I             4.5
Redes             2.5
dtype: float64


## La clase de objetos DataFrame
Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

Ejemplo. El siguiente DataFrame contiene información sobre los alumnos de un curso. Cada fila corresponde a un alumno y cada columna a una variable.

![DataFrame](https://aprendeconalf.es/docencia/python/manual/img/pandas-dataframe.png)


### Creación de un DataFrame
Creación de un DataFrame a partir de un diccionario de listas
Para crear un DataFrame a partir de un diccionario cuyas claves son los nombres de las columnas y los valores son listas con los datos de las columnas se utiliza el método:

* ```DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)``` : Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario ```diccionario```, los nombres de filas indicados en la lista ```filas```, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos. La lista filas tiene que tener el mismo tamaño que las listas del diccionario, mientras que las listas ```columnas``` y tipos tienen que tener el mismo tamaño que el diccionario. Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0. Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario. Si no se pasa la lista de tipos, se infiere.
 Los valores asociados a las claves del diccionario deben ser listas del mismo tamaño.

### Creacion de un DataFrame Vacio
* Un DataFrame vacío es una estructura de datos en la que no se han almacenado filas ni columnas, pero que sigue teniendo una estructura definida. En otras palabras, es un contenedor sin datos, pero con un esquema especificado para las columnas, es decir, los nombres y tipos de datos esperados. En el contexto de bibliotecas de análisis de datos en Python, como pandas, un DataFrame vacío se crea cuando se inicializa una tabla sin agregar aún ninguna información, y suele tener un formato que permite añadir datos posteriormente o manipular la estructura para realizar análisis o transformaciones.


In [35]:
import pandas as pd
#Sin columnas ni filas:
df_vacio = pd.DataFrame()
#Con columnas específicas pero sin filas:
df_vacio = pd.DataFrame(columns=['columna1', 'columna2', 'columna3'])
#Con un índice específico pero sin datos:
df_vacio = pd.DataFrame(index=['fila1', 'fila2', 'fila3'])
#Con un índice específico pero sin datos:
df_vacio = pd.DataFrame(index=['fila1', 'fila2', 'fila3'])
#Con columnas y un índice específico pero sin datos:
df_vacio = pd.DataFrame(columns=['columna1', 'columna2'], index=['fila1', 'fila2'])


print(df_vacio)


      columna1 columna2
fila1      NaN      NaN
fila2      NaN      NaN
