# Pandas

Pandas provee herramientas analiticas y dos estructuras de datos: dataframes y series. De hecho Pandas está programado a través de Numpy.
Con pandas podemos trabajar datos tabulados como hojas Excel o ficheros CSV, cosa que no trabajamos con Numpy.

### Características:

- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

In [3]:
!pip install pandas



In [4]:
import pandas as pd
import numpy as np

### <font color=#003d5c> _Series_ </font>

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Los objetos instanciado de la clase pandas.Series son de una sola dimensión y pueden ser al ingresar como argumento de data objetos de tipo:

* tuple
* list
* dict
* numpy.ndarray

In [7]:
serie_1 = pd.Series(np.random.rand(8))
serie_1

0    0.175614
1    0.566668
2    0.152112
3    0.220709
4    0.605979
5    0.871282
6    0.288544
7    0.047204
dtype: float64

In [8]:
serie_1 = pd.Series(np.random.rand(8), name = "mi primer serie")
serie_1.values

array([0.07290061, 0.26877366, 0.51003072, 0.16788528, 0.13489815,
       0.13171663, 0.54773674, 0.1085873 ])

In [9]:
serie_1.index

RangeIndex(start=0, stop=8, step=1)

In [28]:
serie_1.values.sum()

1.942529080108224

In [29]:
serie_1[4]

0.13489814766672714

In [30]:
# Podemos especificar los valores de los índices
serie_2 = pd.Series(np.random.rand(8),index = range(1,9),name = "Mi segunda serie")
serie_2

1    0.048048
2    0.405719
3    0.746029
4    0.942997
5    0.296507
6    0.544977
7    0.388318
8    0.106918
Name: Mi segunda serie, dtype: float64

In [31]:
serie_2.index

RangeIndex(start=1, stop=9, step=1)

In [32]:
# Podemos especificar los valores de los índices mas generalmente
serie_3 = pd.Series(np.random.rand(5),index = [4,6,1,2,8])
serie_3

4    0.342139
6    0.472648
1    0.922156
2    0.055233
8    0.624881
dtype: float64

In [33]:
serie_3.index

Index([4, 6, 1, 2, 8], dtype='int64')

In [34]:
serie_3[0]

KeyError: 0

In [35]:
serie_3[4]

0.34213904356310143

In [36]:
serie_4 = pd.Series(np.random.rand(5),index = ["a","e","i","o","u"])
serie_4

a    0.253233
e    0.998658
i    0.526336
o    0.924759
u    0.969336
dtype: float64

In [37]:
serie_4[0]

0.2532326332299919

In [38]:
serie_4.shape

(5,)

In [39]:
serie_4.max()

0.9986583369758422

In [24]:
serie_4.dtype

dtype('float64')

In [28]:
serie_4["a"]

0.9028248821190195

Incluso los diccionarios se pueden convertir en series

In [29]:
diccionario = {"Nobre":["Héctor","Manuel"],"Apellido":"Garduño"}
pd.Series(diccionario)

Nobre       [Héctor, Manuel]
Apellido             Garduño
dtype: object

Es importante notar que las series son estructuras de datos en una sola dimensión. Si queremos estructuras mas complejas, debemos usar dataframes.

Crear una serie de valores random con 5 elementos con valores entre 1 y 10

In [7]:
ejer = pd.Series(np.random.randint(1, 11, size=5))
ejer

0     9
1    10
2     2
3     7
4     9
dtype: int64

Cambiar sus nombres de índices por (a,b,c,d,e)

In [9]:
ejer.index = ["a","b","c","d","e"]
ejer

a     9
b    10
c     2
d     7
e     9
dtype: int64

In [None]:
Visualizar el valor máximo y su índice
Visualizar la serie multiplicada (*2)
Agregar un nuevo valor a la serie (8)

In [12]:
ejer.max()

10

In [11]:
ejer.index


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [13]:
ejer * 2

a    18
b    20
c     4
d    14
e    18
dtype: int64

In [15]:
ejer['f']=8
ejer

a     9
b    10
c     2
d     7
e     9
f     8
dtype: int64