# Introducción a Pandas

> Pandas es una librería de Python escrita como extensión de NumPy para manipulación y análisis de datos.

Sitio oficial: [pandas.python.org](https://pandas.pydata.org/)
Documentación Oficial: [pandas.pydata.org/pandas-docs/stable/](https://pandas.pydata.org/pandas-docs/stable/)

In [21]:
import pandas as pd

## Series

### Acceso a los elementos de una serie

El acceso a los elementos de un objeto del tipo Series puede ser a través de índices (utilizando el atributo `iloc`) o de posiciones (utilizamos el atributo `loc`).

Debemos tener en cuenta que `iloc` y `loc` no son métodos, sino que son atributos. Entonces no debemos usar paréntesis. En cambio debemos usar corchetes

In [22]:
students_scores = {'Mathew': 'Physics', 
                   'Hallie': 'Chemistry', 
                   'Jack': 'English', 
                   'Alison': 'Math', 
                   'Victoria': 'History'}
s = pd.Series(students_scores)
print(s)

Mathew        Physics
Hallie      Chemistry
Jack          English
Alison           Math
Victoria      History
dtype: object


In [23]:
s.iloc[3]  # Devuelve 'Math' 

'Math'

In [24]:
s.loc['Victoria']  # Devuelve 'History'

'History'

Pandas trata de hacernos el código un poco más legible y nos provee una manera más corta de acceder a los elementos de una Serie, utilizando el operador de índices en la serie misma. 

In [25]:
# Si le pasamos un entero como parámetro, el operador se comportará como si utilizáramos el atributo `iloc`
s[3]

  s[3]


'Math'

In [26]:
# Si le pasamos un objeto, el operador se comportará como si utilizáramos el atributo `loc`
s['Victoria']

'History'

In [27]:
# Pero cuidado, porque podemos tener un caso en que esto nos devuelva un código de error.

# Eso pasaría cuando nuestro índice sea una lista de enteros. Veamos un ejemplo
class_code = {100: 'Physics',
              101: 'Chemistry',
              102: 'English',
              103: 'Math',
              104: 'History'}
s = pd.Series(class_code)
s[100]

'Physics'

In [28]:
# Pero, que sucede si queremos el primer elemento y lo referenciamos con 0
s[0]  # Devuelve un error

KeyError: 0

## Atributos

Las siguientes funciones permiten resumir varios aspectos de una serie:

Documentación oficial: [Attributes](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#attributes)

In [29]:
s = pd.Series([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
print(s)

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    3
8    3
9    4
dtype: int64


In [30]:
s.count()  # Devuelve el número de elementos que no son nulos ni NaN en la serie s.

10

In [31]:
s.sum()  # Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.

20

In [32]:
s.value_counts()  # Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie s.

1    4
2    3
3    2
4    1
Name: count, dtype: int64

In [33]:
s.min()  # Devuelve el menor de los datos de la serie s.

1

In [34]:
s.max()  # Devuelve el mayor de los datos de la serie s.

4

In [35]:
s.mean()  # Devuelve la media de los datos de la serie s cuando los datos son de un tipo numérico.

2.0

In [36]:
s.var()  # Devuelve la varianza de los datos de la serie s cuando los datos son de un tipo numérico.

1.1111111111111112

In [37]:
s.std()  # Devuelve la desviación típica de los datos de la serie s cuando los datos son de un tipo numérico.

1.0540925533894598

In [38]:
s.describe()  # Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.


count    10.000000
mean      2.000000
std       1.054093
min       1.000000
25%       1.000000
50%       2.000000
75%       2.750000
max       4.000000
dtype: float64