<img src="https://user-images.githubusercontent.com/7065401/75165824-badf4680-5701-11ea-9c5b-5475b0a33abf.png"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>




# Introduccion a Pandas 🐼

Pandas es una poderosa librería de Python diseñada para el análisis de datos y la manipulación de datos estructurados. Fue creada por Wes McKinney en 2008 y se ha convertido en una herramienta esencial en el campo de la ciencia de datos y la ingeniería de datos.

Pandas es una librería muy popular de código abierto dentro de los desarrolladores de Python, y sobre todo dentro del ámbito de **Data Science** y **Machine Learning**, ya que ofrece unas estructuras muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos. Pandas es una biblioteca de terceros para la computación numérica basada en NumPy. Destaca en el manejo de datos unidimensionales (1D) etiquetados con objetos Series y datos bidimensionales (2D) con objetos DataFrame.

Pandas surgió como necesidad de unificar en una librería todo lo necesario para que un analista de datos pudiese tener en una misma herramienta todas las funcionalidades que necesitaba en su día a día, como son: cargar datos, modelar, analizar, manipular y prepararlos.

**Las ventajas de utilizar Pandas en el análisis de datos incluyen:**

1. **Manejo de Datos Estructurados:** Pandas proporciona DataFrames, una estructura de datos tabular que permite trabajar con datos estructurados de manera eficiente.

2. **Eficiencia en la Manipulación:** Pandas es eficiente para operaciones de limpieza y transformación de datos, como filtrado, selección, agrupación y pivotado.

3. **Integración con Datos Externos:** Permite la importación y exportación de datos desde y hacia varios formatos de archivo, como CSV, Excel, SQL, JSON, y más.

4. **Manipulación de Fechas y Tiempos:** Ofrece herramientas para trabajar con fechas y horas de manera sencilla.

5. **Indexación Personalizada:** Permite etiquetar y organizar los datos mediante índices personalizados.

6. **Manejo de Datos Faltantes:** Pandas facilita la detección y el tratamiento de valores nulos o faltantes en los conjuntos de datos.

7. **Funciones Estadísticas y de Agregación:** Proporciona herramientas para calcular estadísticas descriptivas y realizar operaciones de agregación en los datos.

8. **Operaciones en datos:** Permite realizar operaciones de agrupación, combinación, fusión y agregación de datos, y soporta el uso de funciones estadísticas y matemáticas complejas.

## **Estructuras de datos en Pandas**
Las dos estructuras de datos principales dentro del paquete Pandas son:

- **Series:** array unidimensional etiquetado capaz de almacenar cualquier tipo de dato.
- **DataFrame:** estructura bidimensional con columnas que pueden ser también de cualquier tipo. Estas columnas son a su vez Series.


Dado que vivimos en un mundo en el que los datos son de muy distintas categorías, Pandas se realizó con el objetivo de poder tratar con el mayor número posible de tipos de datos. Es muy simple cargar datos desde diferentes tipos de archivos (csv, json, html, etc.), así como guardarlos.

Pandas es una de las librearías usadas como herramientas de tratamiento de DataScience junto a NumPy y a Matplotlib.

- **NumPy** es una biblioteca de terceros para la computación numérica, optimizada para trabajar con arrays unidimensionales y multidimensionales. Su tipo principal es el tipo de array llamado ndarray. Esta biblioteca contiene muchas rutinas para el análisis estadístico.
- **Matplotlib** es una biblioteca de terceros para la visualización de datos. Funciona bien en combinación con NumPy, SciPy y Pandas.

# Pandas - Series

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Hands on!

In [2]:
import pandas as pd
import numpy as np

## Series de Pandas

Comenzaremos analizando "[El Grupo de los Siete](https://es.wikipedia.org/wiki/Grupo_de_los_Siete)". Es un grupo político formado por Canadá, Francia, Alemania, Italia, Japón, el Reino Unido y los Estados Unidos. Empezaremos analizando la población, y para ello, utilizaremos un objeto `pandas.Series`.


In [3]:
# In millions
g7_pop = pd.Series([35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523])

In [None]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
dtype: float64

Alguien podría no saber que estamos representando la población en millones de habitantes. Las Series pueden tener un `name`, para documentar mejor el propósito de la Serie:


In [None]:
g7_pop.name = 'G7 Population in millions'

In [None]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
Name: G7 Population in millions, dtype: float64

Las Series son bastante similares a los arreglos de numpy:

In [None]:
g7_pop.dtype

dtype('float64')

In [None]:
g7_pop.values

array([ 35.467,  63.951,  80.94 ,  60.665, 127.061,  64.511, 318.523])

De hecho, están respaldadas por arreglos de numpy:


In [None]:
type(g7_pop.values)

numpy.ndarray

Y _parecen_ listas simples de Python o arreglos de Numpy. Pero en realidad son más similares a los `dict` de Python.

Una Serie tiene un `index`, que es similar al índice automático asignado a las listas de Python:


In [None]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop[0]

35.467

In [None]:
g7_pop[1]

63.951

In [None]:
g7_pop.index

RangeIndex(start=0, stop=7, step=1)

In [None]:
l = ['a', 'b', 'c']

Pero, a diferencia de las listas, podemos definir explícitamente el índice:


In [4]:
g7_pop.index = [
    'Canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States',
]

In [None]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

Compáralo con la [siguiente tabla](https://docs.google.com/spreadsheets/d/1IlorV2-Oh9Da1JAZ7weVw86PQrQydSMp-ydVMH135iI/edit?usp=sharing):

<img width="350" src="https://user-images.githubusercontent.com/872296/38149656-b5ce9816-3431-11e8-88e4-195756e25355.png" />

Podemos decir que las Series se parecen a "diccionarios ordenados". De hecho, podemos crear Series a partir de diccionarios:


In [None]:
pd.Series({
    'Canada': 35.467,
    'France': 63.951,
    'Germany': 80.94,
    'Italy': 60.665,
    'Japan': 127.061,
    'United Kingdom': 64.511,
    'United States': 318.523
}, name='G7 Population in millions')

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
pd.Series(
    [35.467, 63.951, 80.94, 60.665, 127.061, 64.511, 318.523],
    index=['Canada', 'France', 'Germany', 'Italy', 'Japan', 'United Kingdom',
       'United States'],
    name='G7 Population in millions')

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

También puedes crear Series a partir de otras Series, especificando los índices:

In [None]:
pd.Series(g7_pop, index=['France', 'Germany', 'Italy', 'Spain'])

France     63.951
Germany    80.940
Italy      60.665
Spain         NaN
Name: G7 Population in millions, dtype: float64

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Indexing

La indexación funciona de manera similar a las listas y los diccionarios, se utiliza el **índice** del elemento que estás buscando:


In [None]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop['Canada']

35.467

In [None]:
g7_pop['Japan']

127.061

También se pueden usar posiciones numéricas, con el atributo `iloc`:


In [None]:
g7_pop.iloc[0]

35.467

In [None]:
g7_pop.iloc[-1]

318.523

Seleccionando multiples elementos al mismo tiempo:

In [None]:
g7_pop[['Italy', 'France']]

Italy     60.665
France    63.951
Name: G7 Population in millions, dtype: float64

_(El resultado es otra Serie)_

In [None]:
g7_pop.iloc[[0, 1]]

Canada    35.467
France    63.951
Name: G7 Population in millions, dtype: float64

El slicing también funciona, pero es importante notar que, en Pandas, el límite superior también se incluye:


In [None]:
g7_pop['Canada': 'Italy']

Canada     35.467
France     63.951
Germany    80.940
Italy      60.665
Name: G7 Population in millions, dtype: float64

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Selección condicional (arreglos booleanos)

Las mismas técnicas de arreglos booleanos que vimos aplicadas a los arreglos de numpy pueden usarse con las `Series` de Pandas:


In [None]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop > 70

Canada            False
France            False
Germany            True
Italy             False
Japan              True
United Kingdom    False
United States      True
Name: G7 Population in millions, dtype: bool

In [None]:
g7_pop[g7_pop > 70]

Germany           80.940
Japan            127.061
United States    318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop.mean()

107.30257142857144

In [None]:
g7_pop[g7_pop > g7_pop.mean()]

Japan            127.061
United States    318.523
Name: G7 Population in millions, dtype: float64

In [5]:
g7_pop.std()

97.24996987121581

In [None]:
~ not
| or
& and

In [6]:
g7_pop[(g7_pop > g7_pop.mean() - g7_pop.std() / 2) | (g7_pop > g7_pop.mean() + g7_pop.std() / 2)]

Unnamed: 0,0
France,63.951
Germany,80.94
Italy,60.665
Japan,127.061
United Kingdom,64.511
United States,318.523


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Operaciones y métodos  
Las Series también soportan operaciones vectorizadas y funciones de agregación, al igual que Numpy:


In [None]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop * 1_000_000

Canada             35467000.0
France             63951000.0
Germany            80940000.0
Italy              60665000.0
Japan             127061000.0
United Kingdom     64511000.0
United States     318523000.0
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop.mean()

107.30257142857144

In [None]:
np.log(g7_pop)

Canada            3.568603
France            4.158117
Germany           4.393708
Italy             4.105367
Japan             4.844667
United Kingdom    4.166836
United States     5.763695
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop['France': 'Italy'].mean()

68.51866666666666

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Arreglos booleanos  
(Funcionan de la misma manera que en numpy)


In [None]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop > 80

Canada            False
France            False
Germany            True
Italy             False
Japan              True
United Kingdom    False
United States      True
Name: G7 Population in millions, dtype: bool

In [None]:
g7_pop[g7_pop > 80]

Germany           80.940
Japan            127.061
United States    318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop[(g7_pop > 80) | (g7_pop < 40)]

Canada            35.467
Germany           80.940
Japan            127.061
United States    318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop[(g7_pop > 80) & (g7_pop < 200)]

Germany     80.940
Japan      127.061
Name: G7 Population in millions, dtype: float64

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Modificando series series


In [None]:
g7_pop['Canada'] = 40.5

In [None]:
g7_pop

Canada             40.500
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop.iloc[-1] = 500

In [None]:
g7_pop

Canada             40.500
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     500.000
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop[g7_pop < 70]

Canada            40.500
France            63.951
Italy             60.665
United Kingdom    64.511
Name: G7 Population in millions, dtype: float64

In [None]:
g7_pop[g7_pop < 70] = 99.99

In [None]:
g7_pop

Canada             99.990
France             99.990
Germany            80.940
Italy              99.990
Japan             127.061
United Kingdom     99.990
United States     500.000
Name: G7 Population in millions, dtype: float64

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)
