<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/banner_cd.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 1  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Pandas - Series y DataFrames  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/WesM.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Introduccion 

* Pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que el trabajo con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 
* Pretende ser el elemento fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python.
* La documentación oficial de Pandas se puede encontrar en el siguiente link https://pandas.pydata.org/pandas-docs/stable/


<img align="left" width=60% src="figuras/pandas2.jpeg">

Características principales de uso:
* Ingestión de datos (Data ingestion)
* Estadística descriptiva
* Limpieza de datos
* Visualización
* Transformación de datos
* Combinando DataFrames
* Manejo de datos utilizando una variable temporal

# Estructuras de datos en Pandas : Series y DataFrames

Pandas proporciona dos tipos de datos fundamentales, para 1D (**Series**) y datos 2D (**DataFrame**).


<img align="left" width=75% src="figuras/SeriesYDataFrame.png">

<img align="left" width=60% src="figuras/DataFrame.png">

En el nivel más básico, los objetos Pandas se pueden considerar como versiones mejoradas de matrices estructuradas NumPy en las que las filas y columnas se identifican con etiquetas en lugar de índices enteros simples. Como veremos durante el transcurso de esta unidad, Pandas proporciona una serie de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas. Por lo tanto, introduzcamos estas tres estructuras de datos fundamentales de Pandas: **Series** y **DataFrames**.


# Las Series
Las **Series** de Pandas son un arreglos unidimensionales de datos indexados. Se pueden crear a partir de una lista o arreglo de la siguiente manera:


In [3]:
 #Ejemplo
datos = pd.Series( [ 0.1, 3.4 , 9 , 10 , 4.5 ]  )
datos

0     0.1
1     3.4
2     9.0
3    10.0
4     4.5
dtype: float64

Como vemos en la salida anterior, la **Serie** envuelve cuenta con una secuencia de ``índices`` como  de ``valores``. Los ``valores`` son simplemente un arreglo de NumPy 

In [4]:
#Valores
datos.values

array([ 0.1,  3.4,  9. , 10. ,  4.5])

Y para conocer la secuencia de los ``índices`` podemos usar:


In [5]:
#Indices
datos.index

RangeIndex(start=0, stop=5, step=1)

Al igual que con un arreglo de NumPy, se puede acceder a los datos mediante el índice asociado a través de la conocida notación de corchetes de Python:

In [6]:
datos[0]

np.float64(0.1)

In [7]:
datos[1:]

1     3.4
2     9.0
3    10.0
4     4.5
dtype: float64

## Las Series:  arreglos generalizados de NumPy 

Por lo que hemos visto hasta ahora, puede parecer que las **Series** son básicamente intercambiables con arreglos unidimensionales de NumPy. La diferencia esencial es la presencia de los índices: mientras que los arreglos de Numpy tienen un índice entero definido implícitamente que se utiliza para acceder a los valores (índices asociados a la posición), las Series de Pandas tiene índices definidos explícitamente asociados con los valores. Esta definición de índice explícita le da a las Series características  adicionales. 

Por ejemplo, no es necesario que el índice sea un número entero. 

In [8]:
datos = pd.Series( [ 0.1, 3.4 , 9 , 10 , 4.5 ] ,
                 index=['a' , 'b' , 'c' , 'd' , 'x']   )
datos

a     0.1
b     3.4
c     9.0
d    10.0
x     4.5
dtype: float64

Y el acceso a cada elemento funciona con su respectivo índice:

In [9]:
datos['c']

np.float64(9.0)

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [10]:
datos = pd.Series( [ 0.1, 3.4 , 9 , 10 , 4.5 ] ,
                 index=[1,3,4,7,9]   )
datos 

1     0.1
3     3.4
4     9.0
7    10.0
9     4.5
dtype: float64

In [11]:
datos[7]

np.float64(10.0)

## Las Series y  diccionarios de Python

Se puede considerar que una **Serie** es similar a un diccionario ordenado que asigna un valor a una etiqueta, de hecho, es posible construir una serie directamente desde un diccionario de Python:

In [12]:
poblacion_diccionario = {'California': 38.3,
                   'Texas': 26.4,
                   'New York': 19.6,
                   'Florida': 19.5,
                   'Illinois': 12.8,
                   'Washington': 17.5,     
                             }

# Crear la Serie llamada poblacion
poblacion = pd.Series( poblacion_diccionario  )
poblacion

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
Illinois      12.8
Washington    17.5
dtype: float64

De forma predeterminada, se creará una **Serie** donde el índice se extrae de las etiquetas ordenadas y se puede realizar el acceso típico a elementos al estilo de un diccionario de Python:

In [13]:
poblacion['California']

np.float64(38.3)

Sin embargo, a diferencia de un diccionario, las **Series** también admiten operaciones de segmentación:

In [14]:
#         0  1  2  3  4  5
lista = [10,11,12,13,14,15]
lista[0:4]

[10, 11, 12, 13]

In [15]:
poblacion['California':'Florida']

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
dtype: float64

Discutiremos algunas de las peculiaridades de la indexación y segmentación de Pandas en las siguientes lecciones.

# DataFrames

La siguiente estructura fundamental en Pandas es el **DataFrame**. Al igual que las **Series** presentadas en la sección anterior, los  **DataFrame** se pueden considerar como una generalización de arreglos de NumPy o como   diccionarios especializados de Python.

## DataFrame como un arreglo generalizado de NumPy 



Si una **Serie** es un análogo de un arreglo unidimensional con índices flexibles, un **DataFrame** es un análogo de un arreglo bidimensional con índices de filas flexibles y nombres de columnas flexibles.
Así como podría pensar en un arreglo bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un **DataFrame** como una secuencia de objetos alineados de **Serie**,  por *alineados* queremos decir que comparten el mismo índice.

Para demostrar esto, construyamos primero una nueva **Serie** que enumere el área de cada uno de los  estados mostrados en la sección anterior:


In [16]:
area_diccionario = {'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995,'Washington': 289990, 
                   'California': 423967, 'Arizona':  123967}
#Crear la serie llamada area
area = pd.Series(  area_diccionario  )
area

Texas         695662
New York      141297
Florida       170312
Illinois      149995
Washington    289990
California    423967
Arizona       123967
dtype: int64

In [17]:
poblacion

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
Illinois      12.8
Washington    17.5
dtype: float64

Ahora que tenemos esto junto con la serie de población de anterior, podemos usar un diccionario para construir un único objeto bidimensional que contenga esta información:


In [18]:
#Crear la serie llamada estados
estados = pd.DataFrame(  { 'area_m2' : area , 'poblacion_millones':poblacion   }  )
estados

Unnamed: 0,area_m2,poblacion_millones
Arizona,123967,
California,423967,38.3
Florida,170312,19.5
Illinois,149995,12.8
New York,141297,19.6
Texas,695662,26.4
Washington,289990,17.5


Como en las **Series**, el **DataFrame** tiene un atributo de ``index`` que da acceso a las etiquetas del índice:

In [21]:
#indices
estados.index

Index(['Arizona', 'California', 'Florida', 'Illinois', 'New York', 'Texas',
       'Washington'],
      dtype='object')

Además, el **DataFrame** tiene un atributo ``columns``  que contiene las etiquetas de las columnas:

In [22]:
#Columnas
estados.columns

Index(['area_m2', 'poblacion_millones'], dtype='object')

Thus the ``DataFrame`` can be thought of as a generalization of a two-dimensional NumPy array, where both the rows and columns have a generalized index for accessing the data.

### DataFrame como un diccionario especializado


Se puede  pensar en un **DataFrame** como una diccionario especializado, ya que un **DataFrame** además asigna un nombre a cada columna. Por ejemplo, al pedir el 'area' obtendremos los elementos de la columna 'area':

In [23]:
# Area
estados['area_m2']

Arizona       123967
California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Washington    289990
Name: area_m2, dtype: int64

De igual manera para la columna 'poblacion'

In [24]:
#Población
estados['poblacion_millones']

Arizona        NaN
California    38.3
Florida       19.5
Illinois      12.8
New York      19.6
Texas         26.4
Washington    17.5
Name: poblacion_millones, dtype: float64

### Construyendo DataFrames

Un **DataFrame** de Pandas se puede construir de varias formas utilizando la función ``DataFrame``. Aquí daremos varios ejemplos.


#### a) Utilizando una Serie

Un **DataFrame** es una colección de **Series**, y un **DataFrame** de una sola columna se puede construir a partir de una sola **Serie**:


In [25]:
pd.DataFrame( poblacion , columns = ['Poblacion_millones'] ) 

Unnamed: 0,Poblacion_millones
California,38.3
Texas,26.4
New York,19.6
Florida,19.5
Illinois,12.8
Washington,17.5


#### b) Lista de diccionarios


Un conjunto de diccionarios se pueden convertir en un **DataFrame**.

In [26]:
diccionario = {  'a' :  { 'y':1,'z':2 , 'x':0  }    ,
              'b':   { 'x':10,'y':11,'z':12  }   } 
pd.DataFrame(diccionario)

Unnamed: 0,a,b
y,1,11
z,2,12
x,0,10



Incluso si faltan algunos elementos en los diccionarios, Pandas las completará con valores ``NaN`` (es decir, "not a number"):

In [27]:
diccionario = {  'a' :  { 'y':1,'z':2  }    ,
              'b':   { 'x':10,'y':11,'z':12  }   } 
pd.DataFrame(diccionario)

Unnamed: 0,a,b
y,1.0,11
z,2.0,12
x,,10


#### c) Desde un arreglo bidimensional de  NumPy 

Dada un arreglo bidimensional de datos, podemos crear un **DataFrame** con cualquier columna e índice especificado. Si se omite, se utilizará un índice entero para cada uno

In [30]:
# np.random.rand(3, 2)
arreglo2D = np.random.rand(3, 2)
arreglo2D

array([[0.13876888, 0.94615371],
       [0.28138046, 0.84922071],
       [0.07780111, 0.98103011]])

In [31]:
# Cuando se especifican los índices de filas y columnas
pd.DataFrame( arreglo2D , columns=[ 'A' , 'B' ]  ,
            index=[ 'x' , 'y' , 'z'])

Unnamed: 0,A,B
x,0.138769,0.946154
y,0.28138,0.849221
z,0.077801,0.98103


In [32]:
# Cuando se especifican los índices solo en columnas
pd.DataFrame( arreglo2D , columns=[ 'A' , 'B' ]  )

Unnamed: 0,A,B
0,0.138769,0.946154
1,0.28138,0.849221
2,0.077801,0.98103


In [33]:
# Cuando no se especifican los índices 
pd.DataFrame( arreglo2D ,  index=[ 'x' , 'y' , 'z'])

Unnamed: 0,0,1
x,0.138769,0.946154
y,0.28138,0.849221
z,0.077801,0.98103


Para manejar de una manera eficiente los **DataFrame** se recomienda siempre asignar nombres a las columnas

#### d)  Combinando  Series

Como vimos antes, un **DataFrame** también se puede construir a partir de **Series**

In [34]:
# poblacion + area
pd.DataFrame( {  'polacion_millones':poblacion ,
              'area_m2':area}  ) 

Unnamed: 0,polacion_millones,area_m2
Arizona,,123967
California,38.3,423967
Florida,19.5,170312
Illinois,12.8,149995
New York,19.6,141297
Texas,26.4,695662
Washington,17.5,289990


# Ejercicio

<div class="alert alert-success">

**Creación de un DataFrame con series y diccionarios**
    
1. Definir un DataFrame a partir de 7 series y cada Serie a partir de un diccionario. 
</div>

Ejemplo:


``` python
Alan = pd.Series({'Edad': 20 ,
                  'Altura': 1.70,
                  'Peso': 68,
                  'Estado': 'Yucatán',
                  'Color favorito':'Azul',
                  'Licenciatura': 'Derecho'})
María = pd.Series({'Edad': 21 ,
                   'Altura': 1.80,
                   'Peso': 80,
                   'Color favorito':'Rojo',
                   'Licenciatura': 'Ingeniería'})
Pedro = pd.Series({'Edad': 23 ,
                   'Altura': 1.67,
                   'Peso': 75,
                   'Estado': 'Aguascalientes',
                   'Color favorito':'Morado',
                   'Licenciatura': 'Artes'})
Esmeralda = pd.Series({'Edad': 25 ,
                       'Altura': 1.72,
                       'Peso': 60,
                       'Estado': 'Campeche',
                       'Licenciatura': 'Turismo'})
Karen = pd.Series({'Edad': 25 ,
                  'Altura': 1.74,
                  'Peso': 69,
                  'Estado': '',
                  'Color favorito':'Azul',
                  'Licenciatura': 'Psicología'})

df_alumnos = pd.DataFrame({'Alan':Alan,
                           'María': María, 
                           'Pedro': Pedro, 
                           'Esmeralda': Esmeralda, 
                           'Karen': Karen
                           })
df_alumnos

```

In [36]:
Alan = pd.Series({'Edad': 20 ,
                  'Altura': 1.70,
                  'Peso': 68,
                  'Estado': 'Yucatán',
                  'Color favorito':'Azul',
                  'Licenciatura': 'Derecho'})
María = pd.Series({'Edad': 21 ,
                   'Altura': 1.80,
                   'Peso': 80,
                   'Color favorito':'Rojo',
                   'Licenciatura': 'Ingeniería'})
Pedro = pd.Series({'Edad': 23 ,
                   'Altura': 1.67,
                   'Peso': 75,
                   'Estado': 'Aguascalientes',
                   'Color favorito':'Morado',
                   'Licenciatura': 'Artes'})
Esmeralda = pd.Series({'Edad': 25 ,
                       'Altura': 1.72,
                       'Peso': 60,
                       'Estado': 'Campeche',
                       'Licenciatura': 'Turismo'})
Karen = pd.Series({'Edad': 25 ,
                  'Altura': 1.74,
                  'Peso': 69,
                  'Estado': '',
                  'Color favorito':'Azul',
                  'Licenciatura': 'Psicología'})

Enrique = pd.Series({'Edad':28,
                     'Altura':1.2,
                     'Estado': 'Yucatán',
                     'Licenciatura': 'Derecho'})

df_alumnos = pd.DataFrame({'Alan':Alan,
                           'María': María, 
                           'Enrique': Enrique,
                           'Pedro': Pedro, 
                           'Esmeralda': Esmeralda, 
                           'Karen': Karen
                           })
df_alumnos

Unnamed: 0,Alan,María,Enrique,Pedro,Esmeralda,Karen
Altura,1.7,1.8,1.2,1.67,1.72,1.74
Color favorito,Azul,Rojo,,Morado,,Azul
Edad,20,21,28,23,25,25
Estado,Yucatán,,Yucatán,Aguascalientes,Campeche,
Licenciatura,Derecho,Ingeniería,Derecho,Artes,Turismo,Psicología
Peso,68,80,,75,60,69
