<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 1  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Pandas - Series y DataFrames  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/WesM.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Introduccion 

* Pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que el trabajo con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 
* Pretende ser el elemento fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python.
* La documentación oficial de Pandas se puede encontrar en el siguiente link https://pandas.pydata.org/pandas-docs/stable/


<img align="left" width=60% src="figuras/pandas2.jpeg">

Características principales de uso:
* Ingestión de datos (Data ingestion)
* Estadística descriptiva
* Limpieza de datos
* Visualización
* Transformación de datos
* Combinando DataFrames
* Manejo datos utilizando una variable temporal

# Estructuras de datos en Pandas : Series y DataFrames

Pandas proporciona dos tipos de datos fundamentales, para 1D (**Series**) y datos 2D (**DataFrame**).


<img align="left" width=75% src="figuras/SeriesYDataFrame.png">

<img align="left" width=60% src="figuras/DataFrame.png">

En el nivel más básico, los objetos Pandas se pueden considerar como versiones mejoradas de matrices estructuradas NumPy en las que las filas y columnas se identifican con etiquetas en lugar de índices enteros simples. Como veremos durante el transcurso de esta unidad, Pandas proporciona una serie de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas. Por lo tanto, introduzcamos estas tres estructuras de datos fundamentales de Pandas: **Series** y **DataFrames**.


# Las Series
Las **Series** de Pandas son un arreglos unidimensionales de datos indexados. Se pueden crear a partir de una lista o arreglo de la siguiente manera:


In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida anterior, la **Serie** envuelve cuenta con una secuencia de ``índices`` como  de ``valores``. Los ``valores`` son simplemente un arreglo de NumPy 

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

Y para conocer la secuencia de los ``índices`` podemos usar:


In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con un arreglo de NumPy, se puede acceder a los datos mediante el índice asociado a través de la conocida notación de corchetes de Python:

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

## Las Series:  arreglos generalizados de NumPy 

Por lo que hemos visto hasta ahora, puede parecer que las **Series** son básicamente intercambiables con arreglos unidimensionales de NumPy. La diferencia esencial es la presencia de los índices: mientras que los arreglos de Numpy tienen un índice entero definido implícitamente que se utiliza para acceder a los valores (índices asociados a la posición), las Series de Pandas tiene índices definidos explícitamente asociados con los valores. Esta definición de índice explícita le da a las Series características  adicionales. 


Por ejemplo, no es necesario que el índice sea un número entero. 

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Y el acceso a cada elemento funciona con su respectivo índice:

In [9]:
data['b']

0.5

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

## Las Series y  diccionarios de Python

Se puede considerar que una **Serie** es similar a un diccionario ordenado que asigna un valor a una etiqueta, de hecho, es posible construir una serie directamente desde un diccionario de Python:

In [12]:
poblacion_diccionario = {'California': 38.3,
                   'Texas': 26.4,
                   'New York': 19.6,
                   'Florida': 19.5,
                   'Illinois': 12.8,
                   'Washington': 17.5,     
                        }
poblacion = pd.Series(poblacion_diccionario)
poblacion

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
Illinois      12.8
Washington    17.5
dtype: float64

De forma predeterminada, se creará una **Serie** donde el índice se extrae de las etiquetas ordenadas y se puede realizar el acceso típico a elementos al estilo de un diccionario de Python:

In [13]:
poblacion['California']

38.3

Sin embargo, a diferencia de un diccionario, las **Series** también admiten operaciones de segmentación:

In [14]:
poblacion['California':'Florida']

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
dtype: float64

Discutiremos algunas de las peculiaridades de la indexación y segmentación de Pandas en las siguientes lecciones.

# DataFrames

La siguiente estructura fundamental en Pandas es el **DataFrame**. Al igual que las **Series** presentadas en la sección anterior, los  **DataFrame** se pueden considerar como una generalización de arreglos de NumPy o como   diccionarios especializados de Python.

## DataFrame como un arreglo generalizado de NumPy 



Si una **Serie** es un análogo de un arreglo unidimensional con índices flexibles, un **DataFrame** es un análogo de un arreglo bidimensional con índices de filas flexibles y nombres de columnas flexibles.
Así como podría pensar en un arreglo bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un **DataFrame** como una secuencia de objetos alineados de **Serie**,  por *alineados* queremos decir que comparten el mismo índice.

Para demostrar esto, construyamos primero una nueva **Serie** que enumere el área de cada uno de los  estados mostrados en la sección anterior:


In [15]:
area_diccionario = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995,'Washington': 289990}
area = pd.Series(area_diccionario)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Washington    289990
dtype: int64

Ahora que tenemos esto junto con la serie de población de anterior, podemos usar un diccionario para construir un único objeto bidimensional que contenga esta información:


In [16]:
estados = pd.DataFrame({'poblacion': poblacion,
                       'area': area})
estados

Unnamed: 0,poblacion,area
California,38.3,423967
Texas,26.4,695662
New York,19.6,141297
Florida,19.5,170312
Illinois,12.8,149995
Washington,17.5,289990


Como en las **Series**, el **DataFrame** tiene un atributo de ``index`` que da acceso a las etiquetas del índice:

In [17]:
estados.index


Index(['California', 'Texas', 'New York', 'Florida', 'Illinois', 'Washington'], dtype='object')

Además, el **DataFrame** tiene un atributo ``columns``  que contiene las etiquetas de las columnas:

In [18]:
estados.columns

Index(['poblacion', 'area'], dtype='object')

Thus the ``DataFrame`` can be thought of as a generalization of a two-dimensional NumPy array, where both the rows and columns have a generalized index for accessing the data.

### DataFrame como un diccionario especializado


Se puede  pensar en un **DataFrame** como una diccionario especializado, ya que un **DataFrame** además asigna un nombre a cada columna. Por ejemplo, al pedir el 'area' obtendremos los elementos de la columna 'area':

In [19]:
estados['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Washington    289990
Name: area, dtype: int64

De igual manera para la columna 'poblacion'

In [20]:
estados['poblacion']

California    38.3
Texas         26.4
New York      19.6
Florida       19.5
Illinois      12.8
Washington    17.5
Name: poblacion, dtype: float64

### Construyendo DataFrames

Un **DataFrame** de Pandas se puede construir de varias formas utilizando la función ``DataFrame``. Aquí daremos varios ejemplos.


#### a) Utilizando una Serie

Un **DataFrame** es una colección de **Series**, y un **DataFrame** de una sola columna se puede construir a partir de una sola **Serie**:


In [21]:
pd.DataFrame(poblacion, columns=['Poblacion de muestra'])

Unnamed: 0,Poblacion de muestra
California,38.3
Texas,26.4
New York,19.6
Florida,19.5
Illinois,12.8
Washington,17.5


#### b) Lista de diccionarios


Un conjunto de diccionarios se pueden convertir en un **DataFrame**.

In [22]:
data = {'a': {'x':0,'y':1,'z':2} , 'b': {'x':0,'y':2,'z':4} }
pd.DataFrame(data)

Unnamed: 0,a,b
x,0,0
y,1,2
z,2,4



Incluso si faltan algunos elementos en los diccionarios, Pandas las completará con valores ``NaN`` (es decir, "not a number"):

In [23]:
data = {'a': {'x':0,'y':1} , 'b': {'y':2,'z':4} }
pd.DataFrame(data)

Unnamed: 0,a,b
x,0.0,
y,1.0,2.0
z,,4.0


#### c) Desde un arreglo bidimensional de  NumPy 

Dada un arreglo bidimensional de datos, podemos crear un **DataFrame** con cualquier columna e índice especificado. Si se omite, se utilizará un índice entero para cada uno

In [24]:
arreglo2D = np.random.rand(3, 2)
arreglo2D

array([[0.94774883, 0.12486452],
       [0.06884136, 0.41499616],
       [0.68227968, 0.48106702]])

In [29]:
# Cuando se especifican los índices de filas y columnas
pd.DataFrame(arreglo2D,
             columns=['A', 'B'],
             index=['x', 'y', 'z'])

Unnamed: 0,A,B
x,0.947749,0.124865
y,0.068841,0.414996
z,0.68228,0.481067


In [26]:
# Cuando se especifican los índices solo en columnas
pd.DataFrame(arreglo2D,
             columns=['A', 'B'],)

Unnamed: 0,A,B
0,0.947749,0.124865
1,0.068841,0.414996
2,0.68228,0.481067


In [49]:
# Cuando no se especifican los índices 
pd.DataFrame(arreglo2D)

Unnamed: 0,0,1
0,0.704263,0.324271
1,0.854193,0.599664
2,0.773229,0.888839


Para manejar de una manera eficiente los **DataFrame** se recomienda siempre asignar nombres a las columnas

#### d)  Combinando  Series

Como vimos antes, un **DataFrame** también se puede construir a partir de **Series**

In [50]:
pd.DataFrame({'poblacion': poblacion,
              'area': area})

Unnamed: 0,poblacion,area
California,38.3,423967
Texas,26.4,695662
New York,19.6,141297
Florida,19.5,170312
Illinois,12.8,149995
Washington,17.5,289990


#####  Ejemplo de un DataFrame a partir de Series y Series a partir de diccionarios

Definiremos un DataFrame utilizando 5 diferentes Series, y las Series a partir de Diccionarios utilizando información de Pokémon. Consideraremos 2 variables cuantitativas (altura y peso ) y 3 cualitativas (categoría, tipo y debilidad)

[https://www.lavanguardia.com/tecnologia/20160907/403442078796/todos-pokemon.html]

<img align="left" width=75% src="figuras/pokemones.png">

**1. Diccionarios**

In [38]:
bulbasaur_diccionario = {'Altura': 0.7, 'Peso': 6.9, 'Categoría': 'Semilla',
             'Tipo': 'Planta', 'Debilidad':  'Hielo y fuego'}
bulbasaur = pd.Series(bulbasaur_diccionario)
bulbasaur

Altura                 0.7
Peso                   6.9
Categoría          Semilla
Tipo                Planta
Debilidad    Hielo y fuego
dtype: object

In [39]:
charmander_diccionario = {'Altura': 0.6, 'Peso': 8.5, 'Categoría': 'Lagartija',
             'Tipo': 'Fuego', 'Debilidad':  'Tierra y agua'}
charmander = pd.Series(charmander_diccionario)
charmander

Altura                 0.6
Peso                   8.5
Categoría        Lagartija
Tipo                 Fuego
Debilidad    Tierra y agua
dtype: object

In [40]:
squirtle_diccionario = {'Altura': 0.5, 'Peso': 9.0, 'Categoría': 'Tortuga',
              'Debilidad':  'Electricidad'}
squirtle = pd.Series(squirtle_diccionario)
squirtle

Altura                0.5
Peso                  9.0
Categoría         Tortuga
Debilidad    Electricidad
dtype: object

In [41]:
caterpie_diccionario = {'Altura': 0.3, 'Peso': 2.9, 'Categoría': 'Gusano',
             'Tipo':  'Bicho'}
caterpie = pd.Series(caterpie_diccionario)
caterpie

Altura          0.3
Peso            2.9
Categoría    Gusano
Tipo          Bicho
dtype: object

In [42]:
pidgey_diccionario = {'Altura': 0.3, 'Peso': 1.8, 'Debilidad':  'Hielo'}
pidgey = pd.Series(pidgey_diccionario)
pidgey

Altura         0.3
Peso           1.8
Debilidad    Hielo
dtype: object

**2. Series**

In [43]:
df_pokemones= pd.DataFrame({'Bulbasaur':bulbasaur,
              'Charmander': charmander, 
              'Squirtle': squirtle, 
              'Caterpie': caterpie, 
              'Pidgey': pidgey,               
             })
df_pokemones

Unnamed: 0,Bulbasaur,Charmander,Squirtle,Caterpie,Pidgey
Altura,0.7,0.6,0.5,0.3,0.3
Categoría,Semilla,Lagartija,Tortuga,Gusano,
Debilidad,Hielo y fuego,Tierra y agua,Electricidad,,Hielo
Peso,6.9,8.5,9.0,2.9,1.8
Tipo,Planta,Fuego,,Bicho,


# Ejercicio

<div class="alert alert-success">

**Creación de un DataFrame con series y diccionarios**
    
1. Definir un DataFrame a partir de 5 series y cada Serie a partir de un diccionario (de algún mismo tópico), considerando  6 características diferentes y combinando tipos de variables (cuantitativas y cualitativas), también puede omitir algunos valores. 
</div>

Se definirán diccionarios con habilidades de varios superheroes

In [3]:
ironman = {"Nombre real": "Anthony Edward Stark","Peso en kg": 102 ,"Altura en metros":1.85,"Raza": "Humano","Superpoderes": "Intelecto superior y armadura ","Arma principal": "Repulsor y cañon de pecho"}
iron_man = pd.Series(ironman)
iron_man

Nombre real                   Anthony Edward Stark
Peso en kg                                     102
Altura en metros                              1.85
Raza                                        Humano
Superpoderes        Intelecto superior y armadura 
Arma principal           Repulsor y cañon de pecho
dtype: object

In [4]:
cap_america = {"Nombre real": "Steven Grant Rogers","Peso en kg": 109 ,"Altura en metros":1.88,"Raza": "Humano","Superpoderes": "Supersoldado","Arma principal": "Escudo de vibranium"}
cap_america = pd.Series(cap_america)
cap_america

Nombre real         Steven Grant Rogers
Peso en kg                          109
Altura en metros                   1.88
Raza                             Humano
Superpoderes               Supersoldado
Arma principal      Escudo de vibranium
dtype: object

In [5]:
thor = {"Nombre real": "Thor Odinson","Peso en kg": 98 ,"Altura en metros":1.90,"Raza": "Asgardiano","Superpoderes": "Dios del trueno","Arma principal": "Martillo Mjölnir"}
thor = pd.Series(thor)
thor

Nombre real             Thor Odinson
Peso en kg                        98
Altura en metros                 1.9
Raza                      Asgardiano
Superpoderes         Dios del trueno
Arma principal      Martillo Mjölnir
dtype: object

In [6]:
hulk = {"Nombre real": "Robert Bruce Banner","Peso en kg": 635 ,"Altura en metros":3,"Raza": "Humano","Superpoderes": "Superfuerza","Arma principal": "Puños"}
hulk = pd.Series(hulk)
hulk

Nombre real         Robert Bruce Banner
Peso en kg                          635
Altura en metros                      3
Raza                             Humano
Superpoderes                Superfuerza
Arma principal                    Puños
dtype: object

In [7]:
spiderman = {"Nombre real": "Peter Benjamin Parker","Peso en kg": 76 ,"Altura en metros":1.78,"Raza": "Humano","Superpoderes": "Fuerza, agilidad y sentidos aumentados","Arma principal": "Lanza-telarañas"}
spiderman = pd.Series(spiderman)
spiderman

Nombre real                          Peter Benjamin Parker
Peso en kg                                              76
Altura en metros                                      1.78
Raza                                                Humano
Superpoderes        Fuerza, agilidad y sentidos aumentados
Arma principal                             Lanza-telarañas
dtype: object

In [9]:
df_superheroes = pd.DataFrame({"Iron Man": iron_man,"Capitan America": cap_america,"Thor": thor,"Hulk": hulk,"Spider-Man": spiderman})
df_superheroes

Unnamed: 0,Iron Man,Capitan America,Thor,Hulk,Spider-Man
Nombre real,Anthony Edward Stark,Steven Grant Rogers,Thor Odinson,Robert Bruce Banner,Peter Benjamin Parker
Peso en kg,102,109,98,635,76
Altura en metros,1.85,1.88,1.9,3,1.78
Raza,Humano,Humano,Asgardiano,Humano,Humano
Superpoderes,Intelecto superior y armadura,Supersoldado,Dios del trueno,Superfuerza,"Fuerza, agilidad y sentidos aumentados"
Arma principal,Repulsor y cañon de pecho,Escudo de vibranium,Martillo Mjölnir,Puños,Lanza-telarañas


<div class="alert alert-success">
    
**Creación de un DataFrame vacío**
    
2. Definir un DataFrame que contenga un listado de 5 datos de 10 personas (utilizar el método del siguiente ejemplo). 
</div>

Ejemplo:


``` python
import pandas as pd
df = pd.DataFrame()
df['first_name'] = ['Josy', 'Vaughn', 'Neale', 'Teirtza']
df['last_name'] = ['Clarae', 'Halegarth', 'Georgievski', 'Teirtza']
df['gender'] = ['Female', 'Male', 'Male', 'Female']
print(df)


  first_name    last_name  gender
0       Josy       Clarae  Female
1     Vaughn    Halegarth    Male
2      Neale  Georgievski    Male
3    Teirtza      Teirtza  Female

```

In [19]:
df = pd.DataFrame()
df['Nombre'] = ['Juan','Samantha','Pablo','Francisco','John','George','Zack','David','Jack','Alex']
df['Apellido'] = ['Lopez','Barnes','Gomez','Alcubierre','Wick','Pawn','Voguel','Jones','Sparrow','Ascencion']
df['Edad'] = ['38','24','28','41','37','36','23','57','39','25']
df['Sexo'] = ['Hombre','Mujer','Hombre','Hombre','Hombre','Hombre','Hombre','Hombre','Hombre','Hombre']
df['Altura'] = ['1.78','1.56','1.71','1.83','1.91','1.97','1.84','1.77','1.85','1.79']
print(df)

      Nombre    Apellido Edad    Sexo Altura
0       Juan       Lopez   38  Hombre   1.78
1   Samantha      Barnes   24   Mujer   1.56
2      Pablo       Gomez   28  Hombre   1.71
3  Francisco  Alcubierre   41  Hombre   1.83
4       John        Wick   37  Hombre   1.91
5     George        Pawn   36  Hombre   1.97
6       Zack      Voguel   23  Hombre   1.84
7      David       Jones   57  Hombre   1.77
8       Jack     Sparrow   39  Hombre   1.85
9       Alex   Ascencion   25  Hombre   1.79


<div class="alert alert-success">

**Creación de un DataFrame vacío con columnas**

3. Definir un DataFrame que contenga un listado de 4 parámetros de 6 modelos de automóviles (utilizar el método del siguiente ejemplo). 
</div>

Ejemplo:


``` python
import pandas as pd
df = pd.DataFrame()
df = pd.DataFrame(columns=['first_name', 'last_name', 'gender'])
df = df.append({'first_name': 'Josy', 'last_name':'Clarae', 'gender':'Female'}, ignore_index=True)
df = df.append({'first_name': 'Vaughn', 'last_name':'Halegarth', 'gender':'Male'}, ignore_index=True)
print(df)


  first_name  last_name  gender
0       Josy     Clarae  Female
1     Vaughn  Halegarth    Male
```

In [33]:
df = pd.DataFrame()
df = pd.DataFrame(columns=['Modelo','Fabricante' ,'Año lanzamiento','Precio (USD)'])
df = df.append({'Modelo':'Roadster','Fabricante':'Tesla','Año lanzamiento':2008,'Precio (USD)':98000},ignore_index=True)
df = df.append({'Modelo':'Estoque','Fabricante':'Lamborghini','Año lanzamiento':2008,'Precio (USD)':103000}, ignore_index=True)
df = df.append({'Modelo':'Yaris','Fabricante':'Toyota','Año lanzamiento':1999,'Precio (USD)':14168}, ignore_index=True)
df = df.append({'Modelo':'A3','Fabricante':'Audi','Año lanzamiento':1996,'Precio (USD)':24115}, ignore_index=True)
df = df.append({'Modelo':'F8 Tributo','Fabricante':'Ferrari','Año lanzamiento':2019,'Precio (USD)':247280}, ignore_index=True)
df = df.append({'Modelo':'Aveo','Fabricante':'Chevrolet','Año lanzamiento':2002,'Precio (USD)':12560}, ignore_index=True)
print(df)

       Modelo   Fabricante Año lanzamiento Precio (USD)
0    Roadster        Tesla            2008        98000
1     Estoque  Lamborghini            2008       103000
2       Yaris       Toyota            1999        14168
3          A3         Audi            1996        24115
4  F8 Tributo      Ferrari            2019       247280
5        Aveo    Chevrolet            2002        12560


<div class="alert alert-success">

**Creación de un DataFrame vacío con columnas e índices**

4. Definir un DataFrame que contenga un listado de 4 parámetros de 6 modelos de celulares (utilizar el método del siguiente ejemplo). 
</div>

Ejemplo:


``` python
import pandas as pd
df = pd.DataFrame()
df = pd.DataFrame(columns=['first_name', 'last_name', 'gender'],index=range(3))
df.iloc[0] = ['Josy', 'Clarae', 'Female']
df.iloc[1] = ['Vaughn', 'Halegarth', 'Male']
df.iloc[2] = ['Neale', 'Georgievski', 'Male']
print(df)


  first_name  last_name  gender
0       Josy     Clarae  Female
1     Vaughn  Halegarth    Male
```

In [49]:
df = pd.DataFrame()
df = pd.DataFrame(columns=['Modelo', 'Tamaño (pulgadas)', 'Precio(MXN)','Memoria'],index=range(6))
df.iloc[0] = ['Motorola G10', '6.5"', '4300','128 GB']
df.iloc[1] = ['Xiaomi Redmi Note 10S', '6.43"', '5078','64 GB']
df.iloc[2] = ['Samsung Galaxy S8', '5.8"', '4,356','64 GB']
df.iloc[3] = ['Motorola Moto One Fusion', '6.5"', '4644','128 GB']
df.iloc[4] = ['iPhone XR Apple', '6.1"', '8099','64 GB']
df.iloc[5] = ['Realme X50', '6.6"', '5118','128 GB']
print(df)

                     Modelo Tamaño (pulgadas) Precio(MXN) Memoria
0              Motorola G10              6.5"        4300  128 GB
1     Xiaomi Redmi Note 10S             6.43"        5078   64 GB
2         Samsung Galaxy S8              5.8"       4,356   64 GB
3  Motorola Moto One Fusion              6.5"        4644  128 GB
4           iPhone XR Apple              6.1"        8099   64 GB
5                Realme X50              6.6"        5118  128 GB
