![linea 1](https://user-images.githubusercontent.com/19308295/115926252-2b8a0c00-a448-11eb-9d9c-b43beaf0ff68.png)

<center> <h1>PANDAS</h1> </center> 

![linea 1](https://user-images.githubusercontent.com/19308295/115926252-2b8a0c00-a448-11eb-9d9c-b43beaf0ff68.png)

# Descripción:

<div class="alert alert-info">

En este notebook se explicarán la librería **Pandas** escrita como extensión de **NumPy** para la manipulación y análisis de datos en el lenguaje de programación Python. 
    
</div>



# Objetivos:

 1. Familiarizarce con creación de la estructura de tabla de datos **DataFrame.**
 2. Manejo inicial de un **DataFrame.**
 3. Importando archivos ***csv*** y manipulación inicial en **Pandas.**



[1. Pandas](#1.-Pandas)<br>
[2. Creación de DataFrame](#2.-Creación-de-DataFrame)<br>
[3. DataFrame a partir de archivo CSV](#3.-DataFrame-a-partir-de-archivo-CSV)<br>
[4. Estadistica DataFrame](#4.-Estadistica-DataFrame)<br>

[EJEMPLOS](#EJEMPLOS)<br>
[EJERCICIOS](#EJERCICIOS)<br>
[BIBLIOGRAFÍA](#BIBLIOGRAFÍA)<br>

![linea 1](https://user-images.githubusercontent.com/19308295/115926252-2b8a0c00-a448-11eb-9d9c-b43beaf0ff68.png)

![640px-Pandas_logo svg](https://user-images.githubusercontent.com/19308295/119273971-1b925300-bbd3-11eb-9705-fa3a404af0e1.png)

## <font color=#33A5FF>****1. Pandas****<tfont>

<div class="well">
<strong>PanDaS  (Panel Data Set)</strong>  es una librería de Python para la <strong>ciencia de datos y Machine Learning</strong>, por muchas razones, ofrece estructuras de datos poderosas, expresivas y flexibles que facilitan la manipulación y análisis de datos. Entre las estructuras más utilizadas se encuentra el <strong>DataFrame</strong>.

<strong>Pandas</strong> es una librería de código abierto de Python que proporciona herramientas de análisis y manipulación de datos de alto rendimiento utilizando sus potentes estructuras de datos.
    
    
</div>

<div class="well">
La librería <strong>Pandas</strong> se desarrollo debido a la necesidad de tener una herramienta flexible de alto rendimiento para el análisis de datos, construido sobre Numpy. En Python se utiliza  <strong>pandas</strong> en Machine Learning para la manipulación y preparación de datos. 

Usando esta librería podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos:
</div>
     
    
   - Cargar
   - Preparar
   - Manipular
   - Modelar
   - Analizar
    


<div class="well">
    Caracteristicas principales de de la librería <strong>Pandas</strong>.
</div>   
   
   
   
   - Objeto DataFrame rápido y eficiente con indexación predeterminada y personalizada.
   - Alto rendimiento para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.
   - Alineación de datos y manejo integrado de datos faltantes.
   - Remodelación y giro de conjuntos de fechas.
   - Etiquetado, corte, indexación y subconjunto de grandes conjuntos de datos.
   - Las columnas de una estructura de datos se pueden eliminar o insertar.
   - Agrupa por datos para agregación y transformaciones.
   - Alto rendimiento de fusión y unión de datos.
   - Funcionalidad de la serie de tiempo.


## DataFrame

<div class="well">
Es una estructura de datos muy utilizada en <strong>pandas</strong>, es tabular bidimensional de tamaño variable y potencialmente heterogénea con ejes etiquetados (filas y columnas). 

Un <strong>DataFrame</strong>  es una estructura de datos bidimensional, es decir, los datos se alinean de forma tabular en filas y columnas. Pandas DataFrame consta de tres componentes principales:
</div>



   - Los datos
   - Las filas
   - Las columnas

![Pantas_DataFrame](https://user-images.githubusercontent.com/19308295/119273989-44b2e380-bbd3-11eb-96d1-bd7e8a928fd6.png)

<div class="alert alert-info">

Si hablamos de la estructura de un **DataFrame** es muy similar a la de una matriz. Pero en una matriz solamente se admiten valores numéricos, a diferencia de la matriz, en un **DataFrame** se puede incluir también datos alfanuméricos en su contenido. 


</div>

![linea 2](https://user-images.githubusercontent.com/19308295/115926262-2fb62980-a448-11eb-8189-c2f10e499944.png)

## <font color=#33A5FF>****2. Creación de DataFrame****<tfont>

In [1]:
import numpy as np
import pandas as pd

###  A partir de diccionarios de listas

In [4]:
#Datos en listas
diccionario = {'Columna a': [11,12,13], 'Columna b':[21,22,23]}

#DataFrame
df_lista = pd.DataFrame(diccionario)

#Impresión lista con print Spyder
print(df_lista)

#Impresión con función head()
df_lista.head()

   Columna a  Columna b
0         11         21
1         12         22
2         13         23


Unnamed: 0,Columna a,Columna b
0,11,21
1,12,22
2,13,23


In [5]:
#Datos en listas
diccionario_2 = {'Nombre':['Ismael', 'Cristian', 'Yulemy', 'Luis', 'Ivanovich'],
                'Edad':[19, 15, 25, 80, 61],
                'Categoría':['H','H','E','A','A']}

#DataFrame
df_lista2 = pd.DataFrame(diccionario_2)

#Impresión lista con print Spyder
print(df_lista2)

#Impresión con función head()
df_lista2.head()

      Nombre  Edad Categoría
0     Ismael    19         H
1   Cristian    15         H
2     Yulemy    25         E
3       Luis    80         A
4  Ivanovich    61         A


Unnamed: 0,Nombre,Edad,Categoría
0,Ismael,19,H
1,Cristian,15,H
2,Yulemy,25,E
3,Luis,80,A
4,Ivanovich,61,A


In [6]:
#Imprimir solo una columna Spyder
print(df_lista2['Edad'])

0    19
1    15
2    25
3    80
4    61
Name: Edad, dtype: int64


In [7]:
#Imprimir solo una columna
df_lista2['Edad']

0    19
1    15
2    25
3    80
4    61
Name: Edad, dtype: int64

### A partir de un numpy array de 2D

In [9]:
#A partir de Array 2D de 5 filas con 3 columnas
df_np2D = pd.DataFrame(
    np.random.randint(5, size=(5,3)),
    index = ['Primero', 'Segundo', 'Tercero', 'Cuarto', 'Quinto'],
    columns = ['Velocidad', 'Temperatura', 'Presión']
)

#Impresión con función head()
df_np2D.head()

Unnamed: 0,Velocidad,Temperatura,Presión
Primero,4,2,4
Segundo,2,3,1
Tercero,0,3,2
Cuarto,4,0,4
Quinto,3,2,1


In [10]:
#forma dataframe spyder
print(df_np2D.shape)

#altura dataframe spyder
print(len(df_np2D.index))

(5, 3)
5


![linea 2](https://user-images.githubusercontent.com/19308295/115926262-2fb62980-a448-11eb-8189-c2f10e499944.png)

## <font color=#33A5FF>****3. DataFrame a partir de archivo CSV****<tfont>

## CSV separado por comas:

Se adjunta un archivo `data.zip` a la practica, se debe crear la carpeta `data` con los archivos del `data.zip`.

In [11]:
#archivo CSV separado por comas
data = pd.read_csv('data/titanic_comma.csv')

#leer 5 primeras lineas
data.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1


In [12]:
#15 filas
data.head(15)

Unnamed: 0,Name,PClass,Age,Sex,Survived
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1
5,"Anderson, Mr Harry",1st,47.0,male,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1
7,"Andrews, Mr Thomas, jr",1st,39.0,male,0
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0


In [13]:
#leer 5 últimas lineas
data.tail()

Unnamed: 0,Name,PClass,Age,Sex,Survived
1308,"Zakarian, Mr Artun",3rd,27.0,male,0
1309,"Zakarian, Mr Maprieder",3rd,26.0,male,0
1310,"Zenni, Mr Philip",3rd,22.0,male,0
1311,"Lievens, Mr Rene",3rd,24.0,male,0
1312,"Zimmerman, Leo",3rd,29.0,male,0


In [15]:
#Para imprimir en Spyder
print(data.head())

                                            Name PClass    Age     Sex  \
0                   Allen, Miss Elisabeth Walton    1st  29.00  female   
1                    Allison, Miss Helen Loraine    1st   2.00  female   
2            Allison, Mr Hudson Joshua Creighton    1st  30.00    male   
3  Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.00  female   
4                  Allison, Master Hudson Trevor    1st   0.92    male   

   Survived  
0         1  
1         0  
2         0  
3         0  
4         1  


In [16]:
#Para imprimir en Spyder sin head()
print(data)

                                               Name PClass    Age     Sex  \
0                      Allen, Miss Elisabeth Walton    1st  29.00  female   
1                       Allison, Miss Helen Loraine    1st   2.00  female   
2               Allison, Mr Hudson Joshua Creighton    1st  30.00    male   
3     Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.00  female   
4                     Allison, Master Hudson Trevor    1st   0.92    male   
...                                             ...    ...    ...     ...   
1308                             Zakarian, Mr Artun    3rd  27.00    male   
1309                         Zakarian, Mr Maprieder    3rd  26.00    male   
1310                               Zenni, Mr Philip    3rd  22.00    male   
1311                               Lievens, Mr Rene    3rd  24.00    male   
1312                                 Zimmerman, Leo    3rd  29.00    male   

      Survived  
0            1  
1            0  
2            0  
3      

### CSV separado por tabulacion:

In [22]:
from warnings import filterwarnings
filterwarnings ("ignore")

#archivo CSV separado por comas
data2 = pd.read_csv('data/titanic_tabs.csv', '\t')

#leer 5 primeras lineas
data2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


![linea 2](https://user-images.githubusercontent.com/19308295/115926262-2fb62980-a448-11eb-8189-c2f10e499944.png)

## <font color=#33A5FF>****4. Estadistica DataFrame****<tfont>

<div class="well">
En <strong>Pandas</strong>  podemos hallar con pocos comandos de manera muy sencilla y rapida <strong>la estadistica</strong> de los datos de todo tipo de archivos. Comenzamos con archivos <code>csv</code>.   
</div>

In [25]:
#cargamos un archivo CSV separado por punto y coma (importado excel)
notas = pd.read_csv('data/notas.csv', ';')

#leer 10 primeras lineas
notas.head(10)
#Imprimir toda la lista
#print (notas)

Unnamed: 0,Alumno,Nota1,Nota2,Nota3,Promedio
0,Maria,18.0,19,18,18
1,Jose,8.0,15,11,11
2,Juan,13.0,12,17,14
3,Luis,10.0,19,18,16
4,Carlos,16.0,12,10,13
5,Rosa,0.0,14,10,8
6,Jorge,9.0,11,19,13
7,Victor,6.0,13,10,10
8,Ana,18.0,19,11,16
9,Luz,14.0,20,16,17


`describe()` : muestra estadísticas de resumen para las columnas numéricas.

In [26]:
#Estadísticas del DataFrame
print('Estadisticas del DataFrame:')

#impresión
notas.describe()

Estadisticas del DataFrame:


Unnamed: 0,Nota1,Nota2,Nota3,Promedio
count,49.0,50.0,50.0,50.0
mean,11.836735,13.72,14.72,13.44
std,5.07587,4.204177,3.434756,2.778636
min,0.0,0.0,10.0,8.0
25%,8.0,11.0,11.25,12.0
50%,11.0,13.0,14.5,13.0
75%,16.0,17.0,18.0,15.75
max,20.0,20.0,20.0,19.0


Para los datos numéricos, el índice del resultado incluirá **cantidad de datos** `count`, **media** `mean`, desviación estandar `std`, **valor mínimo** `min`, **valor máximo**,los percentiles inferior de 25% y el percentil superior de 75%.

### Media de las columnas DataFrame

In [27]:
#Media de las columnas DataFrame
print('Media de las columnas DataFrame:')

#impresión print spyder
print(notas.mean())

Media de las columnas DataFrame:
Nota1       11.836735
Nota2       13.720000
Nota3       14.720000
Promedio    13.440000
dtype: float64


In [28]:
#impresión
notas.mean()

Nota1       11.836735
Nota2       13.720000
Nota3       14.720000
Promedio    13.440000
dtype: float64

### Correlación del DataFrame

In [29]:
#Correlación del DataFrame
print('Correlación del DataFrame:')

#impresión
notas.corr()

Correlación del DataFrame:


Unnamed: 0,Nota1,Nota2,Nota3,Promedio
Nota1,1.0,0.154411,0.212137,0.762637
Nota2,0.154411,1.0,0.008593,0.596004
Nota3,0.212137,0.008593,1.0,0.549895
Promedio,0.762637,0.596004,0.549895,1.0


### Cuenta los datos del DataFrame 

In [30]:
#Cuenta los datos del DataFrame no nulos
print('Conteo de datos del DataFrame:')

#impresión
notas.count()

Conteo de datos del DataFrame:


Alumno      50
Nota1       49
Nota2       50
Nota3       50
Promedio    50
dtype: int64

### Valor más alto

In [31]:
#Valor más alto de cada columna del DataFrame
print('Valor mas alto de la columna del DataFrame:')

#impresión
notas.max()

Valor mas alto de la columna del DataFrame:


Alumno      Walter
Nota1         20.0
Nota2           20
Nota3           20
Promedio        19
dtype: object

### Valor más bajo

In [33]:
#Valor mínimo de cada columna del DataFrame
print('Valor mínimo de la columna del DataFrame:')

#impresión
notas.min()

Valor mínimo de la columna del DataFrame:


Alumno      Alejandro
Nota1             0.0
Nota2               0
Nota3              10
Promedio            8
dtype: object

### Mediana x Columna

In [34]:
#Mediana de cada columna del DataFrame
print('Mediana de la columna del DataFrame:')

#impresion
notas.mean()

Mediana de la columna del DataFrame:


Nota1       11.836735
Nota2       13.720000
Nota3       14.720000
Promedio    13.440000
dtype: float64

### Desviación estándar x Columna 

In [35]:
#Desviación estándar de cada columna del DataFrame
print('Desviación estandar de la columna del DataFrame:')

#impresion
notas.std()

Desviación estandar de la columna del DataFrame:


Nota1       5.075870
Nota2       4.204177
Nota3       3.434756
Promedio    2.778636
dtype: float64

##  Seleccionar un índice o columna

Una de las funciones que son muy fáciles en **Pandas** es seleccionar los datos que deseas en comparación con seleccionar un valor de una lista o un diccionario. Puedes seleccionar una columna de manera muy fácil, solamente deberás indicar el índice de la misma.

In [37]:
#Seleccionar la primera columna del DataFrame
print('Primera columna del DataFrame:')

#impresión
notas.iloc[:, 0]

Primera columna del DataFrame:


0         Maria
1          Jose
2          Juan
3          Luis
4        Carlos
5          Rosa
6         Jorge
7        Victor
8           Ana
9           Luz
10        Cesar
11       Carmen
12       Miguel
13        Julio
14        Jesus
15        Pedro
16       Manuel
17        Juana
18       Santos
19      Segundo
20         Jhon
21        David
22        Angel
23        Julia
24        Diego
25         Flor
26    Elizabeth
27       Daniel
28        Oscar
29         Ruth
30        Diana
31        Marco
32        Edwin
33       Javier
34       Walter
35    Francisco
36     Fernando
37     Milagros
38    Alejandro
39         Raul
40      Ricardo
41         Alex
42      Roberto
43        Edgar
44     Victoria
45      Eduardo
46        Mario
47        Jaime
48       Gloria
49       Andrea
Name: Alumno, dtype: object

In [38]:
#Seleccionar dos columnas del DataFrame
print('Dos columna del DataFrame:')

#impresión
notas.iloc[:, 0:2]

Dos columna del DataFrame:


Unnamed: 0,Alumno,Nota1
0,Maria,18.0
1,Jose,8.0
2,Juan,13.0
3,Luis,10.0
4,Carlos,16.0
5,Rosa,0.0
6,Jorge,9.0
7,Victor,6.0
8,Ana,18.0
9,Luz,14.0


In [39]:
#Seleccionar el valor de la primera fila y última columna del DataFrame
print('Valor de la primera fila(Alumno: Maria) y 3era columna(Nota2) del DataFrame:')

#impresión
notas.iloc[0][2]

Valor de la primera fila(Alumno: Maria) y 3era columna(Nota2) del DataFrame:


19

In [40]:
#Seleccionar los valores de la primera fila del DataFrame
print('Valores de la primera fila del DataFrame:')

#impresión
notas.loc[0]

Valores de la primera fila del DataFrame:


Alumno      Maria
Nota1        18.0
Nota2          19
Nota3          18
Promedio       18
Name: 0, dtype: object

In [41]:
#Seleccionar los valores de la primera fila del DataFrame
print('Valores de la primera fila del DataFrame:')

#impresión con iloc
notas.iloc[0,:]

Valores de la primera fila del DataFrame:


Alumno      Maria
Nota1        18.0
Nota2          19
Nota3          18
Promedio       18
Name: 0, dtype: object

![linea 2](https://user-images.githubusercontent.com/19308295/115926262-2fb62980-a448-11eb-8189-c2f10e499944.png)

## <font color=#33A5FF>****EJEMPLOS****<tfont>

### Explorando datos

In [42]:
#cargamos un archivo CSV separado por punto y coma (importado excel)
notas = pd.read_csv('data/notas.csv', ';')

In [43]:
notas.head()

Unnamed: 0,Alumno,Nota1,Nota2,Nota3,Promedio
0,Maria,18.0,19,18,18
1,Jose,8.0,15,11,11
2,Juan,13.0,12,17,14
3,Luis,10.0,19,18,16
4,Carlos,16.0,12,10,13


In [44]:
#Tamaño de tabla
notas.shape

(50, 5)

In [45]:
#Tipos de datos de la columnas
notas.dtypes

Alumno       object
Nota1       float64
Nota2         int64
Nota3         int64
Promedio      int64
dtype: object

In [46]:
#Tipo de dato de la tabla
type(notas)

pandas.core.frame.DataFrame

In [47]:
#Nombre de las columnas
notas.columns

Index(['Alumno', 'Nota1', 'Nota2', 'Nota3', 'Promedio'], dtype='object')

### SubConjuntos
![subconjuntos](https://user-images.githubusercontent.com/19308295/119282515-8c4f6480-bbff-11eb-8432-581e44f4a2f0.png)

In [48]:
#Seleccionar SubConjunto con dos columnas del DataFrame en orden establecido
notas.loc[:,['Promedio','Alumno']]

Unnamed: 0,Promedio,Alumno
0,18,Maria
1,11,Jose
2,14,Juan
3,16,Luis
4,13,Carlos
5,8,Rosa
6,13,Jorge
7,10,Victor
8,16,Ana
9,17,Luz


### Operando entre columnas

In [49]:
#Nueva columa a partir de Operación entre columnas

notas['Promedio 1 y 2'] = (notas['Nota1']+notas['Nota2'])/2

notas.head()

Unnamed: 0,Alumno,Nota1,Nota2,Nota3,Promedio,Promedio 1 y 2
0,Maria,18.0,19,18,18,18.5
1,Jose,8.0,15,11,11,11.5
2,Juan,13.0,12,17,14,12.5
3,Luis,10.0,19,18,16,14.5
4,Carlos,16.0,12,10,13,14.0


### Filtros
![filtros](https://user-images.githubusercontent.com/19308295/119282563-b6a12200-bbff-11eb-82ee-606fbfe2ac1b.png)

In [50]:
#FILTRAR Cuantos alumnos califican como excelencia Promedio mayores o igual a 18
#MÉTODO 1
notas.loc[notas.Promedio >= 18]

Unnamed: 0,Alumno,Nota1,Nota2,Nota3,Promedio,Promedio 1 y 2
0,Maria,18.0,19,18,18,18.5
16,Manuel,15.0,20,20,18,17.5
24,Diego,20.0,18,18,19,19.0
26,Elizabeth,16.0,19,18,18,17.5
39,Raul,20.0,18,16,18,19.0


In [51]:
#FILTRAR Cuantos alumnos califican como excelencia Promedio mayores o igual a 18
#MÉTODO 2
notas.loc[notas['Promedio'] >= 18]

Unnamed: 0,Alumno,Nota1,Nota2,Nota3,Promedio,Promedio 1 y 2
0,Maria,18.0,19,18,18,18.5
16,Manuel,15.0,20,20,18,17.5
24,Diego,20.0,18,18,19,19.0
26,Elizabeth,16.0,19,18,18,17.5
39,Raul,20.0,18,16,18,19.0


### Seleccionar Fila y Columnas
![seleccion](https://user-images.githubusercontent.com/19308295/119283031-590dd500-bc01-11eb-93db-ee8a79b00103.png)

In [52]:
#Asignando resultado a otro DataFrame, con una sola columna 'Alumno'
excelencia = notas.loc[notas['Promedio'] >= 18,['Alumno']]
excelencia

Unnamed: 0,Alumno
0,Maria
16,Manuel
24,Diego
26,Elizabeth
39,Raul


In [53]:
#Tipo de tabla creada
type(excelencia)

pandas.core.frame.DataFrame

In [54]:
#Cantidad de excelencia
excelencia.count()

Alumno    5
dtype: int64

In [55]:
len(excelencia)

5

![linea 2](https://user-images.githubusercontent.com/19308295/115926262-2fb62980-a448-11eb-8189-c2f10e499944.png)

## <font color=#33A5FF>****BIBLIOGRAFÍA****<tfont>

[1] Guía de pandas oficial https://pandas.pydata.org/docs/user_guide/index.html

[2] Python Pandas Tutorial: A Complete Introduction for Beginners https://bit.ly/2AQMQld

[3] Guía para pandas https://pybonacci.org/2014/05/30/pandas-i/

[4] Dataset variados https://www.kaggle.com/datasets

![linea 1](https://user-images.githubusercontent.com/19308295/115926252-2b8a0c00-a448-11eb-9d9c-b43beaf0ff68.png)