# Modulo 4: Análisis y depuración de datos con Pandas

Pandas es un paquete de Python que facilita el análisis de datos, proporcionando estructuras de datos rápidas, flexibles y expresivas que hacen el trabajo mucho más intuitivo.

## Importando los paquetes necesarios

In [1]:
import numpy as np
import pandas as pd

## Creación de variables
Primero creamos las variables a analizar.

In [2]:
Vendedor=np.array(["María","Juana","Maria","Jose","Maria","Juana","Maria","Jose","Maria","Juana"])
Venta=np.array([3000,4000,5000,2000,6000,7000,10000,7000,3000,6000])
Descuento=np.array([0.10,0.20,0.5,0.6,0.8,np.nan,0.3,0.2,0.1,0.10])

## Dataframe
Un dataframe es un tipo especial de objeto de python cuya estructura permite almacenar un conjunto de datos. Los datos almacenados pueden ser de diversos tipos tanto numéricos y alfanuméricos. Su representación es muy similar a la de una matriz, en donde, las filas van a representar a los individuos y las columnas a las variables.

In [4]:
# Crear el diccionario
data = {'Vendedor':Vendedor, 'Ventas':Venta, 'Descuentos':Descuento}

# Crear el dataframe
df = pd.DataFrame(data)

# Leer df
df

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
5,Juana,7000,
6,Maria,10000,0.3
7,Jose,7000,0.2
8,Maria,3000,0.1
9,Juana,6000,0.1


Tamaño del dataframe

In [6]:
df.shape  # filas por columnas

(10, 3)

Eliminación de valores perdidos. (En lugar de eliminarlo que es con dropna, mejor voy a rellenar el NaN con 0)

In [11]:
df['Descuentos'].fillna(0, inplace=True)
df

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
5,Juana,7000,0.0
6,Maria,10000,0.3
7,Jose,7000,0.2
8,Maria,3000,0.1
9,Juana,6000,0.1


Visualización del dataframe df

In [13]:
df.head(5)

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8


### Manipulación del dataframe

Acceso a los elementos del dataframe:


*   **iloc:** Acceso a los elementos por los índices expresados en filas y columnas. 
*   **loc:** Acceso a las filas con condiciones



Filas: primer elemento

In [14]:
df.iloc[0]

Vendedor      María
Ventas         3000
Descuentos      0.1
Name: 0, dtype: object

Último elemento

In [15]:
df.iloc[-1]

Vendedor      Juana
Ventas         6000
Descuentos      0.1
Name: 9, dtype: object

Filas y columnas: Seleccione los registros 0 y 3 y la primera y segunda columna

In [17]:
df.iloc[[0,3],[0,1]]

Unnamed: 0,Vendedor,Ventas
0,María,3000
3,Jose,2000


Columnas

In [18]:
df['Vendedor']

0    María
1    Juana
2    Maria
3     Jose
4    Maria
5    Juana
6    Maria
7     Jose
8    Maria
9    Juana
Name: Vendedor, dtype: object

Seleccione las ventas hechas por María en horario nocturno

In [22]:
df[(df['Vendedor'] == 'María')]  ### y el turno??

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1


Otras formas de selección

#### Seleccionar los primeros cinco individuos

#### Seleccionar las variables Vendedor y Venta

In [24]:
df[['Vendedor','Ventas']]

Unnamed: 0,Vendedor,Ventas
0,María,3000
1,Juana,4000
2,Maria,5000
3,Jose,2000
4,Maria,6000
5,Juana,7000
6,Maria,10000
7,Jose,7000
8,Maria,3000
9,Juana,6000


#### Filtrar los datos por algún valor

Seleccionar las ventas de María

In [None]:
# ya

Seleccionar las ventas realizadas por Maria y Jose

In [27]:
df[(df['Vendedor'] == 'Maria') | (df['Vendedor'] == 'Jose')]   # importante el operador logico, o and (&) o or (|)

Unnamed: 0,Vendedor,Ventas,Descuentos
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
6,Maria,10000,0.3
7,Jose,7000,0.2
8,Maria,3000,0.1


Seleccionar las ventas con descuento mayor al 20%

In [33]:
df[(df['Descuentos'] > 0.2)]

Unnamed: 0,Vendedor,Ventas,Descuentos
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
6,Maria,10000,0.3


Eliminar el registro indexado con 7

In [34]:
df

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
5,Juana,7000,0.0
6,Maria,10000,0.3
7,Jose,7000,0.2
8,Maria,3000,0.1
9,Juana,6000,0.1


In [39]:
df.index

df.drop(7, inplace=True)
df

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8
5,Juana,7000,0.0
6,Maria,10000,0.3
8,Maria,3000,0.1
9,Juana,6000,0.1


Eliminar la columna vendedor

In [40]:
df = df.drop('Vendedor', axis=1)
df

Unnamed: 0,Ventas,Descuentos
0,3000,0.1
1,4000,0.2
2,5000,0.5
3,2000,0.6
4,6000,0.8
5,7000,0.0
6,10000,0.3
8,3000,0.1
9,6000,0.1


#### Agregar datos

Agregar el dato:

Jose    "8000"  "0.20"    "0.01"    "Nocturno"

### Guardar y cargar un dataframe

Guardar el dataframe como un archivo pickled, tenga en cuenta en ser muy cuidadoso


In [29]:
# pickled son extensiones propias de python, es mejor compartir archivos con esa extensión .plk

df.to_pickle(r'C:\Carrera de Datos\Data Scientist\Diplomado Python EAN\Archivos\data_ventas.plk')

Cargar el archivo pickled

In [31]:
df_copia = pd.read_pickle(r'C:\Carrera de Datos\Data Scientist\Diplomado Python EAN\Archivos\data_ventas_copia_para_leer.plk')
df_copia.head(5)

Unnamed: 0,Vendedor,Ventas,Descuentos
0,María,3000,0.1
1,Juana,4000,0.2
2,Maria,5000,0.5
3,Jose,2000,0.6
4,Maria,6000,0.8


### Exportar archivos

In [32]:
# Exportar a otro tipo de archivos
df.to_excel(r'C:\Carrera de Datos\Data Scientist\Diplomado Python EAN\Archivos\ventas_excel.xlsx')

### Importar archivos

In [None]:
#pd.read_csv("G:\Mi unidad\EAN_Documentos\Python Agosto\Ventas.csv",sep="\t")
#datos=pd.read_excel("G:\Mi unidad\EAN_Documentos\Python Agosto\VentasXls.xlsx", sheetname='VentasXls')
#datos

## Taller

Cree un dataframe con el nombre df1 con los siguientes datos:

Jose     "6000"  "0.20"    "0.01"    "Nocturno"\
Maria    "6500"  "0.10"    "0.02"    "Diurno"\
Juana    "4000"  "0.30"    "0.03"    "Diurno"\
Jose     "2000"  "0.10"    "0.02"    "Diurno"\
Juana    "1500"  "0.30"    "0.03"    "Diurno"

Una estos datos al anterior dataframe utilizando el comando

df.append(df1, ignore_index = True)

Creación elementos del Dataframe

In [None]:
jose1=['Jose',6000,0.20,0.01,'Nocturno']
maria=['María',6500,0.10,0.02,'Diurno']
juana=['Juana',4000,0.30,0.03,"Diurno"]
jose=['Jose',2000,0.10,0.02,"Diurno"]
juana1=['juana',1500,0.30,0.03,"Diurno"]

Creación del DataFrame

Transponer el DataFrame

Renombrar elementos del Dataframe

Renombrar índices

Unión de lo DataFrames

## Cálculo de las principales medidas estadísticas

### Variables numéricas

Medidas de tendencia central: Media.

Medidas de dispersión: Desviación estándar
Medidas de posición: cuartiles

Análisis de todas las variables cuantitativas

De algunas variables

Medidas individuales

Obtención de medidas por agrupación

Obtención de medidas por agrupación de varias variables.

In [None]:
##Calculo de la desviación estándar

Cálculo de dos medidas estadísticas

### Variables cualitativas

El commando describe presenta la cantidad de datos de la variable, la cantidad de valores distintos, la moda y la frecuencia.

### Frecuencias absolutas

Cantidad de individuos que poseen la característica.

### Frecuencias relativas

Porcentaje de individuos que poseen la característica

### Tablas de Contingencia

#### Frecuencias absolutas

Cantidad de individuos que toman valores en dos variables 
distintas.

#### Frecuencias relativas

Porcentaje de individuos que toman valores en dos variables distintas.

#### Frecuencias relativas por vendedor

Porcentaje de veces que un vendedor estuvo en determinado horario.

#### Frecuencias relativas por horario

Porcentaje de veces que en un horario estuvo un vendedor.