# Pandas
Esta es una herramienta para la manipulacion de datos, esta construida sobre numpy y permite el analisis de datos.
Pandas permite leer y escribir datos en diferentes formatos: csv, JSON, Excel, SQL, parquet, entre otros. tambien permite seleccionar y filtrar, fusionar, unir transformar y hacer graficas.

## Instalar pandas

In [1]:
pip install pandas





[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


## Importando pandas

In [2]:
import numpy as np

In [3]:
import pandas as pd

## Series
Es el primer tipo de dato de pandas, similar a una matriz, lo que las hace diferentes es que la serie puede tener etiquetas en los ejes y puede contener cualquier tipo de dato.

In [4]:
# Crear diferentes tipos de datos
labels = ['a','b','c'] # lista de eetiquetas
my_list = [10,20,30] # lista con valores
arr = np.array([10,20,30]) # Convertir ista de valores en arreglo NumPy
d = {'a':10,'b':20,'c':30} # Creacion de un diccionario


In [5]:
# Convertir una lista en series usando el metodo pd.Series
# observe que se crean los nombres con las posiciones de cada elemento
pd.Series(data=my_list)


0    10
1    20
2    30
dtype: int64

In [6]:
# Convertir una lista en series usando el metodo pd.Series
# se puede ingresar el nombre de las posiciones
pd.Series(data=my_list,index=labels)


a    10
b    20
c    30
dtype: int64

In [7]:
# No es necesario ingresar la palabra de 'data =''  en el argumento
pd.Series(my_list,labels)


a    10
b    20
c    30
dtype: int64

In [8]:
# Convertir un arreglo en series indicando tambien los valores del index
pd.Series(arr,labels)


a    10
b    20
c    30
dtype: int32

In [9]:
# Convertir un diccionario en series usando el metodo pd.Series
# Como el diccionario ya tiene clave entonces se le asigna como valor de la posicion
pd.Series(d)


a    10
b    20
c    30
dtype: int64

## Indexacion 
Las series funcionan como una tabla hash o un diccionario

In [10]:
# Creacion de una serie con sus labels o indices
ser1 = pd.Series([1,2,3,4],
                index = ['USA', 'Alemania','Italia', 'Japon'])                                   
ser1

USA         1
Alemania    2
Italia      3
Japon       4
dtype: int64

In [11]:
ser1["USA"]

1

## DATAFRAME
Son las estructuras mas importante en pandas, es un conjunto de series que comparten el mismo indice.

In [12]:
# Importar la funcion de NumPy para crear arreglos de numeros enteros
from numpy.random import randn
np.random.seed(101) # Inicializar el generador aleatorio
# Forma rapida de crear una lista de python desde strings
'A B C D E F'.split()


['A', 'B', 'C', 'D', 'E', 'F']

In [13]:
# Crear un dataframe con numeros aleatorios de 4 Columnas y 5 Filas
# Crear listas rapidamente usando la funcion split 'A B C D E'.split()
# Esto evita tener que escribir repetidamente las comas

df = pd.DataFrame(randn(6,4),
                index='A B C D E F'.split(),
                columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509
F,0.302665,1.693723,-1.706086,-1.159119


### Numero de filas y columnas

In [14]:
df.shape

(6, 4)

### Informacion general de los datos

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, A to F
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   W       6 non-null      float64
 1   X       6 non-null      float64
 2   Y       6 non-null      float64
 3   Z       6 non-null      float64
dtypes: float64(4)
memory usage: 240.0+ bytes


### Resumen de estadistica descriptiva general

In [16]:
df.describe()

Unnamed: 0,W,X,Y,Z
count,6.0,6.0,6.0,6.0
mean,0.336992,0.660424,0.092558,0.166706
std,1.503744,1.075862,1.57128,0.839534
min,-2.018168,-0.758872,-1.706086,-1.159119
25%,0.18922,-0.082455,-0.911947,-0.315794
50%,0.24673,0.684127,-0.159632,0.554896
75%,0.564005,1.455323,0.81318,0.664123
max,2.70685,1.978757,2.605967,0.955057


### Ver primeros elementos

In [17]:
df.head()

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### Ver ultimos elementos

In [18]:
df.tail()

Unnamed: 0,W,X,Y,Z
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509
F,0.302665,1.693723,-1.706086,-1.159119


### Ver elementos aleatorios

In [19]:
df.sample()

Unnamed: 0,W,X,Y,Z
B,0.651118,-0.319318,-0.848077,0.605965


### Seleccion

In [20]:
df["W"]

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
F    0.302665
Name: W, dtype: float64

In [21]:
df[["W","Z"]]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509
F,0.302665,-1.159119


### Creando una nueva columna


In [22]:
# Nueva columna igual a la suma de otras dos
# operacion vectorizada
df['new'] = df['W'] + df['Y']
df


Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762
F,0.302665,1.693723,-1.706086,-1.159119,-1.40342


### Eliminar columnas

In [23]:
df.drop("new", axis="columns", inplace=True)
#Nota: se debe colocar inplace para que se vea afectado el dataframe original
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509
F,0.302665,1.693723,-1.706086,-1.159119


In [24]:
df.drop('E',axis='index')

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
F,0.302665,1.693723,-1.706086,-1.159119


In [25]:
del df['X'] # Esta funcion es INPLACE
df 

Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,-0.848077,0.605965
C,-2.018168,0.528813,-0.589001
D,0.188695,-0.933237,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,-1.706086,-1.159119


### Obtener los nombres de las columnas y los indices

In [26]:
df.columns # nombres de las columnas


Index(['W', 'Y', 'Z'], dtype='object')

In [27]:
df.index # nombres de los indices


Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

### Seleccionar filas y columnas
* DataFrame.loc[etiqueta_fila, etiqueta_columna] <- por etiquetas
* DataFrame.iloc[indice_fila, indice_columna] <- por indices

In [28]:
df.loc['A'] 

W    2.706850
Y    0.907969
Z    0.503826
Name: A, dtype: float64

In [29]:
df.iloc[2]

W   -2.018168
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

### Seleccionar subcojuntos de filas y columnas

In [30]:
df.loc['B','Y'] # con etiquetas


-0.8480769834036315

In [31]:
# Mediante etiquetas
# se selecciona un subconjunto de datos que estan entre
# filas = A, B   Cols= W, Y
df.loc[['A','B'],['W','Y']]


Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


## Seleccion condicional o filtros

In [32]:
df

Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,-0.848077,0.605965
C,-2.018168,0.528813,-0.589001
D,0.188695,-0.933237,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,-1.706086,-1.159119


In [33]:
df>0

Unnamed: 0,W,Y,Z
A,True,True,True
B,True,False,True
C,False,True,False
D,True,False,True
E,True,True,True
F,True,False,False


In [34]:
# Esta operacion solo mostrara los valores del dataframe que cumplen la condicion
# los que no cumplen devuelve el valor NaN
df[df>0]


Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,,0.605965
C,,0.528813,
D,0.188695,,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,,


In [35]:
# seleccionar todas las filas donde el valor
# que esta en la columna 'W' sea mayor que cero
df[df['W']>0] 


Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,-0.848077,0.605965
D,0.188695,-0.933237,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,-1.706086,-1.159119


In [36]:
# Seleccionar las filas donde 'W' sea mayor que cero
# y de esas filas escoger los valores de la columna 'Y'
df[df['W']>0]['Y']


A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
F   -1.706086
Name: Y, dtype: float64

In [37]:
# Seleccionar las filas donde 'W' sea mayor que cero
# y de esas filas escoger los valores de las columna 'Y' y 'X'
df[df['W']>0][['Y','Z']]


Unnamed: 0,Y,Z
A,0.907969,0.503826
B,-0.848077,0.605965
D,-0.933237,0.955057
E,2.605967,0.683509
F,-1.706086,-1.159119


In [38]:
# Seleccionar las filas donde 'W' sea mayor que cero
# y tambien donde 'Y' sea mayor que 0.5
df[(df['W']>0) & (df['Y'] > 0.5)]


Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
E,0.190794,2.605967,0.683509


### query()  busqueda condicional

In [39]:
# seleccionar todas las filas donde el valor
# que esta en la columna 'W' sea mayor que cero

#df[df['W']>0]
df.query('W>0')


Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,-0.848077,0.605965
D,0.188695,-0.933237,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,-1.706086,-1.159119


In [40]:
# Seleccionar las filas donde 'W' sea mayor que cero
# y de esas filas escoger los valores de la columna 'Y'

#df[df['W']>0]['Y']
df.query('W>0')['Y']


A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
F   -1.706086
Name: Y, dtype: float64

In [41]:
# Seleccionar las filas donde 'W' sea mayor que cero
# y tambien donde 'Y' sea mayor que 0.5

#df[(df['W']>0) & (df['Y'] > 0.5)]
df.query('W>0 and Y>0.5')


Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
E,0.190794,2.605967,0.683509


## Cambio de columna de indexacion

In [42]:
df

Unnamed: 0,W,Y,Z
A,2.70685,0.907969,0.503826
B,0.651118,-0.848077,0.605965
C,-2.018168,0.528813,-0.589001
D,0.188695,-0.933237,0.955057
E,0.190794,2.605967,0.683509
F,0.302665,-1.706086,-1.159119


In [43]:
df = df.reset_index()
df

Unnamed: 0,index,W,Y,Z
0,A,2.70685,0.907969,0.503826
1,B,0.651118,-0.848077,0.605965
2,C,-2.018168,0.528813,-0.589001
3,D,0.188695,-0.933237,0.955057
4,E,0.190794,2.605967,0.683509
5,F,0.302665,-1.706086,-1.159119


In [44]:
newind = 'CA NY WY OR CO BG'.split() # crear una lista con strings
newind


['CA', 'NY', 'WY', 'OR', 'CO', 'BG']

In [45]:
# Agregar la lista creaada en el paso anterior al dataframe
df['States'] = newind
df


Unnamed: 0,index,W,Y,Z,States
0,A,2.70685,0.907969,0.503826,CA
1,B,0.651118,-0.848077,0.605965,NY
2,C,-2.018168,0.528813,-0.589001,WY
3,D,0.188695,-0.933237,0.955057,OR
4,E,0.190794,2.605967,0.683509,CO
5,F,0.302665,-1.706086,-1.159119,BG


In [46]:
# Redefinir la columna states como el indice
df.set_index('States')


Unnamed: 0_level_0,index,W,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,A,2.70685,0.907969,0.503826
NY,B,0.651118,-0.848077,0.605965
WY,C,-2.018168,0.528813,-0.589001
OR,D,0.188695,-0.933237,0.955057
CO,E,0.190794,2.605967,0.683509
BG,F,0.302665,-1.706086,-1.159119


## GROUPBY (Permite agrupar por filas)


In [47]:
import pandas as pd
# Crear dataframe desde un diccionario
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB','GOOG','MSFT','FB'],
        'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah','John','Randy','David'],
        'Sales':[200,120,340,124,243,350,275,400,180]}
data


{'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB', 'GOOG', 'MSFT', 'FB'],
 'Person': ['Sam',
  'Charlie',
  'Amy',
  'Vanessa',
  'Carl',
  'Sarah',
  'John',
  'Randy',
  'David'],
 'Sales': [200, 120, 340, 124, 243, 350, 275, 400, 180]}

In [48]:
#conversion del diccionario a dataframe
df = pd.DataFrame(data)
df


Unnamed: 0,Company,Person,Sales
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350
6,GOOG,John,275
7,MSFT,Randy,400
8,FB,David,180


In [49]:
#agrupar por Company
df.groupby('Company')


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001447B5D1C10>

In [50]:
by_comp = df.groupby("Company")


In [51]:
# Promedio de ventas por company
by_comp.mean(numeric_only=True)


Unnamed: 0_level_0,Sales
Company,Unnamed: 1_level_1
FB,257.666667
GOOG,198.333333
MSFT,288.0


In [52]:
# agrupar por compañia y calcular el promedio por cada una
df.groupby('Company').mean(numeric_only=True)


Unnamed: 0_level_0,Sales
Company,Unnamed: 1_level_1
FB,257.666667
GOOG,198.333333
MSFT,288.0


In [53]:
# Una de las funciones mas usadas para descripcion estadistica de un dataframe
# Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores `` NaN``.
# by_comp.describe(include = 'all') # incluir todo
by_comp.describe()


Unnamed: 0_level_0,Sales,Sales,Sales,Sales,Sales,Sales,Sales,Sales
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,3.0,257.666667,85.94378,180.0,211.5,243.0,296.5,350.0
GOOG,3.0,198.333333,77.51344,120.0,160.0,200.0,237.5,275.0
MSFT,3.0,288.0,145.161978,124.0,232.0,340.0,370.0,400.0


In [54]:
# Una de las funciones mas usadas para descripcion estadistica de un dataframe
# Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores `` NaN``.
# Transponer la descripcion
by_comp.describe().transpose()


Unnamed: 0,Company,FB,GOOG,MSFT
Sales,count,3.0,3.0,3.0
Sales,mean,257.666667,198.333333,288.0
Sales,std,85.94378,77.51344,145.161978
Sales,min,180.0,120.0,124.0
Sales,25%,211.5,160.0,232.0
Sales,50%,243.0,200.0,340.0
Sales,75%,296.5,237.5,370.0
Sales,max,350.0,275.0,400.0


In [55]:
# Descripcion estadistica de los datos de la copmañia GOOG
by_comp.describe().transpose()['GOOG']


Sales  count      3.000000
       mean     198.333333
       std       77.513440
       min      120.000000
       25%      160.000000
       50%      200.000000
       75%      237.500000
       max      275.000000
Name: GOOG, dtype: float64

## Pivot tables
Esta funcionalidad permite agrupar, ordena, calcular datos y manejar datos de una forma muy similar a a que se hace en las hojas de calculo.

In [56]:
pip install seaborn

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [57]:
import seaborn as sns # importar la libreria seaborn
# cargar dataset del titanic
titanic = sns.load_dataset('titanic')
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### Haciendo el pivot a mano

In [58]:
# 1. Agrupar por genero
# 2. Obtener los sobrevivientes
# 3. Calcular el promedio
titanic.groupby('sex')[['survived']].mean()


Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [59]:
# 1. Agrupar por genero y clase
# 2. Obtener los sobrevivientes
# 3. Calcular el promedio
# 4. Poner el resultado como una tabla (.unstack)
titanic.groupby(['sex', 'class'])['survived'].mean().unstack()


  titanic.groupby(['sex', 'class'])['survived'].mean().unstack()


class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


### Usando pivot tables

In [60]:
titanic.pivot_table('survived', index='sex', columns='class')


class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [61]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True)


class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


## Concatenar, Fusionar y Unir
Hay 3 formas de combinar dataframes, concatenar, fusionar, y unir

In [62]:
# DataFrames de ejemplo para concatenacion
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                        index=[4, 5, 6, 7]) 
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])





In [63]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [64]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [65]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenar
Las dimesiones deben coincidir a lo largo del eje con el que se esta concatenando

In [66]:
# Concatenar cada dateframe verticalmente,
# ya que coinciden los nombres de las columnas

pd.concat([df1,df2,df3], axis='index')


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [67]:
#concatenar dataframe horizontalmente, 
# como no coinciden los index observar lo que ocurre

pd.concat([df1,df2,df3], axis='columns')


Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


### Fusion
Fusiona los dataframes como una tabla SQL

In [68]:
# DataFrames de ejemplo para merging
left = pd.DataFrame({
    'Producto': ['Arepas', 'Banano', 'Cafe'],
    'Tienda': [1, 2, 1],
    'Ventas': [100, 200, 50]
})

right = pd.DataFrame({
    'Producto': ['Arepas', 'Banano', 'Cafe'],
    'Tienda': [1, 2, 1],
    'Inventario': [50, 100, 75]
})    


In [69]:
left

Unnamed: 0,Producto,Tienda,Ventas
0,Arepas,1,100
1,Banano,2,200
2,Cafe,1,50


In [70]:
right

Unnamed: 0,Producto,Tienda,Inventario
0,Arepas,1,50
1,Banano,2,100
2,Cafe,1,75


In [71]:
# how='inner' utilice la intersección de las claves de ambos marcos, similar a una combinación interna de SQL; 
# las keys son comunes
pd.merge(left,right,how='inner',on='Producto')


Unnamed: 0,Producto,Tienda_x,Ventas,Tienda_y,Inventario
0,Arepas,1,100,1,50
1,Banano,2,200,2,100
2,Cafe,1,50,1,75


In [72]:
# fusionando comparando las mismas claves que tengan comunes
pd.merge(left, right, on=['Producto'])


Unnamed: 0,Producto,Tienda_x,Ventas,Tienda_y,Inventario
0,Arepas,1,100,1,50
1,Banano,2,200,2,100
2,Cafe,1,50,1,75


In [73]:
# fusionando totalmente las dos tablas con las claves
pd.merge(left, right, how='outer', on=['Producto'])


Unnamed: 0,Producto,Tienda_x,Ventas,Tienda_y,Inventario
0,Arepas,1,100,1,50
1,Banano,2,200,2,100
2,Cafe,1,50,1,75


In [74]:
# fusionando usando las claves de la tabla right
pd.merge(left, right, how='right', on=['Producto'])


Unnamed: 0,Producto,Tienda_x,Ventas,Tienda_y,Inventario
0,Arepas,1,100,1,50
1,Banano,2,200,2,100
2,Cafe,1,50,1,75


In [75]:
# fusionando usando las claves de la tabla left
pd.merge(left, right, how='left', on=['Producto']) 


Unnamed: 0,Producto,Tienda_x,Ventas,Tienda_y,Inventario
0,Arepas,1,100,1,50
1,Banano,2,200,2,100
2,Cafe,1,50,1,75


## Datos categoricos
* La busqueda de datos categoricos es mas rapida
* Ocupan menos espacio en memoria si son string
* Se pueden obtener datos categoricos ordinales

### Creacion

In [76]:
# Creacion de una serie de datos categoricos
cate = pd.Series(["manzana", "banano", "corozo", "manzana","pera"],
        dtype="category")
cate


0    manzana
1     banano
2     corozo
3    manzana
4       pera
dtype: category
Categories (4, object): ['banano', 'corozo', 'manzana', 'pera']

In [77]:
cate.describe()


count           5
unique          4
top       manzana
freq            2
dtype: object

In [78]:
# Creando primero los datos y luego convirtiendolos en categoricos
df_cate = pd.DataFrame({"Fruta":["manzana", "banano", "corozo", "manzana","pera"]})
df_cate


Unnamed: 0,Fruta
0,manzana
1,banano
2,corozo
3,manzana
4,pera


In [79]:
df_cate["Fruta2"] = df_cate["Fruta"].astype('category')
df_cate


Unnamed: 0,Fruta,Fruta2
0,manzana,manzana
1,banano,banano
2,corozo,corozo
3,manzana,manzana
4,pera,pera


In [80]:
# Observar los tipos de datos en el dataframe
df_cate.dtypes


Fruta       object
Fruta2    category
dtype: object

In [81]:
# Crear los datos categoricos desde a declaracion de los datos
df_cate = pd.DataFrame({'A': list('abca'),
                        'B': list('bccd')},
                        dtype="category")
df_cate


Unnamed: 0,A,B
0,a,b
1,b,c
2,c,c
3,a,d


In [82]:
df_cate.dtypes


A    category
B    category
dtype: object

In [83]:
df_cate.describe()


Unnamed: 0,A,B
count,4,4
unique,3,3
top,a,c
freq,2,2


## Categoricos ordinales

In [84]:
# creacion de dataframe con datos
df_cate = pd.DataFrame({'A': list('abca'),
                        'B': list('bccd')})
df_cate


Unnamed: 0,A,B
0,a,b
1,b,c
2,c,c
3,a,d


In [85]:
# Definicion de los tipos de datos y que estan en orden
df_cate["A"] = pd.Categorical(df_cate['A'],
                            categories=['a','b','c','d'],
                            ordered=True)
df_cate


Unnamed: 0,A,B
0,a,b
1,b,c
2,c,c
3,a,d


In [86]:
df_cate["A"]


0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

In [87]:
# Los datos no tienen que ser strings para que sean categoricos
s = pd.Series([1, 2, 3, 1], dtype="category")
s


0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

In [88]:
s = s.cat.set_categories([2, 3, 1],
                        ordered=True)
s


0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

### Correcion de tipos de datos (CASTING)
Los tipos de datos son principalmente:
- numericos
- categoricos nominales
- categoricos ordinales
- booleanos
- fechas y tiempos
- texto
Y en ocasiones cuando trabajamos con dataframes las columnas no tienen el tipo de dato correcto.

In [89]:
import seaborn as sns # importar la libreria seaborn
titanic = sns.load_dataset('titanic')
titanic.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [90]:
titanic.sample(5)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
139,0,1,male,24.0,0,0,79.2,C,First,man,True,B,Cherbourg,no,True
548,0,3,male,33.0,1,1,20.525,S,Third,man,True,,Southampton,no,False
32,1,3,female,,0,0,7.75,Q,Third,woman,False,,Queenstown,yes,True
36,1,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,yes,True
724,1,1,male,27.0,1,0,53.1,S,First,man,True,E,Southampton,yes,False


### Casting de variables categoricas nominales

In [91]:
# convertir la columna sex, embarked, who, embark_town en categoricas
cols_categoricas_nom = ["sex", "embarked", "who", "embark_town"]

# ver los datos unicos de las columnas_categoricas_nom
for columna in cols_categoricas_nom:
    print(f"Valores únicos en {columna}: {titanic[columna].unique()}")


Valores únicos en sex: ['male' 'female']
Valores únicos en embarked: ['S' 'C' 'Q' nan]
Valores únicos en who: ['man' 'woman' 'child']
Valores únicos en embark_town: ['Southampton' 'Cherbourg' 'Queenstown' nan]


In [92]:
titanic[cols_categoricas_nom] = titanic[cols_categoricas_nom].astype("category")

# ver los datos unicos de las columnas_categoricas_nom
for columna in cols_categoricas_nom:
    print(f"Valores únicos en {columna}: {titanic[columna].unique()}")


Valores únicos en sex: ['male', 'female']
Categories (2, object): ['female', 'male']
Valores únicos en embarked: ['S', 'C', 'Q', NaN]
Categories (3, object): ['C', 'Q', 'S']
Valores únicos en who: ['man', 'woman', 'child']
Categories (3, object): ['child', 'man', 'woman']
Valores únicos en embark_town: ['Southampton', 'Cherbourg', 'Queenstown', NaN]
Categories (3, object): ['Cherbourg', 'Queenstown', 'Southampton']


### Casting variables categoricas ordinales

In [93]:
cols_categoricas_ord = ["pclass", "deck"]

for columna in cols_categoricas_ord:
    print(f"Valores únicos en {columna}: {titanic[columna].unique()}")


Valores únicos en pclass: [3 1 2]
Valores únicos en deck: [NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']


In [94]:
titanic["pclass"] = pd.Categorical(titanic["pclass"],
                        categories=[3, 2, 1],
                        ordered=True)
titanic["deck"] = pd.Categorical(titanic["deck"],
                        categories=list("ABCDEFG"),
                        ordered=True)


In [95]:
for columna in cols_categoricas_ord:
    print(f"Valores únicos en {columna}: {titanic[columna].unique()}")


Valores únicos en pclass: [3, 1, 2]
Categories (3, int64): [3 < 2 < 1]
Valores únicos en deck: [NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A' < 'B' < 'C' < 'D' < 'E' < 'F' < 'G']


### Casting variables booleanas

In [96]:
columnas_bool = ["alive", "alone", "survived"]

titanic[columnas_bool] = titanic[columnas_bool].astype("bool")


In [97]:
titanic.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    bool    
 1   pclass       891 non-null    category
 2   sex          891 non-null    category
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    category
 8   class        891 non-null    category
 9   who          891 non-null    category
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    category
 13  alive        891 non-null    bool    
 14  alone        891 non-null    bool    
dtypes: bool(4), category(7), float64(2), int64(2)
memory usage: 38.7 KB


## Datos faltantes (Mising data)

In [98]:
# Declaracion de data frame con algunos datos faltantes
# NaN = Not a Number
df = pd.DataFrame({'A':[1,2,np.nan],
                'B':[5,np.nan,np.nan],
                'C':[1,2,3]})
df


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


### Detectar si faltan datos

In [99]:
# verificar cuales valores son NaN o nulos (Null)
df.isna()



Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,True,False


In [100]:
# Verificar si hay datos faltantes por columna
df.isna().any()


A     True
B     True
C    False
dtype: bool

### Numero de datos faltantes

In [101]:
# Numero de datos faltantes por columna
df.isna().sum()


A    1
B    2
C    0
dtype: int64

### Eliminar datos faltantes

In [102]:
# Eliminar todas las filas que tengan datos faltantes
df.dropna(axis='index') # cuando son filas no es neceario escribir axis=0


Unnamed: 0,A,B,C
0,1.0,5.0,1


In [103]:
# Eliminar todas las columnas que tengan datos faltantes
df.dropna(axis='columns')


Unnamed: 0,C
0,1
1,2
2,3


In [104]:
# eliminar las filas que tengas 2 o mas valores NaN
df.dropna(thresh=2)


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


### Reemplazar datos faltantes

In [105]:
# Llenar los datos faltantes con el dato que nos interese
df.fillna(value='Llenar Valores') # llenar los espacios con un string
                            # puede ser una palabra, numero , etc


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Llenar Valores,2
2,Llenar Valores,Llenar Valores,3


#### Llenar los datos faltantes con un dato especifico

In [106]:
# Llenar los datos faltantes con el dato que nos interese
df.fillna(value=99) # llenar los espacios con un numero


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,99.0,2
2,99.0,99.0,3


#### Llenar los datos faltantes con el promedio

In [None]:
# Llenar los datos faltantes con el promedio de esa columna
df['A'].fillna(value=df['A'].mean())


#### Llenar los datos faltantes con el promedio de una columna especifica

In [107]:
# Llenar los datos faltantes con el promedio de esa columna
df['A'].fillna(value=df['A'].mean())


0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

####  Llenar los datos faltantes con el promedio de cada columna

In [108]:
# Llenar los datos faltantes con el promedio de cada columna
df.fillna(value=df.mean())


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,1.5,5.0,3


### Datos unicos (Unique values)

In [109]:
import pandas as pd
# crear un dataframe
df = pd.DataFrame({'col1':[1,2,3,4],
                    'col2':[444,555,666,444],
                    'col3':['abc','def','ghi','xyz']})
df.head() # solamente mostrar los primeros elementos del dataframe


Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [110]:
# valores unicos de la columna col2
df['col2'].unique()


array([444, 555, 666], dtype=int64)

In [111]:
# Numero de valores unicos en el dataframe
df['col2'].nunique()


3

In [112]:
# contar cuanto se repiten cada uno de los valores
df['col2'].value_counts()


col2
444    2
555    1
666    1
Name: count, dtype: int64

### Datos duplicados

In [113]:
datos = {'nombre': ['Jaime', 'Juan', 'Roberto', 'Juan'],
            'edad': [18, 20, 22, 20],
            'trabajo': ['Asistente', 'Manager', 'Cientifico', 'Manager']}
df_dup = pd.DataFrame(datos)
df_dup


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico
3,Juan,20,Manager


In [114]:
# Metodo para detectar los datos duplicados
# me sirve para ver si existen registros duplicados
df_dup.duplicated()


0    False
1    False
2    False
3     True
dtype: bool

In [115]:
# Contar cuantos datos duplicados existen
df_dup.duplicated().sum()


1

In [116]:
# Para remover los datos duplicados
df_dup.drop_duplicates()


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico


In [117]:
# El metodo drop_duplicates entrega el data frame sin duplicados
# Pero la funcion no es inplace, osea que el dataframe original sigue igual
df_dup


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico
3,Juan,20,Manager


In [118]:
df_dup.drop_duplicates(inplace=True)
df_dup


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico


### Duplicados por columna

In [119]:
frame_datos = {'nombre': ['Jaime', 'Juan', 'Roberto', 'Juan'],
                'edad': [18, 20, 22, 21],
                'trabajo': ['Asistente', 'Manager', 'Cientifico', 'Profesor']}
df_dup = pd.DataFrame(frame_datos)
df_dup


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico
3,Juan,21,Profesor


In [120]:
# recordar que estas funciones no son inplace
df_dup.drop_duplicates(['nombre'])


Unnamed: 0,nombre,edad,trabajo
0,Jaime,18,Asistente
1,Juan,20,Manager
2,Roberto,22,Cientifico


### Outliers
Una de las formas de eliminar los outliers es identificando cual sera el rango en el que queremos nuestros datos y limitar los datos entre ese rango

In [121]:
import seaborn as sns # importar la libreria seaborn
# cargar dataset del titanic
titanic = sns.load_dataset('titanic')
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [122]:
edad = titanic['age']
edad


0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [123]:
# Cual es la edad maxima
edad.max()


80.0

In [124]:
# Cual es la edad Minima
edad.min()


0.42

In [125]:
# Delimitaremos la edad entre 1 y 70 por fines de ejercicio
edad = edad.clip(lower=1,upper = 70)


In [126]:
edad.max()


70.0

In [127]:
edad.min()


1.0

### Tablas de contingencia (Two way tables)

In [128]:
# Crear Datos
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['infantry', 'infantry', 'cavalry', 'cavalry', 'infantry', 'infantry', 'cavalry', 'cavalry','infantry', 'infantry', 'cavalry', 'cavalry'], 
        'experience': ['veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie','veteran', 'rookie', 'veteran', 'rookie'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'experience', 'name', 'preTestScore', 'postTestScore'])
df


Unnamed: 0,regiment,company,experience,name,preTestScore,postTestScore
0,Nighthawks,infantry,veteran,Miller,4,25
1,Nighthawks,infantry,rookie,Jacobson,24,94
2,Nighthawks,cavalry,veteran,Ali,31,57
3,Nighthawks,cavalry,rookie,Milner,2,62
4,Dragoons,infantry,veteran,Cooze,3,70
5,Dragoons,infantry,rookie,Jacon,4,25
6,Dragoons,cavalry,veteran,Ryaner,24,94
7,Dragoons,cavalry,rookie,Sone,31,57
8,Scouts,infantry,veteran,Sloan,2,62
9,Scouts,infantry,rookie,Piger,3,70


In [129]:
# Tabla de contingencia por compañía y regimiento
pd.crosstab(df['regiment'], df['company'], margins=True)


company,cavalry,infantry,All
regiment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dragoons,2,2,4
Nighthawks,2,2,4
Scouts,2,2,4
All,6,6,12


In [130]:
# Tabla de contingencia de compañia y experiencia por regimiento
pd.crosstab([df['company'], df['experience']], df['regiment'],  margins=True)


Unnamed: 0_level_0,regiment,Dragoons,Nighthawks,Scouts,All
company,experience,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
cavalry,rookie,1,1,1,3
cavalry,veteran,1,1,1,3
infantry,rookie,1,1,1,3
infantry,veteran,1,1,1,3
All,,4,4,4,12


### Metodos y funciones en pandas

In [131]:
import pandas as pd
# crear un dataframe
df = pd.DataFrame({'col1':[1,2,3,4],
                    'col2':[444,555,666,444],
                    'col3':['mama   ','  papa','   HIJO  ','HiJa']})
df.head() # solamente mostrar los primeros elementos del dataframe


Unnamed: 0,col1,col2,col3
0,1,444,mama
1,2,555,papa
2,3,666,HIJO
3,4,444,HiJa


#### sum()
Suma el total de cada columna

In [132]:
# Suma total de cada Columna, si es categorico no lo suma
df.sum()


col1                            10
col2                          2109
col3    mama     papa   HIJO  HiJa
dtype: object

#### min() y max()

In [133]:
# Valor Minimo cada Columna
print(df.min())
print(df.max())


col1            1
col2          444
col3       HIJO  
dtype: object
col1          4
col2        666
col3    mama   
dtype: object


### Metodos de informacion general

In [135]:
# Cargar la base de datos 'mpg' de la libreria seaborn
import seaborn as sns

# los datos se cargan en un dataframe
data = sns.load_dataset('mpg')
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


#### head()

In [136]:
data.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


#### describe()

In [137]:
data.describe() # ver datos estadisticos de las columnas numericas


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


In [138]:
data.describe(include = 'all') # ver todos los datos incluidos los categoricos


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398,398
unique,,,,,,,,3,305
top,,,,,,,,usa,ford pinto
freq,,,,,,,,249,6
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,,
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,,
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,,
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,,
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,,
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,,


In [139]:
# Descripcion de una sola columna
data['cylinders'].describe()


count    398.000000
mean       5.454774
std        1.701004
min        3.000000
25%        4.000000
50%        4.000000
75%        8.000000
max        8.000000
Name: cylinders, dtype: float64

### Estadistica descriptiva
Estos calculos se hacen siempre en columnas, si se require hacer por filas, se debe especificar el parametro axis=1

Ejemplo:
* calculo por columna: df.mean()
* calculo por fila   : df.mean(axis="columns")

#### Medidas  de centralizacion

In [141]:
# Se tomara la columna 'mpg' para realizar los calculos
X = data['mpg']
type(X)


pandas.core.series.Series

#### Media

In [142]:
X.mean()

23.514572864321607

#### Mediana

In [144]:
# Mediana
X.median()


23.0

#### Moda

In [145]:
# Moda
X.mode()


0    13.0
Name: mpg, dtype: float64

#### Cuartiles

In [146]:
# Valores de los cuartiles
X.quantile([0, .25, .5, .75, 1])


0.00     9.0
0.25    17.5
0.50    23.0
0.75    29.0
1.00    46.6
Name: mpg, dtype: float64

### Medidas de dispersion

#### Varianza

In [147]:
# Varianza
X.var() #unbiased Normalized by N-1 by default.


61.089610774274405

#### Desviacion estandar

In [148]:
# Desviacion tipica o desviacion estandard
X.std()


7.815984312565782

#### Coeficiente de variacion

In [149]:
# Coeficiente de Variacion
X.std()/X.mean()


0.33238895546450203

### Medidas de asimetria


#### Asimetria de Fisher(skewness)
Es la medida que indica la simetria de la distribucion de una variable respecto a la media aritmetica, sin necesidad de graficas.
Los coeficientes indican si hay el mismo numero de elementos a la izquierda y derecha de la media

Existen 3 tipos de curva de distribucion:
* Asimetria negativa: La cola de la distribucion se alarga a valores inferiores a la media
* Simetrica: Hay el mismo numero de elementos de izquierda y derecha de la media.
* Asimetrica positiva: La cola de distribucion se alarga a valores superiores a la media.

In [150]:
#unbiased skew, Normalized by N-1
X.skew() 


0.45706634399491913

#### Curtosis
Esta medida determina el grado de concentracion que presentan los valores en la region central de la distribucion.
Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

In [151]:
# unbiased kurtosis over requested axis using Fisher's definition
X.kurtosis()


-0.5107812652123154

### Covarianza

In [152]:
s1 = pd.Series(np.random.randn(1000))
s2 = pd.Series(np.random.randn(1000))


In [153]:
s1.cov(s2)


-0.025094639027196365

In [154]:
# Numpy
np.cov(s1,s2)


array([[ 0.95048876, -0.02509464],
       [-0.02509464,  0.97241405]])

In [155]:
frame = pd.DataFrame(np.random.randn(1000, 5),columns=['a', 'b', 'c', 'd', 'e'])
frame.head()


Unnamed: 0,a,b,c,d,e
0,0.499849,-0.094094,1.604184,-1.080716,1.031231
1,0.776868,-0.056033,0.590348,-0.022956,0.031928
2,-1.44837,0.08308,0.559249,-0.902921,-0.222358
3,-1.042227,1.045355,-0.168918,0.361434,0.150148
4,-1.428764,-1.904445,-2.016604,1.077732,-0.853357


In [156]:
frame.cov()


Unnamed: 0,a,b,c,d,e
a,1.009833,-0.020353,0.011463,-0.008649,-0.09072
b,-0.020353,1.015555,-0.070017,-5.5e-05,0.019908
c,0.011463,-0.070017,1.022689,-0.035151,-0.023407
d,-0.008649,-5.5e-05,-0.035151,1.001558,0.025479
e,-0.09072,0.019908,-0.023407,0.025479,0.979957


### Correlacion
Existen varios metodos de correlacion

* Pearson (predeterminado)
* kendall
* spearman

In [157]:
#  Creacion de dataframe con datos aleatorios
frame = pd.DataFrame(np.random.randn(1000, 5),
                    columns=['a', 'b', 'c', 'd', 'e'])
frame.head()                     


Unnamed: 0,a,b,c,d,e
0,0.207381,1.140107,0.291974,-1.027103,0.806736
1,-1.296042,-0.506816,-0.610655,0.174875,-0.023277
2,0.097634,0.089146,2.039174,1.950184,-1.713418
3,1.854029,-0.337418,-1.075806,0.006662,1.396997
4,0.81302,-0.638845,-0.038826,-0.304283,0.758953


#### Entre series

In [164]:
frame['a'].corr(frame['b']) # Pearson que es el predeterminado


0.056125393678341774

In [165]:
pip install scipy


Collecting scipyNote: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip



  Obtaining dependency information for scipy from https://files.pythonhosted.org/packages/c6/a1/357e4cd43af2748e1e0407ae0e9a5ea8aaaa6b702833c81be11670dcbad8/scipy-1.11.4-cp312-cp312-win_amd64.whl.metadata
  Downloading scipy-1.11.4-cp312-cp312-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.4 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.4 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.4 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.4 kB ? eta -:--:--
     ------ --------------------------------- 10.2/60.4 kB ? eta -:--:--

In [166]:
frame['a'].corr(frame['b'], method='spearman') # Metodo spearman


0.04815865215865216

In [167]:
frame['a'].corr(frame['b'], method='kendall') # Metodo Kendall


0.03234834834834835

In [168]:
frame.corr()


Unnamed: 0,a,b,c,d,e
a,1.0,0.056125,0.02421,-0.005499,-0.00765
b,0.056125,1.0,0.007777,-0.009033,-0.000781
c,0.02421,0.007777,1.0,-0.001434,-0.05074
d,-0.005499,-0.009033,-0.001434,1.0,-0.04305
e,-0.00765,-0.000781,-0.05074,-0.04305,1.0


In [169]:
# con Numpy
np.corrcoef(frame)


array([[ 1.        , -0.30647049, -0.65411155, ...,  0.29616673,
         0.29013432, -0.83433691],
       [-0.30647049,  1.        ,  0.02183588, ...,  0.71342068,
        -0.59432049, -0.22950743],
       [-0.65411155,  0.02183588,  1.        , ..., -0.66660793,
        -0.63905691,  0.61597841],
       ...,
       [ 0.29616673,  0.71342068, -0.66660793, ...,  1.        ,
        -0.0088048 , -0.63793483],
       [ 0.29013432, -0.59432049, -0.63905691, ..., -0.0088048 ,
         1.        ,  0.11039718],
       [-0.83433691, -0.22950743,  0.61597841, ..., -0.63793483,
         0.11039718,  1.        ]])

### Funciones agregadas
permite aplicar una o mas funciones en cada columna

In [None]:

df.agg(['sum', 'min'])


In [171]:
# Aplicar los metodos en columnas especificas
df[['col1','col2']].agg(['sum', 'min'])


Unnamed: 0,col1,col2
sum,10,2109
min,1,444


### Aplicando funciones a cada elemento

In [172]:
#definicion de funcion
def times2(x:float)->float:
    return x*2


In [173]:
# es mas o menos lo que hace la funcion map
# aplicar la funcion times2 a cada elemento de la col1 de dataframe df
df['col1'].apply(times2)


0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [174]:
df['col3'].apply(len) #longitud de cada uno de los datos de la col3


0    7
1    6
2    9
3    4
Name: col3, dtype: int64

In [175]:
df['col1'].sum() #sumatoria total de los elementos de la col1


10

#### Ordenando un dataframe

In [176]:
df


Unnamed: 0,col1,col2,col3
0,1,444,mama
1,2,555,papa
2,3,666,HIJO
3,4,444,HiJa


In [177]:
# ordenar el dataframe de menor a mayor basado en col2
df.sort_values(by='col2') #inplace=False por default


Unnamed: 0,col1,col2,col3
0,1,444,mama
3,4,444,HiJa
1,2,555,papa
2,3,666,HIJO


In [178]:
df.sort_values(by='col2',ascending=False)


Unnamed: 0,col1,col2,col3
2,3,666,HIJO
1,2,555,papa
0,1,444,mama
3,4,444,HiJa


### Metodos de string
Los metodos de string no son inplace

In [179]:
df

Unnamed: 0,col1,col2,col3
0,1,444,mama
1,2,555,papa
2,3,666,HIJO
3,4,444,HiJa


In [180]:
# convertir strings en minuscula
df['col3'].str.lower()


0      mama   
1         papa
2       hijo  
3         hija
Name: col3, dtype: object

In [181]:
# Eliminar los espacios de los strings
df['col3'].str.strip()


0    mama
1    papa
2    HIJO
3    HiJa
Name: col3, dtype: object

### Transformacion de variables
* Crear variables Dummy: convertir de categoría a númerica
* Discretización o Binning: convertir de número a categoría

#### Columnas dummy

In [182]:
# crear datos categoricos
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'], 
        'sex': ['male', 'female', 'male', 'female', 'female']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'sex'])
df


Unnamed: 0,first_name,last_name,sex
0,Jason,Miller,male
1,Molly,Jacobson,female
2,Tina,Ali,male
3,Jake,Milner,female
4,Amy,Cooze,female


In [183]:
# Crear un set de variables dummy para la columna sex
df_sex = pd.get_dummies(df['sex'])
df_sex


Unnamed: 0,female,male
0,False,True
1,True,False
2,False,True
3,True,False
4,True,False


In [184]:
# unir los dos dataframes
df_new = df.join(df_sex)
df_new


Unnamed: 0,first_name,last_name,sex,female,male
0,Jason,Miller,male,False,True
1,Molly,Jacobson,female,True,False
2,Tina,Ali,male,False,True
3,Jake,Milner,female,True,False
4,Amy,Cooze,female,True,False


#### Discretizacion o binning

In [185]:
# dividir los datos en 3 rangos iguales (categorias)

pd.cut(np.array([3.5, 2.8, 1, 5, 3, 4, 0, 4.4, 2, 3]), 3)


[(3.333, 5.0], (1.667, 3.333], (-0.005, 1.667], (3.333, 5.0], (1.667, 3.333], (3.333, 5.0], (-0.005, 1.667], (3.333, 5.0], (1.667, 3.333], (1.667, 3.333]]
Categories (3, interval[float64, right]): [(-0.005, 1.667] < (1.667, 3.333] < (3.333, 5.0]]

In [186]:
# Asignar etiquetas ordenadas
pd.cut(np.array([3.5, 2.8, 1, 5, 3, 4,0, 4.4, 2, 3]),
        3, labels=["Malo", "Regular", "Bien"])


['Bien', 'Regular', 'Malo', 'Bien', 'Regular', 'Bien', 'Malo', 'Bien', 'Regular', 'Regular']
Categories (3, object): ['Malo' < 'Regular' < 'Bien']

In [187]:
pd.cut(np.array([2, 4 , 10 , 35 , 25 , 60 , 23, 14]),
        3, labels=["Niño", "Adolescente", "Adulto"])


['Niño', 'Niño', 'Niño', 'Adolescente', 'Adolescente', 'Adulto', 'Adolescente', 'Niño']
Categories (3, object): ['Niño' < 'Adolescente' < 'Adulto']

### Leer y guardar datos (Data inputs and outputs)
Pandas puede leer una variedad de archivos usando sus metodos pd.read_

* CSV
* Parquet
* Excel
* JSON
* html
* SQL

#### CSV


In [None]:
# Leer
df_supermarket_csv = pd.read_csv('supermarkets.csv')
df_supermarket_csv

# guardar
# Grabar el dataframe como archivo separado por comas
df_supermarket_csv.to_csv('example_out.csv',index=False)


#### Parquet
Este es un formato de archivo binario de columna que es muy bueno para compartir datos. Es muy eficiente en el espacio y el tiempo de lectura.

Es el formato recomendado para compartir datos.

Para poder usarlo con pandas 1.5.3 es necesario instalar la libreria pyarrow

pip install pyarrow

Con la nueva version de pandas 2.x.x ya no es necesario instalar la libreria pyarrow

In [None]:
# Leer archivos separados por comas, extension .csv
df_supermarket_parquet = pd.read_parquet('supermarkets.parquet')
df_supermarket_parquet
# Grabar el dataframe como archivo parquet
df_supermarket_parquet.to_parquet('example_out.parquet')



#### Archivo de texto separado por otro caracter

In [None]:
# este archivo los valores estan separados por ;
df_supermarket = pd.read_csv("supermarkets-semi-colons.txt",sep=';')
df_supermarket


#### Excel
Pandas solo puede importar datos, si el archivo tiene formulas, imagenes o macros puede hacer que se bloquee.

In [None]:
# leer un archivo de excel
df2 = pd.read_excel("supermarkets.xlsx",sheet_name=0) #leer la primera hoja del archivo
df2
df2.to_excel('Excel_Sample_out.xlsx',sheet_name='Hoja1')


#### JSON

In [None]:
# los archivos pueden estar en un link de internet
df4 = pd.read_json("http://pythonhow.com/supermarkets.json")
df4
#Para grabar
df4.to_json("Salida.json")



#### HTML

In [None]:
data = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')


#### SQL
El módulo pandas.io.sql proporciona una colección de contenedores de consultas para facilitar la recuperación de datos y reducir la dependencia de la API específica de DB. La abstracción de la base de datos es proporcionada por SQLAlchemy si está instalado. Además, necesitará una biblioteca de controladores para su base de datos. Ejemplos de tales controladores son psycopg2 para PostgreSQL o pymysql para MySQL. Para SQLite esto está incluido en la biblioteca estándar de Python por defecto.

read_sql_table(table_name, con[, schema, …])
Read SQL database table into a DataFrame.
read_sql_query(sql, con[, index_col, …])
Read SQL query into a DataFrame.
read_sql(sql, con[, index_col, …])
Read SQL query or database table into a DataFrame.
DataFrame.to_sql(name, con[, flavor, …])
Write records stored in a DataFrame to a SQL database.

In [None]:
# librerias para crear un proceso de sql sencillo
from sqlalchemy import create_engine
# crear un proceso en memoria
engine = create_engine('sqlite:///:memory:')
df4.to_sql('data', engine) # grabar el dataframe en formato sql
sql_df = pd.read_sql('data',con=engine) # definir la conexion
sql_df

