# Pandas pada Psicólogos
![](https://numfocus.org/wp-content/uploads/2016/07/pandas-logo-300.png)

[pandas - Python Data Analysis Library](https://pandas.pydata.org/docs/)

# Numpy para Psicólogos
![](https://user-images.githubusercontent.com/50221806/85190325-2b3f4400-b26c-11ea-93f3-81a101614a88.png)

[Numerical Python](https://numpy.org/)

## Introducción a los DataSets

In [None]:
import pandas as pd
import numpy as np
# librería "glob" — Busca nombres de archivos que coincidan con un patrón.
from glob import glob as gg
# Libería "tqdm" para ver el progreso del o de los procesos
from tqdm import tqdm
# Para que "tqdm" funcione
import time

## 1er Dataset. Datos Inventados

In [None]:
# Búsqueda de las Bases
files_xlsx = gg('*.xlsx')
files_xlsx

In [None]:
xlsx1 = pd.read_excel(files_xlsx[0])
xlsx1.head()
# ¿El ID lo queremos como índice?

In [None]:
xlsx1 = pd.read_excel(files_xlsx[0], index_col='ID')
print(xlsx1.head())
#print(' ')
#print(xlsx1.tail())

In [None]:
# Número de observaciones que tiene el dataset
xlsx1.shape #(filas, columnas)

In [None]:
xlsx1.shape[0] #quiero solo las filas

In [None]:
xlsx1.shape[1] #quiero solo las columnas

In [None]:
# Pero deseo toda la información
xlsx1.info() #¿Cómo interpretar esta información?

In [None]:
# Quiero saber solo las filas
xlsx1.index

In [None]:
# Quiero solo saber los nombres de las columnas
xlsx1.columns

In [None]:
print(xlsx1.Var1.unique())
print(' ')
print(list(xlsx1.Var1.unique()))

In [None]:
# Quiero saber los valores que convierte la columna Var1 en objeto
objetos = [tipo for tipo in xlsx1.Var1.unique() if type(tipo) == str]
objetos

In [None]:
objetos = []
for tipo in xlsx1.Var1.unique():
    if type(tipo) == str:
        objetos.append(tipo)
objetos

In [None]:
objetos = [tipo for tipo in xlsx1.Var5.unique() if type(tipo) == str]
objetos

In [None]:
objetos = []
for tipo in xlsx1.Var5.unique():
    if type(tipo) == str:
        objetos.append(tipo)
objetos

In [None]:
xlsx1.columns

In [None]:
# Hacerlo por cada uno toma mucho recurso de tiempo ¿Cómo mejoramos esto?
objetos = []
for columna in xlsx1.columns:
    print('En la columna {}'.format(columna))
    for tipo in xlsx1[columna].unique():
        if type(tipo) == str:
            print(tipo)
            print(' ')
            objetos.append(tipo)
            
objetos

In [None]:
objetos = set(objetos)
objetos

In [None]:
objetos = list(set(objetos))
objetos

In [None]:
objetos

In [None]:
lista1 = objetos
lista2 = np.empty(len(lista1))
print(lista2)

In [None]:
lista2[:] = np.nan
print(lista2)

In [None]:
objetos3 = zip(lista1, lista2)
objetos4 = dict(objetos3)
objetos4

In [None]:
# Como debe de verse
objetos = []
for columna in xlsx1.columns:
    for tipo in xlsx1[columna].unique():
        if type(tipo) == str:
            objetos.append(tipo)
            
lista1 = list(set(objetos))
lista2 = np.empty(len(lista1))
lista2[:] = np.nan
objetos = dict(zip(lista1, lista2))
objetos

In [None]:
xlsx1

In [None]:
xlsx1 = xlsx1.replace(objetos)
xlsx1

## ¿Se acuerdan de las demás bases?

In [None]:
print(files_xlsx)

### ¿Qué función aplicamos y cómo lo aplicamos para que haga todo de una buena vez?
#### ¿Se acuerdan del "Ciclo FOR"?

In [None]:
print(files_xlsx[0])
print(pd.read_excel(files_xlsx[0], index_col='ID').head())
print(' ')
print(files_xlsx[1])
print(pd.read_excel(files_xlsx[1], index_col='ID').head())
print(' ')
print(files_xlsx[2])
print(pd.read_excel(files_xlsx[2], index_col='ID').head())

In [None]:
for base in files_xlsx:
    print(base)

In [None]:
for mi_base in tqdm(files_xlsx):
    print('Se arreglará el archivo {} como usted lo pidió'.format(mi_base))
    xlsx = pd.read_excel(mi_base, index_col='ID')
    objetos = []
    for columna in xlsx.columns:
        for tipo in xlsx[columna].unique():
            if type(tipo) == str:
                objetos.append(tipo)

    lista1 = list(set(objetos))
    lista2 = np.empty(len(lista1))
    lista2[:] = np.nan
    objetos = dict(zip(lista1, lista2))
    time.sleep(0.01)

In [None]:
# ¿Son todos los objetos de todas las bases?
objetos

In [None]:
# ¿Porqué está dando solo el archivo "Ejemplo3.xlsx?"
# ¿Y los demás?
xlsx

In [None]:
xlsx.replace(objetos)

## Vamonos despacito

In [None]:
## Este script solo es para obtener los objetos

objetos = [] # Para los objetos que no nos sirve

for mi_base in tqdm(files_xlsx):
    print('Se arreglará el archivo {} como usted lo pidió'.format(mi_base))
    xlsx = pd.read_excel(mi_base, index_col='ID')
    for columna in xlsx.columns:
        for tipo in xlsx[columna].unique():
            if type(tipo) == str:
                objetos.append(tipo)
    time.sleep(0.01)

In [None]:
# Aquí hacemos nuestro diccionario de objetos a quitar
lista1 = list(set(objetos))
lista2 = np.empty(len(lista1))
lista2[:] = np.nan
objetos = dict(zip(lista1, lista2))

In [None]:
objetos

In [None]:
import pandas as pd
import numpy as np
from glob import glob as gg

In [None]:
files_xlsx = gg('*.xlsx')
files_xlsx

In [None]:
## Concatenando bases
x1 = pd.read_excel(files_xlsx[0], index_col='ID')
print(x1.axes)
print(x1.shape)
print(' ')
x2 = pd.read_excel(files_xlsx[1], index_col='ID')
print(x2.axes)
print(x2.shape)
print(' ')
x3 = pd.read_excel(files_xlsx[2], index_col='ID')
print(x3.axes)
print(x3.shape)

In [None]:
xlsx = pd.concat([x1, x2, x3])
xlsx
## ¿Qué pasó aquí?

In [None]:
xlsx = pd.concat([x1, x2, x3], axis=1)
xlsx
## ¿Por qué se tiene que colocar el argumento de "axis=1"?

In [None]:
xlsx.columns

In [None]:
xlsx.info()

In [None]:
objetos = [] # Para los objetos que no nos sirve

for columna in xlsx.columns:
    for tipo in xlsx[columna].unique():
        if type(tipo) == str:
            objetos.append(tipo)
time.sleep(0.01)
# Aquí hacemos nuestro diccionario de objetos a quitar
lista1 = list(set(objetos))
lista2 = np.empty(len(lista1))
lista2[:] = np.nan
objetos = dict(zip(lista1, lista2))

In [None]:
## Reemplazamos los objetos
xlsx = xlsx.replace(objetos)
xlsx

In [None]:
xlsx.info()

In [None]:
## Queremos ordenar las variables
xlsx = xlsx.sort_index(axis=1)
xlsx.axes
#¿Por qué las columnas están de manera diferente?

In [None]:
xlsx.describe()

In [None]:
# Ver por separado los descriptivos
conteo = xlsx.count()
print(conteo)

In [None]:
tiene_nans = xlsx.isna()
print(tiene_nans)

In [None]:
cuantos_nan = xlsx.isna().sum()
print(cuantos_nan)

In [None]:
conteo + cuantos_nan

In [None]:
xlsx.mean(axis=1)

In [None]:
xlsx.median(axis=1)

In [None]:
xlsx.mode()

In [None]:
xlsx.iloc[:, 0].mean()

In [None]:
xlsx.describe()

In [None]:
xlsx.quantile(.99)

In [None]:
xlsx.sem()

In [None]:
xlsx.corr()

In [None]:
# Guardar los descriptivos en EXCEL
xlsx.describe().to_excel('Descrip_Ejemplo.xlsx')

In [None]:
descriptivos_pa_mi = xlsx.describe()
descriptivos_pa_mi.to_excel('Descrip_pa_mi.xlsx', sheet_name='Descrip')

In [None]:
# Queremos guardar muchas cosas
## Base Completa
## Media
## Mediana
## Correlación
## Etc

In [None]:
with pd.ExcelWriter('Nuevo_descrip_flora.xlsx') as writer:
    xlsx.to_excel(writer, 'Base Completa')
    xlsx.describe().to_excel(writer, 'Descriptivos')
    xlsx.mean().to_excel(writer, 'Media')

In [None]:
with pd.ExcelWriter('Descrip_Otro_Ejemplo.xlsx') as writer:
    xlsx.to_excel(writer, 'Base Completa')
    xlsx.mean().to_excel(writer, 'Media')
    xlsx.median().to_excel(writer, 'Mediana')
    xlsx.corr().to_excel(writer, 'Correlación')

In [None]:
with pd.ExcelWriter('Bases todas.xlsx') as todas:
    xlsx.to_excel(todas, 'Basesota')

In [None]:
xlsx.plot()

In [None]:
# ¿Cómo ploteamos todo?
xlsx.mean().plot()

In [None]:
# Aumento del tamaño
xlsx.mean().plot(figsize=(15, 8))

In [None]:
# Como arreglamos bonito esta gráfica
import matplotlib.pyplot as plt

In [None]:
list(range(len(xlsx.columns)))
print(xlsx.columns)

In [None]:
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns)) #checar plt.xticks

In [None]:
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical')

In [None]:
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation=80)

In [None]:
# Agregar etiqueta en los ejes
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical')
plt.xlabel('Columnas')
plt.ylabel('Datos de las columnas')

In [None]:
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical')
plt.xlabel('Columnas', fontsize=20)
plt.ylabel('Datos de las columnas', fontsize=20)

In [None]:
# Aumento del tamaño de las ticks
xlsx.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical', fontsize=15)
plt.yticks(fontsize=15)
plt.xlabel('Columnas', fontsize=20)
plt.ylabel('Datos de las columnas', fontsize=20)


In [None]:
list(range(int(xlsx.mean().min()) - 100, int(xlsx.mean().max()) + 100, 100))

In [None]:
xlsx.mean().min() - 100

In [None]:
# Aumento del tamaño de las ticks
xlsx.mean().plot(figsize=(15, 8), color='r')
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical', fontsize=15)
plt.xlabel('Columnas', fontsize=20)
plt.ylabel('Datos de las columnas', fontsize=20)
plt.yticks(range(int(xlsx.mean().min()) - 100, int(xlsx.mean().max()) + 100, 100), fontsize=15)
plt.grid()

In [None]:
# Guardar gráficas
xlsx.mean().plot(figsize=(15, 8), color='r')
plt.xticks(range(len(xlsx.columns)), list(xlsx.columns), rotation='vertical', fontsize=15)
plt.xlabel('Columnas', fontsize=20)
plt.ylabel('Datos de las columnas', fontsize=20)
plt.yticks(range(int(xlsx.mean().min()) - 100, int(xlsx.mean().max()) + 100, 100), fontsize=15)
plt.grid()
plt.savefig('Gráfica de ejemplo.png', bbox_inches='tight', dpi=1000)
plt.show()

In [None]:
# Las columnas no tienen orden ¿Cómo se ordenan?
## Uso de iloc
for n, c in enumerate(xlsx.columns):
    print(n, c)

In [None]:
columnas_ordenadas = sorted(xlsx.columns, key=lambda x:len(x))

for n, c in enumerate(columnas_ordenadas):
    print(n, c)

In [None]:
xlsx_iloc1 = xlsx.iloc[:, [0, 11, 22, 24, 25, 26, 27, 28, 29, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 23]]
xlsx_iloc1#.columns

In [None]:
xlsx_iloc1

In [None]:
xlsx_iloc1.corr()

In [None]:
# ¿Cómo graficamos esta correlación?
import seaborn as sns; sns.set()

In [None]:
xlsx_iloc1.head()

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1)

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1.corr(), vmin=0, vmax=1)

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1, center=0)

In [None]:
plt.figure(figsize=(20, 18))
ax = sns.heatmap(xlsx_iloc1.corr(), annot=True, fmt='f')

In [None]:
plt.figure(figsize=(20, 18))
ax = sns.heatmap(xlsx_iloc1.round(1), annot=True, fmt='f')

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1, linewidths=.5)

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1, vmin=0, vmax=1, linewidths=.5)

In [None]:
plt.figure(figsize=(15, 8))
ax = sns.heatmap(xlsx_iloc1, vmin=0, vmax=1)

In [None]:
# ¿Cómo se usa el loc?

In [None]:
xlsx.head()

In [None]:
xlsx.columns

In [None]:
columnas_ordenadas

In [None]:
xlsx_loc1 = xlsx.loc[:, columnas_ordenadas]
xlsx_loc1.head()

In [None]:
xlsx_loc1.mean().plot(figsize=(15, 8))

In [None]:
xlsx_loc1.mean().plot(figsize=(15, 8))
plt.xticks(range(len(xlsx_loc1.columns)), list(xlsx_loc1.columns), rotation='vertical', fontsize=15)
plt.xlabel('Columnas', fontsize=20)
plt.ylabel('Datos de las columnas', fontsize=20)
plt.yticks(range(-2000, 2001, 500), fontsize=15)

## Hagamos el ejercicio juntos

In [None]:
# ¿Qué tengo que escribir?
files_xlsx = sorted(gg('*.xlsx'))
files_xlsx = files_xlsx[4:7]
files_xlsx

In [None]:
file_xslx = pd.concat([pd.read_excel(files_xlsx[0], index_col='ID'), pd.read_excel(files_xlsx[1], index_col='ID'), pd.read_excel(files_xlsx[2], index_col='ID')], axis=1)
file_xslx.columns

In [None]:
columnas_ordenadas = sorted(file_xslx.columns, key=lambda x:len(x))
file_xslx = file_xslx.loc[:, columnas_ordenadas]

In [None]:
for columna in file_xslx.columns:
    file_xslx[columna] = pd.to_numeric(file_xslx[columna], errors='coerce')

In [None]:
file_xslx#.describe()

## 2do Dataset. Datos de la Comunidad.

In [None]:
from glob import glob as gg
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import pandas.plotting as pdplt

In [None]:
files_csv = sorted(gg('*.csv'))
files_csv

In [None]:
iris = pd.read_csv(files_csv[0])
iris

In [None]:
iris.columns = iris.columns.str.replace('.', '_')
iris

In [None]:
iris.info()

In [None]:
iris.axes

In [None]:
iris.head()

In [None]:
iris.tail()

In [None]:
# ¿Qué es un Series? y ¿Qué es un DataFrame?
# Uso del método iloc y loc


### Método iloc

## SERIES
ejemplo = iris.iloc[0] # solo valores de la fila
#ejemplo = iris.iloc[0, 0] # solo valores de la fila y la columna
#ejemplo = iris.iloc[:, 0] # solo valores de toda la fila y 1 columna

## DATAFRAME
#ejemplo = iris.iloc[:, 0:1] # No es lo mismo que [:, 0]
#ejemplo = iris.iloc[:20, 0:2]

In [None]:
print(iris.head())
print(' ')
print(type(ejemplo))
ejemplo

In [None]:
### Método loc

## SERIES
#ejemplo = iris.loc[0] # solo valores de la fila
## ¿Por qué si tiene número?

ejemplo = iris.loc[0, 'sepal_length'] # solo valores de la fila y la columna
#ejemplo = iris.iloc[:, 'sepal_width'] # solo valores de toda la fila y 1 columna

## DATAFRAME
#ejemplo = iris.iloc[:, 'sepal_length':'sepal_width'] # No es lo mismo que [:, 'sepal_length']
#ejemplo = iris.iloc[:20, 'sepal_length':'petal_length']

In [None]:
print(iris.axes)
print(' ')
print(iris.head())
print(' ')
print(type(ejemplo))
print(' ')
ejemplo

In [None]:
## PARA QUE QUEDE MÁS CLARO
indice_uno = ('Uno ' * round((len(iris.index)/3))).split()
indice_dos = ('Dos ' * round((len(iris.index)/3))).split()
indice_tres = ('Tres ' * round((len(iris.index)/3))).split()

In [None]:
indice_nuevo = indice_uno + indice_dos + indice_tres
print(indice_nuevo)

In [None]:
iris.index = indice_nuevo
iris

In [None]:
### Método loc

## SERIES
ejemplo = iris.loc['Uno'] # solo valores de la fila

#ejemplo = iris.loc['Dos', 'sepal_length'] # solo valores de la fila y la columna
#ejemplo = iris.loc[:, 'sepal_width'] # solo valores de toda la fila y 1 columna

## DATAFRAME
#ejemplo = iris.loc['Uno':'Dos', 'sepal_length':'sepal_width'] # No es lo mismo que [:, 'sepal_length']
#ejemplo = iris.loc[:20, 'sepal_length':'petal_length'] # ¿Por qué no sale?

In [None]:
print(iris.axes)
print(' ')
print(type(ejemplo))
print(' ')
ejemplo

In [None]:
## ¿Cómo saber cuantos tipos de "variety" hay?
variedad = iris.variety.unique()
variedad

In [None]:
## Flitrar las bases
# Por la columna "variety"

setosa = iris.loc[iris['variety'] == 'Setosa']
versicolor = iris.loc[iris['variety'] == 'Versicolor']
virginica = iris.loc[iris['variety'] == 'Virginica']

In [None]:
setosa

In [None]:
plt.figure(figsize=(20, 16), dpi=80)
sns.FacetGrid(iris, hue="variety", size=3).map(sns.distplot,"petal_length").add_legend()
sns.FacetGrid(iris, hue="variety", size=3).map(sns.distplot,"petal_width").add_legend()
sns.FacetGrid(iris, hue="variety", size=3).map(sns.distplot,"sepal_length").add_legend()
sns.FacetGrid(iris, hue="variety", size=3).map(sns.distplot,"sepal_width").add_legend()
plt.show()

In [None]:
plt.figure(figsize=(10, 8))
sns.boxplot(x="variety", y="petal_length", data=iris)
plt.show()

In [None]:
plt.figure(figsize=(10, 8))
sns.violinplot(x="variety",y="petal_length",data=iris)
plt.show()

In [None]:
plt.figure(figsize=(15, 13))
sns.set_style("whitegrid")
sns.pairplot(iris, hue="variety", size=3);
plt.show()

In [None]:
## Pandas tiene su propia libería para plotear
iris.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(10, 8))
plt.show()

In [None]:
iris.plot.box(subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(10, 8))
plt.show()

In [None]:
iris.hist(figsize=(10, 8))

In [None]:
pdplt.scatter_matrix(iris[iris.columns[0:4]], figsize=(15, 12))
plt.show()

In [None]:
# Agrupandolos
por_tipo_media = iris.groupby('variety').mean()
print(por_tipo_media)

In [None]:
por_tipo_corr = iris.groupby('variety').corr() # method{'pearson', 'kendall', 'spearman'}
print(por_tipo_corr)

In [None]:
iris.groupby('variety').plot(figsize=(10, 8))

In [None]:
# ¿Cómo graficamos esta correlación?
plt.figure(figsize=(10, 8))
sns.heatmap(iris.iloc[:, :4])#, vmin=0, vmax=1)

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(setosa.iloc[:, :4])#, vmin=0, vmax=1)

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(setosa.iloc[:, :4])#, vmin=0, vmax=1)#, annot=True)

In [None]:
iris

## Estadística para el dataset de IRIS

In [1]:
from glob import glob as gg
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import pandas.plotting as pdplt
import scipy.stats as spss
from statsmodels.formula.api import ols

In [2]:
find_files = sorted(gg('*.csv'))

In [3]:
# base de datos iris
iris = pd.read_csv(find_files[0])
iris.columns = iris.columns.str.replace('.', '_')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### Comparaciones

In [4]:
# Saber si tiene distribución normal
spss.normaltest(iris["sepal_length"])

NormaltestResult(statistic=5.735584236235733, pvalue=0.05682424941067306)

In [5]:
valor, pvalor = spss.normaltest(iris["sepal_length"])
print(valor)
print(pvalor)

5.735584236235733
0.05682424941067306


In [6]:
print(iris.columns)
print(iris.columns[:-1])

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'variety'],
      dtype='object')
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], dtype='object')


In [7]:
normalidad = []
for col in iris.columns[:-1]:
    valor, pvalor = spss.normaltest(iris[col])
    normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {}'.format(col, valor, pvalor))
normalidad

['Columna -> sepal_length, Valor estadístico = 5.735584236235733, p-value = 0.05682424941067306',
 'Columna -> sepal_width, Valor estadístico = 3.1238322481520377, p-value = 0.2097338099298262',
 'Columna -> petal_length, Valor estadístico = 221.68729405585384, p-value = 7.264667501338673e-49',
 'Columna -> petal_width, Valor estadístico = 137.55596543193647, p-value = 1.3492785927137586e-30']

In [8]:
normalidad = []
for col in iris.columns[:-1]:
    valor, pvalor = spss.normaltest(iris[col])
    normalidad.append('Columna -> {}\nValor estadístico = {}\np-value = {}\n\n'.format(col, valor, pvalor))
normalidad

['Columna -> sepal_length\nValor estadístico = 5.735584236235733\np-value = 0.05682424941067306\n\n',
 'Columna -> sepal_width\nValor estadístico = 3.1238322481520377\np-value = 0.2097338099298262\n\n',
 'Columna -> petal_length\nValor estadístico = 221.68729405585384\np-value = 7.264667501338673e-49\n\n',
 'Columna -> petal_width\nValor estadístico = 137.55596543193647\np-value = 1.3492785927137586e-30\n\n']

In [9]:
normalidad = []
for col in iris.columns[:-1]:
    valor, pvalor = spss.normaltest(iris[col])
    if pvalor <= 0.05:
        normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Presenta normalidad en los datos.'.format(col, valor, pvalor))
    else:
        normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Anormalidad en los datos.'.format(col, valor, pvalor))
normalidad

['Columna -> sepal_length, Valor estadístico = 5.735584236235733, p-value = 0.05682424941067306 -> Anormalidad en los datos.',
 'Columna -> sepal_width, Valor estadístico = 3.1238322481520377, p-value = 0.2097338099298262 -> Anormalidad en los datos.',
 'Columna -> petal_length, Valor estadístico = 221.68729405585384, p-value = 7.264667501338673e-49 -> Presenta normalidad en los datos.',
 'Columna -> petal_width, Valor estadístico = 137.55596543193647, p-value = 1.3492785927137586e-30 -> Presenta normalidad en los datos.']

In [11]:
normalidad = []
anormalidad = []
for col in iris.columns[:-1]:
    valor, pvalor = spss.normaltest(iris[col])
    if pvalor <= 0.05:
        normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Presenta normalidad en los datos.'.format(col, valor, round(pvalor, 3)))
    else:
        anormalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Anormalidad en los datos.'.format(col, valor, round(pvalor, 3)))

In [14]:
for normal in normalidad:
    print(normal)
print(' ')
for anormal in anormalidad:
    print(anormal)

Columna -> petal_length, Valor estadístico = 221.68729405585384, p-value = 0.0 -> Presenta normalidad en los datos.
Columna -> petal_width, Valor estadístico = 137.55596543193647, p-value = 0.0 -> Presenta normalidad en los datos.
 
Columna -> sepal_length, Valor estadístico = 5.735584236235733, p-value = 0.057 -> Anormalidad en los datos.
Columna -> sepal_width, Valor estadístico = 3.1238322481520377, p-value = 0.21 -> Anormalidad en los datos.


In [None]:
help(spss.ttest_ind)

In [15]:
# Suponiendo que las variables de IRIS sean teoricamente correlacionadas

spss.ttest_ind(iris['petal_length'], iris['sepal_width'])

Ttest_indResult(statistic=4.719421473851404, pvalue=3.643008092240217e-06)

In [16]:
estadistico, p_value = spss.ttest_ind(iris['petal_length'], iris['sepal_width'])
print(estadistico)
print(p_value)

4.719421473851404
3.643008092240217e-06


In [17]:
estadistico, p_value = spss.ttest_ind(iris['petal_length'], iris['sepal_width'])
if p_value <= 0.05:
    print('P value es de {}: Hay comparación.'.format(round(p_value, 3)))
else:
    print('P value es de {}: Ni de broma.'.format(round(p_value, 3)))

P value es de 0.0: Hay comparación.


In [18]:
comparacion = []
for col1 in iris.columns[:-1]:
    for col2 in iris.columns[:-1]:
        estadistico, p_value = spss.ttest_ind(iris[col1], iris[col2])
        comparacion.append('{} - {} = Estadístico: {}, P Value: {}'.format(col1, col2, estadistico, round(p_value, 3)))
comparacion

['sepal_length - sepal_length = Estadístico: 0.0, P Value: 1.0',
 'sepal_length - sepal_width = Estadístico: 36.463283934449116, P Value: 0.0',
 'sepal_length - petal_length = Estadístico: 13.09835310896086, P Value: 0.0',
 'sepal_length - petal_width = Estadístico: 50.53601510214771, P Value: 0.0',
 'sepal_width - sepal_length = Estadístico: -36.463283934449116, P Value: 0.0',
 'sepal_width - sepal_width = Estadístico: 0.0, P Value: 1.0',
 'sepal_width - petal_length = Estadístico: -4.719421473851404, P Value: 0.0',
 'sepal_width - petal_width = Estadístico: 25.916012615382527, P Value: 0.0',
 'petal_length - sepal_length = Estadístico: -13.09835310896086, P Value: 0.0',
 'petal_length - sepal_width = Estadístico: 4.719421473851404, P Value: 0.0',
 'petal_length - petal_length = Estadístico: 0.0, P Value: 1.0',
 'petal_length - petal_width = Estadístico: 16.297385118572553, P Value: 0.0',
 'petal_width - sepal_length = Estadístico: -50.53601510214771, P Value: 0.0',
 'petal_width - se

In [19]:
comparacion = []
for tipo in iris.variety.unique():
    por_tipo = iris.loc[iris['variety'] == tipo]
    for col1 in por_tipo.columns[:-1]:
        for col2 in por_tipo.columns[:-1]:
            estadistico, p_value = spss.ttest_ind(por_tipo[col1], por_tipo[col2])
            if p_value <= 0.05:
                comparacion.append('{}: {} - {} = Estadístico: {}, P Value: {}'.format(tipo, col1, col2, round(estadistico, 3), round(p_value, 3)))
comparacion

['Setosa: sepal_length - sepal_width = Estadístico: 21.556, P Value: 0.0',
 'Setosa: sepal_length - petal_length = Estadístico: 63.774, P Value: 0.0',
 'Setosa: sepal_length - petal_width = Estadístico: 91.486, P Value: 0.0',
 'Setosa: sepal_width - sepal_length = Estadístico: -21.556, P Value: 0.0',
 'Setosa: sepal_width - petal_length = Estadístico: 33.341, P Value: 0.0',
 'Setosa: sepal_width - petal_width = Estadístico: 57.188, P Value: 0.0',
 'Setosa: petal_length - sepal_length = Estadístico: -63.774, P Value: 0.0',
 'Setosa: petal_length - sepal_width = Estadístico: -33.341, P Value: 0.0',
 'Setosa: petal_length - petal_width = Estadístico: 42.328, P Value: 0.0',
 'Setosa: petal_width - sepal_length = Estadístico: -91.486, P Value: 0.0',
 'Setosa: petal_width - sepal_width = Estadístico: -57.188, P Value: 0.0',
 'Setosa: petal_width - petal_length = Estadístico: -42.328, P Value: 0.0',
 'Versicolor: sepal_length - sepal_width = Estadístico: 37.06, P Value: 0.0',
 'Versicolor: se

### ¿Qué diablos hacer que se analicen las comparaciones de los diferentes tipos de planta?

In [20]:
# Por tipo
comparacion = []

for tipo1 in iris['variety'].unique():
    por_tipo1 = iris.loc[iris['variety'] == tipo1]
    for tipo2 in iris['variety'].unique():
        por_tipo2 = iris.loc[iris['variety'] == tipo2]
        #print(tipo1, '-', tipo2)
        for col1 in por_tipo1.columns[:-1]:
            for col2 in por_tipo2.columns[:-1]:
                #print(col1, '-', col2)
                estadistico, p_value = spss.ttest_ind(por_tipo1[col1], por_tipo2[col2])
                if p_value <= 0.05:
                    comparacion.append('{}-{}: {} - {} = Estadístico: {}, P Value: {}'.format(tipo1, tipo2, col1, col2, round(estadistico, 3), round(p_value, 3)))

In [21]:
comparacion

['Setosa-Setosa: sepal_length - sepal_width = Estadístico: 21.556, P Value: 0.0',
 'Setosa-Setosa: sepal_length - petal_length = Estadístico: 63.774, P Value: 0.0',
 'Setosa-Setosa: sepal_length - petal_width = Estadístico: 91.486, P Value: 0.0',
 'Setosa-Setosa: sepal_width - sepal_length = Estadístico: -21.556, P Value: 0.0',
 'Setosa-Setosa: sepal_width - petal_length = Estadístico: 33.341, P Value: 0.0',
 'Setosa-Setosa: sepal_width - petal_width = Estadístico: 57.188, P Value: 0.0',
 'Setosa-Setosa: petal_length - sepal_length = Estadístico: -63.774, P Value: 0.0',
 'Setosa-Setosa: petal_length - sepal_width = Estadístico: -33.341, P Value: 0.0',
 'Setosa-Setosa: petal_length - petal_width = Estadístico: 42.328, P Value: 0.0',
 'Setosa-Setosa: petal_width - sepal_length = Estadístico: -91.486, P Value: 0.0',
 'Setosa-Setosa: petal_width - sepal_width = Estadístico: -57.188, P Value: 0.0',
 'Setosa-Setosa: petal_width - petal_length = Estadístico: -42.328, P Value: 0.0',
 'Setosa-V

### Para pruebas Post Hoc
[Post hocs en Python](https://scikit-posthocs.readthedocs.io/en/latest/)

In [22]:
import scikit_posthocs as sp
# Usaremos post hoc "Scheffé"
# Las comparaciones de todos los pares de Scheffe prueban datos distribuidos normalmente con variaciones de grupo iguales.

In [23]:
x = iris[['petal_length', 'sepal_width']]
print(x.head())
print(' ')
x = x.melt(var_name='grupos', value_name='valores')
print(x.head())
print(' ')
sp.posthoc_scheffe(x, val_col='valores', group_col='grupos')

   petal_length  sepal_width
0           1.4          3.5
1           1.4          3.0
2           1.3          3.2
3           1.5          3.1
4           1.4          3.6
 
         grupos  valores
0  petal_length      1.4
1  petal_length      1.4
2  petal_length      1.3
3  petal_length      1.5
4  petal_length      1.4
 


Unnamed: 0,petal_length,sepal_width
petal_length,1.0,4e-06
sepal_width,4e-06,1.0


In [24]:
scheffe = sp.posthoc_scheffe(x, val_col='valores', group_col='grupos')
scheffe

Unnamed: 0,petal_length,sepal_width
petal_length,1.0,4e-06
sepal_width,4e-06,1.0


In [25]:
scheffe = sp.posthoc_scheffe(x, val_col='valores', group_col='grupos').round(2)
scheffe_interpretado = scheffe.copy()
scheffe_interpretado

Unnamed: 0,petal_length,sepal_width
petal_length,1.0,0.0
sepal_width,0.0,1.0


In [26]:
for sig in np.arange(0.00, 0.06, 0.01):
    print(sig)

0.0
0.01
0.02
0.03
0.04
0.05


In [27]:
for sig in np.arange(0.00, 0.06, 0.01):
    scheffe_interpretado = scheffe_interpretado.replace(sig, 'Significativo')
scheffe_interpretado

Unnamed: 0,petal_length,sepal_width
petal_length,1,Significativo
sepal_width,Significativo,1


### ¿Cómo se le hace por tipo?

In [28]:
# Por tipo
setosa = iris.loc[iris['variety'] == 'Setosa']
for col in setosa.columns:
    setosa.columns = setosa.columns.str.replace('{}'.format(col), '{}_Setosa'.format(col))
setosa = setosa.drop('variety_Setosa', axis=1)

versicolor = iris.loc[iris['variety'] == 'Versicolor']
for col in versicolor.columns:
    versicolor.columns = versicolor.columns.str.replace('{}'.format(col), '{}_Versicolor'.format(col))
versicolor = versicolor.drop('variety_Versicolor', axis=1)
    
virginica = iris.loc[iris['variety'] == 'Virginica']
for col in virginica.columns:
    virginica.columns = virginica.columns.str.replace('{}'.format(col), '{}_Virginica'.format(col))
virginica = virginica.drop('variety_Virginica', axis=1)

In [29]:
super_iris = pd.concat([setosa.reset_index(), versicolor.reset_index(), virginica.reset_index()], axis=1)

In [30]:
super_iris = super_iris.drop('index', axis=1)

In [31]:
super_iris.head()

Unnamed: 0,sepal_length_Setosa,sepal_width_Setosa,petal_length_Setosa,petal_width_Setosa,sepal_length_Versicolor,sepal_width_Versicolor,petal_length_Versicolor,petal_width_Versicolor,sepal_length_Virginica,sepal_width_Virginica,petal_length_Virginica,petal_width_Virginica
0,5.1,3.5,1.4,0.2,7.0,3.2,4.7,1.4,6.3,3.3,6.0,2.5
1,4.9,3.0,1.4,0.2,6.4,3.2,4.5,1.5,5.8,2.7,5.1,1.9
2,4.7,3.2,1.3,0.2,6.9,3.1,4.9,1.5,7.1,3.0,5.9,2.1
3,4.6,3.1,1.5,0.2,5.5,2.3,4.0,1.3,6.3,2.9,5.6,1.8
4,5.0,3.6,1.4,0.2,6.5,2.8,4.6,1.5,6.5,3.0,5.8,2.2


In [32]:
posthoc = []
scheffe_inter = []

for col1 in super_iris.columns:
    for col2 in super_iris.columns:
        x = super_iris[[col1, col2]]
        x = x.melt(var_name='grupos', value_name='valores')
        scheffe = sp.posthoc_scheffe(x, val_col='valores', group_col='grupos').round(2)
        scheffe_interpretado = scheffe.copy()
        scheffe_inter.append(scheffe_interpretado)
        for sig in np.arange(0.00, 0.06, 0.01):
            scheffe_interpretado = scheffe_interpretado.replace(sig, 'Significativo')
            posthoc.append(scheffe_interpretado)

In [40]:
post = pd.concat(posthoc)
#print(post.dropna(how='all'))
schef = pd.concat(scheffe_inter)
#print(schef.dropna(how='all'))
#schef#.info()
post

Unnamed: 0,sepal_length_Setosa,sepal_width_Setosa,petal_length_Setosa,petal_width_Setosa,sepal_length_Versicolor,sepal_width_Versicolor,petal_length_Versicolor,petal_width_Versicolor,sepal_length_Virginica,sepal_width_Virginica,petal_length_Virginica,petal_width_Virginica
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
petal_width_Virginica,,,,,,,,,,,,1
petal_width_Virginica,,,,,,,,,,,,1
petal_width_Virginica,,,,,,,,,,,,1
petal_width_Virginica,,,,,,,,,,,,1


## Vamos a meterlos todos

In [None]:
for variedad in iris['variety'].unique():
    print(variedad)
    for col1 in iris.columns[:-1]:
        print(col1)

In [54]:
normalidad = []
anormalidad = []

comparacion = []
sin_comparacion = []

# Variedad 1
for variedad1 in iris['variety'].unique():
    por_tipo1 = iris.loc[iris['variety'] == variedad1]
    
    # Test de Normalidad
    for col1 in por_tipo1.columns[:-1]:
        valor, pvalor = spss.normaltest(por_tipo1[col1])
        if pvalor <= 0.05:
            normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Presenta normalidad en los datos.'.format(col1, round(valor, 3), round(pvalor, 3)))
        else:
            anormalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Anormalidad en los datos.'.format(col1, round(valor, 3), round(pvalor, 3)))

    # Variedad 2
    for variedad2 in iris['variety'].unique():
        por_tipo2 = iris.loc[iris['variety'] == variedad2]
        
        # Columna 1
        for col1 in por_tipo1.columns[:-1]:
            
            # Columna 2
            for col2 in por_tipo2.columns[:-1]:
                
                # Test de Comparación
                for col2 in por_tipo2.columns[:-1]:
                    estadistico, p_value = spss.ttest_ind(por_tipo1[col1], por_tipo2[col2])
                    if p_value <= 0.05:
                        comparacion.append('Significativo, {}-{}, {} - {} = Estadístico: {}, P_Value: {}'.format(variedad1, variedad2, col1, col2, round(estadistico, 3), round(p_value, 3)))
                    else:
                        sin_comparacion.append('Insignificante, {}-{}, {} - {} = Estadístico: {}, P_Value: {}'.format(variedad1, variedad2, col1, col2, round(estadistico, 3), round(p_value, 3)))

In [None]:
for normal in normalidad:
    print(normal)

print(' ')

for compara in comparacion:
    print(compara)

In [58]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [59]:
x = iris[['sepal_length', 'petal_length']]
x = x.melt(var_name='grupos', value_name='valores')
print(x)#.head())

           grupos  valores
0    sepal_length      5.1
1    sepal_length      4.9
2    sepal_length      4.7
3    sepal_length      4.6
4    sepal_length      5.0
..            ...      ...
295  petal_length      5.2
296  petal_length      5.0
297  petal_length      5.2
298  petal_length      5.4
299  petal_length      5.1

[300 rows x 2 columns]


In [63]:
super_iris.head()

Unnamed: 0,sepal_length_Setosa,sepal_width_Setosa,petal_length_Setosa,petal_width_Setosa,sepal_length_Versicolor,sepal_width_Versicolor,petal_length_Versicolor,petal_width_Versicolor,sepal_length_Virginica,sepal_width_Virginica,petal_length_Virginica,petal_width_Virginica
0,5.1,3.5,1.4,0.2,7.0,3.2,4.7,1.4,6.3,3.3,6.0,2.5
1,4.9,3.0,1.4,0.2,6.4,3.2,4.5,1.5,5.8,2.7,5.1,1.9
2,4.7,3.2,1.3,0.2,6.9,3.1,4.9,1.5,7.1,3.0,5.9,2.1
3,4.6,3.1,1.5,0.2,5.5,2.3,4.0,1.3,6.3,2.9,5.6,1.8
4,5.0,3.6,1.4,0.2,6.5,2.8,4.6,1.5,6.5,3.0,5.8,2.2


In [None]:
para_post = pd.DataFrame()
para_post['Grupos'] = len(super_iris.iloc[:, 0].T) * super_iris.iloc[:, 0].name
para_post['Valores'] = super_iris.iloc[:, 0].T
para_post
#super_iris.iloc[:, 0].name
#super_iris.iloc[:, 0].T

In [91]:
list(super_iris.iloc[:, 0].name)

['s',
 'e',
 'p',
 'a',
 'l',
 '_',
 'l',
 'e',
 'n',
 'g',
 't',
 'h',
 '_',
 'S',
 'e',
 't',
 'o',
 's',
 'a']

In [None]:
posthoc = []
scheffe_inter = []

for col1 in super_iris.columns:
    for col2 in super_iris.columns:
        x = super_iris[[col1, col2]]
        x = x.melt(var_name='grupos', value_name='valores')
        scheffe = sp.posthoc_scheffe(x, val_col='valores', group_col='grupos').round(2)
        scheffe_interpretado = scheffe.copy()
        scheffe_inter.append(scheffe_interpretado)
        for sig in np.arange(0.00, 0.06, 0.01):
            scheffe_interpretado = scheffe_interpretado.replace(sig, 'Significativo')
            posthoc.append(scheffe_interpretado)

In [65]:
post = pd.concat(posthoc)
post.head()

Unnamed: 0,sepal_length_Setosa,sepal_width_Setosa,petal_length_Setosa,petal_width_Setosa,sepal_length_Versicolor,sepal_width_Versicolor,petal_length_Versicolor,petal_width_Versicolor,sepal_length_Virginica,sepal_width_Virginica,petal_length_Virginica,petal_width_Virginica
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,
sepal_length_Setosa,1,,,,,,,,,,,


In [64]:
interpretacion = pd.concat(scheffe_inter)
interpretacion.head()

Unnamed: 0,sepal_length_Setosa,sepal_width_Setosa,petal_length_Setosa,petal_width_Setosa,sepal_length_Versicolor,sepal_width_Versicolor,petal_length_Versicolor,petal_width_Versicolor,sepal_length_Virginica,sepal_width_Virginica,petal_length_Virginica,petal_width_Virginica
sepal_length_Setosa,1.0,,,,,,,,,,,
sepal_length_Setosa,1.0,0.0,,,,,,,,,,
sepal_width_Setosa,0.0,1.0,,,,,,,,,,
sepal_length_Setosa,1.0,,0.0,,,,,,,,,
petal_length_Setosa,0.0,,1.0,,,,,,,,,


In [None]:
scheffe = sp.posthoc_scheffe(x, val_col='valores', group_col='grupos').round(3)
print(scheffe)
print(' ')
scheffe_interpretado = scheffe.copy()
for sig in np.arange(0.00, 0.06, 0.01):
    scheffe_interpretado = scheffe_interpretado.replace(sig, 'Significativo')
print(scheffe_interpretado)

In [None]:
iris.groupby('variety')[['petal_length', 'sepal_width']]

In [None]:
normalidad = []
for col in iris.columns[:-1]:
    valor, pvalor = spss.normaltest(iris[col])
    if pvalor <= 0.05:
        normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Presenta normalidad en los datos.'.format(col, valor, round(pvalor, 3)))
    else:
        normalidad.append('Columna -> {}, Valor estadístico = {}, p-value = {} -> Anormalidad en los datos.'.format(col, valor, round(pvalor, 3)))
normalidad

estadistico, p_value = spss.ttest_ind(iris['petal_length'], iris['sepal_width'])
if p_value <= 0.05:
    print('P value es de {}: Hay comparación.'.format(round(p_value, 3)))
else:
    print('P value es de {}: Ni de broma.'.format(round(p_value, 3)))

In [None]:
from statsmodels.formula.api import ols

In [None]:
model = ols('sepal_width ~ variety + petal_length', iris).fit()
print(model.summary())

In [None]:
# Guardar el módelo
with open('OLS-Iris.txt', 'w') as file_txt:
    file_txt.write(str(model.summary()))
    file_txt.close()

In [None]:
sns.pairplot(iris, vars=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], kind='reg', hue='variety') 

In [None]:
sns.lmplot(y='sepal_length', x='petal_length', data=iris)  

In [None]:
### COMO DEBERÍA DE SER

tipos = pd.Categorical(iris['variety'])

pdplt.scatter_matrix(iris, c=tipos.codes, marker='o', figsize=(10, 8))

In [None]:
model = ols('sepal_width ~ variety + petal_length', iris).fit()
print(model.summary())
print(' ')
print('Probando la diferencia entre el efecto de versicolor y virginica')
print(model.f_test([0, 1, -1, 0]))
plt.show()

## 3er Dataset. Datos de tesis.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from glob import glob as gg
from tqdm import tqdm
import time

In [None]:
# Búsqueda de las Bases Reales
files_txt = sorted(gg('*.txt'))
files_txt

In [None]:
with open(files_txt[0], 'r') as file:
    print(file.readlines(1000))
    file.close()

In [None]:
file_txt = open(files_txt[0], 'r')
print(file_txt.readlines(200))

In [None]:
file_txt = pd.read_csv(files_txt[0])
file_txt.head(10)

In [None]:
file_txt = pd.read_csv(files_txt[0], sep='\t')
file_txt.head(10)

In [None]:
file_txt = pd.read_csv(files_txt[0], sep='\t', header=6)
file_txt.head()

In [None]:
file_txt.info()

In [None]:
file_txt.shape[0] * file_txt.shape[1]

In [None]:
'{:,}'.format(file_txt.shape[0] * file_txt.shape[1])

In [None]:
sujeto = pd.concat([file_txt.iloc[:, 0:10], file_txt.iloc[:, 47]], axis=1)
sujeto.head()

In [None]:
sujeto.info()

In [None]:
sujeto.columns = sujeto.columns.str.replace(' ', '_')

In [None]:
sujeto.info()

In [None]:
'{:,}'.format(sujeto.shape[0] * sujeto.shape[1])

In [None]:
sujeto['Video_Time'] = pd.to_datetime(sujeto['Video_Time'])
sujeto.head()

In [None]:
sujeto.info()

In [None]:
sujeto['Fecha'] = sujeto['Video_Time'].dt.date
sujeto.head()

In [None]:
sujeto['Hora'] = sujeto['Video_Time'].dt.time
sujeto.head()

In [None]:
sujeto.head()

In [None]:
sujeto.info()

In [None]:
objetos = []
for columna in sujeto.columns:
    for palabra in sujeto[columna].unique():
        if type(palabra) == str:
            objetos.append(palabra)
lista1 = list(set(objetos))
lista2 = np.empty(len(lista1))
lista2[:] = np.nan
objetos = dict(zip(lista1, lista2))

In [None]:
objetos

In [None]:
sujeto['Neutral'].unique()

In [None]:
pd.to_numeric(sujeto['Neutral'], errors='coerce')

In [None]:
ejemplo1 = sujeto.copy()

for columna in ejemplo1.columns:
    ejemplo1[columna] = pd.to_numeric(ejemplo1[columna], errors='coerce')

In [None]:
ejemplo1.head()

In [None]:
ejemplo2 = sujeto.copy()

for columna in ejemplo2.columns[1:11]:
    ejemplo2[columna] = pd.to_numeric(ejemplo2[columna], errors='coerce')

In [None]:
ejemplo2.head()

In [None]:
ejemplo2.Neutral.unique()

In [None]:
ejemplo2.info()

In [None]:
for columna in sujeto.columns[1:11]:
    sujeto[columna] = pd.to_numeric(sujeto[columna], errors='coerce')

In [None]:
sujeto.head()

In [None]:
sujeto.info()

In [None]:
sujeto = sujeto.set_index('Video_Time')

In [None]:
sujeto

In [None]:
sujeto.info()

In [None]:
# ¿Cómo sabemos de quien es esa base?
files_txt[0] # Ajá, este es el usuario, ¿Cómo le hacemos para incluirlo en la base?

In [None]:
files_txt[0][:-4]

In [None]:
sujeto['ID'] = files_txt[0][:-4]

In [None]:
sujeto.head()

In [None]:
sujeto.info()

In [None]:
sujeto.describe()

In [None]:
sujeto.describe(include='all')

### Todos los TXT

In [None]:
files_txt

In [None]:
bases = []

for txt in tqdm(files_txt):
    file_txt = pd.read_csv(txt, sep='\t', header=6)
    sujeto = pd.concat([file_txt.iloc[:, 0:10], file_txt.iloc[:, 47]], axis=1)
    sujeto.columns = sujeto.columns.str.replace(' ', '_')
    sujeto['Video_Time'] = pd.to_datetime(sujeto['Video_Time'])
    sujeto['Fecha'] = sujeto['Video_Time'].dt.date
    sujeto['Hora'] = sujeto['Video_Time'].dt.time
    for columna in sujeto.columns[1:11]:
        sujeto[columna] = pd.to_numeric(sujeto[columna], errors='coerce')
    sujeto = sujeto.set_index('Video_Time')
    sujeto['ID'] = txt[:-4]
    bases.append(sujeto)
    time.sleep(0.01)

sujetos = pd.concat(bases)

In [None]:
sujetos.head()

In [None]:
for txt in files_txt:
    print(txt)

In [None]:
file = open(files_txt[0], 'r').readlines(300)
file

In [None]:
file[8:]

In [None]:
list(file[8:])

In [None]:
list(file[8:])

In [None]:
columnas_necesarias = ['Video Time', 'Neutral', 'Happy', 'Sad', 'Angry', 'Surprised', 'Scared', 'Disgusted', 'Contempt', 'Valence', 'Heart Rate']

In [None]:
bases = []

for txt in tqdm(files_txt):
    file_txt = pd.read_csv(txt, sep='\t', header=6)
    #sujeto = pd.concat([file_txt.iloc[:, 0:10], file_txt.iloc[:, 47]], axis=1)
    sujeto = file_txt.loc[:, columnas_necesarias]
    sujeto.columns = sujeto.columns.str.replace(' ', '_')
    sujeto['Video_Time'] = pd.to_datetime(sujeto['Video_Time'])
    sujeto['Fecha'] = sujeto['Video_Time'].dt.date
    sujeto['Hora'] = sujeto['Video_Time'].dt.time
    for columna in sujeto.columns[1:11]:
        sujeto[columna] = pd.to_numeric(sujeto[columna], errors='coerce')
    sujeto = sujeto.set_index('Video_Time')
    sujeto['ID'] = txt[:-4]
    bases.append(sujeto)
    time.sleep(0.01)

In [None]:
bases

In [None]:
sujetos = pd.concat(bases)

In [None]:
sujetos

In [None]:
'{:,}'.format(sujetos.shape[0] * sujetos.shape[1])

In [None]:
sujetos.ID.unique()

In [None]:
sujeto.info()