#TIPS ANALISIS DE DATAFRAMES

##Traer el dataframe

In [None]:
# Importamos las librerias necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.io as pio
import plotly.express as px
from sklearn.cluster import KMeans
from sklearn import preprocessing
from yellowbrick.cluster import KElbowVisualizer
import warnings
import numpy as np
warnings.filterwarnings("ignore")
py.offline.init_notebook_mode(connected = True)
pio.renderers.default='browser'

In [None]:
# Traer el CSV

df_eda = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/EDA/Datos/EDA_00.csv', sep=",", na_values=' ?')
# despues del separador podemos añadir header= None, para decir que este dataframe no tiene cabecera
# tamien podemos añadir na_values=' ?' para indicar que si encuetra ese caracter lo tome como NaN

##Opciones al traer el dataframe

Además de las opciones de separador (sep) y valores nulos (na_values) que ya estamos utilizando, el método pd.read_csv() ofrece muchas otras opciones útiles:

*    encoding: Especifica la codificación del archivo (por ejemplo, 'utf-8', 'latin-1', etc.).
    *   Ejemplo: encoding='utf-8'
*    header: Indica qué fila usar como encabezado. Usa None si no hay encabezado.
    *            Ejemplo: header=0 (por defecto, usa la primera fila)
*    names: Proporciona una lista de nombres de columnas.
    *   Ejemplo: names=['col1', 'col2', 'col3']
*    usecols: Especifica qué columnas leer, ya sea por índice o nombre.
    *   Ejemplo: usecols=[0, 1, 2] o usecols=['col1', 'col2']
*    dtype: Define tipos de datos para las columnas.
    *   Ejemplo: dtype={'col1': 'int64', 'col2': 'float64'}
*    parse_dates: Convierte columnas específicas a fechas.
    *   Ejemplo: parse_dates=['fecha']
*    skiprows: Salta un número específico de filas al principio del archivo.
    *   Ejemplo: skiprows=2
*    nrows: Lee solo un número específico de filas.
    *   Ejemplo: nrows=1000
*    index_col: Usa una columna específica como índice.
    *   Ejemplo: index_col='ID'
*    thousands: Especifica el separador de miles.
    *   Ejemplo: thousands=','
*    decimal: Especifica el separador decimal.
    *   Ejemplo: decimal='.'
*    comment: Ignora líneas que comienzan con un carácter específico.
    *   Ejemplo: comment='#'
*    skip_blank_lines: Salta líneas en blanco.
    *   Ejemplo: skip_blank_lines=True
*    low_memory: Reduce el uso de memoria al procesar el archivo por partes.
    *   Ejemplo: low_memory=False

In [None]:
# Ejemplo aplicando alguna funcion mas

df_eda = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/EDA/Datos/EDA_01.csv',
                     sep=",",
                     na_values=' ?',
                     encoding='utf-8',
                     usecols=['col1', 'col2', 'col3'],
                     parse_dates=['fecha'],
                     thousands=',',
                     decimal='.',
                     low_memory=False)

# Este código leería el archivo CSV con codificación UTF-8,
# seleccionaría solo ciertas columnas,
# convertiría una columna a fechas,
# especificaría el separador de miles y decimal,
# usaría más memoria para procesar el archivo más rápidamente.

## Estadistica general, solo datos numericos

In [None]:
df_eda.describe() # estadistica general

Unnamed: 0,id cliente,edad
count,58.0,58.0
mean,29.5,42.327586
std,16.886879,17.496253
min,1.0,9.0
25%,15.25,29.25
50%,29.5,40.5
75%,43.75,57.5
max,58.0,80.0


## Info del df

In [None]:
# Info del df
df_eda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58 entries, 0 to 57
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id cliente    58 non-null     int64 
 1   nombre        58 non-null     object
 2   apellido1     58 non-null     object
 3   apellido2     58 non-null     object
 4   telefono      58 non-null     object
 5   edad          58 non-null     int64 
 6   sexo          54 non-null     object
 7   estado salud  51 non-null     object
 8   ingresos      55 non-null     object
 9   deporte       55 non-null     object
 10  educacion     54 non-null     object
dtypes: int64(2), object(9)
memory usage: 5.1+ KB


##Dimensiones del df

In [None]:
print('Dimensiones del df:', df_eda.shape)
print()

Dimensiones del df: (58, 11)



## Mostrar el encabezado (primeras 3 filas)

In [None]:
# Mostrar el encabezado (primeras 3 filas)
print("Encabezado del dataset:")
display(df_eda.head(3))

## Mostrar 3 filas al azar

In [None]:
# Mostrar 3 filas al azar
print("\n3 filas al azar del dataset:")
display(df_eda.sample(3))

## Mostrar la cola (últimas 3 filas)

In [None]:
# Mostrar la cola (últimas 3 filas)
print("\nCola del dataset:")
display(df_eda.tail(3))

##Ver todo el dataframe de forma mas estetica

In [None]:
# Ver todo el dataframe de forma mas estetica
display(df_eda)

Unnamed: 0,id cliente,nombre,apellido1,apellido2,telefono,edad,sexo,estado salud,ingresos,deporte,educacion
0,1,Alejandro,García,Navarro,631 456 789,9,hombre,Malo,Bajo,Sí,Secundaria
1,2,Mariana,Rodríguez,Reyes,55 1234 5678,22,mujer,Normal,Medio,No,Primaria
2,3,Carlos,Martínez,Romero,213 987 6543,25,hombre,Excelente,Alto,Sí,Universitaria
3,4,Sofía,López,Vargas,7911 123456,27,mujer,Normal,Bajo,No,Postgrado
4,5,David,Hernández,Domínguez,176 5432 1098,30,,,Medio,Sí,Secundaria
5,6,Valeria,Pérez,Silva,6 12 34 56 78,32,,Malo,Bajo,No,Primaria
6,7,Juan,González,Serrano,412 345 678,35,hombre,Normal,Alto,Sí,Universitaria
7,8,Gabriela,Sánchez,Paredes,678 901 234,37,mujer,Excelente,Medio,No,Secundaria
8,9,Fernando,Ramírez,Méndez,81 2345 6789,40,hombre,Normal,Bajo,Sí,Postgrado
9,10,Isabel,Torres,Castro,917 765 4321,43,mujer,Malo,Medio,,Primaria


## Mostrar las cabeceras del DataFrame

In [None]:
# Mostrar las cabeceras del DataFrame
print(df_eda.columns)
print()
# Convertir a lista y mostrar
cabeceras = df_eda.columns.tolist()
print(cabeceras)

Index(['id cliente', 'nombre', 'apellido1', 'apellido2', 'telefono', 'edad',
       'sexo', 'estado salud', 'ingresos', 'deporte', 'educacion'],
      dtype='object')

['id cliente', 'nombre', 'apellido1', 'apellido2', 'telefono', 'edad', 'sexo', 'estado salud', 'ingresos', 'deporte', 'educacion']


##Resumen del número de valores faltantes (NaN)

In [None]:
df_eda.isna().sum()
# El comando df_eda.isna().sum() te devuelve un resumen del número de valores faltantes (NaN) en cada columna de tu DataFrame df_eda.

Unnamed: 0,0
id cliente,0
nombre,0
apellido1,0
apellido2,0
telefono,0
edad,0
sexo,4
estado salud,7
ingresos,3
deporte,3


## Ver las subcategorias de las columnas

Se pueden observar todas las subcategorias de las columnas de tipo Object y category

O sea, los que tienen string.

Es muy util ya que en una columna puedes observar si existen categorias diferentes a las esperadas, como por ejemplo:
*   hombre, mujer, NaN. Al ver el NaN sabes que hay faltantes.
*   Si, No, ?, de esta forma ves que hay algun caracter extraño.
*   Sí, Si, si, No, no, de esta forma ves falos tipograficos
*   Telefono, Telfno., Tel., Celular, Teléfono. Tambien ves fallos tipograficos y formas de decir lo mismo

In [None]:
# Ver las subcategorias de las columnas
categorical_columns = df_eda.select_dtypes(include=['object', 'category']).columns

for col in categorical_columns:
    print(f"Subcategorías de la columna '{col}':")
    print(df_eda[col].unique())
    print("\n")


Subcategorías de la columna 'nombre':
['Alejandro' 'Mariana' 'Carlos' 'Sofía' 'David' 'Valeria' 'Juan'
 'Gabriela' 'Fernando' 'Isabel' 'Luis' 'Camila' 'Ricardo' 'Daniela'
 'Pablo' 'Lucía' 'Miguel' 'Andrea' 'José' 'Patricia' 'Roberto' 'Rodrigo'
 'Natalia' 'Esteban' 'Hugo' 'Fernanda' 'Enrique' 'Elena' 'Manuel' 'Julia'
 'Sebastián' 'Claudia' 'Francisco' 'Beatriz' 'Rubén' 'Alicia' 'Óscar'
 'Irene' 'Pedro' 'Marta' 'Álvaro' 'Mónica' 'Rafael' 'Susana' 'Cristian']


Subcategorías de la columna 'apellido1':
['García' 'Rodríguez' 'Martínez' 'López' 'Hernández' 'Pérez' 'González'
 'Sánchez' 'Ramírez' 'Torres' 'Flores' 'Cruz' 'Rivera' 'Morales' 'Ortiz'
 'Castillo' 'Ramos' 'Gutiérrez' 'Jiménez' 'Mendoza' 'de todos los santos'
 'Fernández' 'Álvarez' 'Muñoz' 'Díez' 'Alonso' 'Gómez' 'Ortega' 'Ruiz'
 'Villar' 'Llorente' 'Echeverría' 'Zubizarreta' 'Ibarra' 'Otegui' 'Goñi'
 'Arrieta' 'Arozena']


Subcategorías de la columna 'apellido2':
['Navarro' 'Reyes' 'Romero' 'Vargas' 'Domínguez' 'Silva' 'Serrano'
 

## Para ver subcategorias de las columnas seleccionadas

In [None]:
# # Ver las subcategorias de las columnas

# Lista de columnas específicas que quieres inspeccionar
columnas_especificas = ['educacion', 'ingresos', 'sexo']  # solo con string
# tambien funciona con nuemros, pero si la lista es larga y son todos diferentes...

# Iterar sobre cada columna y mostrar sus subcategorías
for col in columnas_especificas:
    if col in df_eda.columns:  # Verifica si la columna existe en el DataFrame
        print(f"Subcategorías de la columna '{col}':")
        print(df_eda[col].unique())
        print("\n")
    else:
        print(f"La columna '{col}' no existe en el DataFrame.")


Subcategorías de la columna 'educacion':
['Secundaria' 'Primaria' 'Universitaria' 'Postgrado' nan]


Subcategorías de la columna 'ingresos':
['Bajo' 'Medio' 'Alto' nan]


Subcategorías de la columna 'sexo':
['hombre' 'mujer' nan]




## Para ver subcategorias de las columnas seleccionadas y contar cantidades

In [None]:
# Lista de columnas específicas que quieres inspeccionar
columnas_especificas = ['educacion', 'ingresos', 'sexo']  # solo con string
# tambien funciona con nuemros, pero si la lista es larga y son todos diferentes...

# Iterar sobre cada columna y mostrar sus subcategorías junto con el conteo
for col in columnas_especificas:
    if col in df_eda.columns:  # Verifica si la columna existe en el DataFrame
        print(f"Subcategorías de la columna '{col}' con su conteo:")
        print(df_eda[col].value_counts())
        print("\n")
    else:
        print(f"La columna '{col}' no existe en el DataFrame.")


Subcategorías de la columna 'educacion' con su conteo:
educacion
Secundaria       16
Primaria         15
Universitaria    13
Postgrado        10
Name: count, dtype: int64


Subcategorías de la columna 'ingresos' con su conteo:
ingresos
Bajo     23
Medio    18
Alto     14
Name: count, dtype: int64


Subcategorías de la columna 'sexo' con su conteo:
sexo
mujer     29
hombre    25
Name: count, dtype: int64




## Ver valores numericos por rangos

In [None]:
# Ver valores numericos por rangos
df_eda['Edad_rango'] = pd.cut(df_eda['edad'], bins=[0, 20, 30, 40, 50, 60])
print(df_eda['Edad_rango'].value_counts())


Edad_rango
(30, 40]    12
(50, 60]    12
(20, 30]    11
(40, 50]     7
(0, 20]      6
Name: count, dtype: int64


##Para calcular el sesgo y la curtosis solo numericas

In [None]:
# Lista de columnas específicas
columnas_especificas = ['edad']  # solo con numericas

# Verificar si las columnas existen en el DataFrame y calcular el sesgo y la curtosis
sesgo = df_eda[columnas_especificas].skew()
curtosis = df_eda[columnas_especificas].kurt()

print("Sesgo de las columnas específicas:")
print(sesgo)
print("\nCurtosis de las columnas específicas:")
print(curtosis)


Sesgo de las columnas específicas:
edad    0.073134
dtype: float64

Curtosis de las columnas específicas:
edad   -0.837271
dtype: float64


##Para calcular el sesgo y la curtosis solo numericas

In [None]:
# Lista de columnas específicas
columnas_especificas = ['educacion', 'ingresos', 'sexo', 'edad']  # aqui cualquier tipo

# Filtrar columnas que sean numéricas
columnas_numericas = df_eda[columnas_especificas].select_dtypes(include=['number']).columns

# Calcular sesgo y curtosis solo en columnas numéricas
sesgo = df_eda[columnas_numericas].skew()
curtosis = df_eda[columnas_numericas].kurt()

print("Sesgo de las columnas numéricas específicas:")
print(sesgo)
print("\nCurtosis de las columnas numéricas específicas:")
print(curtosis)


Sesgo de las columnas numéricas específicas:
edad    0.073134
dtype: float64

Curtosis de las columnas numéricas específicas:
edad   -0.837271
dtype: float64


##Para calcular el sesgo y la curtosis cualquier tipo Object y Numerica

In [None]:
# Lista de columnas específicas
columnas_especificas = ['educacion', 'ingresos', 'sexo', 'edad']  # aqui cualquier tipo

# Convertir las columnas categóricas a variables dummy
df_dummies = pd.get_dummies(df_eda[columnas_especificas])

# Calcular el sesgo y la curtosis en las columnas dummy
sesgo = df_dummies.skew()
curtosis = df_dummies.kurt()

print("Sesgo de las columnas categóricas (variables dummy):")
print(sesgo)
print("\nCurtosis de las columnas categóricas (variables dummy):")
print(curtosis)


Sesgo de las columnas categóricas (variables dummy):
edad                       0.073134
educacion_Postgrado        1.780846
educacion_Primaria         1.131987
educacion_Secundaria       1.029798
educacion_Universitaria    1.358424
ingresos_Alto              1.241064
ingresos_Bajo              0.434257
ingresos_Medio             0.841821
sexo_hombre                0.285974
sexo_mujer                 0.000000
dtype: float64

Curtosis de las columnas categóricas (variables dummy):
edad                      -0.837271
educacion_Postgrado        1.212021
educacion_Primaria        -0.745539
educacion_Secundaria      -0.974345
educacion_Universitaria   -0.161465
ingresos_Alto             -0.477443
ingresos_Bajo             -1.877409
ingresos_Medio            -1.338739
sexo_hombre               -1.988024
sexo_mujer                -2.072727
dtype: float64


In [None]:
df_dummies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58 entries, 0 to 57
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype
---  ------                   --------------  -----
 0   edad                     58 non-null     int64
 1   educacion_Postgrado      58 non-null     bool 
 2   educacion_Primaria       58 non-null     bool 
 3   educacion_Secundaria     58 non-null     bool 
 4   educacion_Universitaria  58 non-null     bool 
 5   ingresos_Alto            58 non-null     bool 
 6   ingresos_Bajo            58 non-null     bool 
 7   ingresos_Medio           58 non-null     bool 
 8   sexo_hombre              58 non-null     bool 
 9   sexo_mujer               58 non-null     bool 
dtypes: bool(9), int64(1)
memory usage: 1.1 KB


##Otras utilidades

In [None]:
# Detectar si una cadena contiene cierto valor
df_eda['columna1'].str.contains('patron')

# Contar cuántas veces aparece un carácter o subcadena
df_eda['columna1'].str.count('a')

# Convertir a mayúsculas o minúsculas
df_eda['columna1'] = df_eda['columna1'].str.lower()

# Remover espacios
df_eda['columna1'] = df_eda['columna1'].str.strip()

# Reemplazar valores en una columna categórica
df_eda['columna1'] = df_eda['columna1'].replace({'valor_incorrecto': 'valor_correcto'})

# Filtrar filas donde una columna tenga cierto valor
df_filtrado = df_eda.query('columna1 == "valor_deseado"')

# Crear una tabla dinámica que muestre la media de una columna numérica para cada categoría
pd.pivot_table(df_eda, values='columna_numerica', index='columna_categorica', aggfunc='mean')

# Crear una tabla cruzada para dos columnas categóricas
pd.crosstab(df_eda['columna1'], df_eda['columna2'])


