<a href="https://colab.research.google.com/github/William-Burbano-Lima/Analisis_Datos_Explorador/blob/main/LISTA_METODOS_FUNCIONES_AD_PYTHON.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de datos Talento Tech
---

> Ejecutor Técnico: William Burbano Lima

# Lista de métodos y funciones para el análisis de datos en Python

Lista de métodos y funciones comunes para el análisis de datos en Python, organizados por categorías. Estas herramientas son esenciales para la manipulación, limpieza, visualización y análisis de datos, y se utilizan con frecuencia en bibliotecas como **Pandas**, **NumPy**, **Seaborn**, **Matplotlib**, **Scikit-learn**, y **SciPy**.

### 1. **Manipulación y Limpieza de Datos**
   - **`df.head()` / `df.tail()`**: Muestra las primeras o últimas filas del DataFrame.
   - **`df.info()`**: Proporciona un resumen conciso del DataFrame.
   - **`df.describe()`**: Genera estadísticas descriptivas.
   - **`df.isnull()`**: Devuelve un DataFrame booleano indicando valores faltantes (`NaN`).
   - **`df.dropna()`**: Elimina filas/columnas con valores faltantes.
   - **`df.fillna()`**: Rellena valores faltantes con un valor específico.
   - **`df.drop()`**: Elimina filas o columnas por etiquetas.
   - **`df.duplicated()` / `df.drop_duplicates()`**: Identifica y elimina duplicados.
   - **`df.replace()`**: Reemplaza valores en el DataFrame.
   - **`df.rename()`**: Cambia el nombre de columnas o filas.
   - **`df.apply()`**: Aplica una función a lo largo de un eje del DataFrame.
   - **`df.groupby()`**: Agrupa el DataFrame usando una columna o conjunto de columnas y permite aplicar funciones agregadas.

### 2. **Análisis Estadístico y Descriptivo**
   - **`df.mean()` / `df.median()` / `df.mode()`**: Calcula la media, mediana y moda.
   - **`df.std()` / `df.var()`**: Desviación estándar y varianza.
   - **`df.min()` / `df.max()`**: Encuentra el valor mínimo y máximo.
   - **`df.corr()`**: Calcula la matriz de correlación.
   - **`df.cov()`**: Calcula la matriz de covarianza.
   - **`np.percentile()`**: Calcula percentiles en un array o DataFrame.
   - **`np.histogram()`**: Genera un histograma de los datos.
   - **`scipy.stats.describe()`**: Proporciona un resumen estadístico de los datos.

### 3. **Visualización de Datos**
   - **`sns.heatmap()`**: Mapa de calor.
   - **`sns.barplot()`**: Gráfico de barras.
   - **`sns.boxplot()`**: Diagrama de caja.
   - **`sns.violinplot()`**: Gráfico de violín.
   - **`sns.pairplot()`**: Matriz de gráficos de dispersión.
   - **`sns.distplot()`**: Distribución de los datos.
   - **`plt.plot()`**: Gráfico de líneas.
   - **`plt.scatter()`**: Gráfico de dispersión.
   - **`plt.hist()`**: Histograma.
   - **`plt.boxplot()`**: Diagrama de caja.

### 4. **Análisis de Series Temporales**
   - **`df.resample()`**: Agrupa los datos en intervalos de tiempo.
   - **`df.shift()`**: Desplaza los datos en el tiempo.
   - **`df.rolling()`**: Aplica funciones agregadas sobre una ventana móvil.
   - **`df.diff()`**: Calcula la diferencia entre observaciones consecutivas.
   - **`pd.to_datetime()`**: Convierte una columna a formato de fecha y hora.

### 5. **Modelado y Análisis Predictivo**
   - **`train_test_split()`**: Divide los datos en conjuntos de entrenamiento y prueba.
   - **`fit()` / `predict()`**: Ajusta un modelo y realiza predicciones.
   - **`cross_val_score()`**: Realiza validación cruzada.
   - **`classification_report()`**: Proporciona una tabla de métricas de clasificación.
   - **`confusion_matrix()`**: Genera la matriz de confusión.
   - **`mean_squared_error()` / `mean_absolute_error()`**: Mide el error en modelos de regresión.
   - **`r2_score()`**: Calcula el coeficiente de determinación para modelos de regresión.

### 6. **Transformación de Datos**
   - **`df.pivot_table()`**: Crea una tabla dinámica.
   - **`df.melt()`**: Reorganiza un DataFrame de ancho a largo.
   - **`df.pivot()`**: Reorganiza un DataFrame de largo a ancho.
   - **`df.concat()` / `df.merge()`**: Combina DataFrames.

### 7. **Reducción de Dimensionalidad y Clustering**
   - **`PCA()`**: Análisis de Componentes Principales.
   - **`KMeans()`**: Algoritmo de clustering k-means.
   - **`TSNE()`**: Reducción de dimensionalidad t-SNE.
   - **`AgglomerativeClustering()`**: Clustering jerárquico aglomerativo.

Esta lista abarca muchas de las funciones y métodos que se usan comúnmente en el análisis de datos en Python, pero hay muchas más dependiendo del contexto y la necesidad específica.

---

Lista más detallada de métodos y funciones para análisis estadísticos en Python. Estos incluyen análisis descriptivos, pruebas estadísticas, modelado, y análisis de regresión, entre otros.

### 8. **Estadísticas Descriptivas Avanzadas**
   - **`df.quantile()`**: Calcula los cuantiles (percentiles) de los datos.
   - **`df.skew()`**: Mide la asimetría de la distribución de datos.
   - **`df.kurt()`**: Mide la curtosis (grado de concentración) de la distribución.
   - **`df.mad()`**: Calcula la desviación media absoluta.
   - **`df.idxmax()` / `df.idxmin()`**: Encuentra los índices del valor máximo y mínimo.

### 9. **Pruebas de Hipótesis**
   - **`scipy.stats.ttest_1samp()`**: Prueba t para una muestra.
   - **`scipy.stats.ttest_ind()`**: Prueba t para dos muestras independientes.
   - **`scipy.stats.ttest_rel()`**: Prueba t para muestras relacionadas o emparejadas.
   - **`scipy.stats.chisquare()`**: Prueba de chi-cuadrado para distribución esperada.
   - **`scipy.stats.chi2_contingency()`**: Prueba de chi-cuadrado para tablas de contingencia.
   - **`scipy.stats.pearsonr()`**: Correlación de Pearson y prueba de significancia.
   - **`scipy.stats.spearmanr()`**: Correlación de Spearman y prueba de significancia.
   - **`scipy.stats.mannwhitneyu()`**: Prueba de Mann-Whitney U para dos muestras independientes.
   - **`scipy.stats.wilcoxon()`**: Prueba de Wilcoxon para dos muestras relacionadas.
   - **`scipy.stats.shapiro()`**: Prueba de Shapiro-Wilk para normalidad.
   - **`scipy.stats.kstest()`**: Prueba de Kolmogorov-Smirnov para una muestra o dos muestras.
   - **`scipy.stats.levene()`**: Prueba de Levene para igualdad de varianzas.
   - **`scipy.stats.f_oneway()`**: ANOVA de una vía (análisis de varianza).

### 10. **Regresión y Modelos Lineales**
   - **`statsmodels.api.OLS()`**: Regresión lineal ordinaria (OLS).
   - **`statsmodels.api.Logit()`**: Regresión logística.
   - **`statsmodels.api.QuantReg()`**: Regresión cuantílica.
   - **`statsmodels.api.OLS.fit()`**: Ajuste del modelo de regresión lineal.
   - **`statsmodels.api.OLS.predict()`**: Predicción usando un modelo ajustado.
   - **`statsmodels.formula.api.ols()`**: Regresión lineal usando fórmulas estilo R.
   - **`statsmodels.formula.api.logit()`**: Regresión logística usando fórmulas estilo R.
   - **`statsmodels.regression.linear_model.RegressionResults.summary()`**: Resumen detallado del modelo de regresión.
   - **`scikit-learn.LinearRegression()`**: Implementación de la regresión lineal en Scikit-learn.
   - **`scikit-learn.LogisticRegression()`**: Implementación de la regresión logística en Scikit-learn.
   - **`scikit-learn.Ridge()` / `Lasso()` / `ElasticNet()`**: Modelos de regresión penalizados (Ridge, Lasso, Elastic Net).

### 11. **Modelos de Series Temporales**
   - **`statsmodels.tsa.arima_model.ARIMA()`**: Modelos ARIMA (Autoregressive Integrated Moving Average).
   - **`statsmodels.tsa.statespace.sarimax.SARIMAX()`**: Modelos SARIMA (ARIMA estacional).
   - **`statsmodels.tsa.holtwinters.ExponentialSmoothing()`**: Suavizamiento exponencial de Holt-Winters.
   - **`statsmodels.tsa.stattools.adfuller()`**: Prueba de Dickey-Fuller aumentada para la estacionalidad.
   - **`statsmodels.tsa.seasonal_decompose()`**: Descomposición de series temporales en tendencia, estacionalidad y residuales.

### 12. **Análisis Multivariado**
   - **`statsmodels.multivariate.pca.PCA()`**: Análisis de componentes principales.
   - **`scipy.cluster.hierarchy.dendrogram()`**: Dendrograma para análisis de clustering jerárquico.
   - **`scikit-learn.decomposition.PCA()`**: Implementación de PCA en Scikit-learn.
   - **`scikit-learn.manifold.TSNE()`**: Reducción de dimensionalidad t-SNE.
   - **`scikit-learn.cluster.KMeans()`**: Algoritmo de clustering K-means.
   - **`scikit-learn.cluster.AgglomerativeClustering()`**: Clustering jerárquico aglomerativo.
   - **`scipy.cluster.vq.kmeans()`**: Implementación de K-means en SciPy.
   - **`scipy.stats.multivariate_normal()`**: Distribución normal multivariante.

### 13. **Pruebas No Paramétricas**
   - **`scipy.stats.kruskal()`**: Prueba de Kruskal-Wallis para más de dos muestras independientes.
   - **`scipy.stats.friedmanchisquare()`**: Prueba de Friedman para muestras relacionadas.
   - **`scipy.stats.ranksums()`**: Prueba de suma de rangos de Wilcoxon para dos muestras independientes.
   - **`scipy.stats.sign_test()`**: Prueba de signos.

### 14. **Modelos de Supervivencia**
   - **`lifelines.fitters.KaplanMeierFitter()`**: Estimador de Kaplan-Meier para curvas de supervivencia.
   - **`lifelines.fitters.CoxPHFitter()`**: Modelo de riesgos proporcionales de Cox.
   - **`lifelines.plotting.plot_lifetimes()`**: Visualización de tiempos de supervivencia.

### 15. **Análisis de Varianza (ANOVA)**
   - **`scipy.stats.f_oneway()`**: ANOVA de una vía.
   - **`statsmodels.stats.anova.anova_lm()`**: Realiza un análisis de varianza (ANOVA) para modelos de regresión.
   - **`statsmodels.formula.api.ols()`**: Regresión lineal para realizar ANOVA con modelos estilo R.
   - **`scikit-learn.feature_selection.f_classif()`**: ANOVA F-test para la selección de características.

### 16. **Modelos de Distribución**
   - **`scipy.stats.norm()`**: Distribución normal (gaussiana).
   - **`scipy.stats.binom()`**: Distribución binomial.
   - **`scipy.stats.poisson()`**: Distribución de Poisson.
   - **`scipy.stats.expon()`**: Distribución exponencial.
   - **`scipy.stats.gamma()`**: Distribución gamma.
   - **`scipy.stats.beta()`**: Distribución beta.
   - **`scipy.stats.uniform()`**: Distribución uniforme.

### 17. **Correlación y Covarianza**
   - **`df.corr()`**: Matriz de correlación para todas las variables.
   - **`scipy.stats.pearsonr()`**: Coeficiente de correlación de Pearson.
   - **`scipy.stats.spearmanr()`**: Coeficiente de correlación de Spearman.
   - **`scipy.stats.kendalltau()`**: Coeficiente de correlación de Kendall Tau.
   - **`df.cov()`**: Matriz de covarianza para todas las variables.

Esta lista cubre una amplia gama de herramientas y funciones para realizar análisis estadísticos en Python, desde estadística descriptiva básica hasta modelos avanzados de regresión y pruebas de hipótesis. Con estas herramientas, puedes realizar análisis detallados y obtener conclusiones significativas de tus datos.